admin 管理员组

文章数量: 1184232

总目录 大模型相关研究:https://blog.csdn/WhiffeYF/article/details/142132328

https://dl.acm/doi/abs/10.1145/3731120.3744588

https://www.doubao/chat/21607625127801090

速览

这篇文档主要围绕“大语言模型(LLMs)能不能当‘裁判’给信息检索系统打分”展开,既讲了好处,更重点分析了风险、给出了避坑指南,核心是想让大家规范地用LLMs做评估,别踩坑。

一、背景:为啥现在想用LLMs当“裁判”?

以前评估信息检索(IR)系统(比如搜索引擎、问答系统)好不好,全靠人当“裁判”:给一个需求(比如“北京秋天去哪玩”)和一堆文档,人来判断每个文档和需求沾不沾边。但这有个大问题——太慢、太贵,面对海量

本文标签: 论文 SIGIR ACM Judges LLM