admin 管理员组

文章数量: 1184232

这篇题为《A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models》的综述系统性地回顾和梳理了大语言模型(LLMs)在推理任务中的可信度问题。以下是对你提出的六个问题的详细分析:


1. 研究现状、历史发展与已有方法的优缺点

研究现状:
  • 当前研究聚焦于推理模型(如DeepSeek-R1、OpenAI o1系列)和CoT(Chain-of-Thought)技术在五大可信度维度上的表现:
    • Truthfulness(真实性)
    • Safety(安全性)
    • Robustness(鲁棒性)
    • Fairness(公平性)
    • Privacy(隐私性)
历史发展:
  • 早期:CoT prompting(如Few-shot/Zero-shot CoT)被提出,显著提升模型在数学、代码等复杂任务上的表现。
  • 中期:出现端到端的大型推理模型(LRMs),通过RLHF、DPO、GRPO等方法训练,能自动生成推理过程。
  • 近期:研究开始关注推理模型的可信度问题,发现尽管推理能力提升,但模型在安全性、鲁棒性、隐私等方面可能存在更大漏洞。
已有方法的优缺点:
  • 优点:CoT提升了解释性和任务性能;RLHF/DPO等方法有效对齐模型行为。
  • 缺点

本文标签: 纪要 Trustworthiness Survey Comprehensive Reasoning