首页编程正文内容

MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese

编程

更新时间：2026-04-03 12:55:07 106

admin 管理员组

文章数量: 1184232

本文是LLM系列文章，针对《MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models》的翻译。

MedBench：全面、标准化、可靠的中文医学大语言模型评估基准系统

摘要
1 引言
2 方法和材料
3 结果和讨论
4 结论

摘要

在实际部署之前，确保医学大语言模型 (LLM) 对人类的总体功效和益处至关重要。然而，一个被广泛接受和易于使用的医学LLM评估流程仍有待建立，特别是在中文背景下。在这项工作中，我们引入了“MedBench”，这是一个全面、标准化、可靠的中文医学LLM基准测试系统。首先，MedBench汇集了目前最大的评估数据集（300,901个问题），覆盖43个临床专业，对医学LLM进行多方位评估。其次，MedBench 提供标准化、全自动的基于云的评估基础设施，将问题和真实情况进行物理分离。第三，MedBench 实施动态评估机制，以防止捷径学习和回答。请记住，将 MedBench 应用于流行的普通LLM和医学LLM，我们观察到公正的、可重复的评估结果，与医学专业人士的观点基本一致。这项研究为准备中文医学LLM的实际应用奠定了重要的基础，可通过 https://medbench.opencompass 公开获取。

1 引言

2 方法和材料

3 结果和讨论

本文标签： Standardized Reliable MedBench Comprehensive Evaluating

版权声明：本文标题：MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1758724878a3089705.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

Through the comprehensive test of the Miwu

编程

6月前

Through the comprehensive test of the Miwu Seven-in-One Type-C expansion dock, whether it is in appearance design or in

文献阅读：The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches

编程

6月前

文献阅读笔记介随口说说快速介绍深度学习类型监督学习半监督学习无监督学习强化学习（基本上将半监督学习和强化学习归为一起） 有关深度学习类型的说明博客：监督学习、半

Evaluating Large Language Models: A Comprehensive Survey

编程

6月前

本文是LLM系列文章，针对《Evaluating Large Language Models: A Comprehensive Survey》的翻译。评估大型语言模型：一项综合调查摘要 1 引言 2 分类和路线图 3 知识和能力评估

异常检测(二)——MVTec AD -A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection

编程

6月前

MVTec AD ：一个针对无监督异常检测的全面的真实世界的数据集摘要：在计算机视觉领域，自然图像的异常结构检测是十分重要的任务。无监督异常检测方法的发展需要数据来训练和

ChatGPT 拓展资料：论文阅读A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to Chat

编程

6月前

ChatGPT 拓展资料：A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT目录A Comprehensive

[综述笔记]Comprehensive review of Transformer-based models in neuroscience, neurology, and psychiatry

编程

6月前

论文网址：Comprehensive review of Transformer‐based models in neuroscience, neurology, and psychiatry - Cong - 202

IPQ9574 vs IPQ5424: A Comprehensive Technical Comparison of Wi-Fi 7 SoCs

编程

6月前

IPQ9574 vs IPQ5424: A Comprehensive Technical Comparison of Wi-Fi 7 SoCsAs Wi-Fi 7 (802.11be) enters commercial deployme

LLMs之Benchmark之TableBench：《TableBench: A Comprehensive and Complex Benchmark for Table Question Answ

编程

6月前

LLMs之Benchmark之TableBench：《TableBench: A Comprehensive and Complex Benchmark for Table Question Answering一个全面

论文阅读【CVPR-2022】 A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for

编程

6月前

论文阅读【CVPR-2022】 A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for Segment-level Video

001 A Comprehensive Survey of Privacy-preserving Federated Learning（便于寻找：FedAvg、垂直联邦学习的基本步骤）

编程

6月前

这是我看的第一篇关于联邦学习的论文，综述文章，让我对联邦学习有了初步的了解。 A Comprehensive Survey of Privacy-preserving Federated Lea

(深度学习社区发现综述)A Comprehensive Survey on Community Detection with Deep Learning

编程

6月前

论文地址推荐直接看原文。译文深度学习分类框架，包括基于深度神经网络、深度非负矩阵分解和深度稀疏滤波的深度学习模型，并进一步将深度神经网络模型细分为卷积网络，图注意网络

JavaScript Navigator: A Comprehensive Guide to Mastering the Browser‘s Navigation Object

编程

6月前

JavaScript Navigator: A Comprehensive Guide to Mastering the Browser's Navigation Object Introduction The JavaScr

论文笔记 VSALM 文献综述《A Comprehensive Survey of Visual SLAM Algorithms》

编程

6月前

本文旨在对VSLAM有个比较宏观的视野，找了一篇近期的VSLAM综述文献仔细读了一下。预警：本篇内容也不一定全是论文里的，可能会比较乱，介意者还是别在本拙作浪费时间了。声明：因为是别人的文章，我本不想带水印的，但CSDN改了图片

读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

编程

3月前

研究背景：在自动驾驶领域，多模态大语言模型的应用多限于理解复杂环境或生成高级指令，而少有涉及端到端路径规划，主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题，本文提出了CoVLA数据集，含80小时真实驾驶视频，通过自动数据处理

Rust开发者必备：Comprehensive Rust核心概念完全解析

编程

3月前

Rust开发者必备：Comprehensive Rust核心概念完全解析【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学

Comprehensive Rust futures组合：join与select操作

编程

3月前

Comprehensive Rust futures组合：join与select操作【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你

Comprehensive Rust集成测试：跨模块功能验证

编程

3月前

Comprehensive Rust集成测试：跨模块功能验证【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学习Rust所

Rust测试与调试指南：Comprehensive Rust质量保障实践

编程

3月前

Rust测试与调试指南：Comprehensive Rust质量保障实践【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学

Rust Clone vs Copy：Comprehensive Rust值语义深度解析

编程

3月前

Rust Clone vs Copy：Comprehensive Rust值语义深度解析【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它

告别内存泄漏：Comprehensive Rust 教你掌握安全内存管理

编程

3月前

告别内存泄漏：Comprehensive Rust 教你掌握安全内存管理【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese

MedBench：全面、标准化、可靠的中文医学大语言模型评估基准系统

摘要

1 引言

2 方法和材料

3 结果和讨论

更多相关文章

Through the comprehensive test of the Miwu

文献阅读：The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches

Evaluating Large Language Models: A Comprehensive Survey

异常检测(二)——MVTec AD -A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection

ChatGPT 拓展资料：论文阅读A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to Chat

[综述笔记]Comprehensive review of Transformer-based models in neuroscience, neurology, and psychiatry

IPQ9574 vs IPQ5424: A Comprehensive Technical Comparison of Wi-Fi 7 SoCs

LLMs之Benchmark之TableBench：《TableBench: A Comprehensive and Complex Benchmark for Table Question Answ

论文阅读 【CVPR-2022】 A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for

001 A Comprehensive Survey of Privacy-preserving Federated Learning（便于寻找：FedAvg、垂直联邦学习的基本步骤）

(深度学习社区发现综述)A Comprehensive Survey on Community Detection with Deep Learning

JavaScript Navigator: A Comprehensive Guide to Mastering the Browser‘s Navigation Object

论文笔记 VSALM 文献综述《A Comprehensive Survey of Visual SLAM Algorithms》

读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

Rust开发者必备：Comprehensive Rust核心概念完全解析

Comprehensive Rust futures组合：join与select操作

Comprehensive Rust集成测试：跨模块功能验证

Rust测试与调试指南：Comprehensive Rust质量保障实践

Rust Clone vs Copy：Comprehensive Rust值语义深度解析

告别内存泄漏：Comprehensive Rust 教你掌握安全内存管理

发表评论

推荐文章

从Google地图切片URL看地图的显示原理

新手指南：TP Link TL-WR702N迷你路由器后台进入技巧

修改Chrome Firefox IE临时文件夹位置_chrome 临时文件夹配置

电脑出现initialization failure:0x0000000c的问题_initialization failure:0脳0000000c

一个可以很好解决IE8按钮和字体变小的办法_ie8上如何获取字体的fontsize

热门文章

LaoMaoTao9.5强力回归：全面优化的SWF与Flash中心，附带安装步骤

AKStream启动失败：了解并解决端口10000占用的问题

Word文档空白页删除技巧全解析_word两页中间有空白 但是退格会删除文字吗

deepin系统安装教程（详细）_deepin安装教程

Java设置PPT幻灯片背景——纯色、渐变、图片背景_java设置ppt样式

Windows Cleaner：智能清理系统垃圾，告别C盘焦虑

磊科无线路由器设置方法详解_科磊路由器设置

无线路由器桥接配置指南

ghost备份还原系统（C盘D盘全搬）_ghost备份c盘步骤

WinRAR小技巧：让你的文件包坚不可摧，不怕被乱动！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

论文阅读【CVPR-2022】 A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for

Word文档空白页删除技巧全解析_word两页中间有空白但是退格会删除文字吗