智源与腾讯推出长文本理解基准测试模型LongBench v2

2024-12-20内容来源AIbase基地

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。

LongBench v2的显著特点包括支持更长的文本长度，范围从8k到2M个词，且包含503个具有挑战性的四选一选择题，难度较高，连人类专家在15分钟内的平均准确率也仅为53.7%。此外，该基准测试涵盖了六个主要任务类别，包括单文档问答、多文档问答、长文本语境学习等，确保了广泛的应用场景。

</p><p>为了保证评估的可靠性，LongBench v2的所有问题均采用多项选择题形式，并经过严格的人工标注和审核流程。数据收集过程中，招募了来自<span class= 顶尖大学的标注员，确保问题的质量和难度。通过引入控制变量，LongBench v2对原始Bradley-Terry统计算法进行了改进，降低了混淆因素的影响，使得模型排名更加科学和精准。

在评估结果方面，研究团队对10个开源LLMs和6个闭源LLMs进行了测试，发现引入控制变量后，模型的表现得到了显著提升。特别是GPT-4o模型在引入更多推理步骤后，在多文档问答和长文本语境学习等任务上表现出色，显示出推理能力的重要性。

LongBench v2的推出不仅为大语言模型的评估提供了新的工具，也为未来的研究指明了方向，强调了提升模型自身理解和推理能力的重要性。智源研究院和腾讯的合作，标志着在AI技术领域的进一步发展，期待这一基准测试能够推动长文本理解和推理技术的进步。

主页:https://longbench2.github.io

论文:https://arxiv.org/abs/2412.15204

数据与代码:https://github.com/THUDM/LongBench

智源与腾讯推出长文本理解基准测试模型LongBench v2

综合新闻

埃森哲的生成式 AI 销售额达到创纪录的 42 亿美元

智源与腾讯推出长文本理解基准测试模型LongBench v2

2025 年英国经济趋势：AI、房产与太空采矿成焦点

支付宝面向商家营销推出AI创意生成平台，已累计生成8700万张AI素材

苹果新 AI 功能误报引发媒体信任危机，专家呼吁紧急撤回

博通CEO：人工智能支出热潮将持续到本世纪末

Gogle DeepMind 和 Apptronik 合作开发人工智能人形机器人

猜你感兴趣

大家都在看