返回

智源与腾讯推出长文本理解基准测试模型LongBench v2

2024-12-20内容来源AIbase基地

在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。

LongBench v2的显著特点包括支持更长的文本长度,范围从8k到2M个词,且包含503个具有挑战性的四选一选择题,难度较高,连人类专家在15分钟内的平均准确率也仅为53.7%。此外,该基准测试涵盖了六个主要任务类别,包括单文档问答、多文档问答、长文本语境学习等,确保了广泛的应用场景。

顶尖大学的标注员,确保问题的质量和难度。通过引入控制变量,LongBench v2对原始Bradley-Terry统计算法进行了改进,降低了混淆因素的影响,使得模型排名更加科学和精准。

在评估结果方面,研究团队对10个开源LLMs和6个闭源LLMs进行了测试,发现引入控制变量后,模型的表现得到了显著提升。特别是GPT-4o模型在引入更多推理步骤后,在多文档问答和长文本语境学习等任务上表现出色,显示出推理能力的重要性。

LongBench v2的推出不仅为大语言模型的评估提供了新的工具,也为未来的研究指明了方向,强调了提升模型自身理解和推理能力的重要性。智源研究院和腾讯的合作,标志着在AI技术领域的进一步发展,期待这一基准测试能够推动长文本理解和推理技术的进步。

主页:https://longbench2.github.io

论文:https://arxiv.org/abs/2412.15204

数据与代码:https://github.com/THUDM/LongBench

电脑版

综合新闻

猜你感兴趣

  • 南方航空
    南方航空
    南航 机票查询 机票预定 航班查询 航空公司
  • 磁力宝
    磁力宝
    磁力吧 资源搜索引擎 磁力搜索
  • 上海大学
    上海大学
  • 西山居万宝楼
    西山居万宝楼
    海南西山居互动娱乐科技有限公司
  • 美骑网
    美骑网
    自行车门户网站 完美骑行从这里开始
  • 豆包
    豆包
    抖音旗下AI智能助手
  • 盼之代售
    盼之代售
    盼之 天刀 盼之游戏交易服务网 游戏服务平台
  • 永太科技
    永太科技
    浙江永太科技股份有限公司
  • 悦西安
    悦西安
    西安城市形象与建筑、商业讨论平台
  • 网易BUFF
    网易BUFF
    游戏饰品交易平台 皮肤交易平台
  • 大家都在看

  • 豆瓣读书
    豆瓣读书
    读书网站
  • 长沙新航道学校
    长沙新航道学校
  • 国际货币基金组织
    国际货币基金组织
    金融机构 联合国专门机构 IMF
  • 龙湖集团
    龙湖集团
    龙湖地产有限公司
  • 河南工业大学
    河南工业大学