返回

ARC-AGI 基准即将突破,但创始人警告测试设计存在缺陷

2024-12-10内容来源AIbase基地

人工智能领域的一个重要基准,ARC-AGI,即“通用人工智能抽象和推理语料库”,即将取得突破性进展。然而,测试的创始人弗朗索瓦·肖莱(Francois Chollet)警告,尽管成绩提高,但这并不意味着我们接近实现通用人工智能(AGI)。他指出,这项测试本身存在设计缺陷,且其所能揭示的并非真正的研究突破。

自2019年肖莱推出ARC-AGI以来,AI系统在测试中始终表现不佳,迄今为止,表现最好的系统仅能解决不到三分之一的任务。肖莱表示,这主要归咎于目前人工智能研究过于依赖大型语言模型(LLM)。他指出,LLM虽然在处理大规模数据时能够进行模式识别,但它们依赖于记忆而非推理,因此很难处理未见过的新情境或进行真正的“推理”。

“LLM模型依赖于从训练数据中提取模式,而不是进行独立的推理。它们只是‘记住’了模式而非生成新推理。”肖莱在社交平台X上的一系列帖子中解释道。

QQ20241210-104353.png

尽管如此,肖莱并未停止推动AI研究。他和Zapier创始人Mike Knoop于今年6月联合发起了一项100万美元的竞赛,鼓励开源AI挑战ARC-AGI基准。尽管在17,789份参赛作品中,表现最好的AI系统仅得到了55.5%的分数,低于实现“人类水平”所需的85%标准,但肖莱和Knoop仍认为这是向前迈出的重要一步。

Knoop在博客文章中指出,这一成绩并不意味着我们离实现AGI更近,反而凸显了ARC-AGI中部分任务过于依赖“蛮力”解决方案,未必能为真正的通用智能提供有效信号。ARC-AGI的设计本意是通过提供复杂、从未见过的任务来测试AI的泛化能力,然而,这些任务能否有效评估AGI仍然存疑。

AI,人工智能,机器人

图源备注:图片由AI生成,图片授权服务商Midjourney

ARC-AGI基准中的任务涉及如拼图问题等,要求AI根据已知信息推测出未知答案。尽管这些任务看似能推动AI对新情境的适应,但结果表明,现有模型似乎通过大量计算找到了解决方案,而未必展现出真正的智能适应能力。

此外,ARC-AGI的创建者也面临来自同行的批评,特别是在AGI定义方面的模糊性。OpenAI的一位员工最近表示,如果将AGI定义为“在大多数任务上比大多数人类表现更好”的人工智能,那么AGI实际上已经实现。然而,肖莱和Knoop则认为,ARC-AGI基准的现有设计尚未完全实现这一目标。

展望未来,肖莱和Knoop计划发布第二代ARC-AGI基准,并将在2025年举行新的竞赛,以解决当前测试中的不足。他们表示,新的基准将更加聚焦于推动AI研究向更加重要的方向发展,加速AGI的实现进程。

然而,修复现有基准并非易事。肖莱和Knoop的努力表明,定义人工智能的智能,尤其是在通用智能领域,仍然是一项艰巨而复杂的任务。

电脑版

综合新闻

猜你感兴趣

  • 52书库
    52书库
    小说 虐文
  • Yandex
    Yandex
    俄罗斯第一大搜索引擎
  • 龙空
    龙空
    龙空论坛 龙的天空网络文学
  • 万维书刊网
    万维书刊网
    SCI 期刊投稿 论文投稿 万维书刊网
  • 深圳控股
    深圳控股
    房地产上市公司
  • 万维百科
    万维百科
    维基百科 维基百科中文版 中文维基百科 维基百科网站 维基百科网 维基百科全书
  • 内蒙古人事考试网
    内蒙古人事考试网
    内蒙古求职招聘网站
  • 百度直播
    百度直播
    陪伴用户收获与成长的直播平台
  • 筑龙学社
    筑龙学社
    建筑教育品牌 建筑人的学习社群 筑龙网
  • 共创世界
    共创世界
  • 大家都在看

  • 智通人才网
    智通人才网
    招聘网 找工作 求职 人才网
  • 平安e行销网
    平安e行销网
    平安公司业务
  • 80s免费电影
    80s免费电影
    80s 80s电影网
  • 宝格丽酒店
    宝格丽酒店
    宝格丽酒店及度假村
  • 千寻位置
    千寻位置
    精确定位 自动驾驶 精准农业 工程测量 沉降观测