ARC-AGI 基准即将突破，但创始人警告测试设计存在缺陷

2024-12-10内容来源AIbase基地

人工智能领域的一个重要基准，ARC-AGI，即“通用人工智能抽象和推理语料库”，即将取得突破性进展。然而，测试的创始人弗朗索瓦·肖莱（Francois Chollet）警告，尽管成绩提高，但这并不意味着我们接近实现通用人工智能(AGI)。他指出，这项测试本身存在设计缺陷，且其所能揭示的并非真正的研究突破。

自2019年肖莱推出ARC-AGI以来，AI系统在测试中始终表现不佳，迄今为止，表现最好的系统仅能解决不到三分之一的任务。肖莱表示，这主要归咎于目前人工智能研究过于依赖大型语言模型（LLM）。他指出，LLM虽然在处理大规模数据时能够进行模式识别，但它们依赖于记忆而非推理，因此很难处理未见过的新情境或进行真正的“推理”。

“LLM模型依赖于从训练数据中提取模式，而不是进行独立的推理。它们只是‘记住’了模式而非生成新推理。”肖莱在社交平台X上的一系列帖子中解释道。

尽管如此，肖莱并未停止推动AI研究。他和Zapier创始人Mike Knoop于今年6月联合发起了一项100万美元的竞赛，鼓励开源AI挑战ARC-AGI基准。尽管在17，789份参赛作品中，表现最好的AI系统仅得到了55.5%的分数，低于实现“人类水平”所需的85%标准，但肖莱和Knoop仍认为这是向前迈出的重要一步。

Knoop在博客文章中指出，这一成绩并不意味着我们离实现AGI更近，反而凸显了ARC-AGI中部分任务过于依赖“蛮力”解决方案，未必能为真正的通用智能提供有效信号。ARC-AGI的设计本意是通过提供复杂、从未见过的任务来测试AI的泛化能力，然而，这些任务能否有效评估AGI仍然存疑。

AI,人工智能，机器人

图源备注：图片由AI生成，图片授权服务商Midjourney

ARC-AGI基准中的任务涉及如拼图问题等，要求AI根据已知信息推测出未知答案。尽管这些任务看似能推动AI对新情境的适应，但结果表明，现有模型似乎通过大量计算找到了解决方案，而未必展现出真正的智能适应能力。

此外，ARC-AGI的创建者也面临来自同行的批评，特别是在AGI定义方面的模糊性。OpenAI的一位员工最近表示，如果将AGI定义为“在大多数任务上比大多数人类表现更好”的人工智能，那么AGI实际上已经实现。然而，肖莱和Knoop则认为，ARC-AGI基准的现有设计尚未完全实现这一目标。

展望未来，肖莱和Knoop计划发布第二代ARC-AGI基准，并将在2025年举行新的竞赛，以解决当前测试中的不足。他们表示，新的基准将更加聚焦于推动AI研究向更加重要的方向发展，加速AGI的实现进程。

然而，修复现有基准并非易事。肖莱和Knoop的努力表明，定义人工智能的智能，尤其是在通用智能领域，仍然是一项艰巨而复杂的任务。