GPT-5难产？OpenAI面临“数据荒”困境，研发成本高企，竞争加剧

2024-12-24内容来源AIbase基地

备受瞩目的GPT-5项目（代号Orion）已研发超过18个月，却迟迟未能面世。据《华尔街日报》最新报道，知情人士透露，尽管Orion的表现优于OpenAI现有模型，但其进步幅度尚不足以证明继续投入巨额成本的合理性。更令人担忧的是，全球数据量的匮乏，可能正成为GPT-5迈向更高智能水平的最大障碍。

据称，GPT-5至少经历了两次训练，每次训练都暴露出新的问题，未能达到研究人员的预期。每轮训练耗时数月，仅计算成本就高达5亿美元。这个项目能否成功、何时能成功，目前尚不明朗。

OpenAI，<a href= ChatGPT，人工智能，AI (图片来源：官方或第三方截图)" alt="OpenAI，ChatGPT，人工智能，AI"/>

训练之路困难重重:数据瓶颈显现

自GPT-4于2023年3月发布后，OpenAI便开始着手GPT-5的开发。通常，AI模型的能力会随着其吸收的数据量增加而增强。训练过程需要海量数据，耗时数月，并依赖于大量昂贵的计算芯片。OpenAI CEO Altman曾透露，仅训练GPT-4的成本就超过1亿美元，而未来AI模型的训练费用预计将突破10亿美元。

为了降低风险，OpenAI通常会先进行小规模的试运行，以验证模型的可行性。然而，GPT-5的开发却从一开始就遭遇了挑战。2023年中期，OpenAI启动了一项名为“Arrakis”的实验性训练，旨在测试GPT-5的新设计。但训练进展缓慢，且成本高昂，实验结果表明GPT-5的开发比原先预期的更加复杂和困难。

因此，OpenAI的研究团队决定对Orion进行一系列技术调整，并意识到现有的公开互联网数据已无法满足模型的需求。为了提升GPT-5的性能，他们迫切需要更多种类和更高质量的数据。

“从零开始创造数据”:应对数据荒

为了应对数据不足的问题，OpenAI决定“从零开始创造数据”。他们雇佣软件工程师和数学家，编写新的软件代码或解决数学问题，让Orion从这些任务中学习。OpenAI还会让这些专家解释他们的工作过程，将人类智慧转化为机器可学习的知识。

许多研究人员认为，代码作为软件的语言，能够帮助大模型解决它们没有见过的问题。Turing公司首席执行官Jonathan Siddharth表示:“我们是在将人类智慧从人脑转移到机器脑。”

OpenAI甚至与理论物理学等领域的专家合作，让他们解释如何解决各自领域中的难题。然而，这种“从头开始创造数据”的方式效率并不高。GPT-4的训练数据约为13万亿个token，即使有1000人每天写作5000字，也需要数月时间才能生产出10亿个token。

为了加速训练，OpenAI也尝试使用AI生成的“合成数据”。但有研究表明，AI生成的数据再用于AI训练的反馈循环，有时会导致模型出错或生成毫无意义的答案。对此，OpenAI科学家认为，通过使用o1生成的数据可以避免这些问题。

内忧外患:OpenAI面临多重挑战

OpenAI不仅面临技术层面的挑战，还面临着内部动荡和竞争对手的挖角。同时，来自技术和资金的双重压力也在增加。每次训练耗资高达5亿美元，而最终的训练成本很可能超过10亿美元。与此同时，Anthropic和谷歌等竞争对手也在纷纷推出新一代模型，试图赶超OpenAI。

人才流失和内部分歧进一步拖慢了开发进度。去年，OpenAI董事会突然解雇了Altman，导致一些研究人员开始质疑公司的未来。虽然Altman很快被重新任命为CEO，并开始改革公司治理结构，但今年以来，包括联合创始人兼首席科学家Ilya Sutskever和技术负责人Mira Murati在内的20多位关键高管、研究人员和长期员工相继离职。

随着Orion项目进展停滞，OpenAI开始开发其他项目和应用，包括简化版的GPT-4和AI视频生成产品Sora。但这导致了不同团队之间争夺有限计算资源的局面，特别是新产品开发团队和Orion研究团队之间发生了激烈竞争。

AI发展瓶颈?行业面临深度思考

GPT-5的困境或许揭示了一个更大的行业命题:AI是否已经接近发展的“瓶颈期”?业内人士指出，依靠海量数据和更大模型的策略正逐渐失效。前OpenAI科学家苏茨克维尔曾表示，“我们只有一个互联网”，数据的增长正在放缓，而这一推动AI飞跃的“化石燃料”正逐渐枯竭。

对于GPT-5的未来，Altman始终未给出明确的时间表。我们仍然无法确定OpenAI何时或者是否会推出一个值得称为GPT-5的模型。这场关于GPT-5的困境，也引发了人们对AI未来发展方向的深度思考。