阿里通义千问Qwen开源视觉推理模型QVQ-72B-Preview
2024-12-25内容来源AIbase基地
Qwen团队近日宣布开源其最新研发的多模态推理模型QVQ,标志着人工智能在视觉理解和复杂问题解决能力方面迈出了重要一步。该模型基于Qwen2-VL-72B构建,旨在通过结合语言和视觉信息,提升AI的推理能力。在MMMU评测中,QVQ取得了70.3的高分,并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著的性能提升。
QVQ模型在视觉推理任务中展现出了特别的优势,特别是在需要复杂分析思维的领域。尽管QVQ-72B-Preview表现出色,但团队也指出了模型存在的一些局限性,包括语言混合和代码切换问题、可能陷入循环逻辑模式、安全和伦理考虑以及性能和基准限制。团队强调,尽管模型在视觉推理方面有所改善,但它无法完全替代Qwen2-VL-72B的能力,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。