阶跃星辰CEO姜大昕：追求智能上限仍是最重要的事，多模态的“GPT-4时刻”尚未到来

“追求智能的上限仍然是当下最重要的一件事。”“有了多模理解生成一体化才能真正做到人形机器人的泛化。”

近日，上海大模型独角兽阶跃星辰创始人、CEO姜大昕在接受澎湃新闻等媒体采访时表示，通过各家AI公司的产品路线图可以发现，“追求智能上限”仍是当下最重要的事。目前模型的发展，主要呈现出从模仿学习到强化学习、从多模态融合走向多模态理解生成一体化两大趋势。而模型能力决定应用的上限。什么样的模型，决定了有什么样的应用可以被解锁、可以成熟和繁荣。

“大模型技术发展还在非常陡峭的区间，阶跃不会在这个过程中放弃主流的前进趋势，会坚持基础模型研发，追求智能的上限。” 姜大昕一如往常表示，“阶跃追求AGI的初心也不会改变。”

他也强调，多模态对AGI（通用人工智能）是必经之路，阶跃星辰有坚实的基础，而且投入了很多资源去创新，在多模推理和多模理解生成一体化方面已进行探索和布局。

阶跃星辰创始人、CEO姜大昕

4月29日，习近平总书记来到位于上海市徐汇区的“模速空间”大模型创新生态社区调研，阶跃星辰展示了多模态大模型与智能终端场景相结合。

阶跃星辰成立于2023年4月，因其Step系列基座模型研发速度快、多模态性能强，被业内称作“多模态卷王”。根据姜大昕的规划，公司实现AGI的技术路线是：“单模态-多模态-多模理解和生成的统一-世界模型-AGI”。

多模态的“GPT-4时刻”尚未到来，多模态理解与生成一体化是趋势

姜大昕表示：“2024年Sora发布之时，大家都很兴奋，其实我们是失望的，因为我们都认为OpenAI的主线应该是理解生成一体化，后来回头去想，也是有道理的，从多模融合直接做到理解生成一体化太难了，可能需要迭代几轮后再到理解生成一体化，但总的方向肯定是要能够去predict next frame（预测下一帧）。”

他又以自动驾驶和机器人的VLA（Vision Language Action，视觉语言动作）模型为例解释称，现在VLA可以视为VLA 1.0，是通过历史的规划数据来生成实时的动作决策，而人是通过对未来的预判来决定现在要做什么，“这个过程既有理解又有生成，因为要先判断它有哪些动作，然后再判断会造成哪些后果，判断后果的过程就是生成的过程。如果根据动作分布来对未来进行预测，做最优策略的选取，那它就是强化学习”。

他表示，理解生成一体化的问题解决后，带推理的VLA将能够实现对未来更好的预测，如果能做到时空推理，再加上3D和自然语言学习，就到了世界模型阶段。“如果到了世界模型，我认为我眼中的AGI就实现了。实际上有很多人讲，AGI的路线为什么到了今天路线越来越清晰了，我确实也有同样的感觉，我们从文本这条路已经看到了这里，那么视觉最根本的问题虽然我们还没有彻底地解决理解生成一体化，但我们觉得这个问题一旦突破，今后的道路会非常顺畅，就会和文本一起发展到世界模型。”

他判断称，多模态的“GPT-4时刻”还没有到来，“有的时候它的突破就在一瞬间…”姜大昕认为，在当前的竞争格局中，阶跃星辰的差异化特点就是多模态能力，多模态领域存在着非常巨大的机会。

同时，他也强调，模型的突破是早于商业化的。就像先有了GPT-3.5才会有ChatGPT，先有了多模融合和推理模型，才会有现在成熟的Agent（智能体），同样，要有了多模理解生成一体化，尤其是可规模化的一体化，才能真正地做到人形机器人的泛化。

AI产品的投流逻辑不成立，大模型和智能终端一起to C

姜大昕在此前的阶跃星辰开放日上曾表示，随着多模态和慢思考在2024年取得了显著进展，Agent将是阶跃未来发展的重要方向。

为什么会选择智能终端Agent？姜大昕表示，Agent要能更好地帮助人类去完成任务，需要去理解用户所处的环境和任务的上下文。很多终端是用户感知和体验的延伸，比如手机、AI眼镜或耳机，它可以搜集人们所处的环境等信息，帮助模型更好地理解用户上下文，提供了非常大的便利。同时，目前很多的智能终端和设备，比如微波炉，只是帮助完成任务，“我家的微波炉有上百种功能，但是我很少用，因为我很少看说明书，也不知道某一个功能如何操作键，所以我希望它是一个Agent，可以直接和它对话”。

也是基于这一判断，阶跃星辰此前已经宣布了在汽车、手机、具身智能、IoT等关键应用场景的智能终端和Agent布局，与吉利汽车深化技术合作，推动“AI+车”的深度融合，还与智元机器人达成战略合作，探索AI+具身机器人应用场景。

阶跃星辰一直秉持着“超级模型+超级应用”的双轮驱动。姜大昕认为，只做应用的公司始终存在一个风险，就是当通用模型的能力取得下一次突破之时会不会受到降维打击。而阶跃星辰在应用层面走了一条差异化路线，与合作伙伴打造从模型到Agent、从云侧到端侧的生态体系，“我们认为软硬结合是能更好地理解用户的需求，完成用户的任务”。

对于有观点认为目前人工智能C端（消费者端）产品在玩互联网的套路，做投流做增长。姜大昕表示：“我觉得DeepSeek让我们学到的一个东西就是，投流的逻辑是不成立的。DeepSeek从来没有做投流，它如果放开流量，破亿是没有问题的。我们要重新思考一下AI时代的产品的流量增长，是不是靠投流上去的。DeepSeek出来后给了大家一个重新看待这个问题的窗口。不光是DeepSeek，像《哪吒2》、《黑神话悟空》、Manus，其实他们都有一些共性，不是靠传统的铺天盖地地投流积累用户的……我们的智能终端其实是to C的，阶跃和头部企业合作的产品最终是服务C端的，作为助手类、内容类都是有非常大的机会的。”