usohu

很多人分不清世界模型和VLA区别是啥?谁更牛逼?其实你可以简单地理解两者的能力都

很多人分不清世界模型和VLA区别是啥?谁更牛逼?

其实你可以简单地理解两者的能力都差不多,都具备空间认知能力和时间认知能力,也都支持多模态输入和输出。

蔚来这篇推文里说的NWM的空间理解能力和长时序的建模能力更强。

说白了,就是怎么从已知的数据中学习推演未来,而且推演的时间越长越牛逼。

其实端到端也具备推演能力,只不过只能推演未来几秒。元戎启行的周光说VLA的长时序推演能力今年能做到几十秒,算是一大进步。

蔚来给NWM的数据是在0.1秒生成216个 2分钟的视频,也就是说能推演未来2分钟的视频。

从这个角度,NWM确实更强一些。

新能源汽车