usohu

E2E+VLM 是快慢系统VLA是一个系统多模态信息整合对齐进VL Model

E2E+VLM 是快慢系统

VLA是一个系统

多模态信息整合对齐进VL Model 3.2B

VL Model 输出 Token 后用Action Model 输出轨迹

轨迹再去控车

整个从输入到输出是一个串行系统

并不是以前E2E+VLM 存在两个并行快慢系统

而E2E可以理解是基于模仿学习的方式生成一个神经网络模型【知其然而不知其所以然】

VLM是一个具备思考能力的视觉语言模型

而VLA是一个来自于强化学习涌现出来驾驶能力的构架