通常情况下，E驾有理｜科普被王兴兴质疑的VLA是什么？端到端 VLM又是什么？

发表评论

A+

所属分类：汽车

摘要

到底什么是NPN、真假端到端、VLM、VLA，为什么有了它辅助驾驶会更“聪明”呢？哈喽大家好，我是张有理，要想了解这些名词，那就需要讲讲辅助驾驶的进化史了。” />

据相关资料显示，

去年一整年大家都在讨论端到端，甚至还有销售说端到端就是从这一段到那一段，今年大家又在讨论什么vlmvla世界模型。那么，到底什么是NPN、真假端到端、VLM、VLA，为什么有了它辅助驾驶会更“聪明”呢？哈喽大家好，我是张有理，要想了解这些名词，那就需要讲讲辅助驾驶的进化史了。

与其相反的是，

TMGM外汇报导：

[ ·1· 规则时代 ]

这你可能没想到，

那在2000年末到2020年年初，L2级的辅助驾驶着手普及，这时候决策模块主要采用手工设计的规则和有限状态机来实现，也就是说主导朋友们车执行什么动作的其实是一个个屏幕前狂敲键盘的工程师，比如朋友们在高速跟车场景，如果与前车跟车距离小于有保障距离，就执行减速，否则继续保持巡航速度。车辆执行的每一个动作，都需要一定的条件触发。这时候的辅助驾驶就好像一个蹒跚学步的小娃娃，工程师就是那老母亲，让朋友们迈左脚朋友们不能出右脚，这就是NPN（No path,no go/非路径规划不行动）逻辑，也就是小编常说的规则时代。

TMGM外汇报导：

那规则好处是可用清楚的知道每一步执行的原因，也不需要耗费大量的计算，只是做容易的判断和几何计算，一些特定的场景也可用依靠咱妈调到非常舒服的状态，就是很容易的我妈教过我遇到这个情况往哪走。但是妈教的也有限啊，比如路上那行人非机动车到底往哪走根本不是一两句话能说清楚的，一旦没嘱咐到位孩子就敢来个大屁墩儿。

[ ·2· 端到端时代 ]

概括一下，

规则有限世界无限啊，拿着条条框框做事儿那可太局限了。于是，人们着手尝试把感知决策过程交给神经网络，端到端架构出现了，2022年AI DAY，特斯拉首次公开、清晰的阐述了特斯拉想端到端架构转型的战略。那端到端到底是什么，它并不是从起点一端到终点一段，而是感知端到控制端，把感知端看作眼睛，控制端看作手脚，眼镜和手脚之间需要有个大脑链接，那端到端模型就可用把它看作会学习的“大脑”。这个大脑需要看各种片学习总结经验，形成“条件反射”，从“眼睛看到”直接到“手脚完成”，中间不查手册、不问专家不用咱妈定规则，全靠学习后的直觉反应。

举个例子，假如小编教一个三岁小孩骑自行车，传统的规则时代方法就是拆解教学一口一口的喂，第一步是教他认路标，诶这是红灯，这是石头。第二步教他规则，看见红灯了吗这得停，看见石头了吧这得绕。最后教完成，要停就得捏刹车，要绕就得转车把。最后的结果就是红灯石头学会了那窜出来个小狗就得摔。

需要注意的是，

但是端到端的处理朋友们只做一件事：抱着他骑100次车（输入数据），让他自己感受，再遇到无论小狗小猫还是喜洋洋的，他肌肉记忆自动闪避，哪怕它不知道前面的是狗是猫，甚至不知道狗到底是什么。

令人惊讶的是，

端到端优势明显，辅助驾驶在路面上泛化能力更强，开起车来更像老司机。但是劣势也显而易见，训练需要大量数据，看1000万部片子（1000万clips）可能只是敲门砖，并且这1000万clips的数据里，绝大部分都是容易常见的场景，繁琐高难度场景相比较来说太少了。另外，它从学习过程到规控就像个黑盒子，很难解释清楚为什么会这么做，跟谁学的，学到的姿势对不对，指不定有那种劣质动作它也会学了去。

与其相反的是，

[ ·3· VLM视觉语言模型 ]

值得注意的是，

也就是说端到端架构本质上是模仿学习，根据人类的驾驶数据训练模型，实现模仿人类驾驶开车的效果。但是它只是机械的模仿，它知道遇到红灯要停，但并不知道为什么要停，如果遇到繁琐的、没见过的场景就力不从心了。于是理想、小米等车企陆续引入了VLM视觉语言模型，就好比给端到端模型配上一个副驾，这个副驾不是只顾着零食瓜子饮料睡觉，它的能力很强大。

总的来说，

它能理解繁琐的语义场景，读得懂高介语义，比如路面的指示牌施工提示，知道了这个物品、标志或者路牌上的句子是什么意思，这种能力可用辅助决策模块更好地掌握场景要点。同时VLM还能让自动驾驶系统的决策过程以语言路径解释给人类，比如理想目前可用做到遇到坑洼路段时会语提示驾驶员前方坑洼路段将合理控制车速。并且它还融合了丰富的世界知识，知道各种车辆类别、交通插件行为模式甚至驾驶经验，这些对于辅助驾驶的长尾疑问很有帮助，就比如路上出现一个长颈鹿过街，感知系统或许检测不到类别毕竟是罕见种类，但大模型可能通过视觉特征+知识推断出那是动物，需要避让。

不过需要注意的是，VLM并不是来取代感知模块或者决策模块，它只是介入分析，把解释好的东西给到端到端模型，然后控制模块执行动作，从而其实在这个阶段还是端到端才是那个说了算的大哥。

更重要的是，

[ ·4· VLA视觉语言动作模型 ]

前段时间理想i8的发布会上说到i8交付就会拥有VLA架构，包括小鹏G7 ultra、小米等车企也会本地部署vla+vlm。什么是VLA呢？它是视觉语言动作模型，同时具备视觉理解、语言推理和动作决策能力的模型。VLM是辅助，VLA纯纯主力输出了，它也拥有做决策的能力，相当于一个可用“看、想、说、做”的驾驶员。 TMGM外汇代理

尽管如此，

同样举个例子，比如旁边是学校，路边停满了接孩子放学的私家车，此时又有一个足球滚到路上，感知系统识别到路面有障碍物，vlm分析出路面滚动的是球，看到路牌知道前方是学校，并告知驾驶员以及端到端“前面学校了得减速昂”，控制模块再减速，它推理未来几秒钟可能发生的情况，并且需要走一定的“流程”。

站在用户角度来说，

但是VLA不仅能看得懂立即做，还会拥有更长时间的推理能力，比如看到球推理出之后可能有儿童冲出。也就是说VLA对繁琐情况、长尾情况的分析更强，并且可用强化学习，像人类学习新知识一样，通过理解、思维、记忆并不断地与外界进行交流和沟通，在反馈中总结归纳，最终真正学会新的知识，学会后就能举一反三地灵活应用知识来去应对。

TMGM外汇行业评论：

想要充分发挥VLA的实力其实还有很多难点，首先就是模型规划和算力，这也是为什么大家上索尔芯片小鹏自研AI图灵芯片提高算力。其次是数据的获取和训练，由于VLA模型需要带有语言标注的驾驶场景数据，这些数据集还很有限。

但是各位观众老爷们，面对更庞大繁琐的数据，华为有不一样的解法，实现目标的路径也不止有VLA一条路可用走，一键三连加关注，让小编下一期一起来看看华为 ADS 4.0又是怎么走通的呢？