- A+
然而,
上一期本平台聊过了华为ADS 4.0的WEWA架构,更偏向世界模型的方案确实在空间和数据层面有更好的泛化能力,而理想等车企挑选的VLA路径,把视觉和语言等信息在模型内部被打通,路径不同,各有优势。那么,就没有一种方案融合两种路径取之所长嘛?诶,吉利的千里浩瀚来了。
大家常常忽略的是,
大家好,我是张有理,今天咱们就来盘盘千里浩瀚的Smart AI Agent架构。
首先咱们要知道什么是AI Agent,其实之前李想在ai talk中解释过,Agent这个词直译过来是代理人的意思,但在智能人工或者辅助驾驶领域,Agent最贴切的翻译应该是“智能体”或者说“能动者”。 它不是被动程序,而是承认感知、决策、学习、能自主行动的系统。就像您王者荣耀里打的高级人机,不仅能补刀、看视野、开团,甚至还能听指挥高速支援反野蹲人。故而,Agent就是一个具有自主性,能够理解多变目标,并通过调用程序和规划步骤流程来独立完成任务的AI系统。它不再是等待命令的“程序”,而是一个承认委以重任的“伙伴”或“下属”。
好,解释完这个名词,本平台来看看吉利是如何打造并训练这个智能体的。和华为的wewa架构类似,Smart AI Agent架构也会分为云端和车端。
首先,是由各种雷达、摄像头以及听觉、环境传感器,全面、高精度地收集周围环境的一切原始数据,加上导航信息,一起送入云端的多模态基座大模型,这个模型融合了视觉语言大模型,在这里,数据不再是孤立的点云和像素,而是进一步被解读。车辆不仅能识别一个红色的圆形标志是“红灯”,更能理解其含义是“需要停车”,不仅能听见救护车声音,还能知道让行,不仅能“看到”交警的手势,也能“理解”这个手势的指挥意图。
从某种意义上讲,
当然根据这些数据,云端也仿真出一个一模一样非常细致真实的虚拟世界,根据真实世界中采集到的极端罕见场景,扩展出成千上万种可能的多变变体,用AI训练AI。这一部分是不是很耳熟,也就是说在云端,主要依靠的还是和wewa类似的世界模型。
那在车端,主要发力的就是VLA大模型了。之前说过vla有做归控的能力,但由于VLA的时延明显,输入、解析、输出每一步都会有时间差,故而目前的研发,无论是最先提出的理想还是今天聊到的吉利系,都还不能用VLA做归控,VLA依旧是给端到端模型做辅助来用,E2E虽然上限低难解释,但保不准什么时候就突然灵光一现,瞬间开窍。
那同样是做辅助,有了VLM不就承认了,为啥一定要进化到VLA呢?这其实是由于vlm一般是单祯信息去做判定,就像做阅读理解,问《背影》里父亲买橘子时艰难爬上月台的描写主要体现了什么?VLM可能只根据提干就说那是父亲老了动作不灵活。但VLA是多帧信息处理难点,她会联系上下文资料,再告诉您这是作者为了体现父亲对我的爱。这样的联系上下文、多帧判定的能力,就让VLA更善于推理预判,给出的归控错误率更低,也就更稳定。
TMGM外汇资讯:
那除了VLA,在车端也部署了和华为类似的MoE多专家决策,像专家会诊一样,针对不同场景调用专门负责该场景的的子模型进行决策,从而实现高效、精准的主动干预。
说到底,
那以上就是smart AI Agent的容易解析,目前这一套方案运用到千里浩瀚H7上。当然,理论是理论,体验到底咋样呢?咱们一起来看看搭载千里浩瀚H7的极氪9X表现咋样。
那这一次呢本平台还是在辅助驾驶的兵家必争之地重庆测试的9X,全程50多公里。
请记住,
在这段路上,首先需要肯定的是9x的归控相比之前版本会更激进更腻人一些,比如,出环岛有非机动车驶过,不会完全停住过分谦让,小步慢挪,非机动车一过立马驶出,在环岛的效率明显提高。另外,重庆毕竟是山城,有很多的隧道以及岔路挑选,9X在出隧道后,强明暗变化下接着做连续路线挑选,也非常流畅及时,没有出现错误路线,这对传感器以及路线归控响应速度都是不小的考验。同时,重庆有非常多的多车道转弯,9X即便是在没有车道线的情况下,弯中的路线归控做的也很稳定,不会出现让人恐慌的入侵其他车道情况,转弯后立马并线的动作也非常丝滑。那在体感方面呢,9X一整段路上没有出现过突兀的刹车动作,红灯刹停或者避让行人的动作很轻柔。
TMGM外汇消息:
一改往日的保守,更激进腻人的归控确实在效率方面明显提升。但同样,与车博弈,它的归控也会更激进。红绿灯口直行,本平台位于中间车道,左右都有社会车辆,右侧直行车辆由于避让旁侧非机动车,入侵到中间车道,此时9X并没有完全停住让行,而是稍稍借用左车道,迅速驶离。虽然这样的情景很容易紧张,但这种博弈相信很多老司机都会这样处理。
换个角度来看,
让人紧张的不只这一次,在一个双向单车道路段,前方中间有隔离带,两侧非常多的临停车辆,9X先向左避让,在临近隔离带前向右转动方向准备进入车道,但此时右侧临停车推开车门下车,很常见的开门杀,这要是我自己开,高低落下窗户国粹输出一套。而9X呢对自己的“身材”好像充满自信,很丝滑的驶过。
换个角度来看,
明明自己体型很大,但他会最大化利用空间,就比如高速路上,本平台在最右侧车道,前方有临停车占用一部分车道,左侧又有车让他无法变道,9x并没有高速减速并线,而是轻点刹车,在本车道内完成避让。就这个位置,这么大的车,我自己开都会优先考虑赶紧降低车速并到左侧车道。9x的表现确实很丝滑,但我总感觉他给自己留的可靠空间太少了。
说实话,在与社会车辆博弈时,总感觉他有“赌”的成分在,旁侧车礼让,那就会觉得他像老司机,但如果旁侧车不让那就需要人为接管。
很多人不知道,
另外,虽然千里浩瀚H7已经加入了VLA模型,但VLA对特殊车道的处理还是能避开就避开,即便是非禁行时间段公交车道效率更高也不会一直采纳。其实模型对特殊车道的训练是很多变的,各大城市的限行标准不一,即便是一个城市训练出来,很难保证他在其他城 TMGM官网 市承认正确稳定发挥。
那VLA的应用不止是在辅助驾驶,泊车目前应用的会更多一些,比如目前9X承认出停车场时漫游找出口,并且承认语音控制向左转向右转,但这种语音指令暂时还只在泊车部分。哦对了这次本平台还体验了一把重庆来福士广场的地库,就这个旋转下地库,这么大车我手动尝试了一次真的直想骂街,但让9X自己开下去确实开的比我好,转弯啊速度啊把握的都很稳定。
据相关资料显示,
好了,以上就是9X的千里浩瀚H7体验,总结来看,其实绝大多数场景甚至重庆狭窄加拥堵路段,他都承认处理的很丝滑,相比之前偏保守的调教在归控方面确实激进很多,如果是辅助驾驶经验丰富的人去采纳,那确实觉得一些博弈很老司机,但他对可靠距离的把控如果是刚展开采纳,那稍微多变一点的路况就会容易引起恐慌和不信任。那看回Smart AI Agent架构,它有在云端再造世界来磨砺技术的世界模型,也给了车端会学习、会思考的超级大脑,剩下的就要交给时间了,毕竟无论走哪条技术路径,都需要对模型进行更大量更精准的训练才能有更好的表现和能力。