李想是真懂自动驾驶细节

来源: 中文网
2024-06-09 03:35:14

  来源 理想TOP2

  2024年6月8日,李想在重庆作了关于理想汽车自动驾驶技术突破的脱稿演讲,李想专门强调了是自动驾驶,不是智能驾驶,不是辅助驾驶。

  李想讲的内容核心框架实际上和理想汽车智能驾驶技术研发负责人贾鹏2024年3月底在英伟达GTC 2024上讲的内容是完全一致的。

  脱稿+举的例子不一样表明了李想是完全搞懂了自动驾驶技术路线核心框架的。

  李想提到基于现有的计算平台,有监督的L3级别自动驾驶100%可实现,最早今年年底,最晚明天年初就会全量推送,无监督的L4自动驾驶三年内一定可以实现。

  理想汽车的自动驾驶路线核心思路是用一颗Orin X芯片用于端到端,一颗Orin X用于VLM,端到端为系统一,处理所有的正常的自动驾驶,VLM为系统二,来解决兜底和泛化的能力。

  软件2.0与1.0最大的区别是1.0本质是具备功能,2.0是具备能力。功能是通过测试和实验来验证,而理想汽车通过生成式的世界模型来对自动驾驶能力进行考试。

  李想脱稿演讲全文:

  今天跟大家分享做的一个重要的技术的一个突破,是关于自动驾驶的技术的突破。我这里强调一下,我讲的是四个字是自动驾驶。对,然后不是智能驾驶,也不是辅助驾驶,我觉得这是最关键的。那我们自己我们自己内部是从去年的九月份开始,来思考一个问题,并专门建立了一个用于自动驾驶研究的一个团队。就是一个最简单的一个问题,人类开车为什么不涉及学习corner case?如果我们不能解决这个问题,所有的自动驾驶团队每天干的活都是靠人工去调试各种各样的corner case。而且放的人越多,corner case越多,然后合作真正的自动驾驶就越遥远。

  这里边最核心的一个原因是,当人工智能技术在不断的发展的时候,我们会发现其实人类开车的方式不是我们过去的这么多年里,用了自动驾驶的研发的一个方式,这是一个根本的一个不同。因为人开车没那么辛苦,没那么累。不需要养几千人的团队去搞corner case,而且团队越多corner case又越多。所以这时候我们就从理论和技术的两个角度去研究。人类到底怎么开车的。新的技术如何解决人类开车的解决自动驾驶自动驾驶开车的问题。

  首先其实从理论的角度,我们先是从一本书里得到了一个启示,这本书叫《思考快与慢》。思考快一慢来讲述了其实我们日常的时候,大脑在工作的时候是分为系统一和系统二。然后系统一来处理一些直觉,快速响应的事情。事情其实就像我们在开车,很多时候我们在开车开了10分钟、20分钟、30分钟,其实脑子里在想别的事情。但是我们仍然能够在处理路上的各种的路况,甚至开到家的时候忘记了,过去这半个小时我们是怎么去 工作的。其实这时候就意味着我们在用系统一在工作。

  其实并不是我们的大脑并没有不在工作,是我们大脑以一种它独有的方式,低能耗的方式在工作。当当我们去到一个复杂的,比如一个十字路口卡死了,或者我开到一个地方遇到一个水坑,那这时候我就会调用自己的大脑系统二来工作,他来处理这种要复杂的逻辑的推演的这样的一个能力。但是他对大脑的消耗是比较大的,所以大家不会一直用系统二的方式来进行开车。但是解决各种复杂路况,解决泛化的问题,解决未知的问题,然后大脑会启用系统二来工作。所以正常的话,如果我们看我们开车的话,基本上90%时间在使用系统一,5%的时间在使用系统二。

  所以这么的话,人脑每天并不需要很多的工号,然后人也不需要学习corner case,就能学会开车。那这时候我们在想,如果是这样的人类的一个工作方式,那自动驾驶应该怎么工作呢?什么是自动驾驶的系统一,什么是自动驾驶的系统二?那我们自己随着对各种技术的研究,自动驾驶的系统一其实就是今天很多的自动驾驶团队都在做的端到端的这样的一个技术。端到端就意味着其实我们把完整的训练片段放进来,最后产生的结果是输入直接产生输出。而不是像过往的一个感知的模块,一个规划的模块,一个决策的模块,一个执行的模块,那这样的效率更高。但是他的挑战也来了,也不需要各类各种人类的规则在里边,也不会发挥作用了。

  它的挑战主要来自于三个方面。第一个你要有真正会做端到端,也包含这方面的数据训练的人才。第二个需要真正高质量的数据。我觉得第三个是需要足够多的算力。因为端到端对于算力的需求和以往是变得完全不一样了。

  我们在端到端方面的做的过去在做的整个研究的测试,是我们大概放入了100万的clips,用于端到端的训练,大概只需要做大概十轮左右的,就一个月10轮左右的训练,卡要足够多,基本上就可以完成一个无图Noa相同的一个上限的水平。所以我觉得这是第一点。但是面对中国的复杂路况,其实只有端到端是不够的。我们要去思考什么是系统二。系统二的启发在于什么呢?系统二的启发在于其实解决各种各样的corner case和各种的泛化的这样的一个问题。然后人类并不是通过学习corner case的。

  这里边最明显的一个案例,一个启发什么呢?是我的爱人,我爱人刚学会开车很长的一段时间,连续好多年。其实她不停的剐蹭,你跟她分析下一次怎么不再剐蹭,其实没有用。但下一次还是是剐蹭,我们就在想是不是因为我买的车,这个车的个头太大了,一辆宝马X6,所以我换一辆小的车,换一辆高尔夫GTI仍然去剐蹭。那怎么说其实都会剐蹭。这时候我们会发现,其实学习corner case没有用。我们能不能通过提升能力的方式?

  所以当时我做了一个挺重要的一个判断是给我爱人,然后报什么呢?报宝马驾驶培训的初级班。对,然后宝马驾驶培训初级班一整天其实通过各种各样的方式只教了两个。第一个是无论是你在赛道上过弯,还是你在绕桩,还是在处理环形的这个路面的时候,你在打转向之前,你的眼睛看往哪里,不是看你要通过的路口,而是看对你接下来要去的地方。这是用各种各样的方式来教我们在开车的时候如何去看路。

  另外一方面,宝马的驾驶培训班还交了另外一个能力,就是在各种复杂的场景里如何把刹车踩到底。包含在湿滑的路面,在转弯的路面,在一半钢板一半道路的路面,如何能够把刹车踩到底,从而提升一个人对于整个刹车能力的认知。所以整个的宝马驾驶培训的初级班,一整天的时间只教了两个事情。第一个是教你看路的能力,第二个是教你刹车的能力。对他没有教任何的corner。

  只经过这么一天的训练,然后我爱人就彻底和剐蹭告别了。在接下来的十几年里边,没有出现过任何的剐蹭。所以我说这是人类其实学习的一个方式。

  我们再考虑说如何把这样的能力给到车上。然后我们看到一个很重要的一个技术是VLM,就是视觉语言模型。为什么不是视觉大语言模型?是视觉语言模型是因为我们没有办法把一个大模型在云端让车来使用。因为这个响应速度就会车毁人亡了。所以我们还是其实如何把一个世界大语言模型进行足够的压缩,然后最后能够放到车上去。它能够再面对一个没有红绿灯的左转路口,提前做出预判。然后来知道我这个路口如何进行特殊的处理,进行复杂的处理。

  它还有另外一个重要的功能,就是告别高精地图,也告别所有的轻图在内的方式。为什么呢?因为视觉的语言模型还有一个最重要的功能,是能够像人类一样去读懂导航地图。包含导航地图的横向纵向速度,然后时间还要包含红绿灯的,哪怕有车辆的遮挡,其实红绿灯也不会再成为问题。所以我们会发现其实可以有效的通过世界语言模型,来解决系统二的问题。一方面为端到端进行一个兜底,另外一方面能解决各种各样的泛化的问题。所以我们就发现非常有意思。我们的车的AD max有两个芯片,有两颗Orin X的芯片,正好一颗Orin X芯片可以跑端到端,另外一颗Orin X芯片可以跑可以来运行。一个压缩到大概20亿规模的一个VLM的模型。

  那整个的结果,我们的验证的一个结果其实是非常兴奋的。我们认为最早在今年年底,最晚在明年的上半年,真正的这种L3,我对L3的定义是有监督的自动驾驶,就可以批量向用户交付了,而不是只是用于在做实验。

  解决这两个问题以后,其实还有第三个问题。对,因为端到端是个黑盒子,然后VLM其实也是黑盒子。它跟过去的时候我们在做智能驾驶,做辅助驾驶一个很大的不同是它不再是功能,它是能力。我觉得AI最大的差别是能力。而过去的编程体系最重要的是功能,功能是要通过测试和实验来验证的。但是能力一个黑盒子怎么拿测试和实验来验证是不可能的。所以这时候的一个新的挑战就是我们用什么样的技术方式来验证能力。

  这时候我们又找到了一个新的一个方式,其实主要的这个原理是来自于Sora,就是我们用Diffusion Transform的方式来构建一个重要的一个小型的世界模型,会拿这个世界模型,然后让我们的车在里边进行考试。所以这么着其实我们模拟人的一套真正的工作原理就开始呈现了。然后端到端来承载人的系统一,然后VLM来承载人的系统二,系统一来解决所有的正常的自动驾驶。这些反应,这些驾驶的能力,然后系统二来解决兜底和泛化的这种能力,并应用生成式的这种小的世界模型来进行考试。这是我们在过去的一段时间里,做的最重要的一个技术性的一个突破。而且我们的研究团队已经完全通过了正常的研究的验证。那接下来的我们会怎么样呢?

  另外一方面就是说我刚才讲的,我们会在七月份到最早年底,最晚明年年初,把这样的技术带给真正的用户。通过这样的技术,我们可以确定的坚信一件事情,就在现有的计算平台上,带有监督的L3级别的辅助驾驶,L3级别的自动驾驶是百分之百可以实现的。而且随着这套技术的演进,算力的增强,模型的加大,对我认为无监督的L4自动驾驶也会在至少三年内一定可以实现。

  好,谢谢大家。

责任编辑:王其霖

  湘潭市政协原党组副书记、副主席刘硕科利用职务影响为其妻子及儿子从事经营活动提供帮助的问题。2005年至2022年,刘硕科利用担任湘潭高新区管委会主任、党工委书记,湘潭市政协党组副书记、副主席等职务上的影响,通过违规向相关公职人员打招呼,为妻子林某某代理湖南某科技公司在湘潭市开展“校讯通”业务提供帮助,林某某从中获取巨额利益。2019年至2023年2月,刘硕科利用担任湘潭市政协党组副书记、副主席等职务上的影响,违规为其儿子刘某在某集团公司开展水渣销售业务提供帮助,刘某从中获利共计约149万元。刘硕科还存在其他严重违纪违法问题。2023年7月,刘硕科受到开除党籍、开除公职处分,违纪违法所得被收缴,涉嫌犯罪问题被移送检察机关依法审查起诉。

  <strong>中国中小企业协会秘书长 谢极:</strong>这说明企业生产经营、市场以及投入状况都有所好转。从国内的订单指数来看,8个行业中,有6个行业是上升的。工业、交通、旅游、餐饮住宿在持续向好。国家发改委专门成立民营经济发展局,为促进民营经济发展提供了有力的组织保障。

  其中,上证综指有6次上涨,银行、地产以及钢铁等周期股板块受益明显。特别是2020年4月降准后,打开了A股上涨空间,形成了一轮“小牛市”,上证综指从2900多点,一路上涨至最高点位的3900点,市场整体涨幅超过30%。国债收益率窄幅波动,债市保持平稳;新增资金对国内债券市场的交易量也有明显拉动,活跃市场交投。

  9月5日,第三十九个教师节即将来临,周口市委书记张建慧走访慰问一线教职员工,实地调研教育工作。他强调,要深入学习贯彻党的二十大精神和习近平总书记关于教育的重要论述,始终坚持教育优先发展战略,持续提升教育工作质量和水平,扩大优质教育资源供给,努力办好人民满意教育。

  习近平指出,海峡两岸青年发展论坛为两岸青年交流交心、互学互鉴提供了重要平台。希望更多两岸青年通过论坛成为同心同行、携手打拼的好朋友好伙伴,为推动两岸关系和平发展、推进祖国统一大业不断贡献青春力量。

  斯威士兰是台当局在非洲的唯一“邦交国”。据台湾联合新闻网报道,蔡英文窜访期间与斯威士兰签署3项备忘录,其中第三份文件是要在斯威士兰兴建战略储油槽。蔡英文声称,在斯威士兰兴建战略储油槽将使台湾能源供应更加安全。这项计划由台湾海外投资开发股份有限公司与斯威士兰国家石油公司签署工程总承包合作备忘录。

陈盈轩

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有