这意味着,人们认知中的新能源电动车企业,宣告要进入与字节豆包、月之暗面Kimi、腾讯元宝、百度文心一言等个人助手之战。这场原本已然红海的“基座大模型+个人超级助手”商战,竞争烈度更大了。
很多人脑海中,个人超级助手与智能驾驶是截然不同的两件事——产品不同,底层架构无法打通。李想不这么认为。在他看来,OpenAI定义的第三阶段(智能体)与自动驾驶定义的第四阶段(自动驾驶)会在相近时间点交汇,并合并到统一架构上。
各异的企业将汇入同一片赛场,因为“基座模型是人工智能时代的操作系统+编程语言”,“基座模型所构建出的人工智能超级产品,会是新一代入口——它会在所有设备之上,在所有服务之上”;如今这些企业都在争夺“AGI L3和自动驾驶L4的门票”,这会是双边的iPhone 4时刻。
全球看,对于人工智能的探讨正从技术认知转向产品构想。对话中,这位非技术背景、被认为在产品上有天赋的创始人,复原了这两年他关于人工智能完整的技术与产品观。同时,他也首度谈了谈MEGA失利、苹果放弃造车、雷军造车成功、理想会做机器人吗、怎么管理00后等各种话题。
文章比较长,大家可以参考目录:
1. 我绝对不止做一棵树了
2. 大家再不承认,我也不知道怎么形容了
3. 基座模型是操作系统+编程语言
4. L4就是智能体
5. 终极产品想象是硅基家人
6. 人工智能表达的是能力,不是功能
7. 李想有理想吗?
● 第二节:谈智能驾驶
1. 三年我们能推出把方向盘摘掉的产品
2. 我们相比特斯拉又不缺胳膊少腿
3. L4实现,买车的人会更多
4. 我们100%会做机器人,但不是现在
● 第三节:谈汽车之战
1. 复盘MEGA失利
2. 今天做的所有事是为了拿L4门票
3. 对雷军说,小米车要想成功,你必须all in
4. 2030年,我们有概率做一辆超级跑车
5. 我从来没有司机
● 第四节:消失的李想
1. 典型的李想的一天
2. AI是知识、认知和能力平权
3. 我人生最大改变是,对自己好
4. 从对事不对人,到先对人再做事
谈人工智能
李想:意味着未来的全部。
李想:发布的时候,我们就去用了。怎么来形容呢?——最大感觉是,人工智能应该有的样子就是这样子的。到今天为止,我跟身边很多人的判断不一样。
我认为OpenAI是个非常、非常了不起的公司,甚至它了不起来的程度,超过了当年谷歌之于互联网了不起的程度。
张小珺:为什么这么说?OpenAI未来会长成什么样?会超越谷歌吗?
李想:我觉得基本是确定性的。
我看一家公司不会单独从技术看。第一,我会看这家公司对行业标准的定义,很多时候大家忽视这是最重要的,谷歌当年在搜索上定义了很多行业标准。第二,我会看它的研究工作做得怎么样。第三,我会看它的技术研发工作做得怎么样。第四是产品化。第五是商业化能力。商业化能力分阶段,今天是不是它一定要获取多少收入?其实没那么重要。
但OpenAI做了当年谷歌做的最重要的事。很多人忽视谷歌当年的成功,是源于施密特(谷歌前CEO Eric Schmidt)加入后在商业上的巨大成功,就是谷歌当年拿下AOL首页。百度当时很重要的成功也是收购了hao123,作为重要入口。如果当时,美国超过50%的人上网首页是谷歌,谷歌搜索就是排他性竞争。
今天,OpenAI同样很厉害,拿下了两个超级巨头:一个叫微软,一个叫苹果。这非常了不起。这五个维度综合看,它是一个遥遥领先的人工智能企业。
张小珺:在你看来,OpenAI一定会成为下一个入口吗?
李想:我就拿数据看吧,OpenAI在这些人工智能的聊天产品里,如果看全球,基本占了80%份额。最新数据一个月有36亿访问量,离最近的是Gemini,应该是2亿到3亿——这个,如果大家再不承认,我也不知道该怎么形容了。
张小珺:如果让你做OpenAI的CEO,你会比Sam Altman做得更好吗?
李想:不会。我觉得Sam Altman做得非常成功,非常成功。
张小珺:如果你是OpenAI的CEO,你现在会做什么?
作者注:OpenAI定义了人工智能5个阶段:
L1:聊天机器人/Chatbots,AI具备基本对话和交互能力,能与用户进行流畅的对话;
L2:推理者/Reasoners,AI将能解决类似人类博士水平的复杂问题,展现强大推理和问题解决能力;
L3:智能体/Agents,AI能独立采取行动,不仅能思考,还可以在没有人类持续监督的情况下执行任务;
L4:创新者/Innovators,AI能协助发明创造,推动科技进步,具备创造性和创新能力;
L5:组织者/Organizations,AI将能执行整个人类组织的工作,展现出高度的自主性和策略性。)
现在,OpenAI非常好地讲明白,并按照这个定义做了,聊天机器人最好的产品体验。
张小珺:是OpenAI定义的L1阶段。
李想:对。L2阶段不是普通人使用,Pro卖到200美金,要么是to B在用,要么是大的C、专业用户在用。
到了L3阶段,到了Agent阶段,才是真正iPhone4时刻。普通老百姓都能用了,而且它能独立、持续地完成任务,不用靠密集提示词的方式。这时产品应该是个什么交互?这是所有头部企业都应该认真思考的。
张小珺:Agent会在三年内实现吗?
李想:美国可能更早一些。中国的能力足够的Agent,应该在三年之内实现。
张小珺:我们来谈谈你们的两款AI产品,一个是理想同学,它是一个个人助手;一个是智能汽车。
我知道,理想同学以前是一个车机的个人助手,但它现在要走出车门,进入手机变成一个App,未来还会上更多终端。这意味着,你们一个电动车企业要进入通用个人助手这场红海战役了,要去跟豆包、Kimi、ChatGPT竞争了,是这样吗?
李想:如果我们是纯硬件公司,可以符合你说的定义。苹果不是一家只卖Mac的公司,才有了后面的可能性。但这个可能性不是iPhone出来后发生的,是在Mac变成透明壳那一刻就在发生。华为也不只是运营商企业,后面的一切是它从运营商做到相对稳定阶段,就开始产生的。小米不只是一家手机企业,它有IoT,有自己的生态,甚至也有汽车。
今天这些企业,不能以一个硬件来定义它到底是什么企业。这个硬件是它的支柱业务,是起点。今天每一家企业都应该是一家人工智能企业。
如果我们相信人工智能,人工智能最关键是什么?如果在智能手机时代,最重要的是操作系统、应用商店和云服务。最开始大家做触屏手机,其实中国,我印象有非常多家触屏手机,甚至很多品牌也都一年卖几千万台。但到了操作系统、应用商店、云服务竞争的智能手机时代,这些企业要有庞大的大型软件能力,因为很多时候硬件能力,供应商就能解决。
我们之所以做硬件,是为了更好控制这个硬件体系以及性能再高一点点。但大型软件不一样,不是所有人能做操作系统,不是所有人能做大型云服务,这就变成了更大挑战。
回到人工智能也一样,今天你能看到几百家电动车企业,是因为中国有非常完善供应链,但是我问:这几百个企业,未来有哪些企业能做基座模型?
张小珺:你认为,基座模型是一个分水岭?
李想:当然是了。
张小珺:现在谁做了?
李想:至少我们做了。至少我们一直在做基座模型,无论多么难,非常坚定。
我认为,基座模型是人工智能时代的操作系统+编程语言——你就知道它有多么重要了。
基座模型所构建出的人工智能超级产品,会是新一代入口——它会在所有设备之上,在所有服务之上。
张小珺:把理想同学+Mind GPT加起来,约等于Kimi,可以这么通俗理解?
李想:可以这么形容。
张小珺:理想同学从车机进入手机,这是一个战略级决定还是你们只是想试试看?
李想:没那么复杂。站得很远看,一个有效大模型产品,尤其你在掌握基座的前提下,会在所有设备、所有服务之上,这是我相信的一点,否则它不是人工智能。它发展到智能体,能自主使用所有设备、服务。
站在近处看,我们很多用户、孩子,一上来接触的人工智能就是理想同学。很自然,我为什么不把这个东西也同样放在他们日常使用的设备上?很多用户的孩子在使用完车内理想同学后,拿着手机也喊理想同学。这是真实需求场景。
我们可不可以先把100多万用户以及家庭,这300到500万人,让他们用上一个非常好的,在车上、在手机上、在电脑上、后边可能出现在眼镜上,体验一致的人工智能产品?这是必须要做的。
张小珺:理想同学会存在收集用户数据、用户隐私的问题吗?
李想:不会。当你真正预训练、后训练,你会发现跟原来互联网不一样。我们并不需要这些东西。比如,预训练更多是从公开数据集收集。
如果未来让用户使用得更好,会建立记忆系统,但记忆系统会把用户的记忆转成token。它既不是比特,也不是传统文字或声音记载。大家完全不用担心。
大家今天如果担心人工智能的隐私问题,还是对于人工智能技术本身不够了解。
张小珺:对话类个人助手已经非常红海,你怎么看在这片红海市场中的战争?
李想:今天是非常初期阶段。如果讲第一个明确阶段,还是人人可用的to C智能体出现(也就是OpenAI定义的L3阶段)。今天在尝试中。
张小珺:今天是尝试去拿那张船票?
李想:对。今天大家做的所有事情,是为了拿AGI的L3和自动驾驶的L4的门票。
李想:由于这两个领域同时都做,我们看到一个更有意思、让我们更坚定去做的机会。
今天我们做的理想同学和自动驾驶,按行业标准是分割开的,处于早期阶段:
●我们在做的Mind GPT(理想自研大模型),大家叫LLM、大语言模型,其实它叫语言智能。
●我们在做的自动驾驶,李飞飞定义叫空间智能,我们内部叫行为智能。
只有你真正去这个领域大规模做,才知道这两个有一天一定会连在一起。
如果一个人只有语言智能,他足够聪明,但不能行动。如果一个人只有行为智能和空间智能,他像一个普通工种。一个人什么呢?是这几个结合。
我们认为,基座模型到一定时刻,一定会变成VLA(Vision-Language-Action Model,一种结合了视觉、语言和动作的多模态模型)。因为语言模型也要看三维世界,也要通过语言、认知理解三维世界。三维世界不只有图片,或者用Diffusion、生成的方式就可以。因为它并不能还原真实物理世界,需要向量。
自动驾驶也一样,它真正变得更强,走向L4,是它要有极强认知能力。当这些东西发生变化,它能够有效理解这个世界,而不只是端到端背后的那些压缩记忆。这是我们看到的一个变化。
所以,我对团队的一个要求:至少在中国范围内,未来几年必须保证大语言模型的基座模型是行业前三。你需要什么样的训练算力,我们愿意投资。要真正跟头部企业去PK,去竞争,把能力构建起来。而不只是在汽车行业里比一比。
对于我们最开始做的端到端+VLM(智能驾驶的架构),还包含下一代研究工作,我们如何在空间智能里保证在中国是最领先、第一的地位?这非常之重要。
但我相信这个时间点会非常相似——就是,空间智能实现L4,语言智能实现Agent的时候——一个大概率是,这两个会变成一个模型。
张小珺:就是VLA模型?
李想:就是Vision、Language和Action(视觉、语言和行动),它跟人一样。变成一个更大的模型能力。
其实L4就是智能体。智能体,你必须得很好地理解物理世界。
张小珺:智能驾驶能怎么帮助大语言模型?
李想:智能驾驶所获得的数据可以为语言模型或者下一步基座模型,构建三维向量空间的能力。
举个例子,我们在VLM使用中也会遇到一些问题,今天VLM是从大语言模型基础上做出来的。虽然做VLM这些基座模型,它也会喂几亿甚至几十亿张图片,但这些图片是二维的,在三维向量空间里,比如我们去做自动驾驶,它可以通过这个画面看到:哦,哪里是公交车道?公交车道提示是什么?什么是潮汐车道?甚至能认出交警,这个交警在干什么?但它并不知道具体位置。
是因为端到端的基座和VLM基座是两个不同基座,它俩只能互动,不能通过端到端确定位置。这也是我们看到说:哎,最终,它应该像人类一样,一套大脑系统既能处理语言,也能处理图像,并且处理图像的时候,人是具备三维向量空间的能力,能调用自己的行动。
接下来也能看到我们的一些论文。我们如何用三维向量空间,包括用高斯球方式,给语言模型具备三维向量空间的能力。
张小珺:它最终会合并统一到Mind GPT基座模型上?
李想:到时候是不是叫Mind GPT,不一定。
李想:产品是把用户需求和你背后所有能力进行结合。好的产品经理是,我对需求了解得足够清楚,且我对能力了解清楚——这两个交集越大,产品价值越高;交集越小,产品价值越低;或者浪费越多,内耗就越多。
今天哪怕我在公司想推动人工智能,最重要的是,让大家对很多东西的理解变容易。对于实现AGI到最终阶段,我经常用三种方式描述:
第一阶段叫“增强我的能力”。增强我的能力意味什么?意味着它是我的一个辅助,但最后决策权在我这。我可以拿Midjourney画一幅画,但最后还要拿Photoshop修改一下才能出版。我也可以拿理想同学生成一篇文章,但这个文章不会直接发到公众号,还要进行文字整理。包括L3智能驾驶,我们叫“有监督智能驾驶”,还需要我在车上监督,我来进行最后兜底。这里边核心是,第一个阶段能力还不够。
张小珺:所以在这个阶段负责任的是人。
李想:对。但如果你能特别好地使用人工智能这方面能力,它确实让我变得更方便、效率更高。随着它能力的提升,也随着人类对它信任,到第二个阶段,就是智能体所描述的阶段。
第二阶段叫“成为我的助手”。我只要给它发任务,甚至可以发连续任务,它就可以独立完成,并对结果承担责任。
比如,我可以跟一辆L4的车讲,你要去帮我接孩子,我不需要坐在车上,它就可以到学校帮我接孩子,并进行面部识别,打开门让孩子上车,然后再完成下个任务,送孩子学游泳、学乐高。它也可以帮我做上周工作总结,并发给我所有减一层管理者。这是第二个阶段。
这个阶段比较好的状况是,它会变成大规模应用,是真正的iPhone4阶段。
而汽车企业只有实现了L4(按自动驾驶行业标准),才是真正的iPhone4阶段,今天还不是。
L1级别/辅助驾驶:系统能持续执行车辆横向或纵向运动控制中的一个方面,如自适应巡航控制和车道保持辅助;
L2级别/部分自动驾驶:系统能同时控制车辆的横向和纵向运动,但驾驶员必须始终监控驾驶环境并准备接管;
L3级别/自动驾驶:在特定条件下,系统可完成所有的驾驶操作,但驾驶员需要在系统请求时接管;
L4级别/高度自动驾:在定义操作区域内,系统可完全独立操作,即使遇到复杂或紧急情况也无需人类介入。)
张小珺:今天汽车企业是什么阶段?
李想:如果实现L3(按自动驾驶行业标准),更像黑莓阶段。方向盘在上边,就跟键盘在上边一个道理。
第三阶段是我想的终极阶段。因为我们要“创造移动的家,创造幸福的家”,我在内部叫“硅基家人”。
我不需要再给它任何指示,也不需要分配任务,它就是家庭成员,甚至是家庭重要的组织者。它不但了解我,还了解我的孩子,了解我身边的朋友,甚至比我还了解。它更多记录下的是事实,我很多时候记录的是一种感觉和一些被压缩的记忆。这时它会主动干很多事,可以自主帮我把家管理好。
我作为一个人很重要的是记忆。我的记忆就是我的模型,它也在不停训练,变得更强。很重要的一点,我的记忆会被它得以延续,可能我的肉体不存在了,但我的记忆会变成它的一部分。我的后代想了解我很容易,只要跟它聊就像跟我聊,没区别。
张小珺:那你也没有隐私了啊。
李想:我是它的一部分了。
如果按照OpenAI定义,到AGI,它本身是组织者。它不是只有能力,必须有智慧——它会是人类优质智慧的汇集之河,不只是人类知识和能力的汇集之河。
张小珺:在产品形态上,“硅基家人”是你脑海中构想的最终产品吗?
李想:对。我最兴奋的是,我和我们团队能在有生之年实现第三阶段,我希望是通过我们的手实现。
不过,哪怕最终由于各种遗憾,没有通过我们的手实现,我也希望看到有最顶尖的企业,把这个阶段在我们有生之年实现了。
张小珺:如果你的最终目的是“硅基家人”,那它不适合叫“理想同学”这个名字,会改名吗?
李想:很快大家能看到我们允许每个人创造自己的理想同学。
李想:我觉得不是有理想、没理想的问题。
是……(停顿3秒)……我第一次创业,泡泡网做的并不成功,起了个大早赶了个晚集。我后来真正明白一点,就是中国古人讲“天时、地利、人和”,非常之重要,而且这三个有清晰顺序。
排第一的是“天时”。商业社会什么是“天时”?“天时”就是技术,是我们对技术有效使用。
作为创业者,如果我做一辆燃油车,还做了10挡变速箱,我仍然卖不到奔驰、宝马任何一个品牌在中国1/10的销量。但我如果做增程车,并赋予了非常好的软件体验和部分的人工智能体验,我就可以在很短时间追上奔驰、宝马、奥迪的销量,甚至在可见的未来一两年,超越他们。这是重要技术变革点。
人类跟我们相关最重要的技术变革:一是能源,二是信息。
“天时、地利、人和”。第一重要是技术。第二重要是“地利”,在哪创业。你如果不在中国和美国,想做人工智能,太难了。因为你不是主流语种,你没有足够庞大的市场,你没有足够多的人才和这方面的投入,包括人才是否经历了上一个时代能力的积淀。第三才是“人和”,要面对什么样的用户,构建什么样的组织。
技术第一重要。进入汽车行业,很多人说,巨头们都那么厉害,几十年没有真正大厂出现,为什么觉得你有戏?——还是我说的,我比汽车厂商更知道怎么做大型软件,比互联网公司更了解汽车,因为做了10年汽车之家。
进入这行后,我们发现真的跟想的方向一致。拿汽车行业举例,这是我相信的东西:
时代演进方向:BT——IT——DT——AI。
奔驰虽然发明了汽车,但真正汽车行业进入老百姓家是福特开始。福特跟其他作坊型汽车厂一个根本差异在于,建立了流水线和生产线。它用了几分之一的价钱,就可以让普通美国老百姓拥有福特T型车。这时,它干了一件事,是把生产一辆车流程化了。我们内部把流程的简称叫BT,是流程。这是第一阶段。后来丰田又把流程发挥更加极致。美国到70年代还成立了流程协会,流程协会也诞生了后边大量软件公司。
到第二个阶段什么?是IT出现,就是软件,而且是以控制为目的的软件出现。我们在建常州第一个工厂时,还没有精力自己写这个工厂软件,我们当时就选择是SAP还是Oracle的工厂软件?当时我就问顾问公司:SAP和Oracle有什么不同?他讲,SAP呢,比较反人性,比较死,什么都不能改,但好处是,所有人不要指望从这边任何一个流程绕过去;Oracle有比较好灵活定制的能力。
我一个做互联网公司出身的,肯定觉得Oracle好。当时又问了一句:如果从汽车行业最佳实践看,是什么样的?他说,至少在中国大部分用Oracle的,最后也都切回SAP。
哦,我当时就明白了——这些软件能力和我们互联网公司构建的软件能力不一样,最主要目的是控制。包含银行上IT系统,包括制造体系、销售体系上软件系统,都是为了控制。之前流程靠人来盯着,靠纸来记。今天跑在软件里。所以,汽车上万个零部件可以标准化生产出来,甚至汽车跑在路上的质量比手机还要好,是BT和IT发挥了巨大作用。
到第三阶段非常有意思。这个时代描述最好的是,从IT时代进入到DT时代,DT指Data Technology(数据技术)。
我们做互联网公司,我做汽车之家,所有网站服务用户的软件是自己写的,所有面向客户的软件是自己写的,包括所有数据分析、流量分析的软件都是自己写的。这是中国成规模的互联网公司必须要有的能力,因为你每个月要服务上亿访问者。我们当时写这些系统后,会发现跟IT有很大不同。
所有数据必须满足三个条件:
● 第一,它必须是面向一个客户提供闭环服务。传统公司喜欢叫“端到端”,互联网公司叫“闭环”。包括他从进入一个店,到把这个车买走,这是一个“端到端”。
● 第二,我要获得原子级数据,而不是控制点的数据。它能反映出所有的起因、过程和结果,反映任何一个客户在这里发生业务的全貌。
● 第三,如果是面向一个用户,它是一个端到端或闭环,大概率会跨业务,甚至跨公司。比如支付环节到了腾讯或阿里。第三个重要点是,要把财务放进去。你获取用户的过程是成本,你变现的过程是收入。只有把财务放进去,才能避免每个专业只看自己一亩三分地。他有看全貌的能力,就有使用整体数据的能力。
所以,数据产生以后,带来三个特别好的结果:
● 第一个结果是,我们最开始做理想汽车,很多人跟我们推荐一些老专家。我们当时把专家招进来,我还是互联网思维说:你能不能把你知道的know-how写出来?发现他写不出来。
这个模型在他脑子里,但他写不出来,只有遇到问题帮你诊断才能解决问题。当时并不知道怎么使用老专家。
当我们有了DT以后,当我们写大型软件能获得完整数据,意味着什么?只要是高成功率、低成本地完成了一个业务,它就是个“最佳实践”,就是藏在老专家脑子里。哪怕我们遇到了问题,这个问题怎么被有效解决,也是“最佳实践”——所以,这些经验、知识,从老专家的脑子里变到我们系统里。这是一个巨大收益。
这给我们带来非常大一个好处。我们常州第二个厂房,产能不够的时候,生产L7、L8这两个产品。我们这个工厂,从开始生产到产能爬满,只用了15天。我们团队有来自传统汽车厂商的人,他们说如果在原来的企业,需要6到12个月。相当于我们可以把“最佳实践”有效复制。
这也是我们敢于开直营店的原因。开一家店很难,很多店从0开始要养很长时间。但我们店里人员是集中来北京或常州培训。我们只要一个店选址没问题,它从开始营业到最后达到一个月超过100辆,大概是3到6个月。会比正常一家新店启动速度快得多,甚至比你找加盟速度还要快。
这是第一大好处:把所有“最佳实践”沉淀在数据系统里。
● 第二,它产生什么好处呢?就跟我们原来做汽车之家一样,虽说我们了解用户,但了解用户并不是跟用户聊,而是认真去看用户的访问行为——他为什么走了?为什么来?他从不同渠道来了以后,是什么轨迹?他最后出现问题走的时候,那就是真因,我们怎么让他顺畅地浏览下去?
比如他看一个帖子页面,10张图片就翻一个页,翻着翻着没意思就走了,因为翻着太累。当我们把一个页面变成50张图一页,他就非常有耐心一直往下看。
我们用这种方式,一方面驱动我们怎么获取用户,让用户停留时间更长,让用户一直留存下来;另一方面驱动我们的收入,甚至包括收入怎么定价,都是拿数据决定。
所以汽车之家,我们涨价,虽然广告客户会抱怨,但也没什么可说的。因为我们完全能通过数据评估,他一个店,我们到底给他带来多少收入、多少利润。
另一点,很多时候是对人的训练。它比较像什么呢?像强化学习(RL,Reinforcement Learning),因为它是给每个使用者一个有效反馈机制。
看我们的销售团队,他们是一个月卖二三十辆车的王牌销售?还是卖十辆、卖几辆的?影响因素排在最靠前的,是他对信息、数据和工具的使用,而不是她是不是个美女,或者是内向还是外向。
● 第三是最重要的一点,数据里的“最佳实践”是人工智能后训练的全部。
很多基座模型在解决一些通用能力很好,但进入专业的时候发现,完全没有能力。这些数据不可能放在互联网公开,都是企业独有,而且是头部企业才懂得怎么去获得。
本身你得是卖智能车最好的企业,才能做自动驾驶的训练,否则你过去连传感器都没有,这些数据都没获得。
同样,用户这些驾驶数据,我们肯定也按模型看。驾驶效率最高的,和安全性最高的进行权重,这3%的人,他们的clips(数据样本)怎么放入模型里训练?就形成了端到端模型。
张小珺:听起来,预训练Scaling Law(规模效应)到达瓶颈,进入后训练Scaling Law,对你们是好事?
李想:是好事,到了物理世界对我们也是好事。
张小珺:你没有回答我刚才的问题,你觉得李想是个实用主义的人吗?李想有理想吗?
李想:(思考2秒…)实现硅基家人那一刻我真的相信,而且无比坚定,就连我都可以被它去延续。
这算不算有理想?
张小珺:所以,你信仰的是AGI的硅基家人,不是AGI?
谈智能驾驶
李想:我们经常发出一个邮件,尤其疫情期间,两周以后才有人回复。我们没办法,决定要自己做自动驾驶所有研发,从域控制器开始做。
李想:我经常跟团队说:我们相比特斯拉又不缺胳膊少腿,为什么它能做的你做不到?
我们为什么还保留前面的毫米波雷达,以及前面的激光雷达?毫米波雷达和激光雷达和做端到端关系不大,因为端到端是纯视觉的。包含我们的交互,大家再看到我们下个大版本更新,可以看到端到端、VLM(视觉语言模型)怎么工作。
很多人不太理解,你为什么要保留激光雷达?是不是因为你技术不好?不是。中国和美国不一样。如果你经常在中国夜路开车,你会看到,有尾灯坏了的大货车,甚至大货车直接停在主路,也有不那么标准的半夜道路施工。一个前面的激光雷达,是为了安全。
我们在使用端到端,包括通过Transformer做BEV架构,至少今天的摄像头在深夜没有光线下看到的距离只有100米出头,但是,激光雷达在任何没有光线的情况下可以看到200米,这就帮助我们实现130公里时速的AEB(自动紧急制动系统)。我们是面向家庭的车,每个人生命安全非常重要。这是我们继续保留激光雷达根本原因所在,后面的车型会持续保留——激光雷达相当于“安全带”,帮车主解决重大事故。
我相信如果马斯克在中国,在深夜,在不同高速开过车,他也会选择把前面一颗激光雷达保留下来。因为特斯拉对于安全同样重视,只是他要在这个环境看到。
激光雷达和视觉的配合,在安全上有两个作用:一方面,最容易出的事故是钻到大车底下,产生追尾。尤其光线不好,甚至没有光线的情况下,如果可以做到,能减少90%以上重大伤亡事故。
甚至我们研发AES(自动紧急避让),哪怕他超速,刹不住我怎么躲避?包括AES的两段式,就是第一次躲避以后遇到问题怎么做第二次躲避,都是为了让车辆变得足够安全。我们想办法消除90%以上,甚至最终目标是消除所有重大伤亡事故。刮蹭还会有,但重大伤亡事故我们尽可能解决掉。
另一方面,是对于其他交通参与者的安全。他可能踩的是滑板车,骑的是单板车,也可能喝醉了坐在路上,更好的传感器对安全有巨大帮助。
张小珺:刚才说到那两个你相对激进的决定,为什么其他中国车企没有马上这么做?
李想:可能跟我们有一些比较好的外脑有关,像王兴、陆奇博士,给我们带来很多启发。
比如,用规则算法,用解决corner case(极端情况)的方法能不能解决自动驾驶?解决不了。他不一定帮你解决,但他会给你一些视角。我说服郎博(理想汽车智能驾驶研发副总裁郎咸朋)很重要的一点:你们经常解决了一个corner case,又出现三个corner case,因为你是基于这个场景解决这个corner case,场景一变化,又出现新的corner case——你们一辈子都在解决corner case!解决不完!
一次战略会,陆奇博士给我们讲,你们应该思考一下人是怎么工作的。这对我们帮助很大。
我说服郎博,是拿我爱人举例。我爱人也是正常驾校学开车,拿到驾本。但她最开始开车经常刮蹭。我给她买了一辆宝马X6,她开起来刮蹭,觉得车是不是太大?因为X6接近5米长。我又给她换了4米2、4米3的高尔夫GTI,还是刮蹭。你坐在车里说,你不要刮蹭、不要刮蹭,还是会蹭。她会蹭别的车,进小区会蹭门。
怎么解决?当时,我想了一个特别有意思的方式,因为我家有X6、X5M,我就说,你应该去学一学宝马驾驶培训学校,学初级班就可以,一天时间。宝马驾驶学校的初级班是什么?很重要的是解决你的能力问题,并不是解决corner case。
一天下来只学两件事:你开车应该看哪里,教你怎么踩刹车。我老婆后面基本跟刮蹭告别了,开车开得非常之好。但她只学了一天,学的是能力。
端到端最后体现出来的是能力,而不是去解决功能、解决corner case。
张小珺:在你看来,端到端是自动驾驶的终极手段吗?
李想:端到端只能解决L3,肯定解决不了L4。(笑)
张小珺:L4需要VLA?
李想:对,L4必须使用VLA。
Waymo做得也很好,在努力商业化,在旧金山打车占比越来越高。都是一帮足够聪明的人,不用为他们担心。(笑)
别人做得很好了,我们就不会再做一个相同的硬件。但核心是,如果我们看到一个特别重要的事情,没有人去解决这个硬件,我们就必须得去——因为好的硬件是软件的必要条件。(笑)
谈汽车之战
我喜欢看到大家在吵架。
李想:没什么绝招。在这个价位,用户最在意的一些价值,你是不是天花板?就这么件事。
它是综合之战,你的技术到产品,产品到商业的一个完整作战体系。
张小珺:电动车这场仗什么时候能分出胜负手?现在中国汽车仍然非常内卷。
李想:电动化和智能化是两场仗。电动化相当于没有资源企业的一张门票。
三星到了智能手机还是拿到了门票。虽然它是传统手机厂商,之前也跟诺基亚时代竞争,但它一直手里拿着这张门票。它的手机也经历了从传统功能机到触屏机再到智能机的阶段。
也有别的领域非常强的人,到进入那一刻竞争的时候,他有门票。只是它的门票不是硬件本身,是已经掌握了另外一个能力的门票。比如它有操作系统的能力,有大型软件的能力——苹果,它就可以过来拿这张门票;谷歌可以过来拿这张进入决赛的门票。
电动车本身,L4会分出来真正的胜负。我们今天在做的所有事是为了L4拿门票,因为L4所需要花的钱、所需要拥有的能力、所需要的数据量是今天不具备的。今天大家要靠这个东西去拿L4的门票。
张小珺:拿L4的门票先决条件是什么?
李想:第一,足够多的车跑在路上。
张小珺:多少车?
李想:(思考4秒…)得500万辆以上。
第二,要掌握VLA这个基座模型的能力。
第三,要足够多的钱,招募最顶级的人才,拥有足够算力。
张小珺:当都满足了这些条件,且做到足够卓越,能做出一家像苹果这样的公司吗?
李想:一定会的。
张小珺:所以,你认为这场仗什么时候能打赢?
李想:并不存在打赢不打赢。汽车企业发展那么多年,跟传统汽车厂的竞争结束了,又有很多外来者。是不是有一天苹果说,我应该做汽车了?我读苹果流传出来的内容,当时乔纳森(Jony Ive,曾任苹果首席设计师兼资深副总裁)说了很重要的一点:苹果没必要设计一个带方向盘的车。这是我印象最深的一句话。如果没有方向盘了,苹果会不会也进入这一项领域?
最开始大家看到,新势力、特斯拉,跟传统汽车的竞争。后来华为进来了。后来小米又进来了。(笑)大家又发现这个竞争发生了新的变化——这就是世界的精彩和丰富之处。
张小珺:为什么苹果现阶段放弃造车?
李想:有两个挑战:第一个挑战是如果做汽车,苹果组织模式必须发生变化。因为汽车比手机更复杂,这是真实存在的。但是,由于苹果过去公司的治理模式,太完美了。这个时候要产生变化,如果没有特别明确、清晰的愿景,或者强大的吸引力,很难说服苹果内部的人改变现在组织和工作方式。
苹果决定放弃造车的时候,特斯拉也几千亿美金市值,而苹果是两万亿美金。组织内会说,我们一个两万亿市值的公司为什么要学一个几千亿的,甚至它的估值是被高估的?它享受了那么高市盈率。这对于最成功、成功到完美的公司,是巨大挑战。
第二个问题是,人工智能对苹果也有一定的延期。你可以从苹果价值观看到,它对隐私格外在意。如果你做规则算法、知识图谱,这些data就是隐私。如果你做到了大模型阶段,它变成token,跟隐私什么关系都没有了。相反,它是解决隐私最好的方式。
(突然眼眶泛红…)我们都非常感激,帮了我们非常非常多。
但欧洲奢侈品品牌,最重要的还是延续稀有和设计。那个价值是它独有的。哪怕到了下一个时代,还是应该变成一个更好的法拉利,而不是变成一个科技企业。只是科技企业里可能出现有意思的车型。
我更像是第二个,AI教练的角色。
消失的李想
李想:第一,学AI一个重要方式是我们有研究团队。有一个是每隔一天的会议,有一个是每周一次的AI例会。我每周会参加四到五次AI的会——有一个是每隔一天的会议,有一个是每周一次的AI例会。会讲两方面东西:一是最新论文,二是不同团队关于AI的最佳实践,哪怕一个很小的亮点都可以分享,它会对其他团队有相互启发。我自己读论文能力很差的,但通过有效讲解和分析,我对各个领域的AI前沿论文会有了解。
第二,肯定是自己要使用。这些东西你一定要去使用。使用过程中,会有自己真正的感受和感悟。
第三个特别重要的,包括为什么一定请你来当主持人——我特别喜欢看今天的对话。尤其是大语言模型以后,传播效率最高来自于对话。包含Sam Altman、黄仁勋的观点,都是通过对话的方式看到。
一个人如果单独演讲,有什么问题?他表达的内容包含了why、what和how,因为他讲的每句话有自己的认知。但听的人很难收到。尤其他想表达全新、复杂的东西。对话方式特别好,提问者在提问的时候已经结构化了,并把意图明确了,甚至把意义明确了。所以,对话过程中,其他聆听者接收效率会特别高。
张小珺:听起来你要做的事情好多啊,又是理想同学,又是大模型Mind GPT,又是智能驾驶,又是车,时间怎么分配?
李想:我们已经是千亿收入规模企业里,做减法做得最厉害的。(笑)车型也很克制,车型的平台化程度非常高。
我要解决的就三个方面:
● 第一是认知智能。
● 第二是空间智能。
我要确保,在人工智能方面,我们给自己和团队出的题是对的,做这些题的人和组织是对的。
● 第三是为这两个提供足够的资源,就是计算——资源是相对理性的资源吧,也不是拍脑袋。资源是足够能够实现我们目标的。
张小珺:你给团队出的题是什么?
李想:郎博是自己出的题,他们更早会用到BLM这套工具(Business Leading Model)。他们给自己出的题是:大概2025年实现500公里一次接管,把MPI提升到500公里,比今天大概提升十倍。
张小珺:如果资源有限,理想同学和智能驾驶必须二选一,你放弃哪个?
李想:我去减别的,不会减这两个。
张小珺:我看了你的日程。这周不算我们的访谈,一共只有9个会——这里面,两个会2小时,3个会1小时,3个会不到1小时,你没有早会要开、晚上也不安排日程——这对于一个管理着3万人的CEO来说,相当清闲。
能不能给我描述一下一个典型的李想的一天?
李想:我的时间分配大概是这样。按照我的工作重要级:
● 第一对我重要的是员工相关工作。无论招聘、培训,还是一些组织和人力资源的制度,都是我的优先级。甚至广州车展,跟我们重要的员工文化培训冲突,我选择不去广州车展,去做员工文化培训。任何18级及18级以上,还包含少部分17级员工,我都会面试。
● 第二是产品相关工作。因为我们交付给用户还是个产品。在很长时间,在产品层面,我还能给团队贡献很多价值,包括让他们怎么构建产品体系,包括把这一拨人带着把产品能力变得更高。
● 第三个工作是人工智能相关工作。而且,我们的资本团队和技术团队会大量帮我们邀请各个行业最优秀的人沟通和交流。
张小珺:你描述的是时间分配,你能纵向跟我讲讲你的一天吗?你是家和公司两点一线吗?
李想:也没有。有时候晚上会跟一些朋友见面,聊一聊,听一听。
我上午,产品工作比较多。中午左右是人相关的工作。包含校招团队培训沟通什么的,都会放中午、下午。一般再比较晚,就是AI相关。基本上大家会这么来排序,这么着,大家时间比较好凑在一起。
我们最重要决策放在周六。战略委员会的团队都是周六工作。因为周六,做任何决策时间可以很长。他也不用担心别的工作,大部分员工不上班。我们不用受别的工作影响,不用受客户、合作伙伴影响。如果很多重大决策一小时、两小时就完,就没人吵架。
我们战略委员会质量特别高,是因为大家天天在吵架。
张小珺:拍桌子吗?
李想:当然拍桌子了。(笑)
张小珺:爆粗口吗?
李想:对于人工智能的理解,源于我个人。小时候我在老家长大,上小学回石家庄,上初中开始接触电脑,但自己家里没有电脑。我通过把所有零花钱买各种各样电脑杂志和书籍学习电脑。但在初中,我面对的所有东西都是质疑——父母担心我学习不好,是不是还可以考虑上一些职业学校,从而有一个稳定工作和饭碗。
张小珺:你当时成绩有多不好?
李想:如果按分位的话,大概属于70-80分位,中等偏好。中等偏好在班里一般不太受欢迎,老师要么关注学习好的,要么关注学习不好的。
张小珺:中不溜秋。
李想:对。那个时代很多人不知道什么是电脑,只觉得电脑是游戏机,是坏东西。也会反对说:哎,你这么学是不对的,你这个孩子天天研究,是不是有自闭症?那是我的初中时代。
初中升高中,我拥有了电脑。有了电脑我还印象特别深,我跟班里电脑水平最高的同学聊,他跟我说:“我有电脑的时候,你还没见过电脑,你没资格跟我聊。”后边发展就完全不一样了,我一个月电脑水平就超过他了。因为我过去三年获取的信息,到真正去实践提供了巨大帮助。我就找到了一个有效模式。几年前,很多人说理想汽车核心驱动力是什么?我觉得是成长。但成长是完整模式,是通过学习,再去验证,最后形成成长。
我在高中就有效找到一个方式,我的成长速度比身边同学快。第一,我在解决什么问题的时候,会去广泛阅读各种各样的信息,尤其有了互联网,非常有帮助。甚至在没有互联网之前,我还用Telnet去获取大量信息。如果我是人工智能,这非常像我的预训练。包括跟各种各样的人去聊,让我对这个领域有了解。
第二,我会设定目标,运用这些知识,真正去解决问题。当问题解决以后,我会复盘,把它变成自己的能力,其实是成长。
所以,我自己的经历模式,就是学习、验证、成长的过程。非常像人工智能中的预训练、后训练,包括强化学习这么一套体系。
张小珺:所以你想做人工智能,是觉得跟它有亲切感是吗,并不是因为你相信这个技术本身?
李想:(思考4秒…)我的一个最大感觉是,尤其当大模型出现,人类会发生根本性改变,会变得更好。
那一次对我而言是最痛苦,也是改变最大的,甚至让我后边人生更幸福。
一个时代过去了,一个新的时代开始了,一个新的时代会变得更好。
企业考察网文章,作者:标杆考察培训中心,如若转载,请注明出处:https://www.qykc.cn/14670.html