鳳凰科技 2024-12-28 01:30:38 1
“消失”在公眾視野九個月後,李想回來了!
和從前大家熟知的理想汽車產品“天花板”形象不同,這一次,李想對AI侃侃而談,他將人工智慧視為“未來的全部”,認為大模型的出現會讓人類發生根本性的改變,也聊了聊理想汽車智慧駕駛和理想同學應用人工智慧技術的最新進展。
從車企CEO轉變為人工智慧企業CEO,他真的懂AI嗎?有AI的理想汽車未來會是怎麼樣?
2024年理想智慧駕駛發生了什麼變化?關鍵節點上為何總能“領先一步”?
李想,這位公認的理想汽車產品“天花板”,怎麼就覺得自己成了“瓶頸”?
李想不想造車了?理想AI Talk訪談實錄01
AI意味著未來的全部
Q:別人都在做純電的時候,你開始做增程,現在很多人開始做增程了,你怎麼又不想造車了,要做人工智慧企業?
A:造車肯定是要造的,電動化是上半場,智慧化是下半場,但我認為,這個智慧化講的不是傳統的軟體智慧,而是真正的人工智慧,這是造車往下延續的一個必經之路。汽車將從工業時代的交通工具,進化成為人工智慧時代的空間機器人。
Q:你第一次對內說要做一個全球領先的人工智慧企業這句話的時候,是在去年1月份,是ChatGPT剛好誕生了兩個月之後,你這是跟風嗎?
A:不是跟風。在2022年9月,我們就已經確定了,要把人工智慧作為真正重要的一個方向,並且我們認為這是未來競爭的關鍵。
在2023年年初發布戰略(願景)的時候,我們做了一個根本性的變化,把人工智慧從一個隱藏的戰略,變成一個開放的陽謀的戰略,因為這樣我們才能吸引到足夠多的人才。
Q:但是你也可以說,你現在要做的,是一個人工智慧技術驅動的電動車企業,或者是一個,擁有人工智慧技術的自動駕駛企業,為什麼一定要說是一家人工智慧企業呢?你覺得他們之間的本質區別是什麼?
A:其實做汽車之家,有我人生中最大的一個遺憾。
我們在移動網際網路時代,選了一個非常垂直的領域,雖然你做得很好,但是某種程度你可能為了一棵樹,錯過了一個森林,所以在選擇進行第三次創業的時候,我很重要的一點是,我要選擇一個森林,我要做那個森林裡最大的,無論它需要我經歷什麼樣的困難,我絕對不只做一棵樹了。
Q:所以你是覺得把它叫做人工智慧企業,這是一個更大的故事,這是一個更大的夢想?
A:我覺得不是更大的故事,如果你看到我們到底在做什麼東西,你就會相信了,我們一年超過100億的研發投入,有接近一半是投在了人工智慧方面。
我們是自己做基座模型,端到端和VLM(Vision Language Model 視覺語言模型)的,從最開始的論文到技術的研究,到最後研發和產品的交付,也是全世界非常早做出來的,我們不僅僅在做智慧駕駛,我們還有理想同學,智慧商業和智慧工業,我們真的是這麼在做的。
當大模型出現後,我最大的感覺是,人類會發生根本性的改變。
Q:怎麼變呢?
A:一定會變得更好。網際網路實現了資訊的平權,人工智慧開始幫助大家實現知識認知和能力的平權。我們透過人工智慧將物理世界和數字世界進行融合,讓有限的空間實現無限的延伸。
Q:你覺得AI對於理想意味著什麼?
A:(在願景上)意味著未來的全部。
讓使用者用上體驗一致的人工智慧產品
Q:你既然說AI這麼重要,在你創業之初就已經決定要做了,那為什麼你們開始做智駕,是同行裡最晚的?
A:作為一個連續創業者,一個最大的好處是知道整個企業發展的節奏,就是從0到1先解決什麼問題,有了收入以後,從1到10要做什麼事情,這個其實是我跟新進入行業的創業者,一個根本性的不同。
理想汽車在早期的時候融資能力是最差的,在我們只有很少的錢的情況下,第一個步驟是想著如何把產品做好,我們也獲得了非常好的市場的認可,在2020年和2021年,我們分別在美國和香港進行了IPO,有了更多的錢,所以我們從2020年初開始,就開始來做整個技術的平臺化,像我們的自動駕駛的平臺AD Max 和AD Pro ,包括我們的座艙平臺SS,也包含我們整車的域控制器XCU ,再往後,我們還會去做模型和電機的碳化矽,這是我們演進的過程。
它是一個創業公司往上成長、資源有限的情況下,和資源增長以後,你分別去投資什麼的一個進展。
Q:喬布斯說,如果硬體是產品的大腦和肌肉,軟體就是靈魂,你表達的也是這個意思對嗎?
A:當然是了,我最開始創業的時候,投資人經常問我一個特別有意思的話題,就是憑什麼你能做出來。因為那時候我們還沒有產品出來,我當時講了一個重要的觀點,我說我會比傳統的汽車企業,更懂得怎麼做網際網路和大型軟體,我會比這些網際網路和大型軟體公司,更懂得怎麼去製造一輛車,這是我當時認為自己的優勢。
Q:理想同學以前是一個車機的個人助手,現在要進入手機,變成一個App,未來還會上更多的終端,那這意味著,你們一個電動車企業,要進入通用個人助手這場紅海戰役了,是這樣嗎?
A:如果我們是一家純硬體公司,是符合你剛才說的這個定義的,但就像蘋果不是一家只賣Mac的公司,所以它才有了後邊的可能性,今天的這些企業也不能以一個硬體來定義。
我們之所以去做很多的硬體,其實很多時候,是為了更好地控制硬體體系,以及效能再高一點點,但是大型軟體是不一樣的,不是所有人都能做作業系統,不是所有人都能做大型的雲服務,這個就變成一個更大的挑戰了。
回到人工智慧也是一樣的,今天你能看到幾百家電動車企業,是因為中國有非常完善的供應鏈,但是這幾百個企業裡邊,未來有哪些企業能去做基座模型?
Q:你覺得基座模型是一個分水嶺是嗎?
A:當然是。
Q:現在誰做了?
A:至少我們做了,至少我們一直在做基座模型,無論多麼難,而且這是非常堅定的,我認為基座模型是人工智慧時代的作業系統加程式語言,你就知道它有多麼重要了。
Q:它是一個新入口的可能性?
A:我覺得基座模型所構建出來的,是人工智慧的超級產品,是新一代的入口,它會在所有的裝置之上,會在所有的服務之上。
Q:理想同學從車機進入手機,這是一個戰略級的決定,還是你們只是想試試看?
A:我覺得沒那麼複雜,還是兩方面。長遠來看,在掌握基座模型前提下的,一個真正的大模型產品,一定是能夠去自主使用所有的裝置,會擁有所有的服務,這才是真正的人工智慧。
在使用者需求角度,很多理想使用者的孩子,第一個接觸的人工智慧產品就是理想同學,在和理想同學對話的過程中,幫助他們解決一些問題,比如用理想同學來畫畫,或者和理想同學聊作業......我們希望可以讓理想汽車的100多萬使用者,再加上這些使用者的家庭,大概300-500萬的人,不僅可以在車上,還可以在手機、電腦,甚至後邊還可以在眼鏡上,都體驗到一致的人工智慧產品,我覺得這是我們必須要做的。
相信有生之年,我們能實現人工智慧的第三個階段
Q:很多人說你是超級產品經理,能不能從產品的角度來講講,隨著人工智慧的能力演進,它的產品形態會發生怎麼樣的迭代?
A:我覺得做產品很重要的一點,是把使用者的需求和你所有的能力進行結合。
人工智慧AGI(通用人工智慧)實現到最終階段,我經常用三種方式來描述。第一個階段,叫“增強我的能力”,意味著其實它是我的一個輔助,但最後的決策權在我這裡。包括L3的自動駕駛,我們叫有監督自動駕駛,其實還是需要我在車上進行監督,和最後的兜底,核心的原因是,第一個階段能力還不夠,負責任的是我,所以叫增強我的能力,但它確實會讓我變得非常方便,讓我的效率變得非常的高。
到了第二個階段,就是智慧體所描述的一個階段,我稱之為“成為我的助手”,就是我只要給它發任務,甚至可以發連續的任務,它就可以獨立完成,並對結果承擔責任。比如我可以跟一輛L4的車講,你去幫我接孩子,我不需要坐在車上,它就可以到學校幫我接孩子,並進行面部識別開啟門讓孩子上車。這個階段比較好的是它會變成大規模的應用,是真正的iPhone 4的階段。汽車企業,只有實現了L4,才是真正的iPhone 4的階段,但今天還不是。
第三個階段是我想的AGI的終極階段,因為理想汽車的使命是“創造移動的家,創造幸福的家”,所以我稱之為“矽基家人”,就是我不需要再給它任何的指示了,我也不需要給它分配任務了,它就是我們的家庭成員,甚至是家庭重要的組織者,它不但瞭解我,它還了解我的孩子,瞭解我身邊的朋友,甚至比我還了解。
它會主動去幹很多事情,可以自主的衡量,幫我把這個家管理好。當AGI發展到第三階段,是我的矽基家人後,我覺得很重要的點是說,我的記憶也會被它得以延續,可能我的肉體不存在了,但是我的記憶會變成它的一部分。
我自己最興奮的一件事情是我認為,我和我們的團隊能夠在有生之年實現第三個階段。
Q:所以你怎麼看個人助手的戰爭呢,在這個紅海市場中?
A:我覺得今天還是非常初級的階段,大家還是要去拿AGI(通用人工智慧)的L3的門票,以及自動駕駛的L4的門票,由於我們在這兩個領域同時都做,我們還看到了一個更有意思,我們更相信、更堅定會去做的一個機會。
我們在做的理想同學和自動駕駛,按照行業的標準其實是分割開的,處於早期階段。我們做的 Mind GPT,其實是大語言模型,我們在做的自動駕駛,我們自己內部叫行為智慧,但是像李飛飛的定義,叫空間智慧。只有你真正大規模去做的時候,你才知道,這兩個之間,有一天一定會連在一起,我們自己內部叫VLA(Vision Language Action Model,視覺語言行動模型)。
我們認為,基座模型到一定時刻,一定會變成VLA。因為語言模型,它也要透過語言和認知去理解三維的世界,這個三維世界不是隻有圖片,因為它(圖片)並不能還原真實的物理世界,它需要真正向量的,用Diffusion(擴散模型)的方式,用生成的方式。對於自動駕駛也是一樣的,它真正能夠變得更強,走向L4,是它要有極強的認知能力,當這些東西發生變化的時候,它能夠有效理解這個世界,而不只是端到端背後的那些壓縮記憶,這是我們看到的一個變化。
所以我對團隊的要求,是至少在中國的範圍之內,未來幾年必須得保證,我們大語言模型的基座模型,要做行業前三。根據這樣的要求,需要什麼的訓練算力,我們都願意來投資,我們要真正去跟頭部企業去PK,去競爭。核心還是說,我們得把這個能力真正構建起來,而不只是在汽車行業裡比一比。
Q:如果資源有限,理想同學和智慧駕駛必須二選一,你放棄哪個?
A:我會減別的,不會減這兩個。
只要所有的中國企業不放棄,一切皆有可能
Q:你們會像馬斯克一樣做Robotaxi嗎?既做車也做Robotaxi。
A:我不想做,因為我們的使命是“創造移動的家,創造幸福的家”。
Q:那會不會Robotaxi到來以後就沒有人開車了呢?
A:我們為什麼要去構建一個家,我們為什麼要去買一所房子,是因為我們需要高質量的陪伴,我們需要為我們的家人創造一個穩定安全和舒適的環境。車也是一樣,我覺得實現L4自動駕駛以後,家庭用車也會變得更便宜,成本變得更低,所以我會相信另外一個方式,就是願意擁有一輛車的人會變得更多。
可能5年後,10年後大家重新來看,到底是Robotaxi成為了主流,還是更多人能夠擁有一輛自動駕駛的車,並且使用率很高,能夠為自己的家人朋友所享用是一個主流,未來幾年是個分水嶺。但我相信,當一個空間變得更好,效率更高,體驗更好的時候,我更應該擁有這個空間,這是我的感覺。
移動的家其實終極是L4,幸福的家是我剛才講的“矽基家人”。
Q:很多人在問,理想會做機器人嗎,特別是人形機器人?
A:機率上肯定是100%,但節奏不是現在。如果我們連L4級跟自動駕駛的汽車都解決不了,怎麼去解決更復雜的?因為車是個無接觸機器人,而且道路是標準化的,包括道路上的提示和參與者都是標準化的,而且每個人都受交通規則的訓練,我覺得這已經是最簡單的機器人了,如果車沒法實現,其實其他人工智慧機器人,還是非常有限的。
Q:理想汽車未來還會叫理想汽車嗎?如果它要變成人工智慧企業。
A:理想是一家人工智慧企業,我們要做的不是汽車的智慧化,而是人工智慧的汽車化,並將推動人工智慧普惠到每一個家庭。
我們的LOGO一直沒有把汽車兩個字寫上去,甚至今天我們的運營公司還是叫“北京車和家資訊科技有限公司”。但是硬體對我們非常重要,如果講我們的願景的話,一個更完整的稱呼方式應該是“連線物理世界和數字世界”,從而能夠成為領先的人工智慧企業。
Q:你的一個00後員工想問你,在當前不利的外部環境,特別是地緣環境之下,怎麼能成為一個全球領先的人工智慧企業呢?
A:它是成長的一個過程,不是直達的一個過程。我覺得做一個創業者,很重要一點是我們要看不同的階段。今天,哪怕我們做汽車不涉及人工智慧,我也沒有辦法直接講我會成為全球領先的汽車企業,所以我們要先在中國市場獲得第一,然後再考慮下一步,在受美國限制的以外的市場,能不能做成第一。
其實人工智慧也是一樣的。我給團隊提的要求是,我們到明年的時候,目標是要在中國的空間智慧領域成為第一,在語言智慧、大語言模型方面,以及所提供的服務方面進入到前三。團隊按照這個要求來制定自己的目標,構建能力,以及確定我們的組織和投資,我覺得這個節奏還是非常重要的。
再往後我們看到的機會是,我們如何把語言模型和空間智慧合成一個更大的VLA的模型,然後到了全面的Agent(智慧體)階段,以及到了L4自動駕駛階段,你所具備的能力,以及站在今天還要去看我們去搞什麼樣的研究,匹配什麼樣的組織,以及怎麼提前去準備一些投資,這是我們看到的解決方式。
Q:中國企業能成為全球領先的AI企業嗎?
A:我覺得一切都有可能,只要所有的中國企業不放棄,一切皆有可能。過去的時候,我們也認為全世界最好的汽車都是德國人制造的,但今天大家不再有這樣的一個觀點了,最好的智慧汽車都是中國企業製造的,是中國企業和特斯拉提供了全世界最好的智慧汽車。在人工智慧方面也是一樣的,只要我們不放棄,我們把所有的心思和精力用在去改變和投入這些能力上面,結果一定會變得非常的好。
體驗也是本身
Q:你為什麼買法拉利?它又不AI,又不自動駕駛。
A:我覺得體驗對我是很重要的,因為體驗也是本身,就像我做預訓練的一部分。我只有透過體驗,來看它到底是怎麼做的,經過我自己的體驗,它才能變成我的認知和能力。
Q:理想同學會上法拉利嗎?
A:我覺得如果我沒買法拉利之前,我會說我們永遠不會上法拉利,但買了法拉利以後,我認為這是一個可能性。我能想象到當實現L4的時候,大家一定會把車做成方盒子,裡面有非常好的空間,但是誰來滿足樂趣,想自動駕駛就自動駕駛,想自己開就自己開,但又是非常好的智慧車,人工智慧的車為什麼不可以?
所以我今天的想法是,可能到2030年的時候,我們會有50%的機率做一輛非常有趣的超級跑車,但它一定是人工智慧的跑車。
Q:你覺得法拉利這樣的車企應該擁抱AI嗎?
A:我覺得最重要的還是得繼續延續它了不起的設計,不受約束的設計,以及保持它的稀有。因為這些價值還是屬於它獨有的,我覺得哪怕到了下個時代,它應該還是會變成一個更好的法拉利,而不是變成一個科技企業,只是科技企業裡,也可能會出現有意思的車型。
理想汽車到底誰懂智駕?理想AI Talk訪談實錄02
理想智駕一號位的職業危機
張小珺:聽說李想對智駕發了很大的火,你怎麼還能留在這?
郎鹹朋:當時想哥說了一句很狠的話,他說郎博下半年如果我還看不到變化,咱們還是拿不到頭部位置的話,那你這個負責人就可以不用幹了。
張小珺:那次發火完之後達成了什麼結果?
郎鹹朋:我覺得大家就回歸的是體驗和使用者價值,重新把大家的思路聚攏了。我們是給使用者做一個有更好體驗、更安全、更便捷的產品,而不是說做一大堆什麼從指標上看起來挺好的產品。那次所有人心裡邊又重新回到從產品出發去做智慧駕駛,這是我覺得印象最深的一點。
張小珺:你們是那次之後開始轉的端到端嗎?
郎鹹朋:其實在想哥發火之前,我們內部的這個端到端的預研,已經在開展了。那麼從那一刻開始,我們端到端的速度就加快了。
張小珺:第一次試駕端到端是什麼樣的體驗?
郎鹹朋:我第一次試到這個車,從中關村開到了北京交通大學。開了幾公里我就問旁邊的賈鵬,這是規則還是怎麼做的?怎麼我覺得開得這麼好呢?他說一句規則都沒寫,全都是系統按照咱們給它的資料自己訓練出來的。
咱們開車都知道,如果前面有個車剎停的話,它是要緩慢減速,甚至還再抬起一點剎車,有這樣非常舒適的剎車過程。這個過程我們團隊在規則階段寫了很長時間的程式碼,都沒有達到一個完全擬人、解決所有場景的表現。
但我第一次試駕端到端,它的縱向就已經比之前試過所有的都要好的狀態,這才用了短短不到15天。所以我覺得那時候建立了一個信心,就是端到端一定能做出來。而且一旦它做出來,就一定會比現在所有的智慧駕駛軟體都要好。
張小珺:既然端到端是靈丹妙藥,為什麼去年不上?特斯拉去年就上了,你去年在幹嘛?
郎鹹朋:我們在等,等足夠的資料和算力,等到了我們就能上了。
端到端 VLM大模型其實最終的本質是用人工智慧來做自動駕駛。人工智慧的三個要素:演算法、資料和算力。這三個要素必須全都齊備。我們是今年是準備好了,所以我們能做這個事情。
理想AD Max 車型的銷量,去年起來了之後到今年初(高質量訓練)資料量達到10億(公里) 左右規模,這是一個基礎。第二是算力基礎,今年初我們算力也到了5EFLOPS。再加上第三步,就是端到端的一些預研也有一定成果,所以到今年初是天時地利人和,可以做這個事情了,去年我們還在補課的一個過程。
張小珺:為什麼很多企業的端到端是兩個模型,而不是One Model?
郎鹹朋:這個是演算法和理念的問題。我們要做端到端時就給自己定了一個目標,一定要用純資料驅動的方式來做這件事情,而不是結合了之前的規則來做,所以說它的效能上限會非常高。
張小珺:為什麼理想是端到端+VLM,不像特斯拉只用端到端?你們對自己的端到端不夠自信嗎?
郎鹹朋:不能這麼講,我們在做技術方案時充分參考了世界上所有的先進方案,但始終無法解決一個問題是,當一套自動駕駛或智慧駕駛系統,它工作時如果遇到之前沒有見過的場景,應該怎麼處理?我們認為就是端到端+VLM,就是系統1+系統2的方式,很好地模仿人類大腦的工作方式。
張小珺:如果智駕一號位想要推動智慧駕駛的投入,老闆會成為阻力嗎?
郎鹹朋:沒有,反而李想一直在催促我:郎博,咱們自動駕駛怎麼還是慢了?趕緊加快速度!
李想:要麼就做端到端,要麼就不再做自動駕駛。
張小珺:特斯拉沒有用鐳射雷達,你們為什麼要用?
李想:很多人不太理解說:為什麼要保留鐳射雷達,還是為了安全。是不是因為你技術不好?不是,中國和美國是不一樣的,如果你經常在中國晚上夜路開車,你會看到有尾燈壞了的大貨車、甚至可能尾燈壞的大貨車會直接停在主路上,至少我們今天的攝像頭,能夠在深夜裡沒有光線下看到的距離,其實只有100米出頭。
但是鐳射雷達,在沒有任何光線的情況下是可以看到200米的。這就可以幫助我們實現130公里/小時的AEB自動緊急制動。那我覺得這個是非常重要的,因為我們是個面向家庭的車,每個人生命安全都非常的重要,所以這是我們繼續保留鐳射雷達根本所在。而且後邊的車型仍然會保留。我相信如果馬斯克在中國,在深夜裡不同的高速開過車,他也會選擇把前面的一顆鐳射雷達保留下來。因為特斯拉對於安全同樣地重視,只是他要在這個環境裡來看到。
張小珺:理想激進的用只有一個模型的端到端,其他車企還在用兩個模型,為什麼?
李想:很多時候可能跟我們有一些比較好的外腦有關,像王興、陸奇博士,他們會給我們帶來很多啟發。有一次陸奇博士跟我們講,你們應該思考一下人是怎麼工作的?我覺得這個當時對我們幫助很大。
今年初我還逼著智駕團隊去美國,他們在不同的城市開FSD V12。另一方面我們研究工作也在進行,那時已經在發端到端+VLM的各種研究論文了。回來以後我覺得要麼你做這個,要麼我們就不要再做自動駕駛了。今天你靠這些規則上來做的,跟請個供應商做出來的東西有啥區別?沒有啥區別。
我說服郎博他們很重要的一點,我說你們經常解決了一個Corner Case(極端情況),又出現三個其他的Corner Case。你們一輩子都在解決Corner Case,解決不完。
張小珺:所以其他人不轉,是因為他們Corner Case解決得比你們好?
李想:有些企業Corner Case確實解決得比我們好,因為他會招很多的人,5倍、10倍的人,然後一個路口一個路口去解決。不但解決規則演算法的Corner Case,甚至還自己有地圖,去修地圖的Corner Case。
張小珺:過去兩年在人工智慧上,你有什麼哇塞Moment嗎?
李想:ChatGPT 肯定是了,其次我們內部還是有很多“哇塞”的。一個印象最深的是,我們決定啟動端到端並匹配好資源,準備好200人團隊,他們訓練了幾十版模型,第一版放到車上,當時郎博讓我們來試,我跟張穎(經緯中國合夥人)在北京研發總部正好就一起試了。張穎坐主駕我坐副駕,當時我就很驚訝:這一個月的訓練,比過去三年做的東西,進步速度要快!
張穎之前試過無圖NOA,當他試到端到端時發現這跟人很相似,甚至在一個路口,旁邊有輛車為了躲行人往我們這邊躲時,這個車也適時地避讓了。他問為什麼能躲那麼快?我說端到端響應速度快了好幾倍,因為他是個One Model,而不是經過4個步驟。
我們下一個大版本更新時,使用者可以在車上直接很清楚地看到端到端的工作方式是什麼樣的,視覺語言模型工作方式是什麼樣的,以及人工智慧到底是怎麼工作的。
有監督智慧駕駛不是L2的延續,而是L4的先導。
張小珺:大家都說理想做智駕是投入最晚最慢的,你怎麼看?
郎鹹朋:2018年1月我加入理想時,跟李想討論過這個問題。什麼才是決定最終智慧駕駛或自動駕駛實現的最關鍵因素?我們當時聊的就是資料。人才可以流動、演算法可以提升、算力也非常重要,但是隻要有健康的資金、合理的資金使用也是能買得到的。
那麼最重要就是資料,資料它是買不到的,必須自己有這樣一個非常高質量、規模非常大的資料,才可以做好自動駕駛。所以我們要按照節奏來做自動駕駛,剛開始我們要先把車造好、把車賣好,然後積累更多的資金、人才和資料,到了一定時間點再大量投入,去達到更好的自動駕駛的效果。其實從現在結果上也是能看出這一點的:我們自動駕駛的節奏是非常好的。
張小珺:什麼時候理想意識到,智駕對於賣車是有幫助的?
郎鹹朋:從實際表現來看是從今年開始的,今年智慧駕駛確實對於銷量有非常好的促進作用。我們2月AD Max的交付量佔比只到20%左右,然後到今年下半年超過50%了,這是實打實的業績。早期大家認為自動駕駛是一個功能,它跟座椅加熱沒有大的區別,並沒有解決使用者日常出行的舒適性。直到現在我們用AI來做自動駕駛,端到端+VLM真正解放使用者長時間的駕駛疲勞。當我們能達到綜合MPI(城市+高速綜合接管里程)100公里、幾百公里時,大家就真正願意為自動駕駛買單了。
張小珺:理想提出有監督智慧駕駛,跟自動駕駛L1到L5傳統分級有什麼區別?
郎鹹朋:這裡面其實體現我們對自動駕駛研發的思路差別。之前很多人認為L3自動駕駛是L2輔助駕駛的延續,只要把L2輔助駕駛的場景越做越多,總有一天能無限趨近於L3,甚至可能就能夠做到L3。
但在我們看來,L3或者有監督智慧駕駛,它並不是L2的延續,而是L4或者自動駕駛的先導程式。實際上我們是錨著未來的自動駕駛能力去研發、去成長和迭代的,而不是沿著過去一套用L2的思路,去做現在的自動駕駛。
張小珺:你說自動駕駛是能力、輔助駕駛是功能,兩者本質區別是什麼?
郎鹹朋:功能是預設條件,能力是應對所有條件。你不可能窮盡所有的預設。
功能的話,還是用上一代的這種軟體1.0方案來做自動駕駛。最大的問題是在研發之初,就要清晰地設定所有條件、所有邊界,以及最終確定性的結果。這在自動駕駛裡是非常困難的。
能力的話,是用人工智慧的方式來做自動駕駛。當我們把自動駕駛當成能力來開發,從最本質思考人是怎麼學會開車的。最開始人去駕校學習,掌握基本駕駛技能再考試。考完掌握基本能力之後,作為實習司機一邊實踐一邊提升能力,慢慢地成長為老司機。我們系統1+系統2的方案,讓自動駕駛系統擁有這種能力去迭代和成長,隨著資料量的增長,它會慢慢地讓效能隨之提升,這個就是大家經常說的規模效應。
張小珺:你們驗證了自動駕駛的規模效應嗎?
郎鹹朋:我們已經驗證出來了。這不是我們發明的,所有的大模型應用都符合這種規律,也就是說資料規模和資料質量的增長,會帶動效能的增長。而且效能增長是接近於線性的,這就是我們用大模型最本質的好處。
張小珺:有監督智慧駕駛階段,理想交付給使用者的產品長什麼樣?
郎鹹朋:全場景的、一體化端到端產品。要想實現有監督智慧駕駛,一個前提是實現車位到車位,也就是解決最前面一百米和最後面一百米。以前智駕是從幹道開始,現在可以從小區車位開始,然後包括園區道路、泊車、城市道路,還有高速和收費站ETC都會全部打通。
高速城市全場景升級端到端+VLM,以及創新的AI推理視覺化的互動,將在近期隨OTA全量推送給所有的AD Max使用者。
張小珺:L3什麼時候實現?
郎鹹朋:按照現在的端到端+VLM這套體系,能力繼續迭代的話,我們是有希望在2025年去實現L3的。
張小珺:面對李想年初對於智駕的發火,你的職業危機是什麼時候解除的?
郎鹹朋:我覺得到現在還沒解除,因為還沒有做到極致。我們的目標是今年綜合MPI(城市+高速綜合接管里程)做到100公里接管一次的能力。這個接管不是安全接管,不是說你要撞車了才接管,是使用者覺得車開得不符合體驗、不舒服的接管。到明年、後年,我們會逐漸提升至500公里、甚至1000公里以上。慢慢讓大家對智駕越來越自信、越來越依賴。
張小珺:要實現這樣的目標,需要儲備多少算力和資料?
郎鹹朋:要達到500公里的綜合MPI(城市+高速綜合接管里程),預計需要2000萬Clips(影片片段)的水平。如果2000萬Clips從不到5%的老司機去篩選,這裡隱含的資料量,要達到50億公里甚至上百億公里的水平。
電動車這場仗什麼時候能分出勝負手?
張小珺:你現在開車智慧駕駛佔比是多少?
李想:大概80%左右。
張小珺:剩下的20%是因為你們技術不夠行嗎?
李想:最主要是我趕時間。
張小珺:端到端是自動駕駛的制勝法寶嗎?
李想:我覺得端到端只能解決L3,解決不了L4。
張小珺:什麼時候可以100%用自動駕駛?
李想:給我三年的時間,它需要技術到位,也需要產品到位,也需要一些環境和政策到位,也需要消費者對於人工智慧的信任到位。
張小珺:電動車這場仗什麼時候能分出勝負手?
李想:現在中國的汽車仍然非常內卷。電動化和智慧化是兩場仗,電動化其實是相當於是一張門票,我認為L4會分出來真正的勝負。但是我們今天在做的所有事情,是為了L4拿門票,因為L4所需要花的錢,所需要擁有的能力,所需要的資料量,是今天所不具備的,所以今天大家要靠這個東西去拿L4的門票。
張小珺:拿L4的門票需要什麼條件?
李想:足夠多的車跑在路上。
張小珺:多少車?
李想:得500萬輛以上。第二你要真的自己掌握VLA(視覺語言行動模型)這個基礎模型的能力。第三,你要有足夠多的錢去招募最頂級的人才,以及足夠的算力,有這三個條件。
張小珺:當滿足這些條件且做到足夠優秀時,能做出一家像蘋果這樣的公司嗎?
李想:一定會的,一定會的。
李想,從天花板到瓶頸?理想AI Talk訪談實錄03
到Agent階段,才是真正的“iPhone 4時刻”。
張小珺:你第一次用ChatGPT是什麼時候,當時是什麼感受?
李想:釋出的時候就用了,當時一個最大的感覺就是,人工智慧應該有的樣子。
張小珺:如果讓你做OpenAl的CEO,你會比Sam做得更好嗎?
李想:不會,我覺得Sam Altman他們做得非常成功。
張小珺:如果現在讓你做OpenAI的CEO,你會做什麼?
李想:今天還是OpenAl定義的AGI(通用人工智慧)第一個階段:聊天機器人,我覺得OpenAl完全按照這個定義做了最好的產品體驗。第二個階段是推理者,到第三個階段Agent(智慧體)的時候,才是真正的“iPhone 4時刻”,普通老百姓都能用了,它能獨立地、持續地、連續地完成任務,而不需要靠密集的提示詞。但這時候產品應該是個什麼互動,對於所有的這些頭部企業,都是應該要認真去思考的。
讓人和Al之間的互動,像人與人互動一樣自然。
張小珺:為什麼一個車企要自研大模型?這個決策是怎麼做出的?
陳偉:這個事情也是逐漸達成共識的,我們當時已經把線上的關於自然語言處理的技術,切換到了預訓練的模式下,任務型對話能夠在車裡面,做車控、媒體、導航這樣非常多垂域的覆蓋,上面用預訓練的模式能夠快速高效地、高質量地完成這樣的能力。
2022年年底,ChatGPT釋出了,我們看到了大模型帶來的認知智慧和語言智慧上突飛猛進的變化,這件事情對我們來說是有非常大震撼的。我們內部也在想,為什麼我們沒有快速地考慮把這個模型架做得那麼高那麼大。
後來想哥就提了一個話題,他說現在我們應該回歸使用者體驗,核心的問題在認知智慧上面。那麼認知智慧這件事,我們就需要考慮怎麼把技術做升維,能夠用更厲害、更先進的技術,把理想同學的認知快速拉上來,把天花板拉高。這件事對於我們後面去做基座模型,我覺得是指引性的狀態。
所以我們必須要從基座,從底層開始建設,這樣未來我們在做更多技術創新的時候,產品和研發才能有更快速的迭代,體驗才能持續地去做創新,而不是隻做行業的一個平均水平。
張小珺:作為一個後來者,你們準備怎麼追趕ChatGPT?
陳偉:我覺得OpenAl現在是整個行業的標杆,除了目前OpenAl宣稱進入L2(推理者)以外,絕大部分的團隊現在還停留在L1(聊天機器人)這個階段。在這樣的一個狀態下,技術處於早期,而我們在做一個無限遊戲。探索邊界還不清晰的情況下,我們最重要的事情就是把握住目前的第一性原理Scaling Law(規模效應)。
我們的迭代也非常快,去年年底12月OTA 5.0之後一直到現在,Mind GPT 雲端的大模型已經迭代了30多次。
張小珺:Mind GPT 是怎麼迭代的?
陳偉:Mind GPT 到現在為止一共經歷了三代。
2023年4月,Mind GPT 1.0的第一版模型出來,到2023年年底的時候,我們車機的OTA 5.0釋出了這個大模型的上車,是行業第一家把大模型推動上車的公司,也是(汽車行業)首家透過國家大模型備案的。2023年年底上車的時候,其實已經經歷了第六個版本。
今年年中,我們完成了 Mind GPT 2.0的變化,對於我們演算法團隊來說,除了關注模型效果的提升以外,還要關注整個訓練效率和推理效率。Mind GPT 未來的模型架構,肯定會是一個MoE(混合專家模型)加Transformer的結構,會持續往前迭代,我們在MoE模型上線的時候,相較於 Mind GPT 1.0大概翻了一倍,但是推理成本跟 Mind GPT 1.0基本保持一致。這樣在效果和效率上,就達到了一個我認為是雙贏的局面。Mind GPT 2.0的重點在語言的理解和知識上,另外一塊是在長上下文上有了比較大的突破,也就是在邏輯推理能力上做了進一步的強化。
今年年底,我們會上線 Mind GPT 3.0,這是我們的第三代的 Mind GPT 的能力。Mind GPT 3.0相較於前面兩代的核心不同在於,以前我們的重點放在了語言模型上,但是我們認為未來的在人機互動的過程中,它應該是一個多模態的端到端的大模型,應該融合了整個人機互動的體系裡,像語音、視覺、語言這樣的模態進去,能夠理解不同的模態,然後能夠在一個模型內完成從感知到認知再到表達的完整能力。這樣的好處就是它能夠讓人機互動的延遲,從以前的比如說幾秒鐘變成可能500毫秒以內,這樣人和機器、人和Al之間的互動,就能像人與人互動一樣這麼自然。
張小珺:這是多大規模的資料量?
陳偉:我們現在的預訓練資料規模量已經到10萬億Token的規模了,有了高質量的課本知識以外,我們還需要給大模型提供一個由簡單到複雜、由粗到精的一個過程,讓它逐漸地一步一步去學習。所以我們在預訓練後訓練階段,也要構建一套分段學習的邏輯,同時在資料的構建上,我們要考慮怎麼能給它建立一套好的學習邏輯,所以現在重要的就是要儘快地把強化學習後訓練的事情做好。
張小珺:你們有一些特色化的資料嗎?
陳偉:第一個是多模態的資料,有自動駕駛的,也有理想同學的對話模態,這些資料是獨有的。第二個是使用者在產品裡自己使用的資料,代表了你的場景或產品本身場景的一些特性,這也是自己獨有的,所以我們也在構建自己的資料飛輪,爭取能夠把這些資料的能力進一步發揮出來。
不做人工智慧,我們就什麼都不是。
張小珺:理想同學跨越到L3(智慧體)的點會是什麼?
陳偉:對於邏輯推理來說,更重要的是做好子任務分解以後,還要讓它針對自己的思考方式去做更多的發散性思考,在每一個思考路徑上做出自己的反思,做到自我糾錯。甚至忽然間碰到死衚衕的時候還能回溯回來,所以我覺得這是一個非常強的思考能力。
我們的重心是希望能夠實現從L1 ChatBot(聊天機器人)到L2(推理者)的變化。我們定義L1有兩個核心的特點,第一個是能夠實現多模態,因為人就是能聽會看的,所以我們認為語音和視覺加入到大模型是非常關鍵的。第二個是指令遵循的能力,能夠聽得懂人在跟它講什麼,再複雜的命令也能聽得懂,並且能夠比較準確地執行。
所以支撐理想同學的技術,就是 Mind GPT 的多模態智慧體的技術,理想同學走到L3的時候,Mind GPT 應該長成的樣子,就是一個多模態智慧體。
張小珺:現在大家都覺得預訓練的Scaling Law(規模效應)達到了天花板,這對於中國團隊的影響是什麼?
陳偉:如果我們想做好後訓練,我們依然需要有個好的基座模型,因此我們依然需要去具有自己的預訓練的Scaling Law(規模效應)。
這件事情短期內會出現,會傳出來有些公司在模型做得更大以後,效果可能沒有想象中的明顯,但我認為這個可能還是一個從AI的演算法到Al的infra之間,目前的有些要待攻克的問題。
第二個點我覺得Scaling Law(規模效應)本身在解決的問題是模型的效果和資料和模型規模之問的關係。我們越來越覺得資料不只是規模的,需要有高質量的資料才能把規模做上去,才真正有價值。
所以這個過程中可能大家對於Scaling Law(規模效應)的看法也會有一個粗到精的過程,理解才能更深刻,但是我認為這個肯定會是大模型時代的第一性原理。
張小珺:第一次聽李想說他要做一個人工智慧企業的時候,你在想什麼?
陳偉:大家有一個充分的共識,AI技術是未來最大的機會。
我們內部做了非常長時間的關於AI戰略的討論,最後做決策主要基於幾點,對於使用者的理解,對於行業發展趨勢的判斷,對於市場,對於競爭,還有對於自身的分析。所以當我聽到這個訊息的時候,我覺得是一個自然而然也必將發生的事情。
而且想哥是非常堅決的,他說,如果我們要是在未來不做人工智慧,我們什麼都不是。
張小珺:你覺得理想汽車有這樣的技術基因嗎?因為你們的創始人並不是一個有技術背景的人。
陳偉:理想汽車創造的爆品背後的這種邏輯是因為我們推出的產品都是之前行業沒有見過的,有我們非常多的背後的技術創新,這些都是李想帶領團隊做出來的。
大模型時代來了之後,AI的從業者,大家對於技術這塊的認知和想法可能也都需要重構,包括技術棧也需要重新迭代。那麼我覺得大家對於這件事的認知都在同一個起跑線上,那就取決於學習的速度,而他恰恰又是一個學習速度非常快的人。在幾個月前OpenAl的o1推出之前,他當時跟我們說我們的重心不要只放在基座模型訓練上,要花更多的精力放在模型的後訓練這件事情上。OpenAl的o1釋出之後,其實整個的大模型的訓練正規化,跟他幾個月前的判斷是非常一致的。
競爭又有了新變化,這是這個世界的精彩和豐富之處。
張小珺:電動車不是你創業的終點,但現在電動車這場仗還沒打贏,什麼時候能打贏?
李想:並不存在打贏不打贏這件事。汽車企業發展的這麼多年,可能跟傳統汽車廠的競爭結束了,你會發現又有很多外來者。開始大家看到的是新勢力、特斯拉跟傳統汽車的競爭,後來華為進來了,小米進來了,競爭又發生了新的變化,我覺得這是這個世界的精彩和豐富之處。
張小珺:你覺得為什麼蘋果現階段放棄造車?
李想:我認為有兩個挑戰,第一是如果做汽車,蘋果的組織模式必須發生變化,因為汽車確實比手機更復雜。第二是如果你做規則演算法、知識圖譜,資料就是隱私,但是如果你真正做到了大模型階段,如果它變成了Token,就跟隱私什麼關係都沒有了,相反,它是解決隱私解決最好的一個方式。這些厲害的企業,都是一幫足夠聰明人,當他看明白、去擁抱Al的時候,可能比大家想象的進步速度要快得多。
張小珺:你怎麼看待小米汽車做出來了?你有給過雷軍什麼建議嗎?
李想:我說“你必須All in”,只要做到這一點,小米汽車就會成功。雷軍做硬體的能力非常強,這個沒什麼可質疑的,他不只是做車做好了,他的電視機、空調做得也非常好,這是他本身就有的優勢,而且他帶著那種發燒友的心態去做。我們跟小米關係也不錯,包括理想MEGA以後理想L6又很艱難,雷軍來幫我們站臺,我們都非常感激,幫了我們非常非常多。
我是理想產品的天花板,也是瓶頸。
張小珺:你是理想產品的天花板嗎?
李想:從0-1的階段,產品是由我來主導的,一是因為我對三排座的車有非常深的體驗,二是因為我沒有司機。對於產品經理來說,體驗的能力和體驗的範圍和深度是你的預訓練、你的基座模型,所以我是天花板。到1-10的階段,我就是瓶頸了,所以我們要升級,把體驗變成一個能力,讓他們去擁有。建立一個培養他們的體系,讓大家在上面能運營得越來越好,讓每個做產品的都比三四年前的李想更好。
張小珺:作為CEO,你其實喜歡高管和自己吵架是嗎?
李想:就像喬布斯講的那個故事,他的鄰居大爺拿著一堆石頭,放在一個機器裡,幾天以後拿出來都是非常漂亮的球。真正頂級的團隊,在做產品、做研究、做創造的時候,就應該是這樣的。我喜歡看到大家在吵架,讓這些可以跟李想吵一兩個月的人,吵得特別開心、結果特別好的人,變成大將軍,主導我們後邊的產品,這是我們想要的,也是這個階段必須要擁有的能力。
張小珺:作為產品經理,你最想討好的人是誰?
李想:我不想討好任何人。我覺得還是要去思考一些本應屬於使用者的價值,這些價值今天沒有實現,影響它實現的障礙到底是什麼?這是最重要的。比如大家都覺得電動車很好,但充電很難,這是全行業的難題,我們怎麼解決?所以我們有了增程,有了5C,有了自建充電網路。
它是個取捨,你得知道自己想要什麼。能夠像谷歌那麼剋制地變成一個搜尋框,像OpenAl那麼剋制地變成一個對話方塊,這需要巨大的能力,因為簡單所以豐富,不是因為複雜所以豐富,複雜就僵化了,這是我們解決問題的方式。
張小珺:你對產品瞭解更深,還是對技術能力認知更深?
李想:過去我們提供的東西叫功能,功能最主要的獲取方式是體驗,透過不同的產品,獲得不同的體驗,判斷功能的價值。人工智慧時代看能力,必須得搞研究,對技術方向進行有效的判斷,再搞技術研發,再產品化。
在最艱難的十字路口,看透本質是創始人最重要的能力。
張小珺:沒有上過大學,會讓你在社會中遇到更多挫折嗎?
李想:本質上沒有什麼挫折,它並不影響我去學習,並不影響我去獲取知識。唯一遺憾的可能就是,我的人生中缺少這麼一段大家都有的體驗,在這方面跟大家沒有共同的語言。
張小珺:你說你是一個敏感的人,這對於做CEO會有問題嗎?
李想:沒什麼問題,CEO有不同的型別的。每當在一個最艱難的十字路口的時候,創始人能不能看透本質,做出對團隊而言最好的選擇,並透過未來去驗證,這是最重要的一個能力。
張小珺:2019年是你最困難的時候嗎?
李想:我最困難的時候還是2008年5月,是真的會自己傷心到哭的程度。幾個小股東要把我和樊錚趕出公司,融錢也融不到,公司的現金流也完全斷掉了。當時要把我們趕出公司的是三個合夥人之一,我來北京的時候我們在林業大學租了個40平米的房子,一室一廳,白天工作,晚上甚至在一張床上睡覺。
後來我們和解了,他幫我獲得了最大的一次成長。他說如果你當時把這些困難跟大家說出來,我們願意把房子抵押了,來支援公司繼續發展下去,但是你並不給我們這樣的機會,你選擇自己死扛,而公司變得越來越差。那一刻我就做了一個巨大的反思。我從小受到的教育,就是你要對自己特別嚴格,甚至要對自己苛刻,你不需要對自己好。我選擇創業,就很難再去找一份工作了,因為學歷什麼都不行。
所以我就學到了兩個特別重要的能力。第一,要接受自己的優點,也能接納自己的不足。第二,如果有一些對我而言是致命的缺點,嚴重影響到身邊所有的人了,而且也影響到自己了,我肯定要改。如果從來沒有吃過糖,我怎麼給別人甜頭。
只有成長是我的慾望。
張小珺:你非常關注人的工作,最近有對人性多一層認知嗎?
李想:2024年,在人的方面,最大的收穫來自3000多人的校招團隊,比我們那代人優秀10倍以上,他們受最好的教育,心智也很成熟。在技術展示會上,AI相關產品有一半以上都是校招團隊做出來的,非常之驚訝。大家老是講一個時代過去了,我從他們身上看到一個新的時代開始了。
張小珺:你現在的慾望是什麼要做一個1萬億市值的企業嗎?
李想:1萬億市值不是我的慾望,只有成長是我的慾望。經營公司有兩件事情是最重要的,一是推出長遠有價值、有意義的產品和服務,要做判斷、要出題、要訓練、要投資。二是設定好有嚮往感、有意義的目標,目標是特別有效的管理方式,1萬億反映了對使用者的價值,也反映了行業地位,它不是空洞的,背後還有很多東西要去做。
張小珺:一個1萬億市值的企業需要具備什麼條件?
李想:如果不能實現L4自動駕駛,我們肯定不能邁入萬億俱樂部。後來者必須使用最先進的技術,提供完全不同的產品體驗。今天大家買車是為了開車,但未來不開車才是革命性的。一定要採用完全不同的商業模式,同時還有非常好的能力來支撐。技術、產品、使用者三個層面的高速增長,是最頂級的企業都具備的特質。
張小珺:如果理想沒有成為全球領先的人工智慧企業,會是因為什麼?
李想:我覺得一定是我們在綜合能力方面有缺失,包含研究、研發、產品、商業能力,當然也包含自身的造血能力,它是一場非常大的仗。我會全力以赴地確保我們成為全球領先的人工智慧企業,做好每一個環節。但是如果在我的有生之年沒有辦法實現,或者我們因為犯了巨大錯誤沒法實現,我也非常樂於看到有中國企業能夠在人工智慧方面做得非常好,實現人工智慧的第五階段,我願意為這樣的企業而鼓掌。