座艙離線大模型的落地：選NPU還是GPU

時間：2023年07月29日 09:13 來源：蓋世汽車閱讀量：12781

剛剛聽了楊總的分享，其實跟我們很多在行業里面的觀點是一樣的。首先我們本身自己是一家初創公司，雖然也就出了三個產品，但是還能活到現在，這其實本身來說也是一個非常值得驕傲的一件事情。然后從這個過程中我們看到的是整個汽車行業的一個變化，大家經常在說黃駿你老是不務正業，正常的會你都不參加，然后正常的搞汽車你也不參加，你老是在搞這種奇奇怪怪的東西。比如說我們在21年跟微軟研究院，那個時候小冰還在亞洲工程院，開始搞AIGC。最近因為有些情況還不能透露，但是可以劇透一下，就是在成都車展的時候，我們跟微軟研究院有一個基于現在的這個主題“離線大模型在今天座艙業務上的落地”，這個也要感謝我們的合作伙伴高通，沒有高通的混合精度AINPU芯片，我們也不可能在離線端落地這樣的產品。

當然最近也有很多人在說，今天的大模型，因為國家有很多的政策，導致它不可能在像今天行業大勢所趨的“端云一體”的方向一樣，有很大的延展。我們就來看，今天如果我們想去將這樣一個模型落地在座艙里，先不說這個模型有什么用途，我們就看怎么卷效率才是最高的。我們大家都知道AI大模型目前在座艙里面有以下幾個用途，比如說像大語言模型，聊天機器人、數字人都依賴這項技術，包括引爆這次革命的ChatGPT、Meta開源的Llama這些大模型，以及谷歌最近也把BERT開放給大家使用。這些都可以在不同程度上減輕今天車企在座艙語音上的開發難度，因為它們本身已經具備很強的自然語言交流能力，對于本身不擅長在這個技術領域垂直業務深挖，只是在做整合上比較擅長的主機廠來說，這是一個非常大的一個利好。

可能很長時間來大家寫正則式的這個時代，從今天開始其實就要過去了。雖然有可能得罪各位做語音供應商的伙伴，但是很長久以來，今天在座艙語音上面，無論是今天用小模型也好，或者一些模態識別也好，大家更多的方案還是在寫正則式的方向上。另外，今天大家在座艙里提到非常重要的一個東西:多模態檢測模型。傳統來說的話，像理想有一個Top攝像頭可以識別手勢，或者是當有很多人在座艙里面時，可以支持表情這樣子的一些小模型，整個座艙里面已經非常成熟了。但是大模型時代一到，很多模型可以歸一化，比如說我可以在同時檢測你姿態，并且還能對瞳孔眼球進行一些追蹤等，它們共用的是一個模型，對算力消耗等都是有一個非常非常大的節省，并且大幅削減今天檢測模型的一些標注成本。

在座艙里面不得不提到今天跟ADAS非常相關的一個業務。很多人只認為就是所有的ADAS功能都是由ADAS閉環，實際上并不是。今天之所以不能叫Auto-pilot，而只能叫Co-pilot的一個很重要的原因就是人要為自己的行為負責任，不是機器為你的行為負責任。所以今天我們所有的ADAS都要告訴用戶，當前在什么樣的狀態下，車子是怎么樣理解今天的環境。所以座艙里面有一個很多用戶看起來會覺得說很多公司在耍帥的一個行為，但這恰恰是一個非常重要的交互環節，就是SR重建。

而今天對于SR重建以及360環視，大家的做法比較常見的，一個是坐標式對齊曲線運動方程，然后就是從ADAS控制器里把坐標等提取出來，然后在座艙里找一個3D引擎，無論是Unreal也好，還是Unity也好，或者Kanzi也好，把這個東西繪制出來。然后在360里面，絕大多數都是基于畸變標靶的紙杯合成環視。這些效果對于用戶來說可能現在是夠的，但是也有很多人詬病，為什么我今天在手機上或者是我今天在很多的便攜設備上，這些體驗完全不一樣。原因今天其實是基于像擴散網絡，包括現在很火的畫圖應用Midjourney都是基于擴散網絡一些應用。當ADAS控制器在感知上感知到了基于空間的占用坐標以及占用體積之后，其實在這些網格點上利用擴散網絡就可以實時生成今天的SR場景，而這些SR場景才能真正閉環今天用戶的需求，并且大大地降低今天座艙里的很多計算負載，不再需要使用對于GPU來說負擔很重的圖形引擎。并且在今天行業不成熟的形勢下，其實OEM很難找到非常好的3D圖形合作伙伴。我們之前找了很多游戲公司，但是游戲公司其實對于整個OEM的開發流程不太了解，因為它們沒有很強的業務使命感，而且我們這些業務量，可能對于一個游戲公司來說覺得這個錢根本不算什么。

知道了我們這些業務要做什么之后，就要看看我今天這些業務怎么做。其實剛剛后面兩塊已經有所體現到，無論是模態追蹤也好，還是SR感知也好，對實時性的要求都非常高。大家廣泛談論的大模型，在座艙里可以端云一體的應用，無非就是語言模型。語言模型肯定有好處，端云一體，云端服務接入很方便，改一個API我們就接進來了。行業可選的服務很多，可以選訊飛的、思必馳的、百度的文心一言、阿里千問。這個確實是目前我們所知道的行業在23年下半年一個主流選擇方向，并且云端的算力基本上是等同于無窮大。

在這樣子的一個環境下，還有另外一種思考就是跨域融合，或者是在汽車里使用大算力芯片。首先各行業都很卷，基本上到了下半年，25萬的車就會搭載像“8155”、“8295”，或者是Orin，都會配置在這個價位的車上。而像Orin這樣的大算力芯片，只用來做自動駕駛，真的對于一個汽車公司來說合算嗎？雖然NVIDIA的路川總也在，NVIDIA在絕大多數的場合做得對于自動駕駛的宣貫也好，闡述也好，當然NVIDIA在自動駕駛方面的確非常厲害。但是大家遺漏了一點，NVIDIA在語言應用上也是非常強大的。我們發現在Orin上面有專門的Riva模塊可以用來做聲音合成，并且這個技術是目前應用在 Open AI的Whisper AI上的。這樣子的技術其實是能加速大家在座艙里給用戶提供更好的聲音合成，并且提供更好的離線語音識別的。我們甚至實測過一個值，如果使用了離線端大模型的語音類算法，我們發現識別率幾乎跟在線不相上下，準確率趨近94%以上，延遲大大下降。因為今天無論我們使用多好的網絡，其實在這個網絡延遲波動上面仍然沒有非常好的一個解決解決方案。

今天的電子架構牽一發而動全身，因為跨域融合涉及的業務范圍非常廣，本身需要把一家汽車公司從原本的汽車電子研發推向IDC服務中心化的轉變。這樣子的話，汽車行業的研究重心就會由原本單純的控制器研發轉向今天研究路由交換、加密、傳輸以及負載均衡這些原本在云計算行業才會研究很多的領域。當然這些東西跟今天的AI主題沒有關系，我就不展開。

但是之后肯定會有人說我今天的車電子架構沒法動，怎么辦？那趕快就是做座艙芯片的升級，這個也是一個行業趨勢。最近可以看到像億咖通也在卷，都把比特斯拉座艙芯片算力還高的V2000搬上了汽車。我聽說之后還有汽車公司要在車上用V4000A加上賽靈斯算力非常強大的FPGA來做整個座艙的大模型業務落地。云端的一個好處就是它對隱私有非常好的保護，這也是今天手機行業在嵌入式語音助手，這個大家會比較多談起來的話題，在去年的WWDC上，蘋果首次去對外宣稱所有的Siri資源，無論你問Siri什么樣的問題，除了對接數據員會訪問網絡以外，所有的處理在哪里進行呢？

有了這樣兩派路線之爭后，就到了今天我要分享的一個核心，就是在座艙里面如何選擇行業里面的兩大主流陣營，就是選GPU還是NPU。其實說到這樣專業的一個領域，不可避免地要提GPU陣營的英偉達，原因就是今天無論大家做什么樣的AI業務，CUDA的生態一定是目前最完善的，并且在整個行業浪潮里面，黃教主一直在推動整個行業往艙駕一體的方向去發展。所以這個也比較符合今天跨行業像 Game Console以及一些其它智能終端的發展方向，畢竟汽車整個行業的業務規模并不大，但產值很大，因為它拉動的供應鏈體系以及零部件體系非常的龐雜。但是對于計算業務來說，業務量其實是遠遠小于今天行業上面出貨量非常龐大的像消費電子、游戲主機。今天在這些業務的推動之下，艙駕一體必然是行業方向。選GPU方向的一個好處就是，今天自動駕駛這個體系我不會輕易的去觸碰，因為整個自動駕駛的軟件棧的研發占整個公司總研發成本的大頭，而座艙本身其實對于公司來說更像APP開發，更多的就是像我開發一堆內容的附屬。所以這個肯定會是今后絕大多數對成本以及效率有追求的主流公司的一個首選。

另外還有一個方向，就是嵌入式NPU的開發。如今有很多的汽車在路上跑，我總不見得說這些用戶就都拋棄了，這樣子的行為其實對于用戶來說是很不負責任的，并且GPU的功耗目前來說對于整車功耗來說還是比較大的。例如，一些車子停靠之后需要保持一些AI服務，比如說用戶比較追捧哨兵模式，還有一些碰撞之后的數據脫敏，這些服務如果依賴超高功耗的GPU來做的話，今天有多少電都都不夠。所以在NPU開發上，今天很多 OEM也必須去布局，并且整NPU的嵌入式框架的移植和Coding將會成為一家 OEM在AI業務投資以及單車收效比上非常重要的、起決定性作用的一個組成部分。

如果說在這一塊業務上做得不好，就會導致單車的硬件成本居高不下，需要堆很多的物料才能把同樣的功能推向消費者。這個做得好的話，硬件成本相較其它同行競品來說就可以大大降低，而主要的成本就可以放在軟件上。對比同樣功能的軟件，這就可以實現盈利，軟件盈利并不一定是要賣給用戶一個軟件服務。

最后我想分享一下我們對行業的一些觀點。AI大模型在智能汽車領域推廣之后，其實會有三個必然趨勢。一，算法歸一，這個怎么理解？今天無論是使用Transformer模型，還是像一些公司從Transformer模型向ReCoNet模型去做轉變，因為ReCoNet在效率上面可能比Transformer更好，但是它的算法層面跟Transformer的相近。很多目前在做Transformer模型的工程師可以迅速地轉到這一項業務上去。

今天無論是語音也好，還是自動駕駛也好，在汽車上面的業務其實都要高屋建瓴。不像醫療，其實它專注的是準確率和必然識別的目標檢測，所以在醫療領域沒有人說我今天能推Transformer，因為Transformer看就是霧里看花，而傳統CV就是在像素點里摳針眼。這樣子的話一定會推動整個算法語言以及視覺多模態融合，車上只會有一個AI計算模型，也會推動像今天的域控制器架構從業務域往功能域的方向發展，像現在大家都說座艙域、自動駕駛域，車身域是不是以后就會變成控制域、AI域以及傳輸域。

然后另外就是消費者信心。今天因為很多業務在用很多的小模型進行串聯，這些小模型之間的串聯導致了巨大的Common Case需要給產品經理，產品經理需要花大量的時間去對每一個Common Case進行分析，去重新再做排列，再做規則，這樣子用戶的獲取成本是非常高的。很多用戶排斥自動駕駛的原因就是因為，在使用了第一次高階輔助駕駛功能之后，發現退出非常多，企業非常糟糕、非常嚇人，用戶再也不用這個功能了。當這些大模型逐漸的推向市場之后，Common Case的減少必然伴隨著很多后起之秀，不會再有初見殺給到用戶，這樣用戶的粘性也會大大的提高。

最后就是算法開銷會和今天算力達到一個平衡，最好的例子就是今天的特斯拉。有情報的公司都已經知道，Highlight的車型上面會推HW4.0。而伴隨著HW4.0，特斯拉會把所有的攝像頭升級到500萬。為什么特斯拉沒有選擇像主流車廠選擇的800萬，可能第一點是我們今天的供應鏈體系跟特斯拉不一樣。第二還有一個點就是，特斯拉的算力平衡，跟它今天的120萬像素的攝像頭是非常好的一個匹配，它只要使用它的144Top的算力，就足以完美的使用120萬像素的攝像頭了。而今天升級到500萬之后，把算力再推高4倍，都是平滑升級，它的傳感器和它的計算單元同時推，把自己的性能推高4倍。也不去浪費，不像行業里面的一種說法，就是我可以感知很垃圾，但是我要把算力堆得很高，其實這是沒有多大意義的。

今天我那個分享可能比較枯燥，謝謝各位。

聲明：以上內容為本網站轉自其它媒體，相關信息僅為傳遞更多企業信息之目的，不代表本網觀點，亦不代表本網站贊同其觀點或證實其內容的真實性。投資有風險，需謹慎。

分享到微信