短短幾個月,ChatGPT的橫空出世點燃了眾人對科技的熱情,賦予千行百業(yè)更多遐想空間。
ChatGPT帶來的風也刮到了汽車圈,不少類ChatGPT產品均傳出在不久之后“上車”的消息。2月14日,集度汽車宣布旗下產品將融合百度文心一言的全面能力,支持汽車機器人實現自然交流的再進階;2月17日,毫末智行也宣布將其自動駕駛認知大模型正式升級為DriveGPT,計劃于2023年4月第八屆HAOMO AI DAY上公布進展。
ChatGPT的走俏讓智能網聯汽車駛向新風口。在類ChatGPT等人工智能產品的加持下,智能網聯汽車有望在車載語音交互和自動駕駛領域實現“再進化”。
企業(yè)競逐,ChatGPT吹響“上車”號角
當前,不少企業(yè)對ChatGPT摩拳擦掌,計劃面向汽車場景推出類ChatGPT產品,吹響ChatGPT“上車”號角。
集度汽車機器人
在2月14日舉行的集度“ROBOVERSE三里屯體驗中心啟動會上,集度CEO夏一平宣布,集度汽車機器人將融合百度研發(fā)的“文心一言”的全面能力,支持汽車機器人實現自然交流的再進階。
眾多關注人車互動的車企也在“擁抱”ChatGPT及相關產品。自2月17日起,長城、吉利、紅旗、零跑、東風日產啟辰、嵐圖、愛馳等多家汽車品牌紛紛官宣接入“文心一言”。造車新勢力小米汽車則在2月9日舉辦的投資日上談到了ChatGPT。小米汽車表示,ChatGPT基于AI大模型、千億級參數量、數據量、還有人工標注支撐,目前小米的汽車業(yè)務有很多AI大模型落地的場景。
作為一種更自然的語言處理工具,ChatGPT能夠通過學習并理解人類的語言來與人對話。在智能汽車場景下,這樣的應用也可以改變人與汽車的交互方式,使人與車輛進行更深層次、更高效的語音交互,為用戶提供更好的駕駛體驗。在夏一平看來,語音交互是車內最高效的交互方式,任何交互都沒有語音來得直接。
記者在2月20日探訪集度ROBOVERSE三里屯體驗中心時了解到,當前車內的語音交互更多是指令和機械命令。文心一言“上車”后,集度的車機系統(tǒng)能和人進行更直接的交流,將更符合人類的思考習慣,接近人與人之間的交流?;蛟S在未來的汽車上,類ChatGPT產品能通過講笑話給疲勞的駕駛員提神。
黃河科技學院客座教授張翔同樣認為,ChatGPT在以語音交互為代表的車載信息娛樂系統(tǒng)具備很大潛力?,F在很多車企的語音交互產品只能識別比較簡單的指令,ChatGPT“上車”后能夠進行更復雜的語音識別。
從更廣義的生成模型來看,類ChatGPT產品的“上車”也能賦予自動駕駛更多想象空間。中國科學院院士、清華大學教授歐陽明高在2月17日舉行的中國電動汽車百人會專家交流會上說:“ChatGPT的火熱將會對今年的自動駕駛行業(yè)產生深遠影響,解放很多測算門檻,加速這一賽道的全面提速?!?/p>
據悉,毫末智行推出的“人駕自監(jiān)督認知大模型”就借鑒了ChatGPT的實現思路,采用RLHF(人類反饋強化學習)技術,通過引入真實人駕接管數據,對自動駕駛認知決策模型進行持續(xù)優(yōu)化。
“ChatGPT是基于自然語言處理的預訓練大模型,所處理的主要是文本語料,基于文本序列來預測文本序列。而毫末智行的DriveGPT是一個基于大規(guī)模參數、大規(guī)模數據的自動駕駛認知大模型,主要用途是不斷學習人駕策略,當前主要通過云端測評方式來提高車端算法效果。”毫末智行數據智能科學家賀翔對《中國電子報》記者表示,基于大規(guī)模量產輔助駕駛系統(tǒng),可以從不同道路環(huán)境和不同交通流密度等場景中,積累大量更具多樣性的數據。
AI大模型是數據推衍和底層邏輯背后推手
在數據推衍和底層邏輯方面,ChatGPT和智能汽車身后都有一個共同推手—AI大模型。正如夏一平所言:“真正到ChatGPT時代,依賴的可能不是車,而是背后模型的能力有多強?!?/p>
在大模型技術超強的學習能力支撐下,類ChatGPT產品上車,重點是聚焦車載語音交互這一垂直場景,再進行技術應用。思必馳在車載語音交互領域深耕多年,目前在智能汽車領域的客戶已涵蓋上汽、北汽、理想、哪吒、博泰等國內頭部主機廠及Tier1 廠商。
思必馳智能車聯網方案
“大模型技術通過強化上下文理解能力、思維鏈推理,以及增強指令學習來實現持續(xù)學習?!彼急伛Y汽車事業(yè)部產品總監(jiān)葛付江對《中國電子報》記者表示,除了完成“導航去公司”這類固定指令的任務型對話,在進行日常知識交流和閑聊對話時,車與人的交流方式也會更高效、更直接,且具備高靈活度。
以ChatGPT為代表的大模型應用將人類整合、利用海量數據的能力又送上了一個臺階,這一基礎能力對自動駕駛同樣至關重要。
在賀翔看來,自動駕駛的真正實現,離不開基于數據驅動的AI技術方式。具體到當前,就是以Transformer為代表的大模型所驅動的感知、認知算法不斷進化,使得智能駕駛技術從低階、限定場景的輔助駕駛,邁向高階全場景的輔助駕駛,再升級為全場景完全自動駕駛。
隨著車端設備算力的提升,以及數據越來越豐富,經過訓練后的AI大模型將具備更強的自動駕駛能力。
“當前AI大模型正在廣泛應用在自動駕駛領域?!辟R翔告訴記者,基于視覺自監(jiān)督大模型,數據處理可以實現對多模態(tài)感知數據的大規(guī)模自動標注;基于3D重建大模型,可以實現數據生成,并通過仿真模擬極端場景來提升感知效果;在感知端,基于多模態(tài)互監(jiān)督大模型,可以完成一般障礙物以及通用障礙物的識別,更好地提升感知能力;基于動態(tài)環(huán)境大模型,可以更精準預測道路拓撲關系,幫助車輛更穩(wěn)定、合理地規(guī)劃行駛路線。
毫末智行宣布推出DriveGPT
賀翔以毫末智行“人駕自監(jiān)督認知大模型”DriveGPT為例對記者表示,該大模型在認知端引入了數千萬公里的真實駕駛行為數據做預訓練,使駕駛策略更加擬人化。同時還引入了司機接管數據來不斷修正駕駛策略,提升駕駛水平。
“漣漪效應”促進迭代,商業(yè)化路徑仍在探索
以智能汽車為代表,一些社會剛需或具備大量活躍用戶的應用,可以結合用戶交互體驗數據,反饋給模型后進一步提升模型的能力,在數據和模型之間形成正向反饋循環(huán)的“漣漪效應”,使迭代更新后的模型越來越強。
“ChatGPT的初步突破帶來的當前影響和未來想象空間是巨大的。”科大訊飛研究院執(zhí)行院長劉聰對記者表示,在技術演化的基礎上,以自然語言處理為代表的人工智能算法有可能重構互聯網和移動互聯網的產品形態(tài),促進教育業(yè)、醫(yī)療業(yè)、汽車業(yè)、金融業(yè)、消費業(yè)、媒體業(yè)、服務業(yè)和制造業(yè)等眾多產業(yè)的升級,最終帶來對應商業(yè)模式的變革。
目前來看,類ChatGPT產品在汽車領域的商業(yè)化路徑還處于探索初期。以車載語音交互為例,應用ChatGPT的費用高昂,至少包括訓練費用、對話使用費、硬件軟件費用等。成本也因此成為類ChatGPT產品在車載語音交互領域大規(guī)模商用的阻礙之一。
“成本確實會成為技術商業(yè)化落地的影響因素?!备鸶督瓕τ浾弑硎?,ChatGPT的研究需要巨額的資金投入和人才儲備,包括超算平臺、算法、數據等各核心力量支撐。目前來看,頭部平臺公司具備這方面優(yōu)勢??萍计髽I(yè)可以更多地從場景融合入手,開發(fā)應用級產品,尋求創(chuàng)新機會。
思必馳天琴車載語音助手核心能力
在車載語音交互領域,類ChatGPT產品如何在車內有限空間里發(fā)揮最大效用?葛付江認為,從商業(yè)化場景看,目前ChatGPT更適合用在基于一定背景知識的創(chuàng)作型產業(yè),以及“剛需”AIGC的場景和SOP(標準作業(yè)程序)行業(yè)。這一方面對算力優(yōu)化、云和端智能融合技術等方面提出挑戰(zhàn),另一方面也會推動相關技術向安全、對人有幫助的智能方向發(fā)展。
總體而言,ChatGPT“上車”后,車載語音交互的發(fā)展形勢仍不明朗。但可預見的是,在車載場景下,語音交互的形式將更加流暢,內容將更有價值。
“相關技術會向統(tǒng)一多模態(tài)交互發(fā)展,強化語音、文本、圖像等深度融合的多模態(tài)交互技術,形成‘汽車大腦’,以應對車內、公共空間等復雜場景的交互需求?!备鸶督f。
賀翔在談及大模型在自動駕駛行業(yè)的落地時表示,大模型具有參數規(guī)模大、數據訓練規(guī)模大,對算力要求大、成本高的特點,本身很難在終端設備上落地。在此背景下,自動駕駛行業(yè)需要解決三個問題:通過建設智算中心和優(yōu)化訓練效率,降低大模型的云端訓練成本;通過改進車端芯片、定制transformer專用加速芯片來提升計算效能;通過改進車端模型和輕量化模型來提升計算效率。
搭載毫末智行輔助駕駛產品的汽車行駛在高速路上
盡管面臨一些挑戰(zhàn),但在賀翔看來,大模型在自動駕駛落地的趨勢不會變化,只是需要分階段、分任務去解決相應問題和挑戰(zhàn)。
- QQ:61149512