7月5日消息,理想在今晚的智能駕駛夏季發(fā)布會(huì)上宣布,正式啟動(dòng)端到端+VLM的早鳥計(jì)劃。
據(jù)介紹,端到端大的特點(diǎn)就是取掉了NPN,不依賴于先驗(yàn)信息,可以真正實(shí)現(xiàn)全國都能開,有導(dǎo)航就能開。
端到端模型則更進(jìn)一步,通過傳感器將數(shù)據(jù)輸入模型,就能直接輸出行駛軌跡。
通過車內(nèi)的端到端和大模型部署,可以讓自動(dòng)駕駛快速處理,延遲更低、上限更高,用戶所能感受到整套系統(tǒng)的動(dòng)作、決策更加擬人。
VLM則是視覺語言模型,整體算法架構(gòu)是由一個(gè)統(tǒng)一的Transformer模型組成,將Prompt(提示詞)文本進(jìn)行Tokenizer(分詞器)編碼,然后將前視120度和30度相機(jī)的圖像以及導(dǎo)航地圖信息進(jìn)行視覺信息編碼,通過圖文對齊模塊進(jìn)行模態(tài)對齊,統(tǒng)一交給VLM模型進(jìn)行自回歸推理。
VLM輸出的信息包括對環(huán)境的理解、駕駛決策和駕駛軌跡,并傳遞給系統(tǒng)1控制車輛。
VLM會(huì)時(shí)時(shí)刻刻思考當(dāng)前的駕駛環(huán)境,給系統(tǒng)1合理的駕駛建議,同時(shí)系統(tǒng)1也可以在不同場景下調(diào)用不同的Prompt問題,主動(dòng)向系統(tǒng)2進(jìn)行求助,幫助系統(tǒng)1解決部分場景。
簡單來說,VLM可以讓車輛具有思考能力,讓自動(dòng)駕駛的操作更像人類老司機(jī)的處理方式。
本文鏈接:http://morphism.cn/news3868.html理想正式啟動(dòng)端到端+VLM的早鳥計(jì)劃:讓自動(dòng)駕駛成為老司機(jī)