轎車自動(dòng)行駛在高速公路上,路上的電路為車子引導(dǎo)方向,一家人圍坐在車內(nèi)玩著多米諾骨牌……一張上個(gè)世紀(jì)的老舊插畫描繪出人們對(duì)未來出行的憧憬:沒有堵車,沒有疲勞駕駛,能夠安心享受旅程。
這是有關(guān)智能駕駛的早期寫照。百年來,經(jīng)過自動(dòng)駕駛產(chǎn)業(yè)不斷的推進(jìn)與技術(shù)競速,汽車從馬力到算力,插畫里的出行畫面正在逐步被投射在現(xiàn)實(shí)生活中,成為當(dāng)下高熱度的發(fā)展趨勢之一。
這一變遷背后,技術(shù)突破與服務(wù)升級(jí),正在迭代更多智能駕駛場景。近年,由智能座艙、自動(dòng)駕駛及車路協(xié)同三大核心構(gòu)成的智能駕駛產(chǎn)業(yè)鏈,涵蓋了包括芯片、傳感器、大數(shù)據(jù)、算法、高精度地圖以及智慧交通等一系列軟硬件技術(shù),迎來引來傳統(tǒng)主機(jī)廠、造車新勢力、Tier1、半導(dǎo)體制造商、及海內(nèi)外科技龍頭公司如谷歌、阿里、百度等的參與。
尤其是在諸多科技公司的投入下,智能駕駛在越來越肥沃的技術(shù)土壤里變革成長,拋開硬核難懂的技術(shù)名詞不說,就大家當(dāng)下比較關(guān)心的如何用智慧語音改善使用導(dǎo)航應(yīng)用的體驗(yàn),如何提升汽車自動(dòng)駕駛的安全和智行能力等比較實(shí)際的場景落地問題,科技公司是如何用技術(shù)寫下注腳的?
#01
語音助手越來越像真人
大家日常行駛總會(huì)用到手機(jī)導(dǎo)航,享受一定便利的同時(shí)也會(huì)遇到一些麻煩,比如由于手機(jī)里軟件語音播報(bào)導(dǎo)航信息時(shí),總是識(shí)別不出用戶說的話。前段時(shí)間,筆者自駕去郊區(qū)也遇到了這樣的問題,臨時(shí)修改導(dǎo)航終點(diǎn),安全起見只能把車聽到路邊再操作。
行業(yè)專家對(duì)此也給出了一些專業(yè)解釋。百度語音首席架構(gòu)師賈磊表示,在世界范圍內(nèi),很長時(shí)間都沒有一個(gè)方案能普適的支持在手機(jī)上實(shí)現(xiàn)全雙工的語音交互,即在手機(jī)播放導(dǎo)航提示的同時(shí),能夠聽清用戶的指令,就像真人對(duì)話一樣,可以被隨時(shí)打斷,對(duì)新的語音指令給予反饋。因此,想要實(shí)現(xiàn)全雙工語音交互,必須先做回聲消除,避免手機(jī)終端識(shí)別自己播放的聲音。
不過,這一解決方案在前裝軟件的音箱、車載系統(tǒng)上比較容易實(shí)現(xiàn),可以通過硬件適配算法,提前保證回聲消除的效果。而手機(jī)App屬于純軟件后裝方案,需要讓軟件算法適配不同型號(hào)的終端硬件。而手機(jī)終端款式多,硬件參差不齊等因素疊加在一起,會(huì)導(dǎo)致聲音信號(hào)的回聲消除出現(xiàn)各種各樣的問題。再加上手機(jī)硬件的迭代更新非常速,回聲消除效果就更加難以保證了。
為解決手機(jī)場景下的回聲消除問題,百度融合傳統(tǒng)信號(hào)處理和深度學(xué)習(xí)模型各自的優(yōu)點(diǎn),基于語音識(shí)別目標(biāo),端到端地進(jìn)行回聲消除和信號(hào)增強(qiáng),解決了手機(jī)場景下的回聲消除問題:即使手機(jī)音量開到最大,回聲消除量也能達(dá)到40分貝,使得手機(jī)APP的語音識(shí)別功能能夠正常工作。
針對(duì)手機(jī)便攜性導(dǎo)致語音交互中面臨的音樂、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無關(guān)的信息干擾問題,降低語音識(shí)別難度,百度研發(fā)了基于SMLTA2的多場景統(tǒng)一預(yù)訓(xùn)練模型,一個(gè)模型解決噪聲、用戶口音和回聲消除殘余吸收等難題,在各場景下識(shí)別率相對(duì)提升超過20%,在業(yè)界同類技術(shù)中,準(zhǔn)確率最高。
在全雙工狀態(tài)下,除了能實(shí)現(xiàn)免喚醒詞連續(xù)對(duì)話之外,還有一個(gè)非常關(guān)鍵的技術(shù)突破,稱之為“拒絕反應(yīng)”,即讓導(dǎo)航能夠判斷出哪些話是針對(duì)導(dǎo)航的指令、哪些話是用戶在聊天。如果判斷某些話并非對(duì)相應(yīng)指令,它便會(huì)“拒絕反應(yīng)”,安靜聽、不插嘴。配合語音語義一體化的置信技術(shù),這一套方案可以降低錯(cuò)誤響應(yīng),并且支持交互過程中的引導(dǎo)和澄清,讓人機(jī)交互更像人與人的交流。
百度在手機(jī)端實(shí)現(xiàn)全雙工語音交互后,下一步將用到更多產(chǎn)品,同時(shí),語音產(chǎn)品產(chǎn)生的新數(shù)據(jù)也將促進(jìn)更多的創(chuàng)新,“人工智能獲得了眼睛、耳朵和無數(shù)其他感官,從而可以收集從來沒有過的新數(shù)據(jù),隨后使用這些數(shù)據(jù)推動(dòng)更復(fù)雜的流程自動(dòng)化”。正如百度創(chuàng)始人、董事長兼CEO李彥宏在《人民日?qǐng)?bào)》發(fā)表的《推動(dòng)新一代人工智能健康發(fā)展》文章中所說,人工智能正深刻改變著人們的生產(chǎn)方式、生活方式、學(xué)習(xí)方式,推動(dòng)人類社會(huì)迎來人機(jī)協(xié)同、跨界融合、共創(chuàng)分享的智能時(shí)代。
#02
讓自動(dòng)駕駛比人類駕駛更安全
提到一款車的智能程度,很多人首先想到的便是智能駕駛輔助和智能車聯(lián)系統(tǒng),也就是大家日常聽到的自動(dòng)駕駛。如今中國自動(dòng)駕駛產(chǎn)業(yè)不僅在技術(shù)和應(yīng)用上領(lǐng)先,在市場上的接受度也逐漸增高。
據(jù)市場調(diào)研機(jī)構(gòu)J.D. Power發(fā)布的報(bào)告顯示,中國消費(fèi)者對(duì)自動(dòng)駕駛技術(shù)信心指數(shù)達(dá)到了50分,遠(yuǎn)高于美國消費(fèi)者的36分,說明中國消費(fèi)者對(duì)自動(dòng)駕駛的接受度更高。隨著智慧的車和聰明的路越來越多,如何讓自動(dòng)駕駛比人類駕駛更安全是用戶關(guān)注的一大難題。
在自動(dòng)駕駛領(lǐng)域,傳統(tǒng)的圖像空間感知方法是將汽車上的雷達(dá)、攝像頭等不同傳感器采集來的數(shù)據(jù)分別進(jìn)行分析運(yùn)算,把各項(xiàng)分析結(jié)果融合到統(tǒng)一的空間坐標(biāo)系中,去規(guī)劃車輛的行駛軌跡。這個(gè)過程中,每個(gè)獨(dú)立傳感器收集到的數(shù)據(jù)往往受到特定視角的局限,經(jīng)過各自的分析運(yùn)算后,融合階段會(huì)導(dǎo)致誤差疊加,無法拼湊出道路實(shí)際情況的準(zhǔn)確全貌,給車輛的決策規(guī)劃帶來困難,繼而會(huì)引發(fā)出一系列安全問題。
近些年來,行業(yè)中提出了BEV(Bird‘s Eye View,視覺為中心的俯視圖)自動(dòng)駕駛感知方案。不同于傳統(tǒng)的方式,BEV自動(dòng)駕駛感知就好比是一個(gè)從高處統(tǒng)觀全局的“上帝視角”,車上多個(gè)傳感器采集的數(shù)據(jù),會(huì)輸入到一個(gè)統(tǒng)一模型進(jìn)行整體分析推理生成鳥瞰圖,能有效地避免誤差疊加;這種方案還能夠做到時(shí)序融合,不僅是收集一個(gè)時(shí)刻的數(shù)據(jù),分析一個(gè)時(shí)刻的數(shù)據(jù),而是支持把過去一個(gè)時(shí)間片段中的數(shù)據(jù)都融合進(jìn)模型做環(huán)境感知建模,時(shí)序信息的引入讓感知到的結(jié)果更穩(wěn)定,使得車輛對(duì)于道路情況的判斷更加準(zhǔn)確、讓自動(dòng)駕駛更安全。
即便如此,那些身處全球自動(dòng)駕駛技術(shù)第一梯隊(duì)的玩家并沒有止步于BEV自動(dòng)駕駛感知方案,比如百度在業(yè)內(nèi)提出車路一體的解決方案UniBEV,集成了車端多相機(jī)、多傳感器的在線建圖、動(dòng)態(tài)障礙物感知,以及路側(cè)視角下的多路口多傳感器融合等任務(wù),是業(yè)內(nèi)首個(gè)車路一體的端到端感知解決方案。
基于統(tǒng)一的BEV空間,UniBEV 車路一體大模型更容易實(shí)現(xiàn)多模態(tài)、多視角、多時(shí)間上的時(shí)空特征融合。百度借助大數(shù)據(jù)+大模型+小型化技術(shù)閉環(huán),在車端路側(cè)的動(dòng)靜態(tài)感知任務(wù)上都取得了領(lǐng)先的成績,在北京高級(jí)別自動(dòng)駕駛示范區(qū),通過對(duì)主城區(qū)路口進(jìn)行智能化升級(jí)改造,自動(dòng)駕駛在相關(guān)路口的問題發(fā)生頻率降低80%以上。
作為國內(nèi)自動(dòng)駕駛的頭部企業(yè),百度一直高度重視并全面布局車路協(xié)同自動(dòng)駕駛,先后參與多項(xiàng)相關(guān)國家標(biāo)準(zhǔn)制定,率先推出Apollo Air計(jì)劃,率先開源了全球首個(gè)車路協(xié)同數(shù)據(jù)集DAIR-V2X,并持續(xù)在全球范圍內(nèi)推進(jìn)L4共享無人車規(guī)?;瘻y試運(yùn)營。依托堅(jiān)實(shí)的AI技術(shù)底座,目前,百度自動(dòng)駕駛技術(shù)泛化能力進(jìn)步速度超預(yù)期,落地新城市技術(shù)交付時(shí)間僅需20天。
此前,百度還發(fā)布了Apollo自動(dòng)駕駛地圖,強(qiáng)調(diào)其具有知識(shí)增強(qiáng)、分層多維、為自動(dòng)駕駛而生的新一代地圖優(yōu)勢。目前,百度高精地圖構(gòu)建自動(dòng)化率已達(dá)到96%,大幅解決了應(yīng)用成本高的問題。同時(shí),為保障自動(dòng)駕駛高安全性,Apollo 自動(dòng)駕駛地圖融合車端感知數(shù)據(jù)與多源地圖,實(shí)時(shí)生成在線地圖,滿足自動(dòng)駕駛過程中實(shí)時(shí)更新的需求,確保自動(dòng)駕駛安全。此外,為提升自動(dòng)駕駛舒適性,Apollo自動(dòng)駕駛地圖基于百度地圖1200萬公里的領(lǐng)先路網(wǎng)覆蓋范圍及海量時(shí)空數(shù)據(jù),結(jié)合數(shù)億司機(jī)的駕駛知識(shí)沉淀,構(gòu)建全路網(wǎng)級(jí)別的駕駛知識(shí)圖譜。學(xué)習(xí)人類司機(jī)經(jīng)驗(yàn),用駕駛知識(shí)圖譜為自動(dòng)駕駛搭建進(jìn)步的階梯。
此外,備受關(guān)注的芯片,也成為自動(dòng)駕駛公司擁有自主可控技術(shù)的關(guān)鍵。百度方面透露,百度自研AI芯片昆侖芯2代已完成無人駕駛場景端到端性能適配,將持續(xù)夯實(shí)百度Apollo軟硬一體優(yōu)勢。組合拳出擊為中國自動(dòng)駕駛行業(yè)寫下最好的注腳。
#03
深度學(xué)習(xí)助力提升用戶體驗(yàn)
上述關(guān)鍵技術(shù)不斷持續(xù)提升的同時(shí),深度學(xué)習(xí)框架技術(shù)也在不斷取得突破。更直白的來講,百度自動(dòng)駕駛技術(shù)為了“預(yù)知未來”,需要把大量數(shù)據(jù)、以及數(shù)據(jù)之間的關(guān)聯(lián),構(gòu)建為一張“超大的圖”,圖的規(guī)模越大,那么一張圖里能表達(dá)的信息量就會(huì)更豐富。機(jī)器通過對(duì)圖中各個(gè)節(jié)點(diǎn)的分析,找到更復(fù)雜的關(guān)系,就可以實(shí)現(xiàn)一定的預(yù)測。例如,交通路網(wǎng)上兩個(gè)地點(diǎn),雖然它們?cè)谖锢砩喜幌噙B,但通過相關(guān)性建??梢园褍蓚€(gè)具有相似交通規(guī)律的地點(diǎn)關(guān)聯(lián)起來,從而構(gòu)建更具準(zhǔn)確性的預(yù)測。圖的結(jié)構(gòu)信息越豐富,相應(yīng)就能越好地建模交通規(guī)律。
百度架構(gòu)師胡曉光表示,百度地圖很早就上線了通行時(shí)間預(yù)估功能,這個(gè)功能背后的原理,是把路網(wǎng)中的路口和道路組成一張“交通圖”,基于這張“交通圖”,機(jī)器可以對(duì)交通路網(wǎng)的流量進(jìn)行精細(xì)建模,然后就具備了路況的預(yù)測能力。由數(shù)百億節(jié)點(diǎn)和數(shù)百億邊構(gòu)成的龐大圖對(duì)算法和算力都提出了巨大的挑戰(zhàn),基于規(guī)則的圖計(jì)算方法已經(jīng)無法完全適用,這時(shí)圖神經(jīng)網(wǎng)絡(luò)算法就發(fā)揮了關(guān)鍵作用,我們?cè)偻ㄟ^擴(kuò)大圖神經(jīng)網(wǎng)絡(luò)算法的參數(shù)量,對(duì)圖的特征進(jìn)行更完整的表達(dá),從而達(dá)到了模型越大效果越優(yōu)的極致表現(xiàn)。
當(dāng)然,數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模的增大,帶來了計(jì)算成本更高、訓(xùn)練穩(wěn)定性差、策略迭代周期長等一系列問題和挑戰(zhàn)。由此,基于飛槳平臺(tái)完成了圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的全新升級(jí),為業(yè)界帶來了超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)PGLBox。
PGLBox是業(yè)界首個(gè)同時(shí)支持復(fù)雜算法+超大圖+超大離散模型的大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù),通過顯存、內(nèi)存、SSD三級(jí)存儲(chǔ)技術(shù)和訓(xùn)練框架的性能優(yōu)化技術(shù),單機(jī)即可支持百億節(jié)點(diǎn)、數(shù)百億邊的圖采樣和訓(xùn)練,并可通過多機(jī)擴(kuò)展支持更大規(guī)模。PGLBox為百度業(yè)務(wù)創(chuàng)新提供了廣闊的空間,目前已經(jīng)在智能交通、信息推薦、搜索等標(biāo)桿場景實(shí)現(xiàn)落地,大幅提升業(yè)務(wù)效率和用戶體驗(yàn)。
技術(shù)改變生活,百度近年用技術(shù)為數(shù)字社會(huì)帶來的變革和發(fā)展先機(jī)不止于這三個(gè)方面,但可以肯定的是,隨著AI正在逐步成為新基建的技術(shù)“底座”,助力基建邁入“智造時(shí)代”,以深度學(xué)習(xí)平臺(tái)加上大模型為牽引的全行業(yè)智能化升級(jí)已拉開帷幕,在智慧生活的星辰大海里,智能駕駛,僅僅是一個(gè)開始。