發布時間:2023-09-25 10:40:31
序言:作為思想的載體和知識的探索者,寫作是一種獨特的藝術,我們為您準備了不同風格的1篇人工智能技術在自動駕駛領域的應用,期待它們能激發您的靈感。
生成式人工智能,一種基于神經網絡模型實現內容生成的技術,近年來受到業界以及學術界廣泛的關注。隨著該技術在各領域應用的不斷深入,基于生成式人工智能的大模型對自動駕駛領域的技術方案變革也帶來了巨大的影響。本文對生成式人工智能技術與大模型的發展脈絡進行梳理,包括其分類方式和代表性模型,并對生成式模型在自動駕駛領域的應用進行深入分析,最后,對生成式人工智能技術及自動駕駛技術的發展方向進行總結和展望。
關鍵詞:生成式人工智能;大模型;自動駕駛;
1前言
現代人工智能技術的快速發展受益于海量標注數據的生產和計算能力的提升。其以深度學習作為核心技術,深度學習[1]的概念最早在機器學習領域提出,后推廣至人工神經網絡技術領域。Transformer模型[2]的提出是現代人工智能技術的里程碑式節點,該模型能夠保證充足數據分辨率,同時實現高精度數據擬合,廣泛應用于生成式人工智能模型。生成式人工智能技術通常包括一個基于大規模數據訓練的監督網絡模型(如Transformer模型)和一個生成器模型[3],前者的主要功能是實現從任意類型的輸入到潛在高維數據空間的映射,后者以無監督學習、半監督學習或監督學習的方式進行優化,并通過啟發式的行為以固定的方法論實現內容的生成。自動駕駛技術是近年來備受關注的汽車技術發展方向,面向復雜的場景,要求車輛實現對環境的正確理解,同時做出最優的決策。該技術發展的初期,以激光雷達和高精地圖作為主要輸入,視覺和專家系統為輔助手段。隨著人工智能技術在智能駕駛領域的應用,Waymo、Cruise、百度等公司通過模型完成動態障礙物的實時檢測,配合高精地圖提供的道路結構、車道線和交通標志等靜態信息,實現更有效的智能駕駛。目前,大模型逐步突破技術壁壘,成為自動駕駛感知的主流范式。2021年,特斯拉提出的“BEV+Transformer”的技術方案,首次引入重感知、輕地圖的自動駕駛解決方案[4]。2022年,特斯拉再次提出基于占用網絡(OccupancyNetwork)的技術方案,開啟大模型在自動駕駛領域應用的新篇章[5]。此外,基于生成式人工智能技術,令長尾問題的場景數據可以通過模型主動生成,解決自動駕駛面臨的長尾問題,提升算法的可靠性,為自動駕駛的升級優化提供保障。
2生成式人工智能技術
生成式人工智能模型的輸入和輸出數據主要包括文本、圖像、三維結構、視頻、音頻和代碼等。根據數據的映射關系,模型可分為7類,如圖1所示。生成式人工智能技術可以實現多模態數據間的相互映射,根據用戶需求輸出內容。其中,文本—文本、文本—圖像、本文—視頻和圖像—文本4類模型是能夠為自動駕駛領域帶來顛覆性技術革新的生成式模型技術。文本—文本模型以文本數據為輸入,生成新的文本數據,是常見序列化數據模型之一,多應用于自然語言處理技術,如語言翻譯、問答任務系統等。文本—圖像模型以具有提示性的文本數據作為輸入,輸出滿足對應需求的真實圖像數據。該模型可實現不同屬性、不同風格信息的輸出。OpenAI提出的DALLE2模型[6]、Drawbench公司開源Imagen模型[7]及由慕尼黑LMUCompVis小組開發的StableDiffusion[8]和Muse[9]均為具有代表性的模型。文本—視頻模型通過文本數據生成連續的圖像序列。Google開源的Phenaki[10]與Runway開源的Soundify[11]屬于此類模型。圖像—文本模型可以獲得描述圖像的文本,是文本—圖像的逆映射。Deepmind創建的視覺語言模Flamingo[12]是其代表性模型之一,通過小樣本學習策略實現,具有靈活性強、可執行多模態任務等優勢。該模型利用2個互補的模型實現:分析視覺場景的視覺模型與執行基本推理形式的大型語言模型。通過無縫攝取圖像或視頻交織的文本標記序列,轉換為文本數據作為輸出。OpenAI提出的圖像字幕模型VisualGPT[13]是現階段最優秀的圖像—文本模型之一,其通過預訓練語言模型GPT-2實現。為了彌合不同模態之間的語義差距,特別設計了具有不飽和門控功能的編碼器-解碼器注意力機制。該模型的最大優勢在于,它無需其他圖像—文本模型的大規模數據,具備小樣本學習能力。
3生成式人工智能與自動駕駛技術
隨著生成式人工智能技術的發展,基于該技術衍生的大模型在自動駕駛領域受到廣泛關注[14]。基于生成式人工智能的大模型在自動駕駛中規控模型的應用將成為未來產業新趨勢[15]。Waymo通過生成式人工智能技術構建世界模型,通過大模型實現自動駕駛領域的整體功能集成[16]。同時,該公司提出基于自動駕駛模型與自然語言處理模型結合的技術方案,通過模型以可理解、人機互動的流程方式,達成清晰有效的溝通,進一步增強其結果的可解釋性。
3.1面向自動駕駛的數據閉環與自動標注
由數據采集、數據挖掘、數據標注和模型訓練環節組成的數據閉環系統是自動駕駛廠商必須具備的基礎技術能力。當下,隨著高速智能導航輔助駕駛、城市導航輔助駕駛以及城市智慧領航功能等技術的不斷推進,自動駕駛公司或整車制造商數據量逐年增長,甚至達到拍字節(PB)級別。與此同時,數據生成的速度較快(以dSPACE公司的數據生產為例,4K800萬像素的攝像頭、激光雷達、毫米波雷達等傳感器同時工作,每秒的數據生產量為40GB),使用方的數據處理能力面臨極大的考驗。由此可見,如何實現數據利用的最大化是提升自動駕駛方案穩定性的關鍵問題之一。
3.1.1數據采集與挖掘技術
為保證自動駕駛場景下采集數據的質量,提升駕駛模型性能,算法采用特定的觸發機制實現數據的收集與上傳。其中,觸發機制包括人工干預自動駕駛、特殊場景(近距離跟車、并線以及明顯的光照變化等)。特斯拉公司在2022年AIDAY上表示其擁有221種觸發機制[17]。為了能以最精簡規模的數據集對模型進行訓練,有效的數據挖掘技術不可忽視,其核心目的是從收集的海量數據中提取有效數據,過濾無效數據。傳統的模型采用基于標簽的方式實現,僅能實現固定類別的分辨,缺少更深層次的特征提取。基于生成式人工智能技術,采用圖像—文本模型即可實現,用模型生成的描述檢索圖像的有效特征,實現更高效的數據挖掘。基于現有人工智能技術,當前數據挖掘方案逐漸以大模型為主。目前,國內外主要汽車公司和自動駕駛公司等均致力于開發基于大模型的數據挖掘技術。
3.1.2數據標注技術
傳統的數據標注技術仍以人工標注為主,人工成本高、耗時長,速度遠遠低于原始數據的生產速度,數據應用面臨瓶頸。此外,由于標注人員對標注內容的理解不一致,存在標注數據可靠性問題,因此數據的二次檢驗仍需要較大的工作量。生成式模型的顯著優勢在于,主動理解視頻內容進行自動打標簽,并形成產品化管理,提取高價值場景并自動篩選。與人工標注的方法相比,基于生成式模型的標注方法速度更快、精度及標注結果一致性更高,能夠實現更加全面的標注。小鵬汽車推出的全自動標注大模型的執行效率相比于人工標注提升約45000倍,即大約16.7天可實現2000人/年的標注工作量[18]。毫末智行科技有限公司(以下簡稱毫末智行)提出的視覺自監督大模型[19]可實現100%的4DClip自動標注,降低約98%的標注成本。商湯科技絕影在自動駕駛產品的感知任務開發過程中的標注均基于大模型實現[20],相比人工標注的方式,相同數量樣本的標注周期和成本都可以縮減90%以上。
3.2面向自動駕駛的一體化大模型
現階段,基于人工智能的自動駕駛方案多采用模塊化設計思路,即感知、預測、規劃等子系統獨立實現功能。盡管模塊化能夠簡化研發人員的工作流程,提供高效的問題回溯、調試及更新接口,但各子模塊間的信息仍缺少有效傳遞,無法保持模塊之間的優化通道。對此,開發面向自動駕駛系統的多任務一體化大模型是提升整體算法性能的有效方案。目前,學術界和工業界均對一體化多任務大模型的方案進行了深入研究。英偉達(NVIDIA)公司在2016年即提出了基于端到端模型的自動駕駛系統,Uber也在該領域發表了較多的學術研究成果[21,22]。為了使自動駕駛車輛通過平臺“理解世界”,英國Wayve公司也創立并發表其端到端的自動駕駛方案。同時,特斯拉公司“FSDMETAV12”版本系統將采用端到端的自動駕駛模型。商湯科技與上海人工智能實驗室、武漢大學聯合提出首個集感知決策一體化的端到端自動駕駛大模型UniAD[23],并指出限制自動駕駛模型性能的根本原因在于任務的獨立拆解,無法保證豐富的高維信息的提取,由此提出了以最終任務為導向、多模塊聯合優化的端到端自動駕駛方案。UniAD充分發揮數據驅動的系統性優勢,達到感知、預測、決策多個任務結合的最優解,將生成式人工智能大模型充分融入任務的場景理解。
3.3面向自動駕駛模型的可解釋性問題
自動駕駛模型的可解釋性是提升其性能與優化迭代速度的重要前提。深度學習技術的最大痛點之一是其過程完全隱藏于“黑匣子”中,缺少明確的可解釋性,即使用方無法根據深度學習模型輸出的結果逆向推導其原理。基于生成式人工智能技術的自動駕駛模型在其理解及決策過程中,可以某種方式輸出(例如文本)理解過程及決策原因,即結果誤判時,可快速地查找對應的原因。受益于啟發式的自監督強化學習技術,自動駕駛模型可進一步逆向對自身進行優化和調整,實現模型的自動迭代。
3.4面向自動駕駛場景的生成模型
長尾問題包括各種零碎的場景、極端情況和無法預測的人類行為,是自動駕駛系統面臨的難題之一[24]。該領域現有的人工智能技術大多是用人工采集標注的數據集訓練。由于實際數據為復雜場景,人工標注通常無法包含全部場景的數據信息支持,從而降低模型的魯棒性。通常,自動駕駛模型發現車輛行為存在邊界情況時,需要補全額外的數據,對模型參數進行優化。實際上,該方法一定程度上令長尾問題的場景復現難度過大,無法保證數據采集的有效性,導致采集效率低下。同樣地,雖然傳統的3D建模可實現虛擬場景仿真,但由于建模機制不夠完善,無法保證生成場景數據的質量,進而使生成的場景數據無法有效支持模型優化。通過生成式人工智能技術,如文本—圖像,文本—視頻生成模型,可通過對其模型的優化與訓練實現近似于真實場景的仿真數據的生成[25]。同時,上述生成式人工智能技術可通過其強大的數據映射能力實現場景數據的快速變換,為自動駕駛模型的快速優化與迭代提供最基本的前提保障。
4面向大模型的云端算力與芯片架構
同早期人工智能技術相比,基于現代生成式人工智能的大模型的主要區別在于模型參數和數據的提取方式。其中,模型參數的大幅增長提高了對云端算力的需求,數據相關性提取方式的改變為計算芯片架構提供了新的設計導向。
4.1面向大模型的算力需求
大模型技術已經逐步應用于各大汽車制造商和自動駕駛公司的產業化項目[26]。特斯拉2022年AIDAY表示訓練其模型需要14億幀圖像數據。Momenta公司提出要實現L4級自動駕駛的產業化[27],自動駕駛系統達到人類的安全水平甚至比人類安全水平高一個數量級,至少需要千億公里的數據訓練、測試與驗證。
為使模型能夠在海量數據中實現快速訓練,提升計算資源成為各大汽車廠商與自動駕駛公司亟需解決的首要問題[28]。基礎設施建設方面,特斯拉在2021年和2022年分別擁有約1萬塊和1.4萬塊圖形處理器(GraphicsProcessingUnit,GPU),預計2024年將擁有等效10萬塊NVIDIAA100GPU的算力資源。2022年8月,小鵬汽車成立自動駕駛AI智算中心“扶搖”,具備60億億浮點運算能力。此外,國內其他公司包括吉利汽車、毫末智行、智己汽車、百度和商湯科技等也都完成了算力的積累,如表1所示。
4.2面向大模型的芯片架構
基于現代生成式人工智能技術的大模型需要大量的計算資源,如何實現海量計算資源的最大化利用是汽車制造商、自動駕駛公司和芯片公司面臨的另一難題。前文提出,大模型多是基于Transformer實現的,內部采用的是記憶力機制單元模塊。不同于基于傳統神經網絡的人工智能模型(如卷積神經網絡、循環神經網絡),Transformer在提取數據之間的相關性過程中存在更多的訪存密集型算子。因此,為提升大模型的運行效率,芯片的架構需進行針對性改進:a.運算精度要求。Transformer的建模是通過不斷加權映射實現,因此,對芯片的運算精度存在一定的要求。現階段,面向人工智能的主流芯片大多采用INT8即整型精度算力,而基于Transformer的大模型需要在浮點運算的芯片平臺上運行,才可取得較高的精度結果。目前,特斯拉已經完成“D1”芯片的自研,并構建超算平臺解決自動駕駛大模型的訓練與優化。b.運算算子要求。訪存密集是大模型的運算特點,需要針對性地設計訪存密集型算子,解決芯片的計算效率問題,從而實現穩定性高、可移植性高、并行化程度高、計算精度高的高效運算算子。
5大模型自動駕駛技術的未來展望
5.1多任務大模型與自動駕駛
受ChatGPT的啟發,毫末智行開發面向自動駕駛的生成式大模型DriveGPT[29],采用無監督學習進行初始模型的訓練,強化學習實現模型優化。通過輸入感知級的激勵數據(如障礙物信息、道路環境以及關鍵交通要素),DriveGPT能夠完成障礙物預測、決策規劃控制以及決策邏輯鏈的輸出等任務。目前,生成式大模型已經在自動駕駛的部分領域取得了巨大的創新性成果,構建多任務、一體化的大模型將是面向自動駕駛領域的重大技術創新。
5.2車端模型的功能解耦
至今,大模型仍受到海量模型參數與計算資源的限制,由于其運行均在云端實現,無法完成車端的獨立運行。如何對大模型進行功能解耦,實現車端的運行成為未來要攻克的難題。以知識蒸餾[30]的方式,完成大模型對車端小模型進行優化是解決上述問題的有效手段之一,亦是大模型到車端功能落地的有效方案。
5.3多任務生成式大模型
理論上,基于多任務生成式人工智能模型可同時實現仿真數據生成、標注、感知、預測和決策多種功能。UniAD模型的成功表明,多任務聯合優化能夠實現多源數據相關性的有效提取并提升整體性能。因此,如何通過多任務生成式大模型實現高效數據閉環、模塊化功能解耦等技術將是推動自動駕駛技術走向成熟的關鍵環節。
6結束語
生成式人工智能技術在文本、圖像等多個領域均取得了豐富的研究成果,基于生成式人工智能的大模型技術也為自動駕駛領域提供了新的解決方案。未來,隨著研究人員對技術研究的深入以及硬件水平的提升,基于輕量化平臺的應用將進一步拓展技術的應用范圍,擴展其應用量產落地能力。
參考文獻
[1]劉建偉,劉媛,羅雄麟.深度學習研究進展[J].計算機應用研究,2014,31(7):1921-1930+1942.
[2]KHANS,NASEERM,HAYATM,etal.Transformersinvision:Asurvey[J].ACMcomputingsurveys(CSUR),2022,54(10s):1-41.
[3]YANLH,KAOCW,HWANGBJ,etal.Home-BasedReal-TimeAbnormalMovementDetectionSystemDeployedonOn-DeviceArtificialIntelligence[J].InternationalJournalofPatternRecognitionandArtificialIntelligence,2023,37(7).DOI:10.1142/S0218001423590127.
[4]LIZ,WANGW,LIH,etal.Bevformer:Learningbird’seye-viewrepresentationfrommulti-cameraimagesviaspatiotemporaltransformers[C]//Europeanconferenceoncomputervision.Cham:SpringerNatureSwitzerland,2022:1-18.
[5]MESCHEDERL,OECHSLEM,NIEMEYERM,etal.Occupancynetworks:Learning3dreconstructioninfunctionspace[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.2019:4460-4470.
[6]DARASG,DIMAKISAG.Discoveringthehiddenvocabularyofdalle-2[EB/OL].(2022-06-01)[2023-08-18].arXivpreprintarXiv:2206.00169,2022.
[7]SAHARIAC,CHANW,SAXENAS,etal.Photorealistictext-to-imagediffusionmodelswithdeeplanguageunderstanding[J].AdvancesinNeuralInformationProcessingSystems,2022,35:36479-36494.
[8]KINGMAD,SALIMANST,POOLEB,etal.Variationaldiffusionmodels[J].Advancesinneuralinformationprocessingsystems,2021,34:21696-21707.
[9]CHANGH,ZHANGH,BARBERJ,etal.Muse:Text-toimagegenerationviamaskedgenerativetransformers[EB/OL].(2023-01-02)[2023-08-18].arXivpreprintarXiv:2301.00704,2023.
[10]VILLEGASR,BABAEIZADEHM,KINDERMANSPJ,etal.Phenaki:Variablelengthvideogenerationfromopendomaintextualdescription[EB/OL].(2022-10-05)[2023-08-18].arXivpreprintarXiv:2210.02399,2022.
[11]LINDCE,GERMANIDISA,VALENZUELAC,etal.Soundify:Matchingsoundeffectstovideo[EB/OL].(2021-11-17)[2023-08-18].arXivpreprintarXiv:2112.09726,2021.
[12]ALAYRACJB,DONAHUEJ,LUCP,etal.Flamingo:avisuallanguagemodelforfew-shotlearning[J].AdvancesinNeuralInformationProcessingSystems,2022,35:23716-23736.
[13]CHENJ,GUOH,YIK,etal.Visualgpt:Data-efficientadaptationofpretrainedlanguagemodelsforimagecaptioning[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2022:18030-18040.
[14]INTODIAS,GUPTAS,YERAMALLIY,etal.LiteratureReview:SuperResolutionforAutonomousVehiclesusingGenerativeAdversarialNetworks[C]//20237thInternationalConferenceonIntelligentComputingandControlSystems(ICICCS).IEEE,2023:1466-1472.
[15]李白楊,白云,詹希旎等.人工智能生成內容(AIGC)的技術特征與形態演進[J].圖書情報知識,2023,40(01):66-74.DOI:10.13366/j.dik.2023.01.066.
[16]NIRANJANDR,VINAYKARTHIKBC.Deeplearningbasedobjectdetectionmodelforautonomousdrivingresearchusingcarlasimulator[C]//20212ndinternationalconferenceonsmartelectronicsandcommunication(ICOSEC).IEEE,2021:1251-1258.
[17]芝能汽車.特斯拉2022AIDay,從車企演變為科技集群公司[EB/OL].(2022-10-02)[2023-08-18].
[18]小鵬汽車.小鵬汽車建成中國最大自動駕駛智算中心“扶搖”模型訓練提速近170倍[EB/OL].(2022-08-02)[2023-08-18].
[19]XUH,GHOSHG,HUANGPY,etal.Videoclip:Contrastivepre-trainingforzero-shotvideo-textunderstanding[EB/OL].(2021-09-28)[2023-08-18].arXivpreprintarXiv:2109.14084,2021.
[20]商湯.AIGC日日生新,商湯發布SenseTrust治理平臺,護航生成式AI可信發展[EB/OL].(2023-07-19)[2023-08-18].
[21]MáTTYUSG,LUOW,URTASUNR.Deeproadmapper:Extractingroadtopologyfromaerialimages[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision,2017:3438-3446.
[22]LUOW,YANGB,URTASUNR.Fastandfurious:Realtimeend-to-end3ddetection,trackingandmotionforecastingwithasingleconvolutionalnet[C]//ProceedingsoftheIEEEconferenceonComputerVisionandPatternRecognition,2018:3569-3577.
[23]HUY,YANGJ,CHENL,etal.Planning-orientedautonomousdriving[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition,2023:17853-17862.
[24]清華大學智能產業研究院.張亞勤:AI大模型時代[EB/OL].(2023-05-08)[2023-08-18].
[25]STAPPENL,DILLMANNJ,STRIEGELS,etal.IntegratingGenerativeArtificialIntelligenceinIntelligentVehicleSystems[EB/OL].(2023-05-15)[2023-08-18].arXivpreprintarXiv:2305.17137,2023.
[26]DUM.AutonomousVehicleIndustrialization[M]//AutonomousVehicleTechnology:GlobalExplorationandChinesePractice.Singapore:SpringerNatureSingapore,2022:233-262.
[27]MOMENTA.重新定義無人駕駛關鍵路徑,Momenta打造飛輪式L4[EB/OL].(2020-07-01)[2023-08-18].
[28]江浩,王寬,叢偉倫等.決策控制模型仿真數據生成方法、裝置、設備及存儲介質:CN115146394A[P].2022-10-04.
[29]新華網.毫末智行發布自動駕駛生成式大模型DriveGPT雪湖·海若[EB/OL].(2023-04-12)[2023-08-18].
[30]凌志,李幸,張婷,等.基于多層次知識蒸餾的連續圖像語義分割方法[J].計算機集成制造系統,2023,29(4):1244-1253.
作者:夏以檸 單位:北京師范大學