人工智能從“一專一能”邁向“多專多能”
科技日報實習記者李詔宇
近日,2022世界人工智能大會在上海舉行,由武漢人工智能研究院、中國科學院自動化研究所和華為技術有限公司聯合研發(fā)的“紫東太初”多模態(tài)大模型項目獲得了此次大會的最高獎項?!按舜未髸摹锹撌澜纾鸁o界’主題,恰好揭示了人類智能以后進展的兩慷慨向,智聯世界代表弱人工智能對物理世界的作用及改造,而元生無界則代表著利用人工智能技術構建元宇宙,實現虛實融合的新型世界?!敝袊嬎銠C行業(yè)協會數據安全專業(yè)委員會委員、北京理工大學網絡與安全研究所所長閆懷志講。
中國科學院自動化研究所研究員、武漢人工智能研究院院長王金橋表示,“紫東太初”是全球首個圖、文、音三模態(tài)大模型,開創(chuàng)性地實現了圖像、文本、語音三模態(tài)數據間的“統(tǒng)一表示”與“相互生成”,實現了“以圖生音”和“以音生圖”,理解和生成能力更接近人類,為打造多模態(tài)人工智能行業(yè)應用提供創(chuàng)新基礎,向通用人工智能邁出了重要一步。
“紫東太初”具備部分類腦特性
在閆懷志看來,通用人工智能旨在創(chuàng)造出像人類一樣考慮、像人類一樣擁有全面智能、可以從事多類型工作的機器,于是又被稱為強人工智能。目前的人工智能充其量不過承襲了人類的認知結果,遠未形成不同感官之間的、相互確定的認知能力。
傳統(tǒng)的人工智能,比如大名鼎鼎的阿爾法圍棋(AlphaGo),在一些領域內差不多“孤獨求敗”。只是,北京德火科技有限責任公司技術總監(jiān)李巖表示,現時期許多行業(yè)內應用的人工智能技術仍處于比較初級的時期,與科幻電影中設想的各類人工智能應用還相去甚遠。
在王金橋看來,人工智能一路進展至今,盡管取得了許多突破與進步,但仍存在三大要緊局限:首先,人工智能模型的功能單一,一個模型只能解決一個任務;其次,人工智能模型的訓練依賴于大量的樣本,假如缺乏足夠的樣本支撐,訓練也就無從談起。以訓練人臉識別數據庫Webface為例,需要2.6億張圖片才能訓練出一個可用的模型;最后,人工智能模型的泛化能力差,不能應用于廣泛的應用場景。
“我們一直以來都在追求怎么解決當前人工智能‘一專一用’的咨詢題,基于自監(jiān)督學習的多模態(tài)預訓練模型是當前的一個重要進展路徑?!蓖踅饦蛑v。
自監(jiān)督學習指的是從大規(guī)模的無監(jiān)督數據中挖掘隱含的監(jiān)督信息進行訓練,從而得到對下游任務有價值的表征,相比于傳統(tǒng)的深度學習,是更接近人類的學習方式。
“能否在同一個維度、同一個空間,面對不同的場景提供同一個多模態(tài)大模型,擺脫‘一專一能’,是實現人工智能通用化的基礎?!蓖踅饦蛑v?!白蠔|太初”能夠將圖像、文本、語音等不同模態(tài)數據實現跨模態(tài)的統(tǒng)一表征和學習,突破了當前AI技術局限,具備部分類腦特性,從“一專一能”邁向“多專多能”。
閆懷志指出:“本質上,‘以圖生音’和‘以音生圖’仍然是一種基于數據的人工智能,但它更接近于人類的理解和考慮方式,于是能夠被視為從弱人工智能向通用人工智能邁進的重要基礎性工作?!?/p>
實現三模態(tài)內容的統(tǒng)一與重現
曾經,“以圖生音”和“以音生圖”不過幻想,而此時的“紫東太初”卻讓這兩者成為了現實?!耙詧D生音”和“以音生圖”究竟是怎么實現的?實現圖、文、音三模態(tài)轉化的真正關鍵以及底層邏輯是什么?
據悉,“紫東太初”三模態(tài)間的相互轉換和生成,其核心原理是視覺、文本、語音不同模態(tài)經過各自編碼器映射到統(tǒng)一語義空間,然后經過多頭自注意力機制學習模態(tài)之間的語義關聯以及特征對齊,形成多模態(tài)統(tǒng)一知識表示;之后,再利用編碼后的多模態(tài)特征,經過解碼器分別生成文本、圖像和語音。
王金橋表示:“通俗地講,‘紫東太初’算是將形式各不相同的三模態(tài)內容轉化為一個統(tǒng)一的多模態(tài)知識表示,之后再次利用這種知識表示重新生成三模態(tài)內容,以此實現‘以圖生音’和‘以音生圖’。”
并且,王金橋還表示,“紫東太初”憑借四大突破,有效助力以多模態(tài)認知為核心的通用人工智能進展。
具體來講,一是首次提出多層次、多任務跨模態(tài)自監(jiān)督學習框架,支持從詞條級走向模態(tài)級、樣本級的三級預訓練自監(jiān)督學習方式;二是首次完成弱關聯多模態(tài)數據語義統(tǒng)一表示,減少數據收集與清洗代價;三是首次實現多模態(tài)理解與生成任務的統(tǒng)一建模,支持跨模態(tài)檢索、多模態(tài)分類、語音識別、圖像生成等理解與生成任務;四是首次實現無監(jiān)督超越有監(jiān)督辦法,基于5%—10%的數據標注,實現100%的有監(jiān)督學習效果。
打造典型人工智能行業(yè)應用
“與單模態(tài)和圖文兩模態(tài)相比,‘紫東太初’采用圖、文、音三模態(tài)大模型,能夠靈便支撐全場景的人工智能應用?!蓖踅饦蛑v,“‘紫東太初’還具有在無監(jiān)督事情下多任務聯合學習以及不同領域數據快速遷移的強大能力。引入語音模態(tài)后的多模態(tài)預訓練模型,可實現共性圖文音語義空間表征和利用,并突破性地直截了當實現三模態(tài)的統(tǒng)一表示,對更廣泛、更多樣的下游任務提供模型基礎支撐?!?/p>
“目前,我們差不多整合了產學研用各方面的資源,打造了一系列典型的人工智能行業(yè)應用?!蓖踅饦蛑v。在智能創(chuàng)造領域,“紫東太初”能夠有效降低模型訓練關于樣本數量的依賴,并且提升算法性能。
“紫東太初”還與杭州挪移共同打造了為杭州文旅代言的智能文旅虛擬人“杭小憶”。“紫東太初”的多模態(tài)對話支持南宋御街場景陶瓷、絲綢、活字印刷、特色小吃等場景化數據的增量訓練,助力南宋御街的導游、導購人工智能數字人實現語音識別、中文對話、語音交互、以音生圖等功能。
來源:中國科技網