人工智慧通用化｜多模態認知計算讓AI走向“多專多能”

由人民中科發表于單機遊戲
2022-12-31

簡介為使機器更好地模仿人類的認知能力，多模態認知計算模擬人類的“聯覺”，探索影象、影片、文字、語音等多模態輸入的高效感知與綜合理解手段，是人工智慧領域的重要研究內容，也是實現“通用人工智慧”的關鍵之一

多模態ctai價目怎麼樣

近日，西北工業大學的李學龍教授在《中國科學：資訊科學》期刊上發表了《多模態認知計算》一文，以“信容”（Information Capacity）為依據，建立了認知過程的資訊傳遞模型，提出了“多模態認知計算能夠提高機器的資訊提取能力”這一觀點，從理論上對多模態認知計算各項任務進行了統一。

在如今資料驅動的人工智慧研究中，單一模態資料所提供的資訊已經不能滿足提升機器認知能力的需求。與人類利用視覺、聽覺、嗅覺、觸覺等多種感官資訊來感知世界類似，機器也需要模擬人類“聯覺”來提升認知水平。

為使機器更好地模仿人類的認知能力，多模態認知計算模擬人類的“聯覺”，探索影象、影片、文字、語音等多模態輸入的高效感知與綜合理解手段，是人工智慧領域的重要研究內容，也是實現“通用人工智慧”的關鍵之一。

多模態認知計算

讓機器像人類一樣智慧地感知周圍環境並做出決策，是人工智慧的目標之一。在對資訊的處理模式上，人類與機器存在巨大差異。為構建模擬人類認知模式的智慧系統，英國 Ulster大學的研究者在2003年將“認知計算”（Cognitive Computing）的概念引入資訊領域，重點關注認知科學與傳統的視音訊，影象，文字等處理之間互相聯絡的機理和機制，並且開設了相應的教學課程。

在本世紀初，X。 Li 創立了 IEEE-SMC 認知計算技術委員會。十幾年來，認知計算逐漸受到各領域學者的關注。

在現實生活中，人類利用視覺，聽覺，觸覺等多種感官認識世界，不同感官刺激交融形成統一的多感覺體驗。這種多感官協作對於機器而言即為“多模態”。

認知神經學研究表明，一類感官刺激可能會作用於其他感官通道，這種現象被稱為“聯覺”（Synaesthesia）。

2008 年， Li 等人在“Visual Music and Musical Vision”一文中首次將“聯覺”引入資訊領域，並從資訊度量角度計算多模態資料的關聯，嘗試性地探討了多模態認知計算的理論及應用。隨著人工智慧第三次發展高潮的影響逐漸深化，多模態認知計算迎來了新的發展機遇，成為航空航天、智慧製造、醫療健康等重大領域共同關注的研究課題，對推動我國人工智慧戰略發展具有重要意義。

多模態認知計算的三條主線

正如人類的認知提升離不開對現實世界的聯想、推理、歸納與演繹，要想提升機器認知能力，也需從對應的三方面切入：

關聯、生成、協同

，這也是如今多模態分析的三個基本任務。

多模態關聯、跨模態生成和多模態協同三個任務處理多模態資料的側重點不同，

但其核心都是要利用盡可能少的資料實現資訊量的最大化。

多模態關聯

源自不同模態的內容如何在空間、時間和語義層級上關聯對應起來？這是多模態關聯任務的目標，也是提高資訊利用率的前提。

多模態資訊在空間、時間和語義層面上的對齊是跨模態感知的基礎，多模態檢索則是感知在實際生活中的應用，比如依靠多媒體搜尋技術，我們可以輸入詞彙短語來檢索影片片段。

圖注：多模態對齊示意圖

受人類跨感官感知機制的啟發，AI 研究者已經將可計算模型用於唇讀、缺失模態生成等跨模態感知任務當中，

還進一步輔助殘障群體的跨模態感知。而在將來，跨模態感知的主要應用場景將不再侷限於殘障人士的感知替代應用上，而是將更多的同人類的跨感官感知相結合，提升人類多感官感知水平。

如今，數字模態內容快速增長，跨模態檢索的應用需求也愈加豐富，這無疑為多模態關聯學習提出了新的機遇和挑戰。

跨模態生成

我們在閱讀一段小說情節時，腦海中會自然浮現相應的畫面，這是人類跨模態推理和生成能力的體現。

與之類似，在多模態認知計算中，跨模態生成任務的目標是賦予機器生成未知模態實體的能力。從資訊理論的角度看，這一任務的本質就成了在多模態資訊通道內提高機器認知能力的問題，這有兩種途徑：

一是提高資訊量即跨模態合成，二是減小資料量即跨模態轉換。

跨模態合成任務是在生成新模態實體時對已有資訊進行豐富，從而增大資訊量。以基於文字生成影象為例，早期主要採用實體關聯的方式，對檢索庫的依賴程度往往很高。如今，影象生成技術以生成對抗網路為主，已經能夠生成逼真的高質量影象。但人臉影象生成仍然十分具有挑戰性，因為從資訊層次上看，即使是微小的表情變化，也有可能傳達出非常大的資訊量。

同時，將複雜模態轉換到簡單模態，尋找更加簡潔的表達形式，則可以降低資料量，提升資訊獲取能力。

圖注：常見的跨模態轉換任務

作為計算機視覺和自然語言處理兩大技術結合的典範，

跨模態轉換可以極大地提升線上檢索效率。

比如對一段冗長的影片給出簡要的自然語言描述，或者給一段影片資訊生成與之相關的音訊訊號等。

目前主流的兩種生成式模型 VAE（變分自編碼器）和 GAN （生成對抗網路）各有長短，VAE 依賴假設條件，而 GAN 可解釋性差，二者需合理結合。尤其重要的一點是，多模態生成任務的挑戰不僅在於生成質量方面，更多在於不同模態之間的語義及表示鴻溝問題，如何在具有語義鴻溝的前提下進行知識推理是未來需要解決的難點。

多模態協同

在人類認知機制中，歸納和演繹扮演著重要角色，我們可以對看到的、聽到的、聞到的、摸到的等多模態感知進行歸納融合、聯合演繹，以此來作為決策依據。

同樣地，多模態認知計算也要求協調兩個或兩個以上的模態資料，互相配合完成更加複雜的多模態任務，並提升精度和泛化能力。從資訊理論的角度看，它的本質是多模態資訊之間的相互融合以達到資訊互補的目的，是對注意力的最佳化。

首先，

模態融合是為了解決資料格式、時空對齊、噪聲干擾等帶來的多模態資料的差異問題。目前，機遇規則的融合方式包括序列融合、並行融合和加權融合，基於學習的融合方式則包括注意力機制模型、遷移學習和知識蒸餾。

其次，

多模態資訊融合完成後就需要對模態資訊進行聯合學習，以幫助模型挖掘模態資料間的關係，建立起模態與模態間的輔助或互補聯絡。

透過聯合學習，一方面能夠提升模態效能，如視覺指導音訊、音訊指導視覺、深度指導視覺等應用；另一方面可以解決以往單模態難以實現的任務，如複雜情感計算、音訊匹配人臉建模、視聽覺指導音樂生成等都是未來多模態認知計算的發展方向。

現有多模態認知計算研究大都集中在影象影片資料中，聚焦視聽模態的分析。這主要得益於近年來智慧手機的普及和社交網路的快速發展，使得影象影片資料爆炸式增長，傳播方式也日趨便利。

在具體應用場景上，拿內容安全來說，

人民中科跨模態智慧內容搜尋引擎”白澤“，

可跨越文字、語音、影片等多模態內容的語義鴻溝，自動關聯多模態間關鍵要素，跨平臺實現

文字搜圖片、文字搜影片、圖片搜影片、影片搜影片、圖片搜文字、影片搜文字

等功能。

“白澤”的核心技術就是以

自主研發的以多源異構跨模態預訓練模型為核心及其下游多種創新技術構成的多源跨模態資料理解與搜尋的整體技術體系

，整體架構如圖1。

圖1 “白澤”技術核心—多源異構跨模態預訓練模型及其下游技術體系

透過跨模態資訊識別與檢索，“白澤”可覆蓋更為多樣的資訊形式和模態，為政企、機構帶來更為全面的內容安全管理和保障。

機遇與挑戰：提升機器認知的四個層面

近年來，深度學習技術已經極大地推動了多模態認知計算在理論和工程上的發展。但如今應用需求愈加多元化，資料迭代速度也在加快，這為多模態認知計算提出了新的挑戰，也帶來了許多機遇。

我們可以從提升機器認知能力的四個層面來看：

在資料層面，

傳統的多模態研究將資料的採集和計算分離為兩個獨立過程，這種方式存在弊端。人類世界由連續模擬訊號構成，而機器處理的是離散數字訊號，其轉換過程必然造成資訊變形和丟失。

在資訊層面，

認知計算的關鍵是對資訊中高階語義的處理，比如視覺中的位置關係、影象的風格、音樂的情感等。目前多模態任務侷限於簡單目標和場景下的互動，而無法理解深層的邏輯語義或主觀語義。例如，機器可以生成一朵花開在草地上的影象，但無法理解花草會在冬天凋謝的常識。

所以，搭建不同模態下複雜邏輯和感受語義資訊的通訊橋樑，建立特色的機器度量體系是未來多模態認知計算的一大趨勢。

在融合機制層面，

如何對由異構部件組成的多模態模型進行高質量最佳化是當前的一個難點。目前的多模態認知計算大多是在統一的學習目標下對模型進行最佳化，這種最佳化策略缺乏對模型內部異構組成部分的針對性調整，導致現有的多模態模型存在較大的欠最佳化問題，需要從多模態機器學習與最佳化理論方法等多方面切入。

在任務層面，

機器的認知學習方式隨任務而不同，我們需要設計任務反饋的學習策略，提升多種相關任務的解決能力。

另外，針對當前機器學習從影象、文字等資料中理解世界這種“旁觀式”學習方式的弊端，我們可以借鑑認知科學的研究成果，如具身智慧（Embodied AI）就是一個有潛力的解決方案：智慧體需要與環境進行多模態互動，才能不斷進化形成解決複雜任務的能力。

未來，隨著感知能力的進一步提升，依託人類認知拓展物理感知邊界，實現資訊域和認知域的統一是大勢所趨。我們將繼續

深度挖掘跨模態資訊檢索的應用與價值，不斷釋放引領資料智慧前沿技術落地應用的新動能，為政企、機構內容安全運營與管理保駕護航。

責編：嶽青植

監製：李紅梅

參考來源：

1。《多模態認知計算》圖靈人工智慧

2。《IEEE Fellow 李學龍：多模態認知計算是實現通用人工智慧的關鍵》AI科技評論

3。《人大高瓴人工智慧學院：嘗試利用多模態基礎模型邁向通用人工智慧》機器之心專欄

上一篇：尼克斯7連勝羅斯卻掉出輪換！自曝退役後想當球隊老闆：錢存夠了

下一篇：用電和天然氣哪個燒水更划算？昂貴的電熱水壺竟也有安全隱患？

您現在的位置是：首頁 > 單機遊戲首頁 單機遊戲

人工智慧通用化｜多模態認知計算讓AI走向“多專多能”

相關文章