來源:《能源評論》 時間:2023-09-06 16:49
人工智能(AI)的范疇很大,包括視覺識別、語音識別、物體檢測、文本創(chuàng)作、大數(shù)據(jù)挖掘、機器人等,近期爆火的ChatGPT就是語言智能的代表。
神經(jīng)科學里有一個非常基礎的現(xiàn)象——重入(Reentry),直觀的解釋是,大腦里不同的分區(qū)分別承擔不同的功能,有的分區(qū)完成記憶,有的分區(qū)感知觸覺,有的分區(qū)感受情緒,有的分區(qū)負責運動,等等。對于神經(jīng)科學來說,感知與其他體驗一樣,可以用神經(jīng)元群組的活動來解釋,這些神經(jīng)元群組通過重入過程構(gòu)成了極為復雜的內(nèi)核,而這正是人主觀體驗的基礎。
人對外部世界的感知和理解就是通過多模態(tài)聯(lián)動來實現(xiàn)的。比如要理解“蘋果”這個概念,人是通過看、觸、吃等一系列感受,多方信息綜合判定它就是蘋果。多模態(tài)的信息交互可以達到“1+1>2”的效果,使我們得到的信息更加立體。
AI領(lǐng)域里關(guān)于多模態(tài)的研究已進行多時,但過去幾十年,各模態(tài)研究彼此分離,每個方向均有自己的模型。最近幾年,越來越多的研究人員著手構(gòu)建統(tǒng)一、跨場景、多任務的多模態(tài)基礎模型。
跨過語言鴻溝
視覺和語言是非常核心的兩個模態(tài)。視覺與語言的跨模態(tài)生成,首先在學術(shù)上就具有非常重要的意義。借用物理學家、諾貝爾獎獲得者理查德·費曼的一句話:如果一個東西,我們不能創(chuàng)造它,我們就沒有理解它。這句話體現(xiàn)出創(chuàng)造、生成的重要意義。
人類感知世界,70%~80%的信息由視覺通路處理。語言則是人類進化到高級智能的體現(xiàn),是我們對外部世界概念抽象的表達,是人類交互最重要的手段。
視覺和語言的跨模態(tài)生成是一個雙向過程。從圖到文,典型的例子是看圖說話、看圖寫作。從文到圖,就是通過一句話來創(chuàng)作一幅圖。
視覺生成語言通路在安全、互聯(lián)網(wǎng)領(lǐng)域應用較多,如互聯(lián)網(wǎng)音視頻的監(jiān)測管理,可以借助智能算法瀏覽一段視頻或者瀏覽海量視頻處理文本摘要,可以對監(jiān)控系統(tǒng)的監(jiān)控錄像做智能分析。語言生成視頻通路應用也很廣泛,比如在刑偵領(lǐng)域,根據(jù)文本描述生成嫌疑人畫像;在藝術(shù)創(chuàng)作領(lǐng)域,根據(jù)人的描述、指令進行智能化圖片編輯,尤其是交互式編輯目前已經(jīng)催生了很多行業(yè)的變革。
雖然視覺和語言的跨模態(tài)生成應用場景廣闊,但視覺和語言畢竟是兩種完全不同的模態(tài),在跨模態(tài)生成方面存在很大的難點。以一張圖片為例,大多數(shù)人首先看到的會是一個人在大街上騎著一輛摩托車,但除了人、摩托、道路,這張圖還包含非常多的其他信息,如馬路的材質(zhì)、遠處的景物等等,視覺元素非常豐富。所以,從圖片看信息,信息密度相對低一些。對語言來講,每句話、每個詞都富含語義,信息密度相對較高。因此,跨模態(tài)研究中存在的非常重要的核心問題,就是跨模態(tài)的語言鴻溝。
多模態(tài)是趨勢
OpenAI成立時間不長,被微軟收購后做出了一系列非常有震撼力和影響力的產(chǎn)品,比如2021年年初發(fā)布的Dall-E,這是一款圖像生成系統(tǒng),做出的圖片可以達到以假亂真的效果。借助Dall-E,我們可以描述物體的形狀、顏色、紋理,或者通過修改語言描述里面的一些單詞對圖像進行編輯。2022年,升級后的Dall-E性能大幅提升,模型生成的圖像分辨率尺度更高,生成的結(jié)果也更加貼切,交互性更強。交互性的主要體現(xiàn)是可以通過修改文本繼而修改圖像。
除了OpenAI,其他科技公司也推出了類似的產(chǎn)品。谷歌在2022年5月推出了Imagen模型,近期亦發(fā)布了幾個Imagen應用,比如生成特定領(lǐng)域的圖像和視頻更加精細,視頻處理效果也很好。清華大學和北京智源人工智能研究院聯(lián)合推出的CogView,也是一個多模態(tài)生成模型。
通過文本生成圖像的模型是基礎模型,現(xiàn)在的趨勢是把大模型做得越來越精細化,以面向?qū)嶋H當中更具挑戰(zhàn)性的場景,用于零樣本識別、小樣本識別。OpenAI于2021年1月發(fā)布的CLIP(Contrastive Language-Image Pretraining)模型是這個領(lǐng)域的代表。常規(guī)識別在ImageNet(深度學習領(lǐng)域中圖像分類、檢索、定位最常用的數(shù)據(jù)集之一)準確率上有了很大提升,大模型最主要的功能是通用性,在CLIP模型之后,幾家大型科技公司面向下游任務時往往需要對大模型進行改造和適配,比如應用于電力領(lǐng)域時,可以在通用的模型里面引入專家知識,讓模型更加智能、更加專業(yè)。
研究人員在CLIP模型基礎上,又開發(fā)出四個代表性的大模型。
第一個是微軟發(fā)布的Florence模型,它擴展了大模型的表征能力,精細化程度更高,從圖像擴展到了視頻,從單一的RGB(圖片)擴展到多模態(tài),取得了當前最優(yōu)的結(jié)果。
第二個是谷歌的CoCa(Contrastive Captioner)模型,它結(jié)合了對比學習和生成式學習,可用于離岸任務,包括檢索、看圖說話和視覺問答,同時在多個下游任務上取得了好的結(jié)果。
第三個是谷歌旗下創(chuàng)業(yè)團隊發(fā)布的DeepMind,除了常規(guī)的視覺、語言描述任務外,還可以運行強化學習的游戲,包括聊天、堆積木等交互性強的任務,根據(jù)上下文決定輸出的結(jié)果。
第四個是Flamingo模型,主要針對小樣本。比如,在電力行業(yè)或者其他傳統(tǒng)行業(yè)中,很多場景在多數(shù)時間是常規(guī)情況,異常行為、異常模式發(fā)生就是典型的小樣本,也就是異常情況數(shù)據(jù)很少。大模型如何用到這種場景,是人工智能和機器學習面臨的非常典型的挑戰(zhàn)。
大模型研究尚需破解三大難題
十年前,大眾普遍認為AI會首先取代體力勞動者,再取代腦力勞動者,如今AI的發(fā)展也刷新了我們的認知,比如OpenAI的CEO 山姆·奧特曼就認為,AI有望率先取代藝術(shù)家。
視覺生成模型近年來發(fā)展迅速,在模型上面出現(xiàn)了擴張模型。擴張模型也是最近兩年爆火的產(chǎn)品,把圖像生成的效果和精美程度提高到更高的級別。大模型生成的圖像在紋理、細節(jié)上看起來很逼真,但在邏輯、常識方面還有欠缺,易出現(xiàn)一些低級錯誤。目前大模型研究急需攻克以下三個問題。
第一是語言和語義的鴻溝。這涉及兩個空間多尺度、多粒度概念的對齊。大模型通過大量數(shù)據(jù)積累,目前這個問題已逐步得到解決。
第二是純數(shù)據(jù)驅(qū)動導致的常識缺失。不管是圖文生成還是文圖生成,可能會出現(xiàn)違背常理的結(jié)果。比如“生成人的手,再在手上戴一塊手表”,出來的結(jié)果看著還不錯,但細看手表上出現(xiàn)了6個時針,這就是場景布局的明顯失真。
第三是不同的專業(yè)領(lǐng)域區(qū)別甚大,如何把通用的大模型適配到專業(yè)的領(lǐng)域,也是研究者在面向垂直應用時需要考慮的問題。(張琴琴根據(jù)中國科學院計算技術(shù)研究所智能信息處理重點實驗室王瑞平研究員錄音整理)
責任編輯:楊娜
校對:高慧君