玩弄放荡人妇系列AV在线网站,精品91麻豆免费免费国产在线,国产成人亚洲精品乱码在线观,色偷偷日韩精品午夜视频

X
  • 隴上孟河

  • 中電智媒IOS版

  • 中電智媒安卓版

X
您的位置 > 首頁(yè) -> 中能觀察

論壇 | ChatGPT背后的多模態(tài)感知

來(lái)源:《能源評(píng)論》 時(shí)間:2023-09-06 16:49

  人工智能(AI)的范疇很大,包括視覺(jué)識(shí)別、語(yǔ)音識(shí)別、物體檢測(cè)、文本創(chuàng)作、大數(shù)據(jù)挖掘、機(jī)器人等,近期爆火的ChatGPT就是語(yǔ)言智能的代表。

  神經(jīng)科學(xué)里有一個(gè)非常基礎(chǔ)的現(xiàn)象——重入(Reentry),直觀的解釋是,大腦里不同的分區(qū)分別承擔(dān)不同的功能,有的分區(qū)完成記憶,有的分區(qū)感知觸覺(jué),有的分區(qū)感受情緒,有的分區(qū)負(fù)責(zé)運(yùn)動(dòng),等等。對(duì)于神經(jīng)科學(xué)來(lái)說(shuō),感知與其他體驗(yàn)一樣,可以用神經(jīng)元群組的活動(dòng)來(lái)解釋?zhuān)@些神經(jīng)元群組通過(guò)重入過(guò)程構(gòu)成了極為復(fù)雜的內(nèi)核,而這正是人主觀體驗(yàn)的基礎(chǔ)。

  人對(duì)外部世界的感知和理解就是通過(guò)多模態(tài)聯(lián)動(dòng)來(lái)實(shí)現(xiàn)的。比如要理解“蘋(píng)果”這個(gè)概念,人是通過(guò)看、觸、等一系列感受,多方信息綜合判定它就是蘋(píng)果。多模態(tài)的信息交互可以達(dá)到1+1>2”的效果,使我們得到的信息更加立體。

  AI領(lǐng)域里關(guān)于多模態(tài)的研究已進(jìn)行多時(shí),但過(guò)去幾十年,各模態(tài)研究彼此分離,每個(gè)方向均有自己的模型。最近幾年,越來(lái)越多的研究人員著手構(gòu)建統(tǒng)一、跨場(chǎng)景、多任務(wù)的多模態(tài)基礎(chǔ)模型。

跨過(guò)語(yǔ)言鴻溝

  視覺(jué)和語(yǔ)言是非常核心的兩個(gè)模態(tài)。視覺(jué)與語(yǔ)言的跨模態(tài)生成,首先在學(xué)術(shù)上就具有非常重要的意義。借用物理學(xué)家、諾貝爾獎(jiǎng)獲得者理查德·費(fèi)曼的一句話(huà):如果一個(gè)東西,我們不能創(chuàng)造它,我們就沒(méi)有理解它。這句話(huà)體現(xiàn)出創(chuàng)造、生成的重要意義。

  人類(lèi)感知世界,70%~80%的信息由視覺(jué)通路處理。語(yǔ)言則是人類(lèi)進(jìn)化到高級(jí)智能的體現(xiàn),是我們對(duì)外部世界概念抽象的表達(dá),是人類(lèi)交互最重要的手段。

  視覺(jué)和語(yǔ)言的跨模態(tài)生成是一個(gè)雙向過(guò)程。從圖到文,典型的例子是看圖說(shuō)話(huà)、看圖寫(xiě)作。從文到圖,就是通過(guò)一句話(huà)來(lái)創(chuàng)作一幅圖。

  視覺(jué)生成語(yǔ)言通路在安全、互聯(lián)網(wǎng)領(lǐng)域應(yīng)用較多,如互聯(lián)網(wǎng)音視頻的監(jiān)測(cè)管理,可以借助智能算法瀏覽一段視頻或者瀏覽海量視頻處理文本摘要,可以對(duì)監(jiān)控系統(tǒng)的監(jiān)控錄像做智能分析。語(yǔ)言生成視頻通路應(yīng)用也很廣泛,比如在刑偵領(lǐng)域,根據(jù)文本描述生成嫌疑人畫(huà)像;在藝術(shù)創(chuàng)作領(lǐng)域,根據(jù)人的描述、指令進(jìn)行智能化圖片編輯,尤其是交互式編輯目前已經(jīng)催生了很多行業(yè)的變革。

  雖然視覺(jué)和語(yǔ)言的跨模態(tài)生成應(yīng)用場(chǎng)景廣闊,但視覺(jué)和語(yǔ)言畢竟是兩種完全不同的模態(tài),在跨模態(tài)生成方面存在很大的難點(diǎn)。以一張圖片為例,大多數(shù)人首先看到的會(huì)是一個(gè)人在大街上騎著一輛摩托車(chē),但除了人、摩托、道路,這張圖還包含非常多的其他信息,如馬路的材質(zhì)、遠(yuǎn)處的景物等等,視覺(jué)元素非常豐富。所以,從圖片看信息,信息密度相對(duì)低一些。對(duì)語(yǔ)言來(lái)講,每句話(huà)、每個(gè)詞都富含語(yǔ)義,信息密度相對(duì)較高。因此,跨模態(tài)研究中存在的非常重要的核心問(wèn)題,就是跨模態(tài)的語(yǔ)言鴻溝。

多模態(tài)是趨勢(shì)

OpenAI成立時(shí)間不長(zhǎng),被微軟收購(gòu)后做出了一系列非常有震撼力和影響力的產(chǎn)品,比如2021年年初發(fā)布的Dall-E,這是一款圖像生成系統(tǒng),做出的圖片可以達(dá)到以假亂真的效果。借助Dall-E,我們可以描述物體的形狀、顏色、紋理,或者通過(guò)修改語(yǔ)言描述里面的一些單詞對(duì)圖像進(jìn)行編輯。2022年,升級(jí)后的Dall-E性能大幅提升,模型生成的圖像分辨率尺度更高,生成的結(jié)果也更加貼切,交互性更強(qiáng)。交互性的主要體現(xiàn)是可以通過(guò)修改文本繼而修改圖像。

  除了OpenAI,其他科技公司也推出了類(lèi)似的產(chǎn)品。谷歌在20225月推出了Imagen模型,近期亦發(fā)布了幾個(gè)Imagen應(yīng)用,比如生成特定領(lǐng)域的圖像和視頻更加精細(xì),視頻處理效果也很好。清華大學(xué)和北京智源人工智能研究院聯(lián)合推出的CogView,也是一個(gè)多模態(tài)生成模型。

  通過(guò)文本生成圖像的模型是基礎(chǔ)模型,現(xiàn)在的趨勢(shì)是把大模型做得越來(lái)越精細(xì)化,以面向?qū)嶋H當(dāng)中更具挑戰(zhàn)性的場(chǎng)景,用于零樣本識(shí)別、小樣本識(shí)別。OpenAI20211月發(fā)布的CLIPContrastive Language-Image Pretraining)模型是這個(gè)領(lǐng)域的代表。常規(guī)識(shí)別在ImageNet(深度學(xué)習(xí)領(lǐng)域中圖像分類(lèi)、檢索、定位最常用的數(shù)據(jù)集之一)準(zhǔn)確率上有了很大提升,大模型最主要的功能是通用性,在CLIP模型之后,幾家大型科技公司面向下游任務(wù)時(shí)往往需要對(duì)大模型進(jìn)行改造和適配,比如應(yīng)用于電力領(lǐng)域時(shí),可以在通用的模型里面引入專(zhuān)家知識(shí),讓模型更加智能、更加專(zhuān)業(yè)。

  研究人員在CLIP模型基礎(chǔ)上,又開(kāi)發(fā)出四個(gè)代表性的大模型。

  第一個(gè)是微軟發(fā)布的Florence模型,它擴(kuò)展了大模型的表征能力,精細(xì)化程度更高,從圖像擴(kuò)展到了視頻,從單一的RGB(圖片)擴(kuò)展到多模態(tài),取得了當(dāng)前最優(yōu)的結(jié)果。

  第二個(gè)是谷歌的CoCaContrastive Captioner)模型,它結(jié)合了對(duì)比學(xué)習(xí)和生成式學(xué)習(xí),可用于離岸任務(wù),包括檢索、看圖說(shuō)話(huà)和視覺(jué)問(wèn)答,同時(shí)在多個(gè)下游任務(wù)上取得了好的結(jié)果。

  第三個(gè)是谷歌旗下創(chuàng)業(yè)團(tuán)隊(duì)發(fā)布的DeepMind,除了常規(guī)的視覺(jué)、語(yǔ)言描述任務(wù)外,還可以運(yùn)行強(qiáng)化學(xué)習(xí)的游戲,包括聊天、堆積木等交互性強(qiáng)的任務(wù),根據(jù)上下文決定輸出的結(jié)果。

  第四個(gè)是Flamingo模型,主要針對(duì)小樣本。比如,在電力行業(yè)或者其他傳統(tǒng)行業(yè)中,很多場(chǎng)景在多數(shù)時(shí)間是常規(guī)情況,異常行為、異常模式發(fā)生就是典型的小樣本,也就是異常情況數(shù)據(jù)很少。大模型如何用到這種場(chǎng)景,是人工智能和機(jī)器學(xué)習(xí)面臨的非常典型的挑戰(zhàn)。

大模型研究尚需破解三大難題

  十年前,大眾普遍認(rèn)為AI會(huì)首先取代體力勞動(dòng)者,再取代腦力勞動(dòng)者,如今AI的發(fā)展也刷新了我們的認(rèn)知,比如OpenAICEO 山姆·奧特曼就認(rèn)為,AI有望率先取代藝術(shù)家。     

  視覺(jué)生成模型近年來(lái)發(fā)展迅速,在模型上面出現(xiàn)了擴(kuò)張模型。擴(kuò)張模型也是最近兩年爆火的產(chǎn)品,把圖像生成的效果和精美程度提高到更高的級(jí)別。大模型生成的圖像在紋理、細(xì)節(jié)上看起來(lái)很逼真,但在邏輯、常識(shí)方面還有欠缺,易出現(xiàn)一些低級(jí)錯(cuò)誤。目前大模型研究急需攻克以下三個(gè)問(wèn)題。

  第一是語(yǔ)言和語(yǔ)義的鴻溝。這涉及兩個(gè)空間多尺度、多粒度概念的對(duì)齊。大模型通過(guò)大量數(shù)據(jù)積累,目前這個(gè)問(wèn)題已逐步得到解決。

  第二是純數(shù)據(jù)驅(qū)動(dòng)導(dǎo)致的常識(shí)缺失。不管是圖文生成還是文圖生成,可能會(huì)出現(xiàn)違背常理的結(jié)果。比如“生成人的手,再在手上戴一塊手表”,出來(lái)的結(jié)果看著還不錯(cuò),但細(xì)看手表上出現(xiàn)了6個(gè)時(shí)針,這就是場(chǎng)景布局的明顯失真。

  第三是不同的專(zhuān)業(yè)領(lǐng)域區(qū)別甚大,如何把通用的大模型適配到專(zhuān)業(yè)的領(lǐng)域,也是研究者在面向垂直應(yīng)用時(shí)需要考慮的問(wèn)題。(張琴琴根據(jù)國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室王瑞平研究員錄音整理)

  責(zé)任編輯:楊娜

  校對(duì):高慧君