來(lái)源:《能源評(píng)論》 時(shí)間:2023-09-06 16:49
2月11日,斯坦福大學(xué)商學(xué)院的計(jì)算機(jī)科學(xué)家米哈爾·科辛斯基在預(yù)印本平臺(tái)arXiv提交了一篇論文《心智理論可能從大語(yǔ)言模型中自發(fā)涌現(xiàn)》。論文描述了他給GPT-3.5在內(nèi)的9個(gè)GPT模型所做的兩個(gè)經(jīng)典測(cè)試。結(jié)果顯示,GPT-3.5(ChatGPT的同源模型)可以完成93%的心智理論任務(wù)。換句話說(shuō),其心智水平已經(jīng)相當(dāng)于一個(gè)9歲兒童。
心智,即一個(gè)人各項(xiàng)思維能力的總和,用以感受、觀察、理解、判斷、選擇、記憶、想象、假設(shè)、推理,并據(jù)此指導(dǎo)其行為。也有專家將其解釋為“一個(gè)人理解他人或自己心理狀態(tài)的能力,包括同理心、情緒、意圖等”。定義雖不同,但有一個(gè)觀點(diǎn)是公認(rèn)的:心智是人類(lèi)獨(dú)有的能力。
根據(jù)這項(xiàng)研究,心智已經(jīng)出現(xiàn)在ChatGPT等人工智能應(yīng)用上。這讓不少人質(zhì)疑,人工智能是否真正具有了人類(lèi)的認(rèn)知,將來(lái)能達(dá)到什么樣的水平?要弄清這些問(wèn)題,我們需要了解“什么是認(rèn)知”“認(rèn)知和人工智能的相互關(guān)系”,進(jìn)而才能闡明人工智能是否具有心智、能否和人進(jìn)行心靈交流等問(wèn)題。
“暴力計(jì)算”成就ChatGPT
1956年7月13日,美國(guó)計(jì)算機(jī)科學(xué)家、認(rèn)知科學(xué)家約翰·麥卡錫在美國(guó)新罕布什爾的漢諾威市達(dá)特茅斯學(xué)院組織召開(kāi)了一場(chǎng)會(huì)議(以下簡(jiǎn)稱“達(dá)特茅斯會(huì)議”)。會(huì)議把“精確地描述人的學(xué)習(xí)能力和智慧,并利用機(jī)器將這種能力與智慧加以模擬”確認(rèn)為人工智能的發(fā)展方向。“人工智能”這個(gè)概念自此誕生。
達(dá)特茅斯會(huì)議之后,人工智能研究者們逐漸形成了符號(hào)主義、聯(lián)結(jié)主義、行為主義等學(xué)派。其中的聯(lián)結(jié)主義學(xué)派強(qiáng)調(diào)以自下而上的方式,模仿人類(lèi)的神經(jīng)元,希望用神經(jīng)網(wǎng)絡(luò)的連接機(jī)制實(shí)現(xiàn)人工智能。聯(lián)結(jié)主義人工智能經(jīng)過(guò)了60年的研究,在2006年終于提出了深度學(xué)習(xí)的概念,并從人類(lèi)的視覺(jué)和自然語(yǔ)言智能的特性中獲得啟發(fā),設(shè)計(jì)了多種多樣的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。其中的Transformer神經(jīng)網(wǎng)絡(luò)引入了類(lèi)似人腦的自注意力機(jī)制,它出自谷歌2017年發(fā)表的論文《注意力是你所需要的》,使用了注意力機(jī)制來(lái)計(jì)算輸入序列和輸出序列之間的關(guān)系,被廣泛用于自然語(yǔ)言處理(NLP)領(lǐng)域。Transformer神經(jīng)網(wǎng)絡(luò)催生了預(yù)訓(xùn)練大模型的發(fā)展,ChatGPT就是基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)而建立的。
人腦的自然神經(jīng)網(wǎng)絡(luò)是具有千億級(jí)別神經(jīng)元的超級(jí)復(fù)雜系統(tǒng),其核心具備關(guān)鍵性質(zhì)——涌現(xiàn)。涌現(xiàn)的概念出自諾貝爾獎(jiǎng)得主、美國(guó)理論物理學(xué)家菲利普·安德森的文章《多者異也》。這種性質(zhì)的關(guān)鍵在于“物理系統(tǒng)在每一個(gè)復(fù)雜度上都會(huì)出現(xiàn)全新的性質(zhì)”。當(dāng)下,以ChatGPT為代表的大型語(yǔ)言模型中也出現(xiàn)了“涌現(xiàn)”這種能力,即當(dāng)模型大到超過(guò)特定的臨界值時(shí),就會(huì)出現(xiàn)很多小模型根本不具備的能力。大規(guī)模語(yǔ)言模型一旦具備這種涌現(xiàn)性質(zhì),只需給這些模型提供語(yǔ)言提示,就實(shí)現(xiàn)小樣本和零樣本學(xué)習(xí),迅速泛化和掌握新的語(yǔ)言能力,執(zhí)行相關(guān)語(yǔ)言認(rèn)知任務(wù)。
ChatGPT出現(xiàn)涌現(xiàn)的基礎(chǔ)是“暴力計(jì)算”——通過(guò)海量的數(shù)據(jù)和不斷增加的模型的參數(shù)規(guī)模,耗費(fèi)更多的算力來(lái)訓(xùn)練,大大提高模型可以學(xué)習(xí)的信息量。據(jù)統(tǒng)計(jì),從GPT、GPT-2到GPT-3,其模型參數(shù)量從1.17億個(gè)快速增加到1750億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量則從5吉字節(jié)增加到45萬(wàn)億字節(jié)。據(jù)OpenAI團(tuán)隊(duì)發(fā)表于2020年的論文,訓(xùn)練一次1746億參數(shù)的GPT-3模型需要的算力約為3640 算力單位。
可以說(shuō),這種“暴力計(jì)算”模式成就了ChatGPT,但從本質(zhì)上看,這來(lái)自算力的提高和模型工程化方法的極致優(yōu)化。歸根到底,算力的提升讓ChatGPT這類(lèi)大語(yǔ)言模型的規(guī)模超過(guò)閾值,其語(yǔ)言能力就有質(zhì)的飛躍,即實(shí)現(xiàn)了“相變”。但是由于深度學(xué)習(xí)基礎(chǔ)理論研究的滯后,使得人們對(duì)其背后的涌現(xiàn)機(jī)理仍然缺乏嚴(yán)格的理論分析。
我們知道,人類(lèi)自我意識(shí)等所有心理活動(dòng)都是億萬(wàn)個(gè)神經(jīng)元通過(guò)脈沖放電方式,進(jìn)行復(fù)雜交互涌現(xiàn)的結(jié)果。這里面涉及微觀、介觀和宏觀三個(gè)層面:“微觀”指從單個(gè)腦神經(jīng)元的運(yùn)行模式,“宏觀”指整個(gè)大腦皮層各腦區(qū)及其協(xié)同的過(guò)程,而宏觀與微觀二者間的“介觀”指皮層區(qū)域內(nèi)神經(jīng)元群體、網(wǎng)絡(luò)或功能柱中的動(dòng)態(tài)活動(dòng)。目前神經(jīng)科學(xué)、認(rèn)知科學(xué)的研究對(duì)宏觀和微觀做得比較深入,但是對(duì)于大腦介觀層面的研究,雖然也有很多研究進(jìn)步,仍然還存在大量的未解之謎。
像ChatGPT這樣的超大規(guī)模的人工神經(jīng)網(wǎng)絡(luò),其規(guī)模從某種意義上看已經(jīng)接近人腦的神經(jīng)元規(guī)模。雖然其內(nèi)在結(jié)構(gòu)和運(yùn)行方式與大腦是完全不同的,但是微觀、介觀和宏觀三個(gè)層面的分析方法仍然適用。在宏觀層面,通過(guò)模仿人的認(rèn)知行為,人們構(gòu)造出可以做題、下棋、駕駛的深度神經(jīng)網(wǎng)絡(luò)模型;在微觀層面,人們會(huì)研究如何通過(guò)反向傳播,訓(xùn)練更新神經(jīng)網(wǎng)絡(luò)模型的每個(gè)參數(shù);但是在介觀層面,即對(duì)人工神經(jīng)網(wǎng)絡(luò)的每一層、每個(gè)功能區(qū)域,如何有效地揭示微觀的海量參數(shù),如何涌現(xiàn)宏觀能力的內(nèi)在機(jī)理,尚缺乏足夠的認(rèn)識(shí)和研究。尤其是針對(duì)百億級(jí)別以上的預(yù)訓(xùn)練語(yǔ)言模型,其內(nèi)部一定是形成了中間層表示結(jié)構(gòu),以刻畫(huà)語(yǔ)言遵循的語(yǔ)法規(guī)則、語(yǔ)義概念、上下文語(yǔ)境等,從而展現(xiàn)出一定的語(yǔ)言認(rèn)知能力。
需要指出的是,“暴力計(jì)算”雖然賦予ChatGPT相當(dāng)驚艷的能力,甚至能夠通過(guò)情境學(xué)習(xí),模擬出一些有心智的行為,但是它仍然存在先天的局限,產(chǎn)生的黑箱模型難以解釋,出現(xiàn)的邏輯錯(cuò)誤難以及時(shí)糾正,更不可能讓ChatGPT等語(yǔ)言模型產(chǎn)生和人一樣的自我意識(shí)。只有對(duì)超大規(guī)模的介觀結(jié)構(gòu)和機(jī)理進(jìn)行更深入的研究,才能進(jìn)一步提升模型現(xiàn)有的認(rèn)知能力和推理能力,實(shí)現(xiàn)更高層次的智能。
突破需要雙重引導(dǎo)
“人模人樣但不是人”是一些人對(duì)ChatGPT的吐槽,盡管其生成的內(nèi)容條理清晰、概括全面,但其不具備嚴(yán)謹(jǐn)?shù)倪壿嬐评砟芰Γ瑹o(wú)論是在事實(shí)性問(wèn)題的分析,還是解數(shù)學(xué)題等方面,還會(huì)時(shí)常出現(xiàn)各種錯(cuò)誤,產(chǎn)生所謂認(rèn)知錯(cuò)覺(jué)(Hallucination)問(wèn)題。要想提高人工智能產(chǎn)品的推理能力,減少或避免認(rèn)知錯(cuò)覺(jué),需要從多方面進(jìn)行引導(dǎo)。
首先是理論方法層面的創(chuàng)新,可以探索將不同的Transformer架構(gòu)技術(shù)路線融入算法模型,從而提高其認(rèn)知能力。目前Transformer架構(gòu)兩個(gè)比較常見(jiàn)的預(yù)訓(xùn)練模型家族是GPT和BERT。它們都遵循了預(yù)訓(xùn)練和微調(diào)的過(guò)程,但是在訓(xùn)練目標(biāo)和模型結(jié)構(gòu)和使用上存在差異:GPT采用的是單向的Transformer,通過(guò)預(yù)測(cè)下一個(gè)詞來(lái)學(xué)習(xí)語(yǔ)言模型,類(lèi)似對(duì)話中的“接龍”;而BERT采用的是雙向的Transformer,即通過(guò)預(yù)測(cè)句子中丟失的詞來(lái)學(xué)習(xí)語(yǔ)言模型,類(lèi)似語(yǔ)文考試中的“完形填空”。GPT對(duì)于文本生成更為敏感,而BERT對(duì)于文本理解更為敏感。因此,一般而言基于GPT模型的ChatGPT更適合文本生成,而BERT模型家族更擅長(zhǎng)語(yǔ)言理解。GPT模型家族在文本生成方面大放異彩,成為NLP領(lǐng)域最受矚目的模型。同時(shí)BERT模型也得到非常廣泛的應(yīng)用,產(chǎn)出了不少基于BERT的超大規(guī)模模型。或許在未來(lái),我們可以看到BERT大模型的性能得到進(jìn)一步的改進(jìn)提升,從而實(shí)現(xiàn)更強(qiáng)大的語(yǔ)言理解能力。
還有一條重要的理論途徑,就是把符號(hào)主義和聯(lián)結(jié)主義實(shí)現(xiàn)深度融合,使得大模型在文本生成的過(guò)程中,加入更嚴(yán)密的邏輯分析、反省、驗(yàn)證、糾錯(cuò)等步驟,提高模型的邏輯推理能力。人工智能的符號(hào)主義學(xué)派從創(chuàng)立肇始,就基于嚴(yán)格的數(shù)理邏輯理論框架之上,著名的美國(guó)人工智能專家司馬賀(Herbert Alexander Simon)開(kāi)發(fā)了通用問(wèn)題求解器,以實(shí)現(xiàn)自動(dòng)化的數(shù)學(xué)定理證明。這些先驅(qū)式的研究工作,不但引出了后面的知識(shí)庫(kù)、專家系統(tǒng)和知識(shí)圖譜的成果,還對(duì)認(rèn)知計(jì)算模型的創(chuàng)立有著深刻的影響。可以想見(jiàn),如果能夠?qū)崿F(xiàn)符號(hào)與神經(jīng)網(wǎng)絡(luò)的緊密互動(dòng),就能從根本上構(gòu)建基于現(xiàn)有大模型的新型認(rèn)知智能系統(tǒng),把具有相當(dāng)隨機(jī)性文本生成與嚴(yán)格的長(zhǎng)步驟邏輯推理結(jié)合起來(lái),或?yàn)榻鉀Q常識(shí)等挑戰(zhàn)問(wèn)題開(kāi)辟新的可行途徑。
其次從模型工程的角度看,綜合現(xiàn)有MLOps的成熟技術(shù)手段,在大模型訓(xùn)練和部署的生命周期中,進(jìn)一步引導(dǎo)和聽(tīng)說(shuō)大模型涌現(xiàn)的語(yǔ)言認(rèn)知行為。例如編寫(xiě)提示語(yǔ)就是引導(dǎo)大模型的重要方式。在由海量語(yǔ)料自監(jiān)督訓(xùn)練而成的GPT3.5后,人們需要以其為基礎(chǔ),編寫(xiě)很多包含任務(wù)場(chǎng)景的提示語(yǔ),以引導(dǎo)ChatGPT學(xué)會(huì)具體的任務(wù)技能。因而,人們輸入的提示語(yǔ)的品質(zhì),直接決定了激發(fā)生成性人工智能的潛力,即按照人們的需要輸出正確的結(jié)果。除此之外,人們可以對(duì)ChatGPT的輸出行為進(jìn)行評(píng)分排序,以便更好地引導(dǎo)它輸出符合人類(lèi)價(jià)值觀和社會(huì)規(guī)范的內(nèi)容。這種人類(lèi)反饋強(qiáng)化學(xué)習(xí)模式,也可以和內(nèi)置的知識(shí)規(guī)則相結(jié)合,通過(guò)自我約束、自我過(guò)濾,讓模型輸出的結(jié)果更好,讓交互越來(lái)越自然。
“大道至簡(jiǎn)”與電力創(chuàng)新
有人把現(xiàn)階段深度神經(jīng)網(wǎng)絡(luò)的研究過(guò)程形象比作“煉丹”,其中,數(shù)據(jù)是金木水火土等自然元素,算法框架是用來(lái)“煉丹”的爐子,算力就是煉丹爐下的“三昧真火”。 深度神經(jīng)網(wǎng)絡(luò)的研究者就好比煉丹師,通過(guò)調(diào)參數(shù)、改數(shù)據(jù)煉出一個(gè)個(gè)新的模型。但這種比喻隱藏著另一層意思,即“煉丹”式的人工智能研究更適合于學(xué)術(shù)界的實(shí)驗(yàn)室環(huán)境,但是這種煉丹作坊需要很高的成本,才能實(shí)現(xiàn)與業(yè)務(wù)場(chǎng)景的對(duì)接落地,非常不適用于大規(guī)模的工程應(yīng)用。
2006年,深度學(xué)習(xí)的概念被提出后,如何針對(duì)視覺(jué)、自然語(yǔ)言處理、自動(dòng)駕駛等不同領(lǐng)域,設(shè)計(jì)各種最優(yōu)架構(gòu)的深度神經(jīng)網(wǎng)絡(luò),一直是當(dāng)前人工智能領(lǐng)域的研究主流。在經(jīng)過(guò)多年“煉丹”探索之后,Transformer成為當(dāng)下自然語(yǔ)言處理領(lǐng)域的主流模型,基于Transformer的預(yù)訓(xùn)練大語(yǔ)言模型更是成為主導(dǎo)性的架構(gòu),并正在向視覺(jué)、自動(dòng)駕駛等領(lǐng)域擴(kuò)散。
隨著未來(lái)更成熟的大模型出現(xiàn),人工智能或?qū)⒏鼜V泛地應(yīng)用于工業(yè)化時(shí)代的各個(gè)領(lǐng)域,以Transformer為基礎(chǔ)模型架構(gòu)的新產(chǎn)業(yè)生態(tài),有可能徹底把“煉丹式”的人工智能研究變成一個(gè)工業(yè)化時(shí)代的AI應(yīng)用推廣。毫無(wú)疑問(wèn),我們站在了一個(gè)人工智能發(fā)展的十字路口上,正在從過(guò)去極盡復(fù)雜邁向“大道至簡(jiǎn)”,也讓更多專用領(lǐng)域可以更容易地實(shí)現(xiàn)與人工智能的融合應(yīng)用。
電力就是其中之一。眾所周知,電力系統(tǒng)是一個(gè)復(fù)雜人工系統(tǒng),涉及很多系統(tǒng)交互的內(nèi)容。人工智能在電力系統(tǒng)應(yīng)用中,除了純粹的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動(dòng)方法以外,還可以將物理方程有效地嵌入進(jìn)來(lái)。當(dāng)然,這需要電力專家參與到神經(jīng)網(wǎng)絡(luò)的模型設(shè)計(jì)當(dāng)中,結(jié)合最新技術(shù)和實(shí)際數(shù)據(jù)進(jìn)行研究,尋找混合型解決方案。
此外,還要探索創(chuàng)新性思路,讓人工智能利用自身強(qiáng)大的數(shù)據(jù)歸納和分析能力去學(xué)習(xí)電力系統(tǒng)的規(guī)律和原理,得出面向模型生態(tài)的新研究范式。比如,有了基座大模型以后,怎樣自動(dòng)地根據(jù)領(lǐng)域需求派生出各種小的定制化的小模型?模型與模型間如何進(jìn)行參數(shù)共享和遷移?再比如,在大模型預(yù)訓(xùn)練方式上,不采取現(xiàn)在的絕對(duì)集中方式,而是走集中和分布相結(jié)合的路線,依靠不同行業(yè)的專業(yè)信息,將小模型自主聚合成大模型?如何確保大模型的安全性和可信度,避免可能存在的安全隱患和漏洞傳播到整個(gè)模型生態(tài)中?
這些都是大模型時(shí)代智能模型生態(tài)構(gòu)建和產(chǎn)業(yè)落地的重要問(wèn)題。我們應(yīng)該擁抱大模型帶來(lái)的全新機(jī)遇,加快國(guó)產(chǎn)自主可控大模型的研發(fā)進(jìn)程,推動(dòng)相關(guān)產(chǎn)業(yè)生態(tài)的發(fā)展,迎接新一輪人工智能熱潮的挑戰(zhàn)。(國(guó)家人工智能標(biāo)準(zhǔn)化總體組副組長(zhǎng)、北京航空航天大學(xué)人工智能研究院教授 吳文峻)
責(zé)任編輯:楊娜
校對(duì):高慧君