11月28日,中國教育和科研計(jì)算機(jī)網(wǎng)CERNET第二十八/二十九屆學(xué)術(shù)年會在福州開幕。會上,清華大學(xué)計(jì)算機(jī)系教授唐杰作了題為《生成式人工智能大模型的現(xiàn)狀和未來》的特邀報(bào)告,總結(jié)了人工智能大模型的發(fā)展歷程,并對大模型的未來進(jìn)行了展望。
唐杰 清華大學(xué)計(jì)算機(jī)系教授
2020年:大模型元年
唐杰表示,預(yù)訓(xùn)練大模型是新一代人工智能應(yīng)用的基礎(chǔ)設(shè)施。大模型通用能力強(qiáng),可完成多場景任務(wù)。從2018年到現(xiàn)在,其趨勢是由單模態(tài)向多模態(tài)發(fā)展,從文本逐步發(fā)展到視覺。
據(jù)唐杰介紹,Open AI引領(lǐng)了AGI(人工通用智能)的研究。2020年,GPT-3推出。GPT-3是跨時(shí)代意義的語言大模型,標(biāo)志AI文本生成進(jìn)入下一個(gè)階段。因此,2020年可以稱之為大模型元年。
今年,GPT-4發(fā)布。與GPT-3.5相比,GPT-4的數(shù)學(xué)能力、微積分能力大大增強(qiáng),開始具備邏輯推理能力、求解能力,并且走向了多模態(tài),實(shí)現(xiàn)圖像和文本輸入。而GPT-4.5(AII Tools)具有很強(qiáng)的Agent(智能體)能力,融合多種工具的Agent形態(tài),通過網(wǎng)頁瀏覽、代碼解釋、文件解析、圖片生成、圖片理解,以及多工具結(jié)合,無需手動指定工具,能夠自動觸發(fā)。
唐杰表示,GPT-4/4.5的出現(xiàn)表明,我國在大模型上的研究還有空間,也需要繼續(xù)努力。此外,目前來看,亟需建立以中文為核心的自研大模型。
大模型發(fā)展歷程
唐杰認(rèn)為,可以把GPT(生成式預(yù)訓(xùn)練Transformer模型)的發(fā)展分為三個(gè)階段。第一階段是“千億基座模型”,相當(dāng)于機(jī)器把世界上所有的書讀了個(gè)遍,把知識都學(xué)會,但“飽讀詩書”的大模型卻未必會“考試”;第二階段是“有監(jiān)督指令微調(diào)”,相當(dāng)于“教”大模型怎么“考試”,怎么回應(yīng)痛點(diǎn),怎樣跟人類的思維方式對齊;第三階段是“人類反饋強(qiáng)化學(xué)習(xí)”,將強(qiáng)化學(xué)習(xí)與人類反饋相結(jié)合,利用人類提供的反饋來指導(dǎo)大模型的行為。
為什么AGI會迎來爆發(fā)?唐杰進(jìn)一步回顧了人工智能的發(fā)展歷程。
他表示,人工智能的發(fā)展可以分為三個(gè)時(shí)期。第一個(gè)時(shí)期是“符號AI”,實(shí)現(xiàn)了知識的可搜索性,讓計(jì)算機(jī)用描述語言把人類知識描述出來,這一階段以各種“專家系統(tǒng)”為代表。第二個(gè)時(shí)期是“感知智能”,實(shí)現(xiàn)了知識的可計(jì)算性,大數(shù)據(jù)驅(qū)動的統(tǒng)計(jì)學(xué)習(xí)方法初步實(shí)現(xiàn)了針對文本、圖像、語音等的感知與識別。第三個(gè)時(shí)期是“認(rèn)知智能”,實(shí)現(xiàn)了認(rèn)知的可計(jì)算性。中科院院士、清華大學(xué)教授張鈸在2016年提出第三代人工智能雛形,DARPA(美國國防高級研究計(jì)劃局)在2018年發(fā)布“AI Next”計(jì)劃。核心思路是推進(jìn)數(shù)據(jù)統(tǒng)計(jì)與知識推理融合的計(jì)算,與腦認(rèn)知機(jī)理融合的計(jì)算。在此階段,機(jī)器“認(rèn)知”實(shí)現(xiàn)了元學(xué)習(xí):自動學(xué)習(xí)認(rèn)知目標(biāo)。而目前急需的是高質(zhì)量超大規(guī)模知識圖譜(AI的基礎(chǔ)設(shè)施)以及對超大規(guī)模數(shù)據(jù)的深度理解能力(面向認(rèn)知的深度學(xué)習(xí))。
解密大模型
2017~2018年,隨著Transformer的誕生,語言模型規(guī)模迅速擴(kuò)大。大模型的出現(xiàn)還帶來了in-context能力(隱含模式遷移)。一方面,大規(guī)模模型算力需求迅速增長,單模型計(jì)算量每年增長10倍,形成新的“摩爾定律”;另一方面,機(jī)器智能的規(guī)模效應(yīng),擁有量變到質(zhì)變的能力,在千億稠密參數(shù)(~100B,或 1023FLOPS訓(xùn)練量)時(shí)模型能力開始出現(xiàn)“涌現(xiàn)”。
唐杰總結(jié)道,總的來說,大模型理論研究還明顯落后于工程進(jìn)展。我們在工程上看到了很多現(xiàn)象,但在理論上卻解釋得不夠清楚。
為解密大模型,對標(biāo)GPT系列模型,唐杰及團(tuán)隊(duì)推出了GLM系列模型。據(jù)唐杰介紹,GLM系列把千億基座模型、有監(jiān)督指令微調(diào)、人類反饋強(qiáng)化學(xué)習(xí)這三個(gè)階段相對壓縮了時(shí)間,并在算法方面進(jìn)行了創(chuàng)新,提出“自回歸填空”。2022年,在斯坦福大學(xué)大模型中心報(bào)告的世界主流大模型評測中,GLM-130B是亞洲唯一入選模型,其準(zhǔn)確性、惡意性與GPT-3持平,魯棒性和校準(zhǔn)誤差在所有模型中表現(xiàn)最佳。
2024年:AGI元年?
唐杰表示,對于未來AGI的走勢,我們還面臨很多挑戰(zhàn)。首先,從工程角度看,Scaling(規(guī)?;?的盡頭是AGI嗎?一方面,真正的Scaling規(guī)模遠(yuǎn)超學(xué)術(shù)界想象。擴(kuò)大規(guī)模不僅僅基于參數(shù)量,更多的是基于計(jì)算量。另一方面,Scaling仍有空間,單卡摩爾定律放緩,但系統(tǒng)角度仍在延續(xù)。
唐杰進(jìn)一步表示,Scaling的真正極限,也許是AGI的一點(diǎn)曙光。未來更大的挑戰(zhàn)是,人類的認(rèn)知到底是怎樣的?從人類大腦進(jìn)化的歷程來看,腦容量逐漸擴(kuò)張,在此過程中人類實(shí)現(xiàn)了工具能力、語言能力等等,那么大模型的發(fā)展是否也可以遵循人腦進(jìn)化的道路,慢慢發(fā)展出工具能力、語言能力和其他能力?從這一點(diǎn)看,AGI之路還很長。
據(jù)了解,日前,Open AI提出超級對齊(Superalignment)的概念。唐杰表示,Superalignment本質(zhì)上就是超級智能與超級安全,是讓AGI跟人類的價(jià)值觀意識觀對其,并且實(shí)現(xiàn)超過人類智能的智能。從這一點(diǎn)看,也許2024年將是AGI的元年。
本文根據(jù)清華大學(xué)計(jì)算機(jī)系教授唐杰在CERNET第二十八/二十九屆學(xué)術(shù)年會上的報(bào)告整理,點(diǎn)文末“閱讀原文”可進(jìn)入CERNET第二十八/二十九屆學(xué)術(shù)年會專題
① 凡本站注明“稿件來源:中國教育在線”的所有文字、圖片和音視頻稿件,版權(quán)均屬本網(wǎng)所有,任何媒體、網(wǎng)站或個(gè)人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本站協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時(shí)必須注明“稿件來源:中國教育在線”,違者本站將依法追究責(zé)任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉(zhuǎn)載稿,本站轉(zhuǎn)載出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如轉(zhuǎn)載稿涉及版權(quán)等問題,請作者在兩周內(nèi)速來電或來函聯(lián)系。