3月15日凌晨,OpenAI發(fā)布了多模態(tài)大模型GPT-4,并迅速引爆全球輿論。GPT-4的前代產(chǎn)品,正是訓(xùn)練出上線兩個月狂吸1億粉的ChatGPT大模型GPT3.5。而GPT-4不僅較GPT3.5全方位升級,還開放了對圖片的處理能力,瞬間引發(fā)了全球用戶對于未來工作方式的暢想以及對于人與科技關(guān)系的新一輪思考。
與全球用戶同樣坐不住的,是微軟和谷歌,前者積極跟進,后者立刻反擊。GPT-4引發(fā)的AI風暴,才剛剛開始。
將前代產(chǎn)品“拍在沙灘上”
相比前代產(chǎn)品,GPT-4不僅支持多模態(tài),還從多個維度提升了自然語言文本處理能力,并進一步提升了安全性。
與前代產(chǎn)品著重處理文字輸入不同,GPT-4能夠處理圖片信息以及帶有文本和照片的文檔、圖表或屏幕截圖等圖文交錯的信息,并以文字的方式輸出。比如輸入一張氫氣球被細線系著的照片,并向GPT-4提問“如果線被切斷會怎樣”,GPT-4的回答是“線斷了氣球會飛走”,這表明它不僅能識別照片中的各項事物,還能夠理解事物之間的關(guān)系。
用戶問圖中的線斷了會怎樣,GPT-4回答“氣球會飛走”
在自然語言文本理解和生成這項看家本領(lǐng)上,GPT-4相較GPT3.5有著多方面的提升。
首先,GPT-4能夠識別和處理更復(fù)雜的指令。比如OpenAI的工作人員在demo展示中設(shè)置了一個“文本摘要”任務(wù),要求GPT將一段話總結(jié)為一句話,且句子中的每一個詞都要以“G”開頭。在測試中,GPT-3.5直接忽視了以固定字母開頭的要求,僅僅將文章總結(jié)成一段話。GPT-4則生成了基本符合要求的回答,但是在句子中出現(xiàn)了“AI”一詞。隨后工作人員在對話中表示“AI不算G開頭字母”,GPT-4馬上將“AI”換成了“global”。
藍框內(nèi)為GPT-4生成的每個單詞都以“G”開頭的一句話摘要
其次,GPT-4比GPT3.5更能應(yīng)對復(fù)雜微妙的場景。比如在一次模擬律師考試中,GPT-4 的分數(shù)在應(yīng)試者中排名前 10%,而GPT-3.5 的得分排名在后10%。說明GPT-4在專業(yè)測試中的表現(xiàn)更接近人類水平。
此外,GPT-4能夠讀取、分析或產(chǎn)生的文字篇幅高達25000詞,遠超篇幅上限為3000詞的ChatGPT,可用于長篇內(nèi)容創(chuàng)作、擴展對話以及文檔搜索和分析等應(yīng)用場景。
ChatGPT與GPT-4能處理的篇幅對比
在備受關(guān)注的安全方面,GPT-4響應(yīng)被禁止內(nèi)容請求的可能性降低了82%,產(chǎn)生事實響應(yīng)的可能性提升了40%。
進一步融入微軟搜索和云服務(wù)
在GPT-4發(fā)布后,微軟第一時間“認領(lǐng)”, 表示新版的搜索引擎必應(yīng)已經(jīng)在 GPT-4 上運行。另據(jù)OpenAI披露,GPT-4在微軟Azure AI 超級計算機上進行訓(xùn)練,并將基于Azure 的AI基礎(chǔ)架構(gòu)向世界各地的用戶提供 GPT-4能力。這個超級計算機是OpenAI與Azure為OpenAI的深度學(xué)習架構(gòu)重新設(shè)計的。
微軟與OpenAI的合作始于2019年,今年1月,微軟宣布與OpenAI的合作進入第三階段,將圍繞大規(guī)模超級計算機、新的AI體驗、獨家云供應(yīng)商開展。通過超級計算機支持OpenAI的研究正是雙方合作計劃的一部分。
微軟對OpenAI的布局方向,也可以從雙方的合作承諾中看出端倪。接下來,微軟會在消費者和企業(yè)級產(chǎn)品中部署 OpenAI 模型,并引入基于 OpenAI 技術(shù)的新型數(shù)字體驗。其中,Azure OpenAI 服務(wù)使開發(fā)人員能夠直接接入OpenAI模型,并獲得Azure在可信執(zhí)行環(huán)境、企業(yè)級功能、AI 優(yōu)化的基礎(chǔ)設(shè)施和工具等方面的支持,以開發(fā)尖端的AI應(yīng)用。作為 OpenAI 的獨家云提供商,Azure 將為研究、產(chǎn)品和 API 服務(wù)中所有 OpenAI 工作負載提供支持。
不甘示弱的谷歌
在GPT-4發(fā)布后,谷歌立刻發(fā)動反擊,宣布開放大規(guī)模語言模型PaLM的API接口,并推出面向開發(fā)者的工具MakerSuite。PaLM API 是谷歌大型語言模型的入口,可用于各種應(yīng)用程序的開發(fā)。開發(fā)者可以通過API訪問面向內(nèi)容生成和聊天進行優(yōu)化的模型,以及面向摘要、分類等用例進行優(yōu)化的通用模型。隨之推出的工具MakerSuite能夠讓開發(fā)人員更加快捷地制作程序原型。
也是在今天,谷歌發(fā)布博文,宣布將生成式AI能力——包括文字、圖像、代碼、音頻、視頻等內(nèi)容的生成能力提供給開發(fā)者、行業(yè)和政府。
這已經(jīng)不是谷歌針對GPT的第一次反擊。今年2月,谷歌發(fā)布了對標ChatGPT的聊天機器人Bard,其背后的大模型是谷歌2020年發(fā)布的大規(guī)模語言模型LaMDA。LaMDA與GPT模型一樣建立在Transformer架構(gòu)上,但接受的是對話訓(xùn)練,尤其是不以“是”或“否”回答的開放式對話。其目的在于通過對比不同問題、不同回答中的細微差別,使LaMDA能夠針對各種話題生成明確具體的回答。
目前,谷歌旗下有Bert、MUM、PaLM、Imagen 和MusicLM等多款大模型,GPT等多款大規(guī)模語言模型采用的Transformer架構(gòu)也由谷歌在2017年發(fā)布。其中,Bert是谷歌第一代基于Transformer研發(fā)的大規(guī)模語言模型,由此開啟了全球科技巨頭圍繞大規(guī)模語言模型的軍備競賽。而2022年推出的PaLM參數(shù)量高達5400億。谷歌在大模型領(lǐng)域有著長期的技術(shù)積累。
與微軟類似,谷歌對于AICG和大規(guī)模語言模型的布局,圍繞兩條線進行,一是以搜索引擎為代表的消費端,二是以云服務(wù)為代表的企業(yè)端。從Bert開始,谷歌就在搜索引擎中引入了大模型,以提升用戶檢索信息并將信息轉(zhuǎn)化為知識的效率。今日,谷歌還表示會在谷歌云上部署Vertex AI等開發(fā)平臺和開發(fā)環(huán)境,讓開發(fā)者能夠利用AICG能力,開發(fā)符合企業(yè)級安全和隱私保護要求的產(chǎn)品。
仍有局限性
雖然GPT-4的能力較前代產(chǎn)品有了顯著的提升,但仍然存在一些局限性。
首先是可靠性不足。比如,對于不了解的事物,GPT模型有可能生成虛構(gòu)或錯誤的答案,產(chǎn)生人工智能式“幻覺”。
由于大部分預(yù)訓(xùn)練數(shù)據(jù)截止到2021年9月,GPT-4對之后發(fā)生的事件缺乏了解,也沒有從中吸取經(jīng)驗。它有時會犯一些簡單的推理錯誤,或者在接受用戶錯誤的陳述時表現(xiàn)得過于輕信。
此外,GPT-4 也可能在預(yù)測中犯錯,在可能出錯時不注意仔細檢查工作。GPT-4在輸出中也存在偏差,OpenAI表示已經(jīng)對偏差進行了糾正,但仍需要時間解決。
但最令產(chǎn)業(yè)界和廣大用戶關(guān)注的,是GPT-4以及大模型的倫理安全問題。對此,OpenAI表示,GPT-4和后續(xù)模型有可能以有益和有害的方式對社會產(chǎn)生影響。該團隊正在與外部研究人員合作,以改善其理解和評估GPT-4潛在影響的方式,建立對未來系統(tǒng)中可能出現(xiàn)的危險能力的評估機制。短期內(nèi),OpenAI將公布關(guān)于社會為應(yīng)對人工智能影響可以采取的措施的建議,以及預(yù)測人工智能可能產(chǎn)生的經(jīng)濟影響。
- QQ:61149512