以GPT3/4為(wèi)代表的(de)大型語言模型被業界宣傳為(wèi)“基礎性的(de)”, 是人工智能領域科學(xué)進步的(de)主要轉折點。這類叙述忽略了大規模的(de)人工智能模型主要由大科技公司控制,因為(wèi)它們需要巨大的(de)計算和(hé)數據資源,并且還引發了圍繞錯誤信息和(hé)歧視(shì)、隐私和(hé)安全漏洞以及負面環境影響等多方面的(de)擔憂。同時,無論大型語言模型及其訓練數據集變得多麽龐大,它們永遠無法像人類一(yī)樣學(xué)習和(hé)理(lǐ)解我們的(de)語言。在此情況下,本文分析了大型語言模型的(de)四大發展趨勢,并指出,為(wèi)了充分了解其範圍和(hé)力量,探索大型語言模型如(rú)何影響社會的(de)不同方面非常重要。特别是,大型語言模型将帶來人類交流的(de)困境,我們需要傳播理(lǐ)論和(hé)基于倫理(lǐ)的(de)傳播實踐的(de)更新,來确定下一(yī)代傳播研究的(de)面貌。 ” 引言 通過交流,我們創造并改變了我們生活的(de)世界——其中既包括我們的(de)價值觀,也包括我們的(de)工具。大型語言模型是強大的(de)工具,可(kě)以幫助我們自(zì)動化和(hé)簡化複雜的(de)任務,并有可(kě)能徹底改變我們與技術交互的(de)方式。然而,它們并非沒有限制和(hé)風險。 交流離(lí)不開語言。與其他人工智能應用相比,語言是一(yī)個更加棘手的(de)問題,它的(de)風險也更高(gāo)。自(zì)然語言處理(lǐ)(NLP, natural language processing)與一(yī)些互聯網巨頭的(de)核心業務密切相關,例如(rú)谷歌的(de)搜索與Meta的(de)社交媒體參與。作為(wèi)一(yī)個社會,我們也許從未如(rú)此清醒的(de)意識到語言造成傷害和(hé)貶低(dī)的(de)危險,也從未如(rú)此清醒地(dì)意識到我們的(de)語言中微妙的(de)、結構性的(de)、往往是無意地(dì)将人予以他者化的(de)形式。 ChatGPT正在被過億用戶使用,其中許多人沒有接受過任何關于如(rú)何合倫理(lǐ)地(dì)使用這樣的(de)系統,或如(rú)何确保系統不會造成傷害的(de)教育。除了區分人類和(hé)機器的(de)困難,我們也需要更多的(de)研究來幫助我們了解人工智能将會怎樣影響我們與其他人的(de)互動。 這一(yī)切将帶來一(yī)個全新的(de)交流環境。在一(yī)個日益由可(kě)以模仿人類自(zì)然語言能力的(de)人工智能工具主導的(de)世界中,真實和(hé)信任意味着什麽?偏見和(hé)錯誤信息又将導緻什麽?很多問題超越了技術範圍。傳播學(xué)者需要成為(wèi)有關人工智能技術發展的(de)對話的(de)中心。
大型語言模型成新寵 由于ChatGPT爆火的(de)緣故,大型語言模型(LLM, large language model)集萬千寵愛于一(yī)身。但它們是什麽呢(ne)?簡單地(dì)說,LLMs是一(yī)種計算機系統,被設計用來學(xué)習文本語料庫的(de)統計屬性,以生成模仿原始文本風格和(hé)內(nèi)容的(de)新文本。換言之,LLMs能夠生成現實而較為(wèi)準确的(de)新文本,看起來像是由一(yī)個真實的(de)人撰寫的(de)。 LLMs的(de)核心基于一(yī)種強大的(de)機器學(xué)習技術,即深度學(xué)習。深度學(xué)習是人工智能的(de)一(yī)個子(zǐ)集,能夠自(zì)動學(xué)習數據中的(de)複雜模式。深度學(xué)習算法的(de)靈感來自(zì)于大腦從經驗中學(xué)習的(de)能力,它們通常使用神經網絡來實現——計算系統的(de)結構與大腦非常相似。事實上,如(rú)果不使用先進的(de)水印策略,就不可(kě)能準确區分由人類頭腦所寫的(de)文本和(hé)由高(gāo)度可(kě)并行的(de)人工神經網絡所産生的(de)文本,後者的(de)神經連接數要少得多。 傳統機器學(xué)習算法和(hé)深度學(xué)習算法之間的(de)一(yī)個關鍵區别是,深度學(xué)習算法可(kě)以擴展到更大的(de)數據集,它們可(kě)以從非結構化或未标記的(de)數據中學(xué)習。這使得它們非常适合于自(zì)然語言處理(lǐ)等任務,這也是LLMs的(de)用途。大型語言模型現在被認為(wèi)是人工智能的(de)前沿,因其有可(kě)能執行需要創造力、推理(lǐ)和(hé)理(lǐ)解自(zì)然語言的(de)任務。 大型語言模型于2017年(nián)在谷歌大腦(Google Brain)開始使用,研究人員推出了transformer(轉換器)架構,它是自(zì)然語言處理(lǐ)中使用的(de)一(yī)個基于深度學(xué)習模型的(de)神經網絡,訓練可(kě)以實現并行化,這為(wèi)訓練真正的(de)大模型首次提供了機會。此後,大型語言和(hé)文本-圖像模型在領先的(de)技術公司中激增,包括谷歌(BERT、GLaM、LaMDA、Chinchilla、PaLM)、Facebook/Meta(OPT-175B、Galactica、BlenderBot、LLaMA)、英偉達和(hé)微軟(Megatron-Turing),當然還有OpenAI,微軟是主要的(de)投資者(GPT-3/4用于文本,DALL-E2用于圖像,Whisper用于語音)。在線社區,如(rú)Midjourney,以及Hugging Face等開源供應商,也創造了生成模型。 新的(de)玩家還在不斷進場。2023年(nián)3月,彭博社推出BloombergGPT(Bloomberg Professional Services, 2023),系根據專有來源的(de)金融數據訓練的(de)LLM,“在金融任務上比現有的(de)模型有明顯的(de)優勢,而不影響一(yī)般LLM的(de)基準性能”(Wu, 2023)。4月,資助開發“穩定擴散”(Stable Diffusion)等開源生成式人工智能模型的(de)Stability AI宣布推出StableLM語言模型套件。在為(wèi)多個領域(包括圖像、音頻、視(shì)頻、3D和(hé)生物學(xué))開發模型之後,這是該開發商首次加入目前由技術大腕主導的(de)語言模型遊戲(Dey, 2023)。同在4月,亞馬遜在AWS中推出Bedrock服務,在一(yī)個平台上提供多種生成式人工智能模型。例如(rú),Stability AI的(de)Stable Diffusion圖像生成器,可(kě)以将文本變成圖像;AI21實驗室的(de)Jurassic-2模型是一(yī)個多語言LLM,可(kě)以生成德語、西班牙語、法語、葡萄牙語、荷蘭語和(hé)意大利語文本;Anthropic的(de)Claude是ChatGPT的(de)一(yī)個對手,可(kě)以使工作流程自(zì)動化、回答問題,并與用戶進行交流。與微軟和(hé)Alphabet相比,亞馬遜可(kě)能看起來姗姗來遲,但它的(de)做(zuò)法相當精明。通過Bedrock,亞馬遜不隻是提供對上述第三方平台的(de)訪問,也提供對其專有的(de)大型語言模型Titan的(de)訪問,這可(kě)能使亞馬遜變成那些希望使用LLMs并根據其需求構建應用程序的(de)企業的(de)首選平台(Chauhan, 2023)。 時至今日,除了蘋果之外,美國每家主要科技公司都宣布了自(zì)己的(de)LLM。中國的(de)科技公司當然亦不甘落後:2023年(nián)3月,百度推出文心一(yī)言并在官宣後為(wèi)新浪财經、澎湃新聞、愛奇藝、美的(de)集團、東風日産等一(yī)系列企業提供接入服務;2022年(nián),阿裏達摩院發布通義大模型,并在2023年(nián)4月正式推出通義千問;再加上2022年(nián)騰訊對外披露的(de)混元大模型和(hé)2021年(nián)華為(wèi)發布的(de)盤古大模型等等,不一(yī)而足,人稱“萬模大戰”。在TB級文本數據上訓練的(de)大型語言模型成為(wèi)高(gāo)科技行業最熱門的(de)一(yī)角。 LLMs對大型科技公司很重要,因為(wèi)它們可(kě)以實現新的(de)産品和(hé)服務,從而吸引更多的(de)用戶,産生更多的(de)收入,并創造更多的(de)價值。例如(rú),LLMs可(kě)用于改進搜索引擎、社交網絡、雲計算、數字助理(lǐ)、電子(zǐ)商務、遊戲、教育、醫療保健等。此外,科技公司可(kě)以用LLMs來改進企業的(de)現有産品線。例如(rú),無論是語音數字助理(lǐ)還是為(wèi)營銷人員自(zì)動投放廣告,谷歌都将人工智能作為(wèi)未來的(de)突破性技術,使下一(yī)代服務和(hé)設備更加智能化、功能更強。 生成式模型的(de)重要價值之一(yī)是它們與生産力應用程序的(de)整合。例如(rú),微軟在企業Office套件市場中有明顯的(de)優勢,正在将生成式模型整合到Word、Outlook和(hé)Teams等應用程序中。中國科技巨頭阿裏巴巴在生成式人工智能方面的(de)最新努力,在某種程度上讓人聯想到微軟,即通過讓人們用自(zì)然語言來描述他們想要建立的(de)東西,令各種應用程序變得更容易使用。阿裏巴巴宣布,通義千問将被整合到公司的(de)各項業務中,以改善用戶體驗,客戶和(hé)開發人員可(kě)以通過利用該模型創建定制的(de)人工智能功能。 同時,人工智能初創企業經常以超過10億美元的(de)估值籌集資金。例如(rú),6月13日,英國人工智能初創公司Synthesia表示,它從風險投資公司Accel和(hé)Nvidia旗下NVentures牽頭的(de)一(yī)輪融資中籌集了約9000萬美元,估值為(wèi)10億美元。該公司的(de)技術幫助包括亞馬遜在內(nèi)的(de)5萬多家企業創建用于教學(xué)和(hé)企業視(shì)頻的(de)定制AI化身。這表明,大量企業希望将傳統視(shì)頻制作轉變為(wèi)數字工作流程(Reuters, 2023)。Synthesia隻是一(yī)個人工智能初創企業快速獲得獨角獸地(dì)位的(de)例子(zǐ)。在利率上升和(hé)高(gāo)通脹導緻的(de)更廣泛的(de)融資放緩中,人工智能初創企業已經成為(wèi)2023年(nián)投資的(de)一(yī)個亮(liàng)點。 人工智能為(wèi)什麽非得是大模型? 就這樣,大型通用人工智能模型被業界宣傳為(wèi)“基礎性的(de)”,是該領域科學(xué)進步的(de)主要轉折點。這類叙述分散了“規模病症”的(de)注意力,這些病症每天都變得更加根深蒂固:大規模的(de)人工智能模型主要由大科技公司控制,因為(wèi)它們需要巨大的(de)計算和(hé)數據資源,并且還引發了圍繞歧視(shì)、隐私和(hé)安全漏洞以及負面環境影響等多方面的(de)擔憂。 例如(rú),GPT-3最初是在45TB的(de)數據上訓練的(de),并采用了1750億個參數來進行預測;GPT-3的(de)一(yī)次訓練就花費了1200萬美元(Davenport, Mittal, 2022)。另據報道(dào),OpenAI使用1萬個英偉達GPU訓練ChatGPT(Goldman, 2023),而ChatGPT每天給OpenAI帶來70萬美元的(de)成本(Gardizy, Ma,2023)。而最新的(de)GPT-4的(de)訓練耗資超過1億美元(Knight, 2023)。大多數公司沒有數據中心能力或雲計算預算來從頭開始訓練這類模型,許多現成的(de)、預訓練的(de)人工智能模型,作為(wèi)雲人工智能服務的(de)一(yī)部分提供,而此市場本已集中在大科技公司手中,如(rú)AWS(亞馬遜)、GCP(谷歌雲平台)和(hé)Azure(微軟)。這些雲供應商每年(nián)總共花費超過1000億美元的(de)資本,以确保擁有最全面、最可(kě)靠和(hé)最具成本競争力的(de)平台。特别是在生成式人工智能方面,它們也受益于供應限制,因為(wèi)它們可(kě)以優先獲得稀缺的(de)硬件(如(rú)Nvidia A100和(hé)H100 GPU)(Bornstein, Appenzeller, Casado, 2023)。 大科技公司可(kě)能會保持先發優勢,因為(wèi)它們有時間和(hé)市場經驗來磨練基礎語言模型,并發展寶貴的(de)內(nèi)部專業知識。因此,較小的(de)企業或初創公司可(kě)能難以成功進入這一(yī)領域,從而使得LLM的(de)巨大處理(lǐ)能力集中在少數幾家大科技公司手中。 2021年(nián),埃米莉·本德(Emily M. Bender)博士、蒂姆尼特·蓋布魯(Timnit Gebru)博士、安吉麗娜·麥克米蘭-梅傑(Angelina McMillan-Major)和(hé)瑪格麗特·米切爾(Margaret Mitchell)博士在一(yī)篇題為(wèi)《論随機鹦鹉的(de)危險》的(de)論文中對LLM的(de)潛在成本和(hé)危害提出警告(Bender et al., 2021),這篇論文導緻谷歌将蓋布魯和(hé)米切爾從人工智能倫理(lǐ)團隊的(de)共同領導位置上趕走(Metz, Wakabayashi, 2020;Metz, 2021)。該論文在确定困擾LLM的(de)規模病症方面有先見之明。當公衆讨論被圍繞着ChatGPT和(hé)其他LLMs的(de)令人窒息的(de)炒作所吞噬之際,這項研究提出了清醒的(de)警告:我們需要讨論社會是否應該建立這類技術,而不是如(rú)何建立,更不是不加批判地(dì)将其作為(wèi)進步的(de)同義詞而加以全盤接受。本德等人問道(dào):“越來越大的(de)語言模型是不可(kě)避免的(de)還是必須的(de)?這一(yī)研究方向有什麽成本,我們在追求它之前應該考慮什麽?” 擇其要者,大型語言模型可(kě)見的(de)成本就有: 環境和(hé)财務成本 LLMs的(de)訓練需要大量的(de)能源,并産生大量的(de)二氧化碳排放。在GPU上訓練一(yī)個BERT基礎模型所需的(de)能量與一(yī)次橫跨美國的(de)飛(fēi)行一(yī)樣多(Bender et al., 2021)。大多數雲計算供應商的(de)能源不是來自(zì)可(kě)再生能源,而且世界上許多能源也不是碳中和(hé)的(de)。此外,哪怕是可(kě)再生能源,對環境來說仍然是昂貴的(de)。數據中心為(wèi)了滿足越來越多的(de)計算需求,占用了綠色能源的(de)其他潛在用途,為(wèi)此,迫切需要節能型的(de)模型架構和(hé)訓練模式。 環境問題與種族問題的(de)交彙,意味着被邊緣化的(de)人和(hé)來自(zì)多數世界/全球南方的(de)人更有可(kě)能體驗到能源消耗和(hé)二氧化碳排放增加所帶來的(de)傷害,盡管他們也是最不可(kě)能體驗到這種模型的(de)好處的(de)一(yī)群。碳足迹将取決于能源的(de)使用和(hé)正在使用的(de)能源的(de)碳強度。不僅僅是LLMs有很大的(de)能源影響,而且其中的(de)碳影響将首先為(wèi)那些沒有從這項技術中受益的(de)人帶來成本。所以,當我們做(zuò)成本效益分析時,重要的(de)是要考慮到誰在得到好處,誰在支付成本,因為(wèi)兩者不是同一(yī)批人。 此外,進入和(hé)訓練這些模型的(de)成本很高(gāo),這意味着隻有一(yī)小部分全球精英能夠發展并受益于LLMs。由于其複雜的(de)性質,它們的(de)建立和(hé)維護可(kě)能是困難和(hé)昂貴的(de)。它們還需要大量的(de)訓練數據,而這些數據可(kě)能很難獲得,處理(lǐ)起來也非常昂貴。由此,大規模算力會将LLMs限制于隻有資源最豐富的(de)公司和(hé)研究者才能使用,而把小型開發商排除在外。所以,環境和(hé)财務成本應該成為(wèi)自(zì)然語言處理(lǐ)研究中的(de)首要考慮因素。 不負責任的(de)訓練數據 使用大量未經整理(lǐ)的(de)訓練數據集有可(kě)能創造出鞏固主導性、霸權性觀點的(de)語言模型。這些訓練數據集的(de)龐大規模并不能保證多樣性,因為(wèi)它們往往是從網站上抓取來的(de),而這些網站由于互聯網接入不足、代表性不足、過濾或騷擾等問題而排除了邊緣化人群的(de)聲音。這些數據集有“價值鎖定”的(de)風險,或許會将有害的(de)偏見編碼到難以徹底審計的(de)語言模型中。 如(rú)果模型是在過濾有限的(de)大量互聯網數據上訓練出來的(de),它們就會吸收事實和(hé)錯誤信息、有偏見的(de)內(nèi)容和(hé)公平的(de)內(nèi)容、有害的(de)材料和(hé)無害的(de)材料。如(rú)果沒有辦法在回答提示之前評估這些标準,LLMs就有可(kě)能陷入複制、放大和(hé)傳播有問題的(de)內(nèi)容和(hé)錯誤信息的(de)危險。 “随機鹦鹉”的(de)誕生 本德等人進一(yī)步警告說,對語言模型的(de)追求可(kě)能是一(yī)個誤導性的(de)研究方向。她們觀察到,語言模型就好比“随機鹦鹉”(stochastic parrot),“根據關于如(rú)何組合的(de)概率信息,胡亂地(dì)将它在龐大的(de)訓練數據中觀察到的(de)語言形式序列[縫合]在一(yī)起,但沒有任何對意義的(de)參考”(Weil, 2023)。也就是說,大型語言模型善于生成令人信服的(de)語言,但實際上并不理(lǐ)解它所處理(lǐ)的(de)語言的(de)含義。 “随機鹦鹉”的(de)比喻突出了兩個重要的(de)局限性:第一(yī),學(xué)習機器所作的(de)預測基本上是在重複數據的(de)內(nèi)容,加上一(yī)些由模型的(de)限制造成的(de)噪音(或随機性)。第二,機器學(xué)習算法并不了解它所學(xué)習的(de)問題。它無法得知自(zì)己什麽時候在重複一(yī)些不正确的(de)、脫離(lí)上下文的(de)或令社會感覺不适的(de)東西。由于這些局限性,學(xué)習機器可(kě)能會産生“危險的(de)錯誤”(Lindholm et al., 2022)。 ChatGPT的(de)不可(kě)靠性會給任何使用它來生成相應文本的(de)機構帶來相當大的(de)法律、财務和(hé)聲譽風險。正如(rú)沃倫·巴菲特(Warren Buffett)所說:“建立聲譽需要20年(nián),而毀掉聲譽隻需要5分鍾。”如(rú)果LLM用于重要任務,它可(kě)能會創建一(yī)種新的(de)職業(LLM事實檢查員)和(hé)一(yī)種新的(de)保險範圍(為(wèi)了彌補LLM 錯誤)。 進一(yī)步地(dì)說,随機鹦鹉的(de)問題可(kě)以被看作是人工智能和(hé)機器學(xué)習的(de)一(yī)個更普遍的(de)挑戰:如(rú)何确保模型是真正的(de)學(xué)習和(hé)推理(lǐ),而不是僅僅去(qù)記憶數據當中的(de)模式?随着模型的(de)規模和(hé)複雜性不斷增長(cháng),以及它們越來越多地(dì)被用于醫療保健、金融和(hé)運輸等高(gāo)風險的(de)應用中,這一(yī)挑戰顯得尤為(wèi)突出。 由此觀之,當模型過于依賴複制語言模式而并不真正理(lǐ)解其含義時,随機鹦鹉問題就會出現。如(rú)果不加以控制,随機鹦鹉會對人工智能的(de)發展和(hé)部署,以及依賴這些技術完成重要任務的(de)用戶産生嚴重後果。這凸顯了通過仔細的(de)模型設計、評估和(hé)持續監測來解決此問題的(de)重要性。 最終,我們需要問自(zì)己,為(wèi)什麽要把人工智能的(de)未來全部押注在大型語言模型一(yī)條路上?紐約大學(xué)教授兼Meta首席AI科學(xué)家楊樂(yuè)昆(Yann LeCun)就認為(wèi)LLM是“一(yī)條下坡路”,遠離(lí)了通往更強大的(de)AI的(de)道(dào)路(The Economist, 2023)。“大型語言模型能有多聰明,能有多準确,都是有限度的(de),因為(wèi)它們沒有現實世界的(de)經驗,而這确實是語言的(de)基本現實”。他指出,人類所學(xué)的(de)大部分內(nèi)容都與語言無關。“我們學(xué)習如(rú)何投擲籃球,讓它穿過籃圈”,深度學(xué)習的(de)另一(yī)位先驅者傑弗裏·辛頓(Geoffrey Hinton)說:“我們根本不使用語言來學(xué)習。我們從試驗和(hé)錯誤中學(xué)習。”(Smith, 2023) 就算語言是發展人工智能的(de)重要途徑,事情也很明顯:無論LLMs及其訓練數據集變得多麽龐大,它們也永遠無法像我們一(yī)樣學(xué)習和(hé)理(lǐ)解我們的(de)語言。吊詭的(de)是,語言模型的(de)限制導緻了一(yī)種研究趨勢,即專注于研究這類模型的(de)知識和(hé)行為(wèi)。換言之,人類正在學(xué)習LLMs的(de)語言,并尋找更好地(dì)與它們溝通的(de)方法。 這是因為(wèi),語言模型是神經網絡,根據從網絡收集的(de)數據進行訓練。經過訓練後,模型可(kě)以接收提示并預測其後的(de)單詞。神經網絡越大,模型的(de)學(xué)習能力就越強。數據集越大,模型接觸不同單詞序列的(de)機會就越大,生成文本時就越準确。 可(kě)問題是,人類語言不僅僅是文本。事實上,語言是一(yī)種将信息從一(yī)個大腦傳輸到另一(yī)個大腦的(de)壓縮方式。我們的(de)談話經常忽略共享知識,例如(rú)視(shì)覺和(hé)聽覺信息、世界的(de)物理(lǐ)體驗、過去(qù)的(de)談話、我們對人和(hé)物體行為(wèi)的(de)理(lǐ)解、社會結構和(hé)規範等。 正如(rú)楊樂(yuè)昆和(hé)紐約大學(xué)計算機科學(xué)系博士後雅各布·布朗甯(Jacob Browning)在最近的(de)一(yī)篇文章(zhāng)中所寫到的(de),“僅靠語言訓練的(de)系統永遠不會接近人類智力,即使從現在開始訓練直到宇宙熱寂”。雖然兩位科學(xué)家也指出,如(rú)果我們停留在表面上,語言模型“無疑會接近(人類智能)。而且,在許多情況下,表面就足夠了”,但是我們絕不應該把LLMs擁有的(de)淺層理(lǐ)解與人類從觀察世界景象、探索世界、在世界中進行實驗以及與不同文化和(hé)其他人互動中獲得的(de)深層理(lǐ)解相混淆(Browning, LeCun, 2022)。 所以,假如(rú)我們用“語言的(de)統計模型”而不是“大型語言模型”來描述這種人工智能技術,是否會帶來更清楚的(de)認知?這樣會使我們認識到,統計推理(lǐ)肯定不是人類合作、創造、協調和(hé)競争的(de)全部故事。 所有人類的(de)知識最終都能被抓進機器的(de)說法是沒有意義的(de)。我們隻能把可(kě)以用比特串表示的(de)知識放入機器。像體育、音樂(yuè)、木匠大師或創意寫作這樣的(de)技能是無法精确描述和(hé)記錄的(de),技能的(de)描述并不就能夠賦予表演的(de)能力。即使它們可(kě)以被代表,表演技能的(de)形式也是無法被記錄的(de)——它包括表演者的(de)想法和(hé)思考,他們的(de)神經元記憶狀态,以及他們的(de)神經肌肉化學(xué)模式。所有這些沒有記錄的(de)和(hé)無法記錄的(de)信息的(de)數量遠遠超出了可(kě)能存儲在機器數據庫中的(de)範圍。與人類的(de)能力相比,大型語言模型所能執行的(de)任何功能都是很小的(de)。 我們是否已經被大型語言模型迷住了,以至于沒有看到我們利用語言所做(zuò)的(de)其他事情?我們建立關系。我們互相關照。我們認識并駕馭我們的(de)情緒。我們建立并行使權力。我們做(zuò)出承諾,并貫徹執行。我們創建組織和(hé)社會。我們創造傳統和(hé)曆史。我們為(wèi)行動負責。我們打造信任。我們培養智慧。我們愛。我們想象以前從未想象過的(de)東西。所有這些都不是統計學(xué)上的(de)。大型語言模型的(de)能力與人類的(de)能力之間存在着巨大的(de)鴻溝。 大型語言模型的(de)四大發展趨勢 像LLMs這樣的(de)大規模人工智能模型在過去(qù)一(yī)段時間裏中受到了最多的(de)炒作,也帶來了最大的(de)恐懼。圍繞這些系統的(de)興奮和(hé)焦慮都有助于強化如(rú)下概念,即這些模型是“基礎性的(de)”,盡管它們無法對人類提示作出有意義的(de)回應的(de)例子(zǐ)數不勝數。值得注意的(de)是,這些模型之所以作為(wèi)“基礎性”的(de)技術被引入,其實意是在将它們等同于無可(kě)置疑的(de)科學(xué)進步,成為(wèi)“通用人工智能”(這是另一(yī)個模糊的(de)術語,讓人聯想起科幻小說中關于取代或超越人類智能的(de)概念)道(dào)路上的(de)踏腳石,從而使其被廣泛采用成為(wèi)必然。 在最近的(de)一(yī)次采訪中,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)說:“我認為(wèi)我們正處于巨大模型時代的(de)終結,我們将以其他方式讓模型變得更好。”(Miller, 2023)言下之意是,未來的(de)進展不會來自(zì)于将模型做(zuò)得更大。 而這些“其他方式”是什麽?一(yī)個可(kě)能的(de)途徑是在更多的(de)高(gāo)質量數據上對模型進行微調,創造更好的(de)訓練技術。人工管策的(de)數據集可(kě)能是非常有價值的(de),但創建成本高(gāo),速度慢。根據大型語言模型的(de)現狀,筆(bǐ)者認為(wèi),有四大發展趨勢值得高(gāo)度關注: 第一(yī),我們需要緻力于教會語言模型表達不确定性 在大多數情況下,人類知道(dào)自(zì)身的(de)局限性(即使他們不直接承認)。他們可(kě)以表達不确定和(hé)懷疑,并讓對話者知道(dào)他們對自(zì)己所傳授的(de)知識有多自(zì)信。而與此相對照,語言模型總是對任何提示都給出現成的(de)答案,即使它們的(de)輸出是毫無意義的(de)。神經網絡通常提供某個預測正确概率的(de)數值。然而就語言模型而言,這些概率分數并不代表模型對提示響應的(de)可(kě)靠性的(de)信心。 OpenAI和(hé)牛津大學(xué)的(de)研究人員發表的(de)一(yī)篇論文表明,可(kě)以通過教LLMs“用語言表達它們的(de)不确定性”來彌補這一(yī)缺點。可(kě)對 LLMs進行微調,以使用自(zì)然語言表達認知上的(de)不确定性,研究者将之描述為(wèi)“語言化概率”(verbalized probability),即用語言表達出來的(de)概率。這是一(yī)個重要的(de)發展方向,尤其是在用戶希望将語言模型的(de)輸出轉化為(wèi)某個動作的(de)應用程序中。研究人員建議,表達不确定性可(kě)以令語言模型誠實。“如(rú)果一(yī)個誠實的(de)模型出現一(yī)個誤導或惡意的(de)內(nèi)部狀态,那麽它可(kě)以将這種狀态傳達給可(kě)采取相應行動的(de)人類”(Lin et al., 2022)。 第二,與其緻力于模型之大,不如(rú)專攻特定模型 鑒于LLMs不理(lǐ)解它們所處理(lǐ)的(de)語言,也不理(lǐ)解所收到的(de)提示和(hé)自(zì)己的(de)回應,所以補救辦法一(yī)是靠規模的(de)力量,即訓練數據和(hé)模型參數的(de)巨大規模,二是靠專業的(de)力量,即在為(wèi)特定行業或領域(如(rú)醫療保健和(hé)醫學(xué))定制開發更專門的(de)模型的(de)情況下,有針對性地(dì)管策訓練數據,這将有助于解決LLMs在涉及特定問題時的(de)某些局限性。 想象一(yī)下,像ChatGPT這樣的(de)LLM已經在最好的(de)醫學(xué)文獻上接受了訓練,但訓練數據當中也有讨論健康問題的(de)Reddit線程。人工智能有時可(kě)以通過檢索和(hé)參考高(gāo)質量的(de)信息來回應,但其他時候它通過使用完全不可(kě)靠的(de)Reddit信息來回應。事實上,假如(rú)醫學(xué)文獻中沒有這些信息(例如(rú)一(yī)種非常罕見的(de)疾病),它更有可(kě)能編造這些信息(此即人工智能行業常說的(de)幻覺)。比爾·蓋茨(Bill Gates)曾預想過,ChatGPT或類似的(de)大型語言模型有一(yī)天可(kě)以為(wèi)沒有機會看醫生的(de)人提供醫療建議(Trang, 2023),然而你如(rú)何能相信一(yī)個容易産生幻覺的(de)機器的(de)建議? 所以我們需要通過使用較小和(hé)較高(gāo)質量的(de)數據集對特定的(de)知識領域進行訓練。例如(rú),擁有數十億參數的(de)大型臨床語言模型可(kě)以利用電子(zǐ)健康記錄中的(de)非結構化文本,幫助提取醫學(xué)概念和(hé)回答醫學(xué)問題,預測疾病或再入院風險,并總結臨床文本。而一(yī)個專門為(wèi)法律行業設計的(de)模型可(kě)以接受法律術語和(hé)行話的(de)訓練,使其更好地(dì)處理(lǐ)法律文件。 像BloombergGPT這樣的(de)例子(zǐ)表明,紮根于特定領域的(de)企業能夠使用免費提供的(de)、現成的(de)人工智能方法,處理(lǐ)大量的(de)專有數據。與OpenAI的(de)GPT3/4這樣的(de)“基礎性”模型不同,彭博社的(de)模型是為(wèi)特定任務而設計的(de)。它在公司多年(nián)來收集的(de)大量金融文本上專門訓練,為(wèi)的(de)是創建一(yī)個對金錢和(hé)商業能夠産生特别流利的(de)認知的(de)模型。在用于創建彭博社模型的(de)數據中,約有一(yī)半來自(zì)網絡上的(de)非金融來源,包括GitHub、YouTube字幕和(hé)維基百科。但彭博社還為(wèi)自(zì)己的(de)模型添加了1000多億單詞,來自(zì)一(yī)個名為(wèi)FinPile的(de)專有數據集,其中包括該公司在過去(qù)20年(nián)中積累的(de)金融數據,內(nèi)含證券文件、企業新聞發布、彭博社新聞報道(dào)、其他出版物的(de)報道(dào),以及專注于金融網頁的(de)網絡爬行等。事實證明,添加特定的(de)培訓材料可(kě)以提高(gāo)金融任務的(de)準确性和(hé)性能。彭博社正計劃将其GPT整合到通過公司終端産品訪問的(de)功能和(hé)服務中,盡管彭博社還未有計劃推出ChatGPT式聊天機器人(Leswing, 2023)。 第三,高(gāo)質量的(de)數據将成為(wèi)LLM稱霸的(de)新戰場 限制LLM持續改進的(de)最重要限制是可(kě)用的(de)訓練數據量。《經濟學(xué)人》報道(dào)說,2022年(nián)10月發表的(de)一(yī)篇論文得出的(de)結論是,“高(gāo)質量語言數據的(de)存量将很快耗盡,可(kě)能就在2026年(nián)之前”(The Economist, 2023)。肯定有更多可(kě)用的(de)文本,但它們被一(yī)小塊一(yī)小塊地(dì)鎖定在公司數據庫或個人設備上,無法以Common Crawl允許的(de)規模和(hé)低(dī)成本加以訪問。這種數據稀缺對LLM的(de)進一(yī)步發展提出了挑戰。 2023年(nián)4月18日,Reddit宣布,它将開始對其API的(de)訪問收費(Isaac, 2023)。這一(yī)決定是在Twitter對其API實施類似限制之後做(zuò)出的(de)(Mehta,2023)。近年(nián)來,Reddit的(de)系列聊天成為(wèi)谷歌、OpenAI和(hé)微軟等公司的(de)免費教具。這些公司使用Reddit的(de)對話來幫助開發巨型人工智能系統。然而現在,Reddit聯合創始人兼首席執行官史蒂夫·赫夫曼(Steve Huffman)稱:“我們不需要把所有這些價值免費提供給世界上最大的(de)一(yī)些公司。” 随即,程序員問答網站Stack Overflow也宣布将開始對其 API收費。首席執行官普拉桑斯·錢德拉塞卡爾(Prashanth Chandrasekar)表示:“我們非常支持 Reddit 的(de)做(zuò)法”,“為(wèi)LLM提供動力的(de)社區平台絕對應該因其貢獻而得到補償,這樣像我們這樣的(de)公司就可(kě)以重新注資到社區,讓其繼續蓬勃發展。”(Dave,2023) Reddit和(hé)Stack Overflow等平台為(wèi)微調LLM提供了快速訪問具體主題和(hé)問題的(de)寶貴數據,而這些平台的(de)所有者正意識到它們所掌握的(de)數據的(de)價值。數據市場日益激烈的(de)競争可(kě)能推動行業走向更少的(de)共享和(hé)更多的(de)貨币化。不幸的(de)是,激進的(de)貨币化将進一(yī)步增強能夠負擔API成本的(de)大型科技公司的(de)能力。相應地(dì),小型實驗室和(hé)資金緊張的(de)初創公司将不得不處理(lǐ)手頭可(kě)用的(de)低(dī)質量數據。 第四,開源模型可(kě)以成為(wèi)大科技公司封閉服務的(de)替代品 最先進的(de)LLM需要巨大的(de)計算預算和(hé)深厚的(de)機器學(xué)習專業知識,所以很少有機構能夠從頭開始訓練它們。然而,那些擁有資源和(hé)專業知識的(de)機構越來越多地(dì)不開放模型(無論是數據、源代碼或深度學(xué)習的(de)秘方——模型權重)供公衆監督,而是依靠API分發。 這就是開源人工智能可(kě)以介入的(de)地(dì)方,它使獲得LLM的(de)機會民主化。各種社區平台正在努力創建開源的(de)模型,以替代大科技公司提供的(de)封閉的(de)專有服務。這些努力是為(wèi)了防止少數富有的(de)公司在快速增長(cháng)的(de)生成式人工智能市場上擁有過多的(de)權力。 例如(rú),我們開始看到Anthropic、Cohere和(hé)Character.ai等公司建立的(de)LLMs更接近OpenAI的(de)性能水平,它們在類似的(de)數據集上訓練,并采用類似的(de)模型架構。“穩定擴散”的(de)例子(zǐ)表明,如(rú)果開源模型的(de)性能和(hé)社區支持達到了足夠的(de)水平,那些封閉的(de)大型模型未必能與其競争。 “穩定擴散”隻需較少的(de)計算能力就可(kě)以工作。與在OpenAI強大的(de)服務器上運行的(de)DALL-E 2不同,穩定擴散可(kě)以在良好的(de)個人電腦上運行。創造力的(de)爆發和(hé)新應用程序的(de)快速發展在很大程度上是由于“穩定擴散”:既是開源的(de),程序員可(kě)以自(zì)由地(dì)改變它,在它的(de)基礎上發展,并從中賺錢;又足夠輕巧,人們可(kě)以在家中運行。 谷歌的(de)一(yī)位高(gāo)級軟件工程師認為(wèi),不管是OpenAI還是谷歌,在人工智能競賽中都沒有勝算,構成威脅的(de)“第三派”将是開源社區。開源技術開發者沒有所有權,他們将自(zì)己的(de)作品發布給任何人,讓他們根據自(zì)己的(de)需要使用、改進或改編。開源的(de)曆史例子(zǐ)包括Linux操作系統和(hé)LibreOffice,這是微軟Office的(de)替代品。 這位谷歌工程師說,開源人工智能開發者“已經在搶占先機”,他舉出的(de)例子(zǐ)包括Meta公司開發的(de)大型開源語言模型LLaMA。2023年(nián)2月底發布的(de)LLaMA因其優于GPT-3等模型的(de)性能而立即受到歡迎,盡管其參數隻有650億(Meta AI, 2023)。7 月 18 日,LlaMa2發布包含了 70 億、130 億和(hé) 700 億參數的(de)模型,它對于人工智能應用,就像安卓操作系統之于手機APP開發一(yī)樣,目的(de)就是讓應用層開發者可(kě)以直接以最低(dī)成本獲得大模型的(de)基礎設施使用。有了這樣的(de)模型,從事人工智能模型的(de)門檻已經“從某一(yī)個主要研究機構的(de)總産出降至一(yī)個人、一(yī)個晚上和(hé)一(yī)台強大的(de)筆(bǐ)記本電腦”。一(yī)個LLM現在可(kě)以在幾個小時內(nèi)以100美元的(de)價格進行微調。憑借其快速移動、協作和(hé)低(dī)成本的(de)模式,開源模型有一(yī)些谷歌或OpenAI無法複制的(de)顯著優勢(Milmo, 2023)。而當免費的(de)或低(dī)價的(de)、不受限制的(de)替代品在質量上與封閉的(de)大型模式不相上下時,人們不會為(wèi)一(yī)個設限的(de)人工智能模型付費。 當然,像任何事情一(yī)樣,這同時具有積極和(hé)消極的(de)影響。從正面看,它使少數公司壟斷控制人工智能的(de)可(kě)能性大大降低(dī),也将使獲得人工智能的(de)成本大大降低(dī),加速整個領域的(de)創新,并使研究人員更容易分析人工智能系統的(de)行為(wèi)(因其對專有模型的(de)訪問是有限的(de)),提高(gāo)透明度和(hé)安全性。但是,更容易獲得人工智能,也意味着不良行為(wèi)者将可(kě)以出于自(zì)身的(de)邪惡目的(de)而對系統進行微調,例如(rú)生産虛假信息。這将使人工智能更難于監管,因為(wèi)精靈已經逃出了瓶子(zǐ)。 大型語言模型的(de)社會後果 大型語言模型已經徹底改變了我們與計算機互動的(de)方式。它們能夠理(lǐ)解自(zì)然語言并對複雜的(de)問題做(zuò)出反應。随着人工智能驅動的(de)LLMs(如(rú)ChatGPT)的(de)發展,它們已經變得越來越有用并走向通用。 然而,它們的(de)迅速進展也不是沒有争議的(de)。許多人擔心如(rú)此強大的(de)技術所帶來的(de)反響,憂慮這些模型可(kě)能被用來操縱信息或替代人類的(de)經驗。為(wèi)了充分了解它們的(de)範圍和(hé)力量,探索LLMs如(rú)何影響社會的(de)不同方面非常重要。 鑒于這些開創性的(de)模型的(de)廣泛采用所帶來的(de)巨大可(kě)能性和(hé)潛在風險,社會已經對其使用産生了不同的(de)反應。例如(rú),在開發和(hé)分發這些模型的(de)源代碼時,是采取開源還是閉源方式? 總的(de)來說,開源是指任何人都可(kě)以免費使用、修改和(hé)發布的(de)源代碼,而閉源是指不能在創造它的(de)機構之外修改或發布的(de)專有代碼。在GPT-3之前,大多數大型語言模型都是開源的(de),但目前,越來越多的(de)公司将他們的(de)模型變成閉源的(de),例如(rú)PaLM、LaMDA和(hé)GPT-4。在OpenAI宣布GPT-4模型的(de)文件中,該公司說它不會提供關于架構、模型大小、硬件、訓練計算、數據構建或用于開發GPT-4的(de)訓練方法的(de)細節,隻是指出它使用了從人類反饋中強化學(xué)習的(de)方法,聲稱這是由于競争和(hé)安全方面的(de)考慮(AI Now Institute, 2023)。 同樣,出于大型語言模型的(de)競争格局和(hé)安全問題,OpenAI向客戶提供的(de)付費訪問,也有許多法律和(hé)技術限制。這使得學(xué)術研究人員更難進行LLM訓練實驗。對研究界來說,最直接的(de)問題之一(yī)是缺乏透明度。ChatGPT及其前身的(de)基礎訓練集和(hé)LLMs是不公開的(de),科技公司可(kě)能會隐瞞其對話式AI的(de)內(nèi)部運作。這與透明度和(hé)開放科學(xué)的(de)趨勢背道(dào)而馳。在這種情況下,有關人工智能的(de)模型能力的(de)主張無法被其他人驗證或複制,客戶也不可(kě)能下載ChatGPT背後的(de)模型。 相比之下,開源工作涉及創建一(yī)個模型,然後将其發布給任何人,讓他們根據自(zì)己的(de)需要使用、改進或改編。業界推動開源LLM的(de)工作,承諾多方合作和(hé)權力共享,而這正是互聯網的(de)最初理(lǐ)想。它顯示了不同的(de)社區如(rú)何能夠相互幫助,攜手推進大型語言模型的(de)下一(yī)步發展。 圍繞着LLMs的(de)另一(yī)個關鍵問題是它們的(de)倫理(lǐ)含義。随着這些系統變得越來越複雜,有關操縱人類行為(wèi)或公衆輿論的(de)問題日益凸顯。此外,LLMs有可(kě)能被用作惡意行為(wèi)者或組織獲取私人數據或傳播虛假信息的(de)工具。出于對偏見和(hé)準确性的(de)擔憂,人們也擔心它們在醫療診斷、法律決定甚至政府政策中的(de)使用。 “深度僞造”(deepfake),由人工智能創造的(de)圖像和(hé)視(shì)頻,已經在媒體、娛樂(yuè)和(hé)政治中出現了。在此之前,創造深度僞造的(de)內(nèi)容需要相當多的(de)計算技能,然而,現在幾乎任何人都能創造它們。OpenAI已經試圖通過在每張DALL-E 2的(de)圖像上“打上水印”來控制虛假圖像,但未來可(kě)能需要更多的(de)控制手段——特别是當生成式視(shì)頻創作成為(wèi)主流時。 生成式人工智能還提出了許多有關何為(wèi)原創和(hé)專有內(nèi)容的(de)問題。由于創建的(de)文本和(hé)圖像與以前的(de)任何內(nèi)容都不完全一(yī)樣,AI系統供應商認為(wèi)人工智能生成內(nèi)容屬于提示的(de)創造者。但它們顯然是用于訓練模型的(de)先前文本和(hé)圖像的(de)衍生品。不用說,類似技術将在未來幾年(nián)為(wèi)知識産權律師提供大量工作。 在隐私方面,LLMs本質上是個人化的(de),它收集大量的(de)用戶數據,以便能夠有效地(dì)預測對話的(de)長(cháng)度、主題和(hé)軌迹。此外,每次與 ChatGPT 這樣的(de)工具的(de)互動都有一(yī)個唯一(yī)的(de)标識符——有使用它的(de)人的(de)登錄軌迹。因此,個人對 ChatGPT 的(de)使用并非真正的(de)匿名,這就引發了有關 OpenAI 保留敏感數據的(de)問題。圍繞着數據的(de)收集、存儲和(hé)使用,必須進行一(yī)系列的(de)深思熟慮,以便安全地(dì)使用LLMs。 LLMs與其他人工智能技術一(yī)樣受到監管和(hé)合規框架的(de)約束,但随着它們變得越來越普遍,可(kě)能會提出新的(de)問題:如(rú)何以符合《通用數據保護條例》(GDPR)和(hé)其他法規的(de)方式使用此類工具。由于 ChatGPT 處理(lǐ)用戶數據以生成響應,OpenAI 或者出于自(zì)身目的(de)而依賴 ChatGPT 的(de)實體可(kě)能被視(shì)為(wèi) GDPR 下的(de)數據控制者,這意味着它們應該獲得處理(lǐ)用戶個人數據的(de)合法依據(例如(rú)用戶的(de)同意),并且必須告知用戶它們在從事何種由ChatGPT支持的(de)數據處理(lǐ)活動。 所有這些潛在的(de)問題強調了為(wèi)什麽科學(xué)家、研究人員和(hé)其他使用LLMs的(de)人或組織在将其投入實際使用之前,從多個角度積極審查大型語言模型的(de)影響是至關重要的(de)。如(rú)果深思熟慮地(dì)考量倫理(lǐ)方面的(de)影響,再加上嚴格的(de)安全措施,大型語言模型就可(kě)以成為(wèi)有價值的(de)工具,而不會破壞用戶的(de)信任或損害完整性。 此外,雖然大型語言模型的(de)趨勢仍在繼續,但重要的(de)是要注意,更大并不總是意味着更好。大型語言模型可(kě)以很好地(dì)進行随心所欲的(de)創造性互動,但過去(qù)十年(nián)的(de)發展告訴我們,大型深度學(xué)習模型是高(gāo)度不可(kě)預測的(de),使模型更大、更複雜并不能解決這個問題。 像ChatGPT這樣的(de)大型語言模型,具有與用戶進行類似語言交流的(de)能力,有可(kě)能成為(wèi)交流和(hé)教育以及其他許多領域的(de)強大工具。然而,一(yī)方面其對社會的(de)影響是巨大的(de);另一(yī)方面其被濫用的(de)可(kě)能性也是非常真實的(de)。因此,需要更多的(de)研究來認識大型語言模型的(de)社會後果及對我們生活的(de)影響。随着人工智能和(hé)數據科學(xué)越來越多地(dì)融入日常生活中,重要的(de)是要加強這類技術的(de)倫理(lǐ)考量,并尊重我們的(de)數據和(hé)隐私賦予我們的(de)個人權利。該領域的(de)領導者必須共同努力,确保大型語言模型的(de)使用是負責任的(de),符合人類的(de)最佳利益。 大型語言模型帶來的(de)交流困境
ChatGPT和(hé)其他生成式人工智能工具正在将有關大型語言模型的(de)對話帶到公衆關注的(de)最前沿,并且帶着一(yī)種前所未有的(de)緊迫感。現在,人們必須就人工智能的(de)未來是什麽樣子(zǐ)以及如(rú)何創造我們想要的(de)未來進行交流。
我們需要傳播理(lǐ)論、傳播研究和(hé)基于倫理(lǐ)的(de)傳播實踐來關注和(hé)指導這樣的(de)對話。數字人文學(xué)者馬修·科申鮑姆(Matthew Kirschenbaum)預測,即将到來的(de)“文本末日”将導緻“文本海嘯”,“在任何數字環境中都無法可(kě)靠地(dì)進行交流”(Kirschenbaum, 2023)。
科申鮑姆所稱的(de)“文本末日”是指,我們與書面文字的(de)關系正在發生根本性的(de)變化。通過ChatGPT等程序,所謂的(de)生成式人工智能已經成為(wèi)主流,這些程序使用大型語言模型來統計預測序列中的(de)下一(yī)個字母或單詞,從而生成模仿其所訓練的(de)文本內(nèi)容的(de)句子(zǐ)和(hé)段落。它們為(wèi)整個互聯網帶來了類似自(zì)動完成(autocomplete)的(de)功能。
目前,人們仍然在為(wèi)這些程序輸入實際的(de)提示信息,同樣,這些模型(大部分)仍然是根據人類散文而不是機器自(zì)制的(de)作品進行訓練的(de)。但情況可(kě)能會發生變化——OpenAI發布ChatGPT應用程序接口就證明了這一(yī)點,它将允許該技術直接集成到社交媒體和(hé)在線購物等網絡應用中(Wiggers,2023)。不難想象,在這種情況下,機器可(kě)以促使其他機器無休止地(dì)發布文本,從而使互聯網充斥着沒有人類的(de)能動性或意圖的(de)合成文本。
2022年(nián)6月3日,人工智能研究者兼YouTuber揚尼克·基爾徹(Yannic Kilcher)發布了一(yī)段視(shì)頻,介紹他如(rú)何開發名為(wèi)“GPT-4chan”的(de)人工智能模型,然後部署機器人在著名留言闆4chan上僞裝成人類。4chan常被描述為(wèi)互聯網亞文化的(de)中心,其社區對知名互聯網模型的(de)形成和(hé)普及以及黑客行動和(hé)政治運動具有相當大的(de)影響力。4chan經常作為(wèi)争議來源而受到媒體關注,包括協調組織針對某些網站和(hé)用戶的(de)惡作劇和(hé)騷擾,以及發布非法和(hé)攻擊性內(nèi)容。
GPT-4chan是一(yī)個大型語言模型,通過使用之前公開發布的(de)數據集對GPT-J進行微調來模拟4chan的(de)/pol/匿名留言闆用戶而創建;其中許多用戶經常表達種族主義、白人至上主義、反猶主義、反穆斯林、厭惡女性和(hé)反 LGBT的(de)觀點。基爾徹訓練機器人閱讀了4Chan這一(yī)臭名昭著的(de)“政治不正确”闆塊3年(nián)半時間內(nèi)的(de)1.345億條帖子(zǐ),很自(zì)然地(dì),該模型學(xué)會了輸出各種仇恨言論,導緻基爾徹稱其為(wèi)“互聯網上最可(kě)怕的(de)模型”,并在他的(de)視(shì)頻中這樣說道(dào):“這個模型很好,但從一(yī)個可(kě)怕的(de)意義上來說……它完美概括了/pol/上大多數帖子(zǐ)中滲透的(de)攻擊性、虛無主義、惡搞以及對任何信息的(de)深度不信任。”(Kilcher, 2022)
在訓練完成後,由該模型驅動的(de)10個機器人被部署在/pol/留言闆上,24小時內(nèi)匿名發布了1.5萬條基本上是有毒的(de)信息。雖說許多用戶通過留言闆上的(de)發帖頻率很快認定這是一(yī)個機器人,而基爾徹也公布了在服務器上運行模型所需的(de)代碼和(hé)已訓練的(de)模型實例,并表示人工智能研究人員可(kě)以聯系他獲取機器人與4chan用戶的(de)互動記錄,可(kě)是他的(de)做(zuò)法還是在人工智能研究者社區內(nèi)引發了較大争議。
GPT-4chan模型發布在Hugging Face上,這是一(yī)個共享經過訓練的(de)AI模型的(de)中心。在該模型被下載了1000餘次後,Hugging Space團隊首先“限制”了對它的(de)訪問,此後不久,他們又完全删除了對它的(de)訪問權限,其頁面現在刊有以下免責聲明:“已禁用對該模型的(de)訪問——鑒于其研究範圍,在所有禁止使用機器人的(de)網站上故意使用該模型生成有害內(nèi)容(不完全示例包括:仇恨言論、垃圾郵件生成、假新聞、騷擾和(hé)辱罵、貶低(dī)和(hé)诽謗)被視(shì)為(wèi)對該模型的(de)濫用。”(Kurenkov, 2022)
在人工智能研究界,有人認為(wèi)這樣的(de)模型很可(kě)能造成傷害,特别是在面向青少年(nián)的(de)論壇中。讓機器人與 4chan 用戶互動是不道(dào)德的(de),它加劇了4chan本已有毒的(de)回聲室效應并進一(yī)步分化了用戶群。阿德萊德大學(xué)的(de)人工智能安全研究員勞倫·奧克登-雷納(Lauren Oakden-Rayner)在一(yī)條推文中指責基爾徹“在未告知用戶、未經同意或監督的(de)情況下進行人類實驗”,她認為(wèi)這違反了人類研究倫理(lǐ)的(de)所有原則(Mellor, 2022)。
基爾徹在接受The Verge采訪時将該項目描述為(wèi)一(yī)個“惡作劇”,他認為(wèi)考慮到 4chan本身的(de)性質,這種惡作劇幾乎沒有造成什麽有害影響。“/pol/上完全可(kě)以預料到會有機器人和(hé)非常粗魯的(de)言談”(Vincent, 2022)。并且,任何潛在的(de)危害也可(kě)以使用其他現有模型來實現。
的(de)确,基爾徹不會是第一(yī)個、也不是唯一(yī)一(yī)個創建惡意的(de)微調模型的(de)人。所以,問題在于,如(rú)果出現更多的(de)微調模型,其內(nèi)容指向在意識形态層面複制一(yī)種特定世界觀,會為(wèi)未來的(de)人類交流帶來什麽?
基爾徹創建的(de)機器人非常逼真。“它能對上下文做(zuò)出反應,并能連貫地(dì)講述在收集最後一(yī)次訓練數據很久之後發生的(de)事情和(hé)事件”,基爾徹在視(shì)頻中稱。以此類推,有人可(kě)以建立一(yī)個系統,讓ChatGPT這樣的(de)程序反複向自(zì)己提問,并自(zì)動将輸出結果發布到網站或社交媒體上。這樣無休止地(dì)叠代內(nèi)容流,除了在交流場域造成混亂,它還将被再次吸入大型語言模型的(de)訓練集,讓模型在互聯網上制造自(zì)己的(de)新內(nèi)容。如(rú)果各路人馬——無論是出于廣告收入、政治或意識形态目的(de)還是惡作劇——都開始這樣做(zuò),每天難以數計的(de)類似帖子(zǐ)充斥在開放的(de)互聯網上,與搜索結果混雜在一(yī)起,在社交媒體平台上傳播,滲透到維基百科詞條中,尤其是為(wèi)未來的(de)機器學(xué)習系統提供素材,那将會怎樣?
将基爾徹的(de)工作與過去(qù)最著名的(de)變壞了的(de)機器人的(de)例子(zǐ)相比較是非常有趣的(de):微軟的(de)Tay。微軟于2016年(nián)在 Twitter上發布了人工智能聊天機器人,但在用戶教導Tay重複各種種族主義和(hé)煽動性言論後,不到24小時,微軟就被迫下線該項目(Vincent, 2016)。可(kě) 是在那時,創建這樣的(de)機器人專屬于大型科技公司的(de)領域,基爾徹現在的(de)做(zuò)法表明,任何一(yī)人編碼團隊都可(kě)以使用更先進的(de)人工智能工具達成同樣的(de)結果。至于說到人類研究倫理(lǐ)的(de)指責,如(rú)果基爾徹在大學(xué)工作,讓AI機器人在 4chan上自(zì)由活動可(kě)能是不道(dào)德的(de)。但基爾徹堅稱自(zì)己隻是一(yī)名YouTuber,這暗示着他認為(wèi)此處适用不同的(de)倫理(lǐ)規則。
面對如(rú)此嚴峻的(de)局面,我們該如(rú)何應對?筆(bǐ)者認為(wèi),傳播學(xué)可(kě)以發揮作用的(de)領域包括:
讓開發者對人工智能偏見負責。像希瑟·伍茲(Heather S. Woods)和(hé)泰勒·莫蘭(Taylor C. Moran)這樣的(de)傳播研究者已經發表了關于人工智能虛拟助手(如(rú)Siri和(hé)Alexa)與性别和(hé)種族刻闆印象的(de)重要研究成果,顯示了人工智能是如(rú)何反映并重新定義人類偏見和(hé)價值觀的(de)(Woods, 2018;Moran, 2021)。随着生成式人工智能和(hé)新應用的(de)引入,這一(yī)領域還需要更多的(de)研究。研究的(de)目的(de)是喚醒公衆去(qù)追究那些生産強化此類偏見的(de)人工智能軟件組織的(de)責任。
具體就大型語言模型而言,一(yī)件重要的(de)事情是幫助制訂發布“基礎性”模型的(de)社區規範。斯坦福以人為(wèi)本人工智能研究院(HAI,Human-Centered AI Institute)和(hé)基礎模型研究中心(CRFM, Center for Research on Foundation Models)就提出,随着基礎模型變得更加強大和(hé)普遍,負責任發布的(de)問題變得至關重要(Liang, 2022)。而“發布”一(yī)詞本身就有不同的(de)內(nèi)涵:首先是研究訪問,即基礎模型開發者令外部研究人員可(kě)以訪問數據、代碼和(hé)模型等資産;而部署到用戶中開展測試和(hé)收集反饋,以及以産品形式部署到最終用戶中,則構成了更深入的(de)發布形式。
随着AI技術變得越來越強大,每個基礎模型開發者獨立決定其發布政策的(de)問題凸顯出來。原因有二:首先,單個行為(wèi)者發布不安全、功能強大的(de)技術可(kě)能會對個人和(hé)社會造成重大傷害。即便認為(wèi)當今基礎模型的(de)風險還沒有嚴重到有理(lǐ)由限制相對開放的(de)發布,然而迅猛的(de)發展速度也給未來模型的(de)能力帶來了相當大的(de)不确定性。其次,正因為(wèi)基礎模型風險的(de)嚴重性尚不明确,基礎模型開發者将從分享最佳實踐中獲益,而無需每個組織都“重新發明輪子(zǐ)”,承擔重新發現某些危害的(de)經濟和(hé)社會成本。此外,加強合作和(hé)提高(gāo)透明度可(kě)以解決集體行動問題,即由于快速行動的(de)強烈經濟動機,各組織通常對負責任的(de)人工智能投資不足(Askell et al,2019;胡泳,朱政德,2023)。底線就是,需要社區規範來管理(lǐ)基礎模型的(de)發布。在向公衆發布人工智能代碼或模型時,既要考慮這樣做(zuò)的(de)直接影響,也要考慮其他人使用這些代碼或模型可(kě)能産生的(de)下遊影響。
完善把關機制,限制訪問或移除可(kě)能有害的(de)模型和(hé)數據集。随着AI逐漸成為(wèi)各類信息和(hé)知識的(de)把關人,為(wèi)AI系統設置把關人成為(wèi)迫切需要。例如(rú),基爾徹使用的(de)數據集過去(qù)和(hé)現在都是公開的(de),任何人都可(kě)以下載,因此可(kě)以想象,擁有人工智能技術的(de)人有可(kě)能會用它來創建一(yī)個以傳播仇恨言論為(wèi)目的(de)的(de)機器人。一(yī)旦這樣的(de)機器人公開發布,像本文中提到的(de)Hugging Face拔掉下載插頭的(de)把關行為(wèi)就是值得稱許的(de)。
2020年(nián)7月,麻省理(lǐ)工學(xué)院下線了一(yī)個龐大且被高(gāo)度引用的(de)數據集,因為(wèi)兩名研究人員發現該數據集使用種族主義和(hé)厭惡女性的(de)術語來描述黑人/亞洲人和(hé)女性的(de)圖像。這一(yī)名為(wèi)“8000萬張小圖像”(80 Million Tiny Images)的(de)訓練集是在2008年(nián)創建的(de),目的(de)是開發先進的(de)物體檢測技術。它被用來教授機器學(xué)習模型識别靜态圖像中的(de)人和(hé)物體(Quach, 2020)。在技術新聞網站The Register向大學(xué)發出警報後,麻省理(lǐ)工學(xué)院删除了數據集,并敦促研究人員和(hé)開發人員停止使用該訓練庫,并删除所有副本。大學(xué)還在其網站上發表了官方聲明并道(dào)歉(Ustik, 2020)。
這種道(dào)德上可(kě)疑的(de)數據集所造成的(de)損害遠遠超出了不良品位;該數據集被輸入神經網絡,教導它們将圖像與單詞關聯起來。這意味着任何使用此類數據集的(de)人工智能模型都在學(xué)習種族主義和(hé)性别歧視(shì),而這可(kě)能會導緻帶有性别歧視(shì)或種族主義的(de)聊天機器人、存在種族偏見的(de)軟件,甚至更糟的(de)社會後果,比如(rú)警方使用人臉識别系統誤認某人,并因其未曾犯下的(de)罪行而實施逮捕(Hill, 2020)。
部分問題在于數據集是如(rú)何構建的(de)。“8000萬張小圖像”包含2006年(nián)根據 WordNet(一(yī)個用于計算語言學(xué)和(hé)自(zì)然語言處理(lǐ)的(de)英語單詞數據庫)的(de)查詢從互聯網上抓取的(de) 7930.2017 萬張圖像。據創建者介紹,他們直接從WordNet複制了 5.3萬多個名詞,然後自(zì)動從各個搜索引擎下載與這些名詞相對應的(de)圖像。由于WordNet包含貶義術語,用戶最終會得到無意中證實和(hé)強化刻闆印象及有害偏見的(de)結果(Song, 2020;Kurenkov, 2022)。
另一(yī)個有問題的(de)數據集是ImageNet。ImageNet是一(yī)個大型視(shì)覺數據庫,用于視(shì)覺對象識别軟件研究。2019年(nián),在一(yī)個名為(wèi)ImageNet Roulette的(de)藝術項目顯示數據集當中存在系統性偏見後,ImageNet也從其系統中删除了60萬張照片。不出所料,ImageNet也是基于WordNet構建的(de)(Ruiz, 2019)。這表明了對數據集實施把關的(de)必要性,如(rú)果不加以控制,它将繼續産生有偏見的(de)算法,并為(wèi)使用它作為(wèi)訓練集的(de)人工智能模型帶來偏見。就像計算機科學(xué)領域的(de)一(yī)句著名習語所說的(de):垃圾進,垃圾出。
把關機制既包括Hugging Face這樣的(de)神經語言編程代碼共享平台,也包括麻省理(lǐ)工學(xué)院這樣的(de)精英大學(xué),同時也需要The Register這樣的(de)技術媒體進行社會監督。人工智能研究社區也要着力培養包容性文化,建立更符合倫理(lǐ)的(de)數據集,并規範自(zì)身的(de)程序。例如(rú),避免使用知識共享(Creative Commons)材料,獲得明确的(de)數據采集同意,并在數據集中加入審計卡(audit card),允許數據集的(de)管理(lǐ)者公布目标、管理(lǐ)程序、已知缺陷和(hé)注意事項。
一(yī)個例證是,模型發布時應包含有關模型文檔的(de)模型卡(model card),它是記錄已發布的(de)人工智能模型的(de)預期用途和(hé)局限性的(de)好方法,比如(rú)GPT-4chan的(de)模型卡就明确指出了它的(de)仇恨言論傾向,并警告不要部署它。
重新思考內(nèi)容的(de)生産與傳播。威廉·薩菲爾(William Safire)是20 世紀90年(nián)代末最早斷言“內(nèi)容”(content)将作為(wèi)獨特的(de)互聯網類别而興起的(de)人之一(yī)(Safire,1998),或許也是第一(yī)個指出內(nèi)容無需與真實性或準确性相關即可(kě)實現其基本功能的(de)人。這一(yī)基本功能,簡單來說,就是存在;或者,如(rú)凱特·艾希霍恩(Kate Eichhorn)所指出的(de),內(nèi)容可(kě)以不傳遞任何信息或知識,隻是為(wèi)了流通而流通(Eichhorn, 2022)。
從ICP時代以來,內(nèi)容就被放置于社會文化和(hé)經濟發展中至關重要的(de)位置,在經曆了PGC、UGC、PUGC這些不同內(nèi)容模式和(hé)內(nèi)容經濟之後,內(nèi)容已經成為(wèi)人們日常生活審美化、藝術化、商品化的(de)重要組成部分。然而在如(rú)今風起雲湧的(de)AIGC浪潮中,主體和(hé)曆史雙雙迎來了史無前例的(de)危機,因為(wèi)這場生成式革命選擇将人類更深層次的(de)編碼能力和(hé)思維鏈能力通過訓練交付給機器(胡泳,劉純懿,2023)。當代文化産業的(de)規範正在朝着書面語言的(de)自(zì)動化和(hé)算法優化方向發展。大量生産低(dī)質量文章(zhāng)以吸引廣告的(de)內(nèi)容農場使用了這些工具,但它們仍然依賴大量的(de)人力将字符串成适當的(de)單詞,将單詞串成清晰的(de)句子(zǐ),将句子(zǐ)串成連貫的(de)段落。一(yī)旦自(zì)動化和(hé)擴大勞動規模成為(wèi)可(kě)能,會出現什麽動力來控制這種生産呢(ne)?
長(cháng)期以來,內(nèi)容的(de)基本範式一(yī)直是所謂“讀寫網”(read-write web)。我們不僅消費內(nèi)容,還可(kě)以生産內(nèi)容,通過編輯、評論和(hé)上傳參與網絡的(de)創建。然而我們現在正處于一(yī)種“自(zì)書寫網絡”(write-write web)的(de)邊緣:網絡不斷地(dì)書寫和(hé)重寫自(zì)身。畢竟,ChatGPT及其同類工具可(kě)以像寫文章(zhāng)一(yī)樣輕松地(dì)編寫代碼。
從本質上來說,我們将面臨一(yī)場永無止盡的(de)信息垃圾危機,由一(yī)種人類和(hé)機器作者的(de)脆弱融合體加以催生。從芬·布朗頓(Finn Brunton)的(de)《信息垃圾:互聯網的(de)影子(zǐ)曆史》(Spam:A Shadow History of the Internet,2013)一(yī)書中,我們可(kě)以了解在互聯網上傳播虛假內(nèi)容的(de)五花八門的(de)方法。例如(rú)“雙面”網站,即為(wèi)人類讀者設計的(de)網頁和(hé)為(wèi)搜索引擎中的(de)機器人爬蟲優化的(de)網頁同時并存;搭建整個由自(zì)主內(nèi)容填充的(de)博客網,以驅動鏈接和(hé)流量;“算法新聞”,通過網絡發布自(zì)動報道(dào);當然還有在2016年(nián)美國大選和(hé)英國脫歐期間聲名鵲起的(de)僵屍網(botnet)(Brunton, 2013)。形形色色、具有威脅性的(de)信息垃圾告訴我們,網絡的(de)自(zì)我書寫已經持續一(yī)段時間了。今天,随着生成式人工智能開始占據主導地(dì)位,可(kě)以預計,機器生産的(de)文本将堵塞服務器、通信電纜和(hé)數據中心。
內(nèi)容生産與傳播的(de)新亂象為(wèi)傳播學(xué)帶來了大量富于挑戰的(de)課題:比如(rú)用戶生成內(nèi)容與有報酬(盡管常常報酬不足)的(de)工人制作的(de)內(nèi)容的(de)區别;全球底層社會中的(de)隐形工人,他們讓人工智能看起來很“聰明”,然而自(zì)身卻是受技術負面影響最大的(de)邊緣化群體;從藝術和(hé)文學(xué)到新聞和(hé)政治,這些領域如(rú)何經受AIGC內(nèi)容産業崛起的(de)考驗;是否存在某種“內(nèi)容資本”,即藝術家、作家和(hé)表演者制作內(nèi)容的(de)能力,并不關乎他們的(de)作品,而是和(hé)他們作為(wèi)創造者的(de)地(dì)位息息相關?
解決人工智能和(hé)傳播的(de)職業問題。喬舒亞·裏夫斯(Joshua Reeves)寫道(dào):“面對機器冷冰冰的(de)效率,人類似乎隻是潛在錯誤的(de)有機集合。”(Reeves, 2016)OpenAI的(de)研究預測,“80%的(de)美國勞動力可(kě)能至少有10%的(de)工作任務會受到LLM的(de)影響”。更糟糕的(de)是,“19%的(de)工作者可(kě)能會看到至少50%的(de)工作任務受到影響”(Eloundou et al, 2023)。公共關系專業人士、文案撰稿人、平面設計師、社交媒體營銷人員——這些都是本科主修傳播學(xué)的(de)人的(de)常見職業,也都可(kě)能受到快速生成文本和(hé)圖像的(de)生成式人工智能的(de)威脅。傳播學(xué)需要研究如(rú)何在各種傳播工作環境中合乎倫理(lǐ)地(dì)使用人工智能工具,也需要通過專業主義的(de)倡導來保護這些職業。
在研究、交流中和(hé)課堂上提升人工智能素養。奧特姆·愛德華茲(Autumn Edwards)和(hé)查德·愛德華茲(Chad Edwards)等傳播教育研究者試圖展示人工智能如(rú)何改變傳播教學(xué)的(de)本質(Edwards, Edwards, 2017)。此外,ChatGPT帶來的(de)有關考核方式和(hé)學(xué)術不誠實的(de)大量讨論為(wèi)傳播學(xué)學(xué)者提供了一(yī)個機會,調查和(hé)挑戰我們對教學(xué)和(hé)學(xué)習的(de)假設。我們還應該借鑒傳播學(xué)研究中将新媒體技術融入課堂的(de)悠久曆史,确定在哪些實踐中使用人工智能将有利于促進學(xué)生學(xué)習和(hé)提高(gāo)教學(xué)質量。此外,就像社交媒體和(hé)假新聞的(de)興起要求發展更好的(de)媒介素養一(yī)樣,ChatGPT等工具要求人工智能素養的(de)培育,傳播學(xué)在這方面責無旁貸。需要大力開展科學(xué)傳播,動員人工智能社區中更多的(de)研究人員扮演AI傳播者的(de)角色,讓更多的(de)公衆了解AI技術的(de)能力和(hé)局限性。
最終,回到傳播學(xué)研究本身,是否需要對傳播學(xué)進行重新定位和(hé)重新概念化,以适應日益智能的(de)機器、自(zì)主決策系統和(hé)智能設備帶來的(de)機遇和(hé)挑戰?從曆史上看,傳播學(xué)通過将創新性突破轉化為(wèi)人類互動和(hé)信息交換的(de)媒介來适應新技術。随着計算機的(de)發展,20世紀下半葉出現了以計算機為(wèi)媒介的(de)交流(CMC)。在CMC研究中,計算機被理(lǐ)解為(wèi)或多或少中立的(de)訊息傳輸渠道(dào)和(hé)人類交互工具。這種形式化忽略了這樣一(yī)個事實:與以前的(de)技術進步不同,計算機在今天開始占據交流交換參與者的(de)地(dì)位。人工智能科學(xué)中已經存在不少這方面的(de)證據,所以,我們也許要問:CMC 範式雖然具有不可(kě)否認的(de)影響力,但是否存在重大不足,甚至不再站得住腳?相應地(dì),傳播學(xué)是否需要重新設計基本框架,以應對獨特的(de)技術挑戰及社會機遇?現在是傳播學(xué)認真對待這些關鍵問題的(de)時候了。
盡管人工智能有效地(dì)挑戰了當前的(de)範式,将其正常功能置于某種危機之中,但構成新範式的(de)內(nèi)容現在才剛剛開始出現。按照科學(xué)史的(de)發展邏輯,這些創新可(kě)能需要相當長(cháng)的(de)一(yī)段時間,才能被定型并編入下一(yī)次被視(shì)為(wèi)“正常科學(xué)”的(de)叠代中。然而,在當前這個初步階段,我們可(kě)以開始确定,随着人工智能技術的(de)進展,下一(yī)代傳播研究可(kě)能會是什麽樣子(zǐ)。
(胡泳:《超越ChatGPT:大型語言模型的(de)力量與人類交流的(de)困境》,2023年(nián)第8期,微信發布系節選,學(xué)術引用請務必參考原文)