你刷抖音小紅書不會(huì)變笨,但你的 AI 會(huì)_信息
好消息:AI 越來越好用了。
壞消息:越用它越笨。
無論是哪家 AI 廠商,現(xiàn)在都會(huì)在「長期記憶」「超長上下文儲(chǔ)存」等方面下功夫,這樣才能讓用戶用起來順手、順心。不過,最近一項(xiàng)研究發(fā)現(xiàn),AI 未必就能越用越懂你、越用越聰明,還可能往反方向跑偏。
(相關(guān)資料圖)
AI 也會(huì)認(rèn)知退化?還不可逆?
研究者們用開源模型(如 LLaMA 等),做了一個(gè)小但精巧的實(shí)驗(yàn)。他們不是簡(jiǎn)單地在訓(xùn)練數(shù)據(jù)里混入一些錯(cuò)別字,而是想要模擬人類那種「無休止地刷著低質(zhì)量、碎片化內(nèi)容」的互聯(lián)網(wǎng)生活,并用「持續(xù)預(yù)訓(xùn)練」(Continual Pre-training)的方式來模擬模型的長期暴露。
為了實(shí)現(xiàn)這個(gè)目標(biāo),他們從真實(shí)的社交媒體平臺(tái)上篩選了兩種「垃圾數(shù)據(jù)」,一種是「參與度驅(qū)動(dòng)型垃圾」,也就是那些短平快、高人氣、點(diǎn)贊和轉(zhuǎn)發(fā)爆炸的帖子,類似于我們刷手機(jī)時(shí)那些只為博眼球的「流量密碼」。
另一種是語義質(zhì)量驅(qū)動(dòng)型垃圾,那些充斥著「震驚」、「細(xì)思極恐」、「xxx 不存在了」這種夸張、聳動(dòng)字眼的內(nèi)容。他們將這些垃圾語料以不同的比例混合,持續(xù)喂食給模型,模擬劑量對(duì)「腦腐爛」的影響。
隨后,他們讓好幾個(gè)大語言模型持續(xù)地、長時(shí)間地被投喂這些垃圾,作為訓(xùn)練語料。再用一系列基準(zhǔn)測(cè)試來衡量 LLM 的「認(rèn)知功能」,包括推理能力、長文本理解能力、安全性和道德判斷,等等。
結(jié)果是:全面完蛋。模型的推理能力和長文本理解力出現(xiàn)了斷崖式下跌,在處理復(fù)雜的邏輯推理任務(wù)和長篇幅內(nèi)容時(shí),表現(xiàn)出明顯的退化。
當(dāng)垃圾數(shù)據(jù)的比例從 0%提升到 100%時(shí),模型的推理準(zhǔn)確率急劇下降。這反映出模型越來越「懶得思考」,也越來越「記不住事」。
到底是什么原因呢?研究者深入分析后,發(fā)現(xiàn)了一個(gè)主要病灶:Thought-Skipping。
原本,一個(gè)優(yōu)秀的 LLM 在解決復(fù)雜問題時(shí),會(huì)生成一步步的中間推理過程;但在被「垃圾」腐蝕后,模型開始跳過這些中間步驟,直接給出一個(gè)粗糙的、可能是錯(cuò)誤的答案。
就像一個(gè)原本邏輯縝密的律師,突然變得浮躁、敷衍,不再提供論證過程,而是隨口丟出一個(gè)結(jié)論。
甚至,評(píng)估發(fā)現(xiàn),模型在安全和倫理方面的表現(xiàn)也下降了,更容易屈服于負(fù)面 prompt,逐漸「黑化」。
這說明,當(dāng)模型持續(xù)接觸碎片化、煽動(dòng)性的低質(zhì)量文本時(shí),它不僅能力下降,連「三觀」也開始向互聯(lián)網(wǎng)的平均值,甚至是「陰暗面」靠攏。
如果說這項(xiàng)研究里什么最讓人倒吸涼氣,恐怕就是整個(gè)過程的不可逆性。
研究員試圖在中途進(jìn)行補(bǔ)救,重新投喂了大量高品質(zhì)的數(shù)據(jù),還做了指令微調(diào)。但即便如此,模型的認(rèn)知能力也無法完全恢復(fù)到最初的基線水平。
也就是說,垃圾數(shù)據(jù)已經(jīng)從根本上改變了模型處理信息、構(gòu)建知識(shí)的底層結(jié)構(gòu),這就像一塊海綿被污水泡透了,即便再用清水清洗,也無法回到最初的純凈狀態(tài)。
橫掃「腦腐」,用好 AI
可是話說回來,這畢竟是實(shí)驗(yàn),一個(gè)普通用戶的「破壞力」應(yīng)該不至于吧。
的確,沒有人會(huì)故意給自己的 chatbot 喂垃圾數(shù)據(jù),還如此大量高頻。不過,這個(gè)實(shí)驗(yàn)的數(shù)據(jù)來源,正是社交媒體平臺(tái)。
識(shí)別、抓取和總結(jié)社交媒體內(nèi)容,是大模型產(chǎn)品的常見工作之一。有些人用它來幫忙,省下自己刷社交媒體的時(shí)間;有些則是為了更密切地發(fā)現(xiàn)信息,以免熱點(diǎn)都涼了才看到。
這個(gè)實(shí)驗(yàn)恰恰反映了,模型在勤勤懇懇抓取內(nèi)容的時(shí)候,自身暴露在了退化的風(fēng)險(xiǎn)當(dāng)中。而這一切,用戶都不會(huì)看到。
于是在不知不覺中,AI 被投喂了垃圾,生成了垃圾,你使用了垃圾,垃圾再進(jìn)入互聯(lián)網(wǎng),用于下一輪訓(xùn)練,周而復(fù)始,陷入惡性循環(huán)。
這項(xiàng)研究最深刻的價(jià)值,在于它顛覆了我們對(duì) AI 互動(dòng)的傳統(tǒng)認(rèn)知:以前我們總覺得 AI 像一個(gè)等待填滿的容器,輸入什么都能消化。但現(xiàn)在看來,它更像一個(gè)敏感的孩子,對(duì)輸入食物的質(zhì)量非常挑剔。作為日常用戶,我們與 AI 的每一次對(duì)話,都是在進(jìn)行一次「微調(diào)」。
既然知道「思考跳過」是主要的病灶,那么我們?nèi)粘J褂?AI 時(shí),就必須主動(dòng)要求它進(jìn)行「反向操作」。
首先要做的,就是警惕那些「完美的答案」。不管是要求 AI 總結(jié)一個(gè)長文章,或者寫一份復(fù)雜的項(xiàng)目方案時(shí),如果它只給出的結(jié)果,卻沒有顯示任何邏輯依據(jù)和推理過程(尤其是在支持思維鏈的情況下),就要多留個(gè)心眼。
相比于讓它反復(fù)調(diào)整結(jié)果,不如問一問它推理過程,「請(qǐng)列出你得出這個(gè)結(jié)論的全部步驟和分析依據(jù)」。強(qiáng)迫 AI 恢復(fù)推理鏈條,不僅能幫你驗(yàn)證結(jié)果的可靠性,也是在防止它在這次任務(wù)中養(yǎng)成「偷懶」的壞習(xí)慣。
另外,對(duì)于那些基于社交媒體的工作任務(wù),要格外小心。基本上要把 AI 當(dāng)個(gè)實(shí)習(xí)生,它能力或許很強(qiáng),但是不夠踏實(shí)靠譜,必須得有二次審核——實(shí)際上,我們的核查和糾正是極其寶貴的「高質(zhì)量輸入」。不管是指出「這里的數(shù)據(jù)來源是錯(cuò)的」,還是「你跳過了這個(gè)步驟」,都是在對(duì)模型進(jìn)行一次有價(jià)值的微調(diào),用高質(zhì)量的反饋去抵抗互聯(lián)網(wǎng)中的垃圾信息。
這項(xiàng)研究比較讓人摸不著頭腦的地方在于:難道要讓 AI 少處理混亂的文件嗎?這豈不是本末倒置?
確實(shí),如果為了避免 AI 可能出現(xiàn)的腦腐癥狀,而只讓它處理結(jié)構(gòu)化程度更高的數(shù)據(jù),那 AI 的價(jià)值就少了一半。我們使用 AI,恰恰在于處理那些混亂的、充滿重復(fù)句和情緒化表達(dá)的非結(jié)構(gòu)化數(shù)據(jù)。
不過還是可以平衡一下,繼續(xù)讓 AI 執(zhí)行信息整理工作,只不過在 AI 面對(duì)低質(zhì)量輸入前,就給 AI 更清晰的指令。
比如,「總結(jié)這份聊天記錄」,容易讓 AI 悶頭只出結(jié)構(gòu)。而更細(xì)化的「將這份聊天記錄進(jìn)行分類處理,識(shí)別對(duì)話人物,去除口癖和連接詞,再提煉出客觀信息」,就在強(qiáng)行促使 AI 先思考一輪,整理出內(nèi)部行動(dòng)指南,再展開工作。
用戶不是不能用 AI 處理垃圾數(shù)據(jù),畢竟這是它最能發(fā)揮的地方。只不過,為了降低 AI「腦腐」的風(fēng)險(xiǎn),要用結(jié)構(gòu)化的指令和高質(zhì)量的反饋,將 AI 變成一個(gè)高效的「垃圾處理和凈化器」,而不是讓它被垃圾信息同化。