過(guò)度訓(xùn)練大型語(yǔ)言模型可能會(huì)使它們更難進(jìn)行微調(diào)

2025-04-26 10:57  瀏覽:  

來(lái)自美國(guó)卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、哈佛大學(xué)和普林斯頓大學(xué)的人工智能研究小組發(fā)現(xiàn),如果大型語(yǔ)言模型過(guò)度訓(xùn)練,可能會(huì)使其更難進(jìn)行微調(diào)。該小組在arXiv預(yù)印本服務(wù)器上發(fā)表的論文比較了不同訓(xùn)練量對(duì)單個(gè)法學(xué)碩士(LLM)的影響。
 

過(guò)去幾年,隨著人工智能研究人員不斷提升產(chǎn)品性能,使其更加“智能”,許多人都秉持著這樣的信條:模型訓(xùn)練得越多,最終效果就越好。在這項(xiàng)新研究中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些證據(jù)表明,語(yǔ)言模型訓(xùn)練可能存在收益遞減點(diǎn)。

研究人員在訓(xùn)練兩個(gè)不同版本的 LLM OLMo-1B 模型并測(cè)試其回報(bào)時(shí)得出了這一結(jié)論。在一個(gè)場(chǎng)景下,他們使用了 2.3 萬(wàn)億個(gè) token 進(jìn)行訓(xùn)練,而在另一種場(chǎng)景下,他們使用了 3 萬(wàn)億個(gè) token。然后,他們通過(guò)使用 ARC 和 AlpacaEval 等多個(gè)基準(zhǔn)測(cè)試來(lái)比較這兩個(gè)場(chǎng)景。結(jié)果發(fā)現(xiàn),使用更多 token 訓(xùn)練的模型在測(cè)試中的表現(xiàn)實(shí)際上更差,最多差了 3%。

他們對(duì)自己的研究結(jié)果感到驚訝,并進(jìn)行了更多測(cè)試,仍然發(fā)現(xiàn)了類(lèi)似的結(jié)果。這表明,在某個(gè)臨界點(diǎn)上,更多的訓(xùn)練反而會(huì)降低模型的“智能”。研究團(tuán)隊(duì)稱(chēng)之為“災(zāi)難性的過(guò)度訓(xùn)練”,并認(rèn)為這是他們所謂的“漸進(jìn)性敏感性”造成的。

他們進(jìn)一步指出,隨著令牌數(shù)量的增加,模型變得越脆弱,這意味著微調(diào)(可以被視為增加噪音)開(kāi)始逆轉(zhuǎn)在壓力點(diǎn)之前看到的改進(jìn)收益。

為了驗(yàn)證他們的理論,他們?cè)谝恍┠P椭刑砑恿烁咚乖肼?,結(jié)果發(fā)現(xiàn)這樣做會(huì)導(dǎo)致與之前觀察到的相同類(lèi)型的性能下降。他們將這個(gè)不可逆轉(zhuǎn)的點(diǎn)稱(chēng)為“拐點(diǎn)”。他們認(rèn)為,在此之后,任何進(jìn)一步的訓(xùn)練都會(huì)降低模型的穩(wěn)定性,使其更難以以適合特定應(yīng)用的方式進(jìn)行調(diào)整。

研究人員最后建議,展望未來(lái),LLM 模型的開(kāi)發(fā)人員可能必須估計(jì)多少訓(xùn)練才足夠,或者找到其他類(lèi)型的方法,以便進(jìn)行具有更遠(yuǎn)拐點(diǎn)的額外訓(xùn)練。

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自合作媒體、機(jī)構(gòu)或其他網(wǎng)站的信息,登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。本網(wǎng)所有信息僅供參考,不做交易和服務(wù)的根據(jù)。本網(wǎng)內(nèi)容如有侵權(quán)或其它問(wèn)題請(qǐng)及時(shí)告之,本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。
相關(guān)推薦
意法半導(dǎo)體推出新一代嵌入汽車(chē)微控制器的可擴(kuò)展存儲(chǔ)器

意法半導(dǎo)體推出新一代嵌入汽車(chē)微控制器的可擴(kuò)展存儲(chǔ)器

意法半導(dǎo)體(STMicroelectronics)近日發(fā)布搭載xMemory技術(shù)的Stellar系列汽車(chē)微控制器,旨在簡(jiǎn)化軟件定義汽車(chē)(SDV)和電動(dòng)汽車(chē)平臺(tái)的開(kāi)發(fā)流程。該技術(shù)通過(guò)可擴(kuò)展內(nèi)存設(shè)計(jì),解決了傳統(tǒng)方案需要管理多款內(nèi)存配置設(shè)備的難題。首款采用xMemory的Stellar P6 MCU將于2025年下半年量產(chǎn),專(zhuān)為電動(dòng)汽車(chē)動(dòng)力系統(tǒng)設(shè)計(jì)。該技術(shù)基于意法半導(dǎo)體領(lǐng)先的28nm嵌入式相變存儲(chǔ)器(ePCM)技術(shù),具有業(yè)界最小的非易失性存儲(chǔ)單元尺寸,內(nèi)存密度達(dá)其他技術(shù)的兩倍。公司汽車(chē)...
俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯數(shù)字發(fā)展部部長(zhǎng)馬克蘇特·沙達(dá)耶夫近日表示,政府正考慮為人工智能技術(shù)公司提供電網(wǎng)連接和電力價(jià)格方面的優(yōu)惠政策。這一舉措旨在降低AI企業(yè)的運(yùn)營(yíng)成本,促進(jìn)本國(guó)人工智能產(chǎn)業(yè)發(fā)展。沙達(dá)耶夫在數(shù)據(jù)融合論壇上指出:"當(dāng)前條件下,電力優(yōu)惠是最可行的支持方式。"由于AI技術(shù)研發(fā)需要大量計(jì)算資源和專(zhuān)業(yè)硬件投入,在高利率環(huán)境下企業(yè)面臨較大資金壓力。2023年11月,俄羅斯總理米舒斯京已要求多個(gè)部門(mén)研究為新建數(shù)據(jù)中心提供電力優(yōu)惠的方案。...
全球首場(chǎng)機(jī)器人跑馬拉松

全球首場(chǎng)機(jī)器人跑馬拉松

4月18日上午,全球首場(chǎng)人形機(jī)器人半程馬拉松公布了參賽選手名單。在明日上午7:30舉行的半程馬拉松中,共有21支機(jī)器人隊(duì)伍會(huì)在北京亦莊南海子公園一期南門(mén)起跑,這些參賽隊(duì)伍分別來(lái)自國(guó)家隊(duì)、民營(yíng)企業(yè)和學(xué)校科研團(tuán)隊(duì)。從速度上來(lái)看,國(guó)家隊(duì)一馬當(dāng)先。由北京人形機(jī)器人創(chuàng)新中心研發(fā)的天工Ultra身高一米八,是參賽選手中身高最高的機(jī)器人,體重52公斤,實(shí)測(cè)平均時(shí)速可以達(dá)到10km/h,最高奔跑速度已經(jīng)達(dá)到了12km/h。在此前的訓(xùn)練視頻中,天工Ultra已經(jīng)穿...
瑞士工業(yè)巨頭ABB擬分拆機(jī)器人業(yè)務(wù)獨(dú)立上市,市場(chǎng)份額全球第二

瑞士工業(yè)巨頭ABB擬分拆機(jī)器人業(yè)務(wù)獨(dú)立上市,市場(chǎng)份額全球第二

瑞士工業(yè)巨頭ABB 4月17日宣布,決定對(duì)其機(jī)器人業(yè)務(wù)單元實(shí)施100%分拆,計(jì)劃于2026年第二季度完成,并將推動(dòng)該業(yè)務(wù)作為獨(dú)立上市公司啟動(dòng)上市交易。ABB的機(jī)器人業(yè)務(wù)在全球市場(chǎng)排名第二,僅次于日本發(fā)那科,在機(jī)器人四大家族中領(lǐng)先于日本安川電機(jī)和德國(guó)庫(kù)卡。2024年,該部門(mén)的銷(xiāo)售收入達(dá)23億美元,約占ABB集團(tuán)總收入的7%,運(yùn)營(yíng)息稅攤銷(xiāo)前利潤(rùn)率為12.1%。ABB機(jī)器人業(yè)務(wù)單元擁有約7000名員工。ABB稱(chēng),相關(guān)提案如獲股東批準(zhǔn),拆分計(jì)劃將通過(guò)股份分配的方式進(jìn)行...
英偉達(dá)CEO黃仁勛:堅(jiān)定不移服務(wù)中國(guó)市場(chǎng)

英偉達(dá)CEO黃仁勛:堅(jiān)定不移服務(wù)中國(guó)市場(chǎng)

中國(guó)貿(mào)促會(huì)會(huì)長(zhǎng) 任鴻斌:兩天前,美國(guó)政府決定對(duì)英偉達(dá)對(duì)華出口的H20芯片,實(shí)施無(wú)限期出口管制,您如何評(píng)估這一決定的影響?英偉達(dá)首席執(zhí)行官 黃仁勛:美國(guó)政府加強(qiáng)芯片出口管制已對(duì)英偉達(dá)業(yè)務(wù)產(chǎn)生重大影響,當(dāng)前全球正掀起一場(chǎng)激烈的人工智能競(jìng)賽,作為當(dāng)代最具變革性的核心技術(shù),AI對(duì)各行業(yè)發(fā)展的推動(dòng)前景廣闊,世界各國(guó)都在加速推進(jìn)技術(shù)應(yīng)用,研發(fā)創(chuàng)新與能力提升,這必將對(duì)包括中國(guó)在內(nèi)的全球市場(chǎng)格局產(chǎn)生深遠(yuǎn)影響。作為深耕中國(guó)市場(chǎng)三十載的企業(yè),我們與...

推薦閱讀

熱文

Copyright © 能源界