普通话对白不戴套在线,美女隐私无遮挡免费视频网站

過(guò)度訓(xùn)練大型語(yǔ)言模型可能會(huì)使它們更難進(jìn)行微調(diào)

2025-04-26 10:57 瀏覽：

來(lái)自美國(guó)卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、哈佛大學(xué)和普林斯頓大學(xué)的人工智能研究小組發(fā)現(xiàn)，如果大型語(yǔ)言模型過(guò)度訓(xùn)練，可能會(huì)使其更難進(jìn)行微調(diào)。該小組在arXiv預(yù)印本服務(wù)器上發(fā)表的論文比較了不同訓(xùn)練量對(duì)單個(gè)法學(xué)碩士(LLM)的影響。

過(guò)去幾年，隨著人工智能研究人員不斷提升產(chǎn)品性能，使其更加“智能”，許多人都秉持著這樣的信條：模型訓(xùn)練得越多，最終效果就越好。在這項(xiàng)新研究中，研究團(tuán)隊(duì)發(fā)現(xiàn)了一些證據(jù)表明，語(yǔ)言模型訓(xùn)練可能存在收益遞減點(diǎn)。

研究人員在訓(xùn)練兩個(gè)不同版本的 LLM OLMo-1B 模型并測(cè)試其回報(bào)時(shí)得出了這一結(jié)論。在一個(gè)場(chǎng)景下，他們使用了 2.3 萬(wàn)億個(gè) token 進(jìn)行訓(xùn)練，而在另一種場(chǎng)景下，他們使用了 3 萬(wàn)億個(gè) token。然后，他們通過(guò)使用 ARC 和 AlpacaEval 等多個(gè)基準(zhǔn)測(cè)試來(lái)比較這兩個(gè)場(chǎng)景。結(jié)果發(fā)現(xiàn)，使用更多 token 訓(xùn)練的模型在測(cè)試中的表現(xiàn)實(shí)際上更差，最多差了 3%。

他們對(duì)自己的研究結(jié)果感到驚訝，并進(jìn)行了更多測(cè)試，仍然發(fā)現(xiàn)了類(lèi)似的結(jié)果。這表明，在某個(gè)臨界點(diǎn)上，更多的訓(xùn)練反而會(huì)降低模型的“智能”。研究團(tuán)隊(duì)稱(chēng)之為“災(zāi)難性的過(guò)度訓(xùn)練”，并認(rèn)為這是他們所謂的“漸進(jìn)性敏感性”造成的。

他們進(jìn)一步指出，隨著令牌數(shù)量的增加，模型變得越脆弱，這意味著微調(diào)(可以被視為增加噪音)開(kāi)始逆轉(zhuǎn)在壓力點(diǎn)之前看到的改進(jìn)收益。

為了驗(yàn)證他們的理論，他們?cè)谝恍┠Ｐ椭刑砑恿烁咚乖肼?，結(jié)果發(fā)現(xiàn)這樣做會(huì)導(dǎo)致與之前觀察到的相同類(lèi)型的性能下降。他們將這個(gè)不可逆轉(zhuǎn)的點(diǎn)稱(chēng)為“拐點(diǎn)”。他們認(rèn)為，在此之后，任何進(jìn)一步的訓(xùn)練都會(huì)降低模型的穩(wěn)定性，使其更難以以適合特定應(yīng)用的方式進(jìn)行調(diào)整。

研究人員最后建議，展望未來(lái)，LLM 模型的開(kāi)發(fā)人員可能必須估計(jì)多少訓(xùn)練才足夠，或者找到其他類(lèi)型的方法，以便進(jìn)行具有更遠(yuǎn)拐點(diǎn)的額外訓(xùn)練。