過(guò)去幾年,隨著人工智能研究人員不斷提升產(chǎn)品性能,使其更加“智能”,許多人都秉持著這樣的信條:模型訓(xùn)練得越多,最終效果就越好。在這項(xiàng)新研究中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些證據(jù)表明,語(yǔ)言模型訓(xùn)練可能存在收益遞減點(diǎn)。
研究人員在訓(xùn)練兩個(gè)不同版本的 LLM OLMo-1B 模型并測(cè)試其回報(bào)時(shí)得出了這一結(jié)論。在一個(gè)場(chǎng)景下,他們使用了 2.3 萬(wàn)億個(gè) token 進(jìn)行訓(xùn)練,而在另一種場(chǎng)景下,他們使用了 3 萬(wàn)億個(gè) token。然后,他們通過(guò)使用 ARC 和 AlpacaEval 等多個(gè)基準(zhǔn)測(cè)試來(lái)比較這兩個(gè)場(chǎng)景。結(jié)果發(fā)現(xiàn),使用更多 token 訓(xùn)練的模型在測(cè)試中的表現(xiàn)實(shí)際上更差,最多差了 3%。
他們對(duì)自己的研究結(jié)果感到驚訝,并進(jìn)行了更多測(cè)試,仍然發(fā)現(xiàn)了類(lèi)似的結(jié)果。這表明,在某個(gè)臨界點(diǎn)上,更多的訓(xùn)練反而會(huì)降低模型的“智能”。研究團(tuán)隊(duì)稱(chēng)之為“災(zāi)難性的過(guò)度訓(xùn)練”,并認(rèn)為這是他們所謂的“漸進(jìn)性敏感性”造成的。
他們進(jìn)一步指出,隨著令牌數(shù)量的增加,模型變得越脆弱,這意味著微調(diào)(可以被視為增加噪音)開(kāi)始逆轉(zhuǎn)在壓力點(diǎn)之前看到的改進(jìn)收益。
為了驗(yàn)證他們的理論,他們?cè)谝恍┠P椭刑砑恿烁咚乖肼?,結(jié)果發(fā)現(xiàn)這樣做會(huì)導(dǎo)致與之前觀察到的相同類(lèi)型的性能下降。他們將這個(gè)不可逆轉(zhuǎn)的點(diǎn)稱(chēng)為“拐點(diǎn)”。他們認(rèn)為,在此之后,任何進(jìn)一步的訓(xùn)練都會(huì)降低模型的穩(wěn)定性,使其更難以以適合特定應(yīng)用的方式進(jìn)行調(diào)整。
研究人員最后建議,展望未來(lái),LLM 模型的開(kāi)發(fā)人員可能必須估計(jì)多少訓(xùn)練才足夠,或者找到其他類(lèi)型的方法,以便進(jìn)行具有更遠(yuǎn)拐點(diǎn)的額外訓(xùn)練。