30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯(cuò)了

前沿科技 3年前 (2022) 虛像

機(jī)器之心報(bào)道

編輯：澤南、小舟

不增加算力需求，谷歌總結(jié)的指令微調(diào)方法能讓 8000 萬(wàn)到 5400 億參數(shù)的模型都顯著提升性能。

人工智能一個(gè)重要的目標(biāo)是開(kāi)發(fā)泛化能力強(qiáng)的模型。在自然語(yǔ)言處理（NLP）領(lǐng)域中，預(yù)訓(xùn)練語(yǔ)言模型在這方面取得了重大進(jìn)展。這類模型往往通過(guò)微調(diào)來(lái)適應(yīng)新的任務(wù)。

近日，來(lái)自谷歌的研究者分析了多種指令微調(diào)方法，包括擴(kuò)展對(duì)指令微調(diào)的影響。實(shí)驗(yàn)表明，指令微調(diào)確實(shí)可以根據(jù)任務(wù)數(shù)量和模型大小實(shí)現(xiàn)良好的擴(kuò)展，最大到 5400 億參數(shù)的模型都能明顯受益，未來(lái)的研究應(yīng)該進(jìn)一步擴(kuò)大任務(wù)的數(shù)量和模型的大小。此外，該研究還分析了微調(diào)對(duì)模型執(zhí)行推理能力的影響，結(jié)果都是很吸引人的。

由此產(chǎn)生的 Flan-T5 對(duì) 1800 余種語(yǔ)言任務(wù)進(jìn)行了指令微調(diào)，明顯提高了提示和多步推理能力，30 億參數(shù)跑基準(zhǔn)就能超過(guò) GPT-3 的 1750 億參數(shù)。

30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯(cuò)了

看起來(lái)谷歌又為大模型找到了一個(gè)能力提升的方向。不過(guò)這一研究不僅引來(lái)了機(jī)器學(xué)習(xí)社區(qū)的歡迎，也有 Gary Marcus 的吐槽：

谷歌的模型為什么把谷歌自己的著名科學(xué)家 Geoffrey Hinton 的出生日期搞錯(cuò)了？人家明明是 1947 年出生的老前輩。

論文作者之一的谷歌大腦首席科學(xué)家 Quoc Le 趕緊出來(lái)圓場(chǎng)：是臨時(shí)工圖片做錯(cuò)了，在論文里 Flan-T5 模型其實(shí)沒(méi)有把 Geoff 的出生年月搞錯(cuò)，有圖為證。

順便說(shuō)一句，出生于 1963 年的著名 AI 學(xué)者是 Jürgen Schmidhuber。

既然出錯(cuò)的不是 AI 模型，讓我們看看谷歌的新方法究竟能夠?yàn)轭A(yù)訓(xùn)練模型帶來(lái)哪些改變吧。

論文：Scaling Instruction-Finetuned Language Models

論文地址：https://arxiv.org/abs/2210.11416

公開(kāi)模型：https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

該研究使用 540B 參數(shù)模型訓(xùn)練 Flan-PaLM，將微調(diào)任務(wù)的數(shù)量增加到 1800 個(gè)以上，并包含思維鏈（CoT；Wei et al., 2022b）數(shù)據(jù)。經(jīng)過(guò)訓(xùn)練后的 Flan-PaLM 優(yōu)于 PaLM，在多個(gè)基準(zhǔn)測(cè)試中達(dá)到了新的 SOTA。在推理能力方面，F(xiàn)lan-PaLM 能夠利用 CoT 和自洽性（self-consistency；Wang et al., 2022c）在大規(guī)模多任務(wù)語(yǔ)言理解（MMLU; Hendrycks et al., 2020）上實(shí)現(xiàn) 75.2% 的準(zhǔn)確率。

此外，在一組具有挑戰(zhàn)性的開(kāi)放式生成問(wèn)題上，F(xiàn)lan-PaLM 的表現(xiàn)明顯優(yōu)于 PaLM，可用性大幅提高。

總體而言，谷歌的這項(xiàng)研究闡明了使用指令微調(diào)來(lái)提高模型性能的具體方法。

方法

具體來(lái)說(shuō)，該研究主要關(guān)注影響指令微調(diào)的幾個(gè)方面，包括：（1）擴(kuò)展任務(wù)數(shù)量，（2）擴(kuò)展模型大小，以及（3）對(duì)思維鏈數(shù)據(jù)進(jìn)行微調(diào)。

該研究發(fā)現(xiàn)具有上述方面的指令微調(diào)顯著改進(jìn)了各種模型類（PaLM、T5、U-PaLM）、prompting 設(shè)置（零樣本、少樣本、CoT）和評(píng)估基準(zhǔn)（MMLU、BBH、 TyDiQA、MGSM、開(kāi)放式生成）。例如，在 1.8K 任務(wù)上進(jìn)行指令微調(diào)的 Flan-PaLM 540B 大大優(yōu)于 PALM 540B（平均 + 9.4%）。Flan-PaLM 540B 在幾個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能，例如在五次 MMLU 上達(dá)到 75.2%。

研究者還公開(kāi)了 Flan-T5 檢查點(diǎn)，即使與更大的模型（例如 PaLM 62B）相比，它也能實(shí)現(xiàn)強(qiáng)大的少樣本性能。總體而言，指令微調(diào)是提高預(yù)訓(xùn)練語(yǔ)言模型的性能和可用性的通用方法。

圖 1. 研究人員在 1800 余個(gè)任務(wù)中對(duì)各種語(yǔ)言模型進(jìn)行了微調(diào)，在有 / 缺乏樣本（零樣本和少樣本）以及有 / 沒(méi)有思維鏈的情況下進(jìn)行微調(diào)，從而能夠在一系列評(píng)估場(chǎng)景中進(jìn)行泛化。

圖 2. 微調(diào)數(shù)據(jù)包括 473 個(gè)數(shù)據(jù)集、146 個(gè)任務(wù)類別和共計(jì) 1836 個(gè)任務(wù)。

在數(shù)據(jù)微調(diào)和程序微調(diào)過(guò)程完成后，研究者根據(jù)模型大小對(duì)任務(wù)的性能來(lái)對(duì)比規(guī)模擴(kuò)展的影響。首先，對(duì)于所有三種模型大小，多任務(wù)指令微調(diào)與沒(méi)有微調(diào)相比性能有很大提高，增益范圍從 9.4% 到 15.5%。其次，增加微調(diào)任務(wù)的數(shù)量可以提高性能。

最后，我們可以看到將模型規(guī)模增加一個(gè)數(shù)量級(jí)（8B → 62B 或 62B → 540B）可以明顯提高微調(diào)和未微調(diào)模型的性能。

多任務(wù)指令微調(diào)相對(duì)于模型大小（參數(shù)量）和微調(diào)任務(wù)數(shù)量及規(guī)模擴(kuò)展對(duì)準(zhǔn)確率的影響。

增加微調(diào)數(shù)據(jù)中的任務(wù)數(shù)量可以提高 Flan-PaLM 在大多數(shù)評(píng)估基準(zhǔn)上的性能。

研究人員證明了在微調(diào)混合中包含九個(gè)帶有思維鏈 ( CoT ) 注釋的數(shù)據(jù)集可以提高推理能力。下表顯示 Flan-PaLM 的 CoT 提示能力在四個(gè)保留的評(píng)估基準(zhǔn)上優(yōu)于 PaLM。

該研究發(fā)現(xiàn)對(duì) CoT 數(shù)據(jù)進(jìn)行指令微調(diào)的另外一個(gè)好處是可以實(shí)現(xiàn)零樣本（zero-shot）推理，模型在沒(méi)有針對(duì) CoT 的少量樣本的情況下就自行產(chǎn)生了推理能力，這可能需要大量工程調(diào)教才能正確實(shí)現(xiàn)。

圖 6：PaLM 和 Flan-PaLM 在一組 23 個(gè)具有挑戰(zhàn)性的 BIG-Bench 任務(wù) ( BBH ) 上的 zero-shot 性能。Flan-PaLM 需要通過(guò)「讓我們一步一步思考」指令激活的思想鏈 ( CoT ) 生成。

為了展示新方法的通用性，谷歌訓(xùn)練了 T5、PaLM 和 U-PaLM，涵蓋了從 8000 萬(wàn)到 5400 億參數(shù)的模型體量范圍，發(fā)現(xiàn)所有模型都能大幅提升性能。

表 5. 指令微調(diào) ( Flan ) 在其他持續(xù)預(yù)訓(xùn)練方法之上提高了性能。

經(jīng)過(guò)測(cè)試，指令微調(diào)大大提高了所有模型類型的歸一化平均性能，與非微調(diào)模型相比，T5 模型從指令微調(diào)中受益最多。這些結(jié)果對(duì)于某些基準(zhǔn)測(cè)試來(lái)說(shuō)是相當(dāng)強(qiáng)的——例如，F(xiàn)lan-T5-XL 只有 30 億參數(shù)，就達(dá)到了 47.6% 的 MMLU 分?jǐn)?shù)，超過(guò)了 GPT-3 1750 億參數(shù)的 43.9% 分?jǐn)?shù)。

除了 NLP 基準(zhǔn)之外，語(yǔ)言模型還能夠?yàn)殚_(kāi)放式問(wèn)題請(qǐng)求生成長(zhǎng)格式答案。在這一方面，標(biāo)準(zhǔn)的 NLP 基準(zhǔn)和用于評(píng)估它們的自動(dòng)指標(biāo)不足以衡量人類的偏好。研究人員對(duì)此進(jìn)行了評(píng)估，創(chuàng)建了一個(gè)包含 190 個(gè)示例的評(píng)估集。該評(píng)估集包括以零樣本方式向模型提出的問(wèn)題，涉及五個(gè)具有挑戰(zhàn)性的類別，每個(gè)類別 20 個(gè)問(wèn)題：創(chuàng)造力、上下文推理、復(fù)雜推理、計(jì)劃和解釋。

對(duì)于其中的 60 個(gè)示例（來(lái)自復(fù)雜的推理、計(jì)劃和解釋類別），該研究創(chuàng)建了一個(gè)帶有思維鏈觸發(fā)短語(yǔ)（例如，「讓我們一步一步思考」）的變體，作為微調(diào)是否進(jìn)行的另一個(gè)評(píng)估在 CoT 上啟用 zero-shot。除了上述 160 個(gè)零樣本輸入之外，研究中還包括 30 個(gè)用于測(cè)試少樣本能力的輸入，這些沒(méi)有指令微調(diào)的強(qiáng)語(yǔ)言模型已被證明在這些方面表現(xiàn)良好。

研究人員認(rèn)為，指令微調(diào)和規(guī)模擴(kuò)展均可以持續(xù)提升大語(yǔ)言模型性能，而微調(diào)對(duì)于推理能力至關(guān)重要，其還能泛化模型能力。通過(guò)指令微調(diào)與其他模型適應(yīng)技術(shù)（例如 UL2R）結(jié)合，谷歌在這項(xiàng)工作中提出了最強(qiáng)模型 Flan-U-PaLM。

重要的是，指令微調(diào)并不像模型規(guī)模擴(kuò)展一樣會(huì)大幅增加計(jì)算成本，例如對(duì)于 PaLM 540B，指令微調(diào)只需要 0.2% 的預(yù)訓(xùn)練計(jì)算，但卻可以將跨評(píng)估基準(zhǔn)的歸一化平均值提高 9.4%。使用指令微調(diào)的小型模型有時(shí)可以勝過(guò)沒(méi)有微調(diào)的大模型。

出于這些原因，研究人員建議對(duì)幾乎所有預(yù)訓(xùn)練的語(yǔ)言模型都進(jìn)行指令微調(diào)。

原文地址：http://www.myzaker.com/article/63541a748e9f090dee776cae

abs ai nlp 人工智能谷歌

版權(quán)聲明：虛像發(fā)表于 2022年10月24日 am8:36。
轉(zhuǎn)載請(qǐng)注明：30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯(cuò)了 | 快導(dǎo)航網(wǎng)

国产成人无码A区在线观看导航_暗交小拗女一区二区三区电影_巨爆乳中文字幕爆乳区_NARUTOMANGA全彩纲手_GAY成年男人露J网站_久久久久亚洲AV无码成人片麻豆_99西方37大但人文艺术_色8激情欧美成人久久综合电_婬乱丰满熟妇XXXXX性

30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯(cuò)了

Copilot要攤官司了！工作20年老程序員重新激活律師證，發(fā)起集體訴訟，還喊網(wǎng)友加入

培養(yǎng)皿里的神經(jīng)細(xì)胞會(huì)打電子小球嗎？

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

国产成人无码A区在线观看导航_暗交小拗女一区二区三区电影_巨爆乳中文字幕爆乳区_NARUTOMANGA全彩纲手_GAY成年男人露J网站_久久久久亚洲AV无码成人片麻豆_99西方37大但人文艺术_色8激情欧美成人久久综合电_婬乱丰满熟妇XXXXX性

30億跑贏GPT-3的1750億，谷歌新模型引熱議，然而卻把Hinton年齡搞錯(cuò)了

Copilot要攤官司了！工作20年老程序員重新激活律師證，發(fā)起集體訴訟，還喊網(wǎng)友加入

培養(yǎng)皿里的神經(jīng)細(xì)胞會(huì)打電子小球嗎？

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

運(yùn)營(yíng)相關(guān)

軟件下載

跨境電商

購(gòu)物網(wǎng)站

設(shè)計(jì)相關(guān)

行業(yè)企業(yè)

自媒體相關(guān)

網(wǎng)絡(luò)科技

編程幫手

綜合其他

站長(zhǎng)助手

知識(shí)充能

電商運(yùn)營(yíng)

生活服務(wù)

榜單排名

服務(wù)生活

日常生活

新聞媒體

教育文化

政府組織

探索發(fā)現(xiàn)

影視工具

影視基地

工具大全

學(xué)術(shù)資源

學(xué)習(xí)教育

娛樂(lè)生活

發(fā)現(xiàn)資源

醫(yī)療健康

興趣愛(ài)好

元宇宙

體育健身

休閑娛樂(lè)

交通旅游

NFT概念

ACG