国产成人无码A区在线观看导航_暗交小拗女一区二区三区电影_巨爆乳中文字幕爆乳区_NARUTOMANGA全彩纲手_GAY成年男人露J网站_久久久久亚洲AV无码成人片麻豆_99西方37大但人文艺术_色8激情欧美成人久久综合电_婬乱丰满熟妇XXXXX性

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

前沿科技 3年前 (2022) 虛像
9 0 0

機(jī)器之心報(bào)道

編輯:澤南、小舟

不增加算力需求,谷歌總結(jié)的指令微調(diào)方法能讓 8000 萬(wàn)到 5400 億參數(shù)的模型都顯著提升性能。

人工智能一個(gè)重要的目標(biāo)是開(kāi)發(fā)泛化能力強(qiáng)的模型。在自然語(yǔ)言處理(NLP)領(lǐng)域中,預(yù)訓(xùn)練語(yǔ)言模型在這方面取得了重大進(jìn)展。這類模型往往通過(guò)微調(diào)來(lái)適應(yīng)新的任務(wù)。

近日,來(lái)自谷歌的研究者分析了多種指令微調(diào)方法,包括擴(kuò)展對(duì)指令微調(diào)的影響。實(shí)驗(yàn)表明,指令微調(diào)確實(shí)可以根據(jù)任務(wù)數(shù)量和模型大小實(shí)現(xiàn)良好的擴(kuò)展,最大到 5400 億參數(shù)的模型都能明顯受益,未來(lái)的研究應(yīng)該進(jìn)一步擴(kuò)大任務(wù)的數(shù)量和模型的大小。此外,該研究還分析了微調(diào)對(duì)模型執(zhí)行推理能力的影響,結(jié)果都是很吸引人的。

由此產(chǎn)生的 Flan-T5 對(duì) 1800 余種語(yǔ)言任務(wù)進(jìn)行了指令微調(diào),明顯提高了提示和多步推理能力,30 億參數(shù)跑基準(zhǔn)就能超過(guò) GPT-3 的 1750 億參數(shù)。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

看起來(lái)谷歌又為大模型找到了一個(gè)能力提升的方向。不過(guò)這一研究不僅引來(lái)了機(jī)器學(xué)習(xí)社區(qū)的歡迎,也有 Gary Marcus 的吐槽:

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

谷歌的模型為什么把谷歌自己的著名科學(xué)家 Geoffrey Hinton 的出生日期搞錯(cuò)了?人家明明是 1947 年出生的老前輩。

論文作者之一的谷歌大腦首席科學(xué)家 Quoc Le 趕緊出來(lái)圓場(chǎng):是臨時(shí)工圖片做錯(cuò)了,在論文里 Flan-T5 模型其實(shí)沒(méi)有把 Geoff 的出生年月搞錯(cuò),有圖為證。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

順便說(shuō)一句,出生于 1963 年的著名 AI 學(xué)者是 Jürgen Schmidhuber。

既然出錯(cuò)的不是 AI 模型,讓我們看看谷歌的新方法究竟能夠?yàn)轭A(yù)訓(xùn)練模型帶來(lái)哪些改變吧。

論文:Scaling Instruction-Finetuned Language Models

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

論文地址:https://arxiv.org/abs/2210.11416

公開(kāi)模型:https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

該研究使用 540B 參數(shù)模型訓(xùn)練 Flan-PaLM,將微調(diào)任務(wù)的數(shù)量增加到 1800 個(gè)以上,并包含思維鏈(CoT;Wei et al., 2022b)數(shù)據(jù)。經(jīng)過(guò)訓(xùn)練后的 Flan-PaLM 優(yōu)于 PaLM,在多個(gè)基準(zhǔn)測(cè)試中達(dá)到了新的 SOTA。在推理能力方面,F(xiàn)lan-PaLM 能夠利用 CoT 和自洽性(self-consistency;Wang et al., 2022c)在大規(guī)模多任務(wù)語(yǔ)言理解(MMLU; Hendrycks et al., 2020)上實(shí)現(xiàn) 75.2% 的準(zhǔn)確率。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

此外,在一組具有挑戰(zhàn)性的開(kāi)放式生成問(wèn)題上,F(xiàn)lan-PaLM 的表現(xiàn)明顯優(yōu)于 PaLM,可用性大幅提高。

總體而言,谷歌的這項(xiàng)研究闡明了使用指令微調(diào)來(lái)提高模型性能的具體方法。

方法

具體來(lái)說(shuō),該研究主要關(guān)注影響指令微調(diào)的幾個(gè)方面,包括:(1)擴(kuò)展任務(wù)數(shù)量,(2)擴(kuò)展模型大小,以及(3)對(duì)思維鏈數(shù)據(jù)進(jìn)行微調(diào)。

該研究發(fā)現(xiàn)具有上述方面的指令微調(diào)顯著改進(jìn)了各種模型類(PaLM、T5、U-PaLM)、prompting 設(shè)置(零樣本、少樣本、CoT)和評(píng)估基準(zhǔn)(MMLU、BBH、 TyDiQA、MGSM、開(kāi)放式生成)。例如,在 1.8K 任務(wù)上進(jìn)行指令微調(diào)的 Flan-PaLM 540B 大大優(yōu)于 PALM 540B(平均 + 9.4%)。Flan-PaLM 540B 在幾個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能,例如在五次 MMLU 上達(dá)到 75.2%。

研究者還公開(kāi)了 Flan-T5 檢查點(diǎn),即使與更大的模型(例如 PaLM 62B)相比,它也能實(shí)現(xiàn)強(qiáng)大的少樣本性能。總體而言,指令微調(diào)是提高預(yù)訓(xùn)練語(yǔ)言模型的性能和可用性的通用方法。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

圖 1. 研究人員在 1800 余個(gè)任務(wù)中對(duì)各種語(yǔ)言模型進(jìn)行了微調(diào),在有 / 缺乏樣本(零樣本和少樣本)以及有 / 沒(méi)有思維鏈的情況下進(jìn)行微調(diào),從而能夠在一系列評(píng)估場(chǎng)景中進(jìn)行泛化。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

圖 2. 微調(diào)數(shù)據(jù)包括 473 個(gè)數(shù)據(jù)集、146 個(gè)任務(wù)類別和共計(jì) 1836 個(gè)任務(wù)。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

在數(shù)據(jù)微調(diào)和程序微調(diào)過(guò)程完成后,研究者根據(jù)模型大小對(duì)任務(wù)的性能來(lái)對(duì)比規(guī)模擴(kuò)展的影響。首先,對(duì)于所有三種模型大小,多任務(wù)指令微調(diào)與沒(méi)有微調(diào)相比性能有很大提高,增益范圍從 9.4% 到 15.5%。其次,增加微調(diào)任務(wù)的數(shù)量可以提高性能。

最后,我們可以看到將模型規(guī)模增加一個(gè)數(shù)量級(jí)(8B → 62B 或 62B → 540B)可以明顯提高微調(diào)和未微調(diào)模型的性能。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

多任務(wù)指令微調(diào)相對(duì)于模型大小(參數(shù)量)和微調(diào)任務(wù)數(shù)量及規(guī)模擴(kuò)展對(duì)準(zhǔn)確率的影響。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

增加微調(diào)數(shù)據(jù)中的任務(wù)數(shù)量可以提高 Flan-PaLM 在大多數(shù)評(píng)估基準(zhǔn)上的性能。

研究人員證明了在微調(diào)混合中包含九個(gè)帶有思維鏈 ( CoT ) 注釋的數(shù)據(jù)集可以提高推理能力。下表顯示 Flan-PaLM 的 CoT 提示能力在四個(gè)保留的評(píng)估基準(zhǔn)上優(yōu)于 PaLM。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

該研究發(fā)現(xiàn)對(duì) CoT 數(shù)據(jù)進(jìn)行指令微調(diào)的另外一個(gè)好處是可以實(shí)現(xiàn)零樣本(zero-shot)推理,模型在沒(méi)有針對(duì) CoT 的少量樣本的情況下就自行產(chǎn)生了推理能力,這可能需要大量工程調(diào)教才能正確實(shí)現(xiàn)。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

圖 6:PaLM 和 Flan-PaLM 在一組 23 個(gè)具有挑戰(zhàn)性的 BIG-Bench 任務(wù) ( BBH ) 上的 zero-shot 性能。Flan-PaLM 需要通過(guò)「讓我們一步一步思考」指令激活的思想鏈 ( CoT ) 生成。

為了展示新方法的通用性,谷歌訓(xùn)練了 T5、PaLM 和 U-PaLM,涵蓋了從 8000 萬(wàn)到 5400 億參數(shù)的模型體量范圍,發(fā)現(xiàn)所有模型都能大幅提升性能。

30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了

表 5. 指令微調(diào) ( Flan ) 在其他持續(xù)預(yù)訓(xùn)練方法之上提高了性能。

經(jīng)過(guò)測(cè)試,指令微調(diào)大大提高了所有模型類型的歸一化平均性能,與非微調(diào)模型相比,T5 模型從指令微調(diào)中受益最多。這些結(jié)果對(duì)于某些基準(zhǔn)測(cè)試來(lái)說(shuō)是相當(dāng)強(qiáng)的——例如,F(xiàn)lan-T5-XL 只有 30 億參數(shù),就達(dá)到了 47.6% 的 MMLU 分?jǐn)?shù),超過(guò)了 GPT-3 1750 億參數(shù)的 43.9% 分?jǐn)?shù)。

除了 NLP 基準(zhǔn)之外,語(yǔ)言模型還能夠?yàn)殚_(kāi)放式問(wèn)題請(qǐng)求生成長(zhǎng)格式答案。在這一方面,標(biāo)準(zhǔn)的 NLP 基準(zhǔn)和用于評(píng)估它們的自動(dòng)指標(biāo)不足以衡量人類的偏好。研究人員對(duì)此進(jìn)行了評(píng)估,創(chuàng)建了一個(gè)包含 190 個(gè)示例的評(píng)估集。該評(píng)估集包括以零樣本方式向模型提出的問(wèn)題,涉及五個(gè)具有挑戰(zhàn)性的類別,每個(gè)類別 20 個(gè)問(wèn)題:創(chuàng)造力、上下文推理、復(fù)雜推理、計(jì)劃和解釋。

對(duì)于其中的 60 個(gè)示例(來(lái)自復(fù)雜的推理、計(jì)劃和解釋類別),該研究創(chuàng)建了一個(gè)帶有思維鏈觸發(fā)短語(yǔ)(例如,「讓我們一步一步思考」)的變體,作為微調(diào)是否進(jìn)行的另一個(gè)評(píng)估在 CoT 上啟用 zero-shot。除了上述 160 個(gè)零樣本輸入之外,研究中還包括 30 個(gè)用于測(cè)試少樣本能力的輸入,這些沒(méi)有指令微調(diào)的強(qiáng)語(yǔ)言模型已被證明在這些方面表現(xiàn)良好。

研究人員認(rèn)為,指令微調(diào)和規(guī)模擴(kuò)展均可以持續(xù)提升大語(yǔ)言模型性能,而微調(diào)對(duì)于推理能力至關(guān)重要,其還能泛化模型能力。通過(guò)指令微調(diào)與其他模型適應(yīng)技術(shù)(例如 UL2R)結(jié)合,谷歌在這項(xiàng)工作中提出了最強(qiáng)模型 Flan-U-PaLM。

重要的是,指令微調(diào)并不像模型規(guī)模擴(kuò)展一樣會(huì)大幅增加計(jì)算成本,例如對(duì)于 PaLM 540B,指令微調(diào)只需要 0.2% 的預(yù)訓(xùn)練計(jì)算,但卻可以將跨評(píng)估基準(zhǔn)的歸一化平均值提高 9.4%。使用指令微調(diào)的小型模型有時(shí)可以勝過(guò)沒(méi)有微調(diào)的大模型。

出于這些原因,研究人員建議對(duì)幾乎所有預(yù)訓(xùn)練的語(yǔ)言模型都進(jìn)行指令微調(diào)。

原文地址:http://www.myzaker.com/article/63541a748e9f090dee776cae

版權(quán)聲明:虛像 發(fā)表于 2022年10月24日 am8:36。
轉(zhuǎn)載請(qǐng)注明:30億跑贏GPT-3的1750億,谷歌新模型引熱議,然而卻把Hinton年齡搞錯(cuò)了 | 快導(dǎo)航網(wǎng)

相關(guān)文章

亚洲午夜无码久久久久小说 | 无码人妻视频一区二区三区 | 被陌生人在地铁揉到高潮| 人善交VIDE欧美| 久久精品国产亚洲AV麻豆图片| 公车上拨开丁字裤进入电影| 亚洲乱码av一区二区三区| 首页 图区 国产 亚洲 欧美| 久久久久亚洲精品中文字幕| 风流老太婆大BBWBBWHD视| 曰韩无码二三区中文字幕| 亚洲AV成人无码精品直播在线| 欧美饥渴熟妇高潮喷水水| 国精产品一二三产区| JAPANESEⅩⅩⅩHD高潮| 亚洲AV乱码一区二区三区林ゆな| 久久久久99人妻一区二区三区| 国产成人亚洲色成人网站WWW永久四虎 | 久久精品国产网红主播| 一对浑圆的胸乳被揉捏| 亚洲精品综合欧美一区二区三区 | 欧美熟VIDEOS肥婆| 国产亚洲欧美精品一区| JIZZJIZZ中国18大学生| 要灬要灬再深点受不了好舒服 | 人妻一区二区在线| 久久精品国产网红主播| 国产真实自在自偷| 国产午夜亚洲精品午夜鲁丝片| 白嫩美女被内射59| 中文无码熟妇人妻AV在线| DY888午夜福利视频| 狠狠躁夜夜躁人爽碰88A| 五十路亲子中出在线观看| 国产精品综合色区在线观看| 亚洲成AV人片在线观看无APP| А√天堂中文最新版在线种子 | 一本到高清视频在线观看丶 | 男人J进女人P免费视频在线直播| 麻花豆传媒剧国产MV在线下载| 久久久WWW成人免费毛片| 久久亚洲AV午夜福利精品一区| 欧美内射深喉中文字幕| 亚洲AV无码一区二区乱孑伦AS | 哪种女人弄进去最舒服| 亚洲色偷拍另类无码专区| 国语对白做受XXXXX在线| 色欧美与xxxxx| А√在线天堂官网| 妺妺窝人体色www聚色窝| 亚洲婷婷综合色高清在线| 精品欧洲AV无码一区二区| 亚洲A∨无码一区二区三区| 被蹂躏的她 电影| 免费黄色电影在线观看| 幼儿HIPHOP仙踪林的| 久久99精品久久水蜜桃| 亚洲成av人在线观看| 国产精品美女久久久久AV福利| 日本人真人姓交大视频| 91人妻人人妻人人爽人人精品| 精品亚洲卡一卡2卡三卡乱码| 亚洲AV无码成人精品区在线h| 锕锕锕锕锕~好深啊APP网站| 公和熄洗澡三级在线观看| 久久久无码精品亚洲日韩按摩| 丝袜护士无码视频一区二区三区| 97SE亚洲国产综合自在线尤物| 国产人与禽ZOZ0性伦| 两毫米的小洞你却稳稳命中 | 国产精品亚洲片在线观看不卡| 免费无码成人AV片在线在线播放| 亚洲国产成人无码精品| 国产精品一国产AV麻豆| 欧美喷潮久久久XXXXX| 午夜爽爽爽男女免费观看影院| 又湿又紧又大又爽A视频男| 中国性猛交ⅩXXX免费看| 国产成人精品日本亚洲第一区| 男女啪啪免费观看的网址| 亚洲成AV人片在线观看| 久久无码AV三级| 天天爱天天做天天做天天吃中文| 爆乳女教师 高清BD| 人妻AV一区二区三区AV免费| CHINA中国人妻VIDEO| 女人被狂躁的高潮免费视频| 中文字幕久久波多野结衣AV不卡 | 亚洲精品卡2卡三卡4卡2卡乱码 | 丰满人妻跪趴高撅肥臀| 免费国产AV在线观看| 又湿又紧又大又爽又A视频| 波多野结衣乳巨码无在线观看| 久久精品国产亚洲AV嫖农村妇女| 欧美人与动牲交A免费| 夜夜添夜夜添夜夜摸夜夜摸| 韩国全部三级伦在线播放 | 无码人妻巨屁股系列大又挺拔 | 处破痛哭A√18成年片免| 少妇高潮潮喷到猛进猛出小说| 中国毛茸茸性XXXX| 精品高潮呻吟99AV无码| 太太其实你也很想要的对吧| АⅤ资源中文在线天堂| 日本成熟…@视频| 绯色AV一区二区三区3∪8| 四虎成人WWW成人影院| 国产成人亚洲精品无码车A| 无码一区二区三区AⅤ免费蜜桃视 无码一区二区三区AⅤ免费麻豆 | 亚洲AV中文无码字幕色三| YY111111少妇影院| 久久国产精品-国产精品| 亚洲中文字幕无码日韩| 国内精品久久久人妻中文字幕| 亚洲AV无码一区二区三区观看| 国产精品天干天干在线观看澳门 | 色婷婷综合久久久久中文| 696969C大但人文艺术作品| 乱色精品无码一区二区国产盗| 无线乱码不卡一二三四破解版| 国产精品第20页| 欧美ZC0O人与善交| 人妻少妇粗大持久满足| 99精品国产兔费观看久久| 乱肉怀孕又粗又大| 一本久久伊人热热精品中文| 林静公交车被做到高C的原因| 啊轻点灬大JI巴太粗太长了在线| 色欲AV蜜臀AV在线观看麻豆| 好男人网官网在线观看2019| 18禁白丝JK自慰喷水无码| 色偷偷AV男人的天堂京东热| 国产极品粉嫩馒头一线天AV| 色综合视频一区二区三区44| 国产精品亚洲一区二区Z| 亚洲AV无码一区二区三区DV| 久久久久久久精品免费| JK制服白丝自慰无码自慰网站| 熟妇女人妻丰满少妇中文字幕| 果冻传媒播放观看免费| 中文无码乱人伦中文视频播放| 日本VA视频免费在线观看| 国产女人水真多18毛片18精品| 重囗味SM在线观看无码| 強暴強姦AV正片一区二| 大色堂午夜福利国产TV6080 | 亚洲AV永久综合在线观看尤物| 国产内射老熟女AAAA∵| 无码午夜人妻一区二区不卡视频 | 男人放进女人里面叫什么| 波多野结衣AV黑人在线播放 | 国产亚洲精品一区在线播放| 中国BGMBGMBGM老妇网站| 色婷婷粉嫩AV精品综合在线| 精品国产一区二区AV片| 爱丫爱丫在线影院| 亚洲精品AⅤ中文字幕乱码| 人妻丰满熟妇AⅤ无码无码区免费 人妻丰满熟妇AⅤ无码区在线电影 | 免费A级毛片无码A| 国产香蕉一区二区三区在线视频| 92午夜少妇极品福利无码电影| 亚洲∧V久久久无码精品| 欧洲PAYPAL网站WWW| 久久不见久久见免费影院国语| 国产一起色一起爱| 一本一道AV无码中文字幕| 日韩精品人妻系列无码AV东京| 国产欧洲野花A级| 一二三四视频中文字幕| 美女露 0的奶头无| FREE乌克兰嫩交HD| 少妇人妻系列1~100| 日韩欧美群交P内射捆绑| 人妻aⅴ无码一区二区色戒| 精品久久无码中文字幕| 野花社区日本韩国免费观看| 久久亚洲国产精品成人AV秋霞| 精品三级久久久久电影我网| 成人精品天堂一区二区三区| 亚洲AV无码成人YELLOW| 女狠狠噜天天噜日日噜| 国产大陆亚洲精品国产| 亚洲熟女丰满多毛XXXXX| 日本强伦姧人妻69影院| 娇小亚洲人Ms黑人| 草莓丝瓜芭乐鸭脖奶茶搭配食物| 一出一进一爽一粗一大小说 | 欧美肉体裸交做爰XXXⅩ| 国产AV寂寞骚妇| 婬乱丰满熟妇XXXXX性| 特级毛片在线大全免费播放| 男人猛戳女人30分钟视频大全| 国产成人无码A区视频在线观看| 一本之道加勒比在线观看| 四虎影视永久地址WWW成人| 久久AV无码精品人妻系列| 粗大猛烈进出高潮视频免费看| 亚洲一区二区三区在线网址| 天天做天天爱天天爽综合网| 欧美人与性动交XXⅩXX|