編輯：LRS

【新智元導(dǎo)讀】缺數(shù)據(jù)不是問題，直接用GPT-4生成的指令就夠了，標(biāo)注員恐怕要失業(yè)了！

「指令」（Instruction）是ChatGPT模型取得突破性進(jìn)展的關(guān)鍵因素，可以讓語言模型的輸出更符合「人類的偏好」。

但指令的標(biāo)注工作需要耗費(fèi)大量的人力，即便有了開源的語言模型，資金不足的學(xué)術(shù)機(jī)構(gòu)、小公司也很難訓(xùn)練出自己ChatGPT.

最近微軟的研究人員利用之前提出的Self-Instruct技術(shù)，首次嘗試使用GPT-4模型來自動(dòng)生成語言模型所需的微調(diào)指令數(shù)據(jù)。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

論文鏈接：https://arxiv.org/pdf/2304.03277.pdf

代碼鏈接：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

在基于Meta開源的LLaMA模型上的實(shí)驗(yàn)結(jié)果表明，由 GPT-4生成的5.2萬條英語和漢語instruction-following數(shù)據(jù)在新任務(wù)中的表現(xiàn)優(yōu)于以前最先進(jìn)的模型生成的指令數(shù)據(jù)，研究人員還從GPT-4中收集反饋和比較數(shù)據(jù)，以便進(jìn)行全面的評(píng)估和獎(jiǎng)勵(lì)模式訓(xùn)練。

訓(xùn)練數(shù)據(jù)

數(shù)據(jù)收集

研究人員重用了斯坦福大學(xué)發(fā)布的Alpaca模型用到的5.2萬條指令，其中每條指令都描述了模型應(yīng)該執(zhí)行的任務(wù)，并遵循與Alpaca相同的prompting策略，同時(shí)考慮有輸入和無輸入的情況，作為任務(wù)的可選上下文或輸入；使用大型語言模型對(duì)指令輸出答案。

在Alpaca 數(shù)據(jù)集中，輸出是使用GPT-3.5（text-davinci-003）生成的，但在這篇論文中，研究人員選擇使用GPT-4來生成數(shù)據(jù)，具體包括以下四個(gè)數(shù)據(jù)集：

1. 英文Instruction-Following Data：對(duì)于在Alpaca中收集的5.2萬條指令，為每一條指令都提供一個(gè)英文GPT-4答案。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

未來的工作為遵循迭代的過程，使用GPT-4和self-instruct構(gòu)建一個(gè)全新的數(shù)據(jù)集。

2. 中文Instruction-Following Data：使用ChatGPT將5.2萬條指令翻譯成中文，并要求GPT-4用中文回答這些指令，并以此建立一個(gè)基于LLaMA的中文instruction-following模型，并研究指令調(diào)優(yōu)的跨語言泛化能力。

3. 對(duì)比數(shù)據(jù)（Comparison Data）：要求GPT-4對(duì)自己的回復(fù)提供從1到10的評(píng)分，并對(duì)GPT-4, GPT-3.5和OPT-IML這三個(gè)模型的回復(fù)進(jìn)行評(píng)分，以訓(xùn)練獎(jiǎng)勵(lì)模型。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

4. 非自然指令的答案：GPT-4的答案是在6.8萬條（指令，輸入，輸出）三元組的數(shù)據(jù)集上解碼的，使用該子集來量化GPT-4和指令調(diào)優(yōu)后的模型在規(guī)模上的差距。

數(shù)據(jù)統(tǒng)計(jì)

研究人員對(duì)比了GPT-4和GPT-3.5的英語輸出回復(fù)集合：對(duì)于每個(gè)輸出，都提取了根動(dòng)詞（root verb）和直接賓語名詞（direct-object noun），在每個(gè)輸出集上計(jì)算了獨(dú)特的動(dòng)詞-名詞對(duì)的頻率。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

頻率高于10的動(dòng)詞-名詞對(duì)

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

頻率最高的25對(duì)動(dòng)詞-名詞

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

輸出序列長(zhǎng)度的頻率分布對(duì)比

可以看到，GPT-4傾向于生成比GPT-3.5更長(zhǎng)的序列，Alpaca中GPT-3.5數(shù)據(jù)的長(zhǎng)尾現(xiàn)象比GPT-4的輸出分布更明顯，可能是因?yàn)锳lpaca數(shù)據(jù)集涉及到一個(gè)迭代的數(shù)據(jù)收集過程，在每次迭代中去除相似的指令實(shí)例，在目前的一次性數(shù)據(jù)生成中是沒有的。

盡管這個(gè)過程很簡(jiǎn)單，但GPT-4生成的instruction-following數(shù)據(jù)表現(xiàn)出更強(qiáng)大的對(duì)齊性能。

指令調(diào)優(yōu)語言模型

Self-Instruct 調(diào)優(yōu)

研究人員基于LLaMA 7B checkpoint有監(jiān)督微調(diào)后訓(xùn)練得到了兩個(gè)模型：LLaMA-GPT4是在GPT-4生成的5.2萬條英文instruction-following數(shù)據(jù)上訓(xùn)練的；LLaMA-GPT4-CN是在GPT-4的5.2萬條中文instruction-following數(shù)據(jù)上訓(xùn)練的。

兩個(gè)模型被用來研究GPT-4的數(shù)據(jù)質(zhì)量以及在一種語言中進(jìn)行指令調(diào)優(yōu)的LLMs時(shí)的跨語言泛化特性。

獎(jiǎng)勵(lì)模型

從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback，RLHF）旨在使LLM行為與人類的偏好相一致，以使語言模型的輸出對(duì)人類更加有用。

RLHF的一個(gè)關(guān)鍵組成部分是獎(jiǎng)勵(lì)建模，其問題可以被表述為一個(gè)回歸任務(wù)，以預(yù)測(cè)給定提示和回復(fù)的獎(jiǎng)勵(lì)評(píng)分，該方法通常需要大規(guī)模的比較數(shù)據(jù)，即對(duì)同一提示的兩個(gè)模型反應(yīng)進(jìn)行比較。

現(xiàn)有的開源模型，如Alpaca、Vicuna和Dolly，由于標(biāo)注對(duì)比數(shù)據(jù)的成本很高，所以沒有用到RLHF，并且最近的研究表明，GPT-4能夠識(shí)別和修復(fù)自己的錯(cuò)誤，并準(zhǔn)確判斷回復(fù)的質(zhì)量。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

為了促進(jìn)對(duì)RLHF的研究，研究人員使用GPT-4創(chuàng)建了對(duì)比數(shù)據(jù)；為了評(píng)估數(shù)據(jù)質(zhì)量，研究人員訓(xùn)練一個(gè)基于OPT 1.3B的獎(jiǎng)勵(lì)模型，以對(duì)不同的回復(fù)進(jìn)行評(píng)分：對(duì)一個(gè)提示和K個(gè)回復(fù)，GPT-4為每個(gè)回復(fù)提供一個(gè)1到10之間的評(píng)分。

實(shí)驗(yàn)結(jié)果

在 GPT-4數(shù)據(jù)上評(píng)估以前從未見過的任務(wù)的self-instruct調(diào)優(yōu)模型的性能仍然是一項(xiàng)困難的任務(wù)。

由于主要目標(biāo)是評(píng)估模型理解和遵守各種任務(wù)指示的能力，為了實(shí)現(xiàn)這一點(diǎn)，研究人員利用三種類型的評(píng)估，并通過研究結(jié)果證實(shí)，「利用 GPT-4生成數(shù)據(jù)」相比其他機(jī)器自動(dòng)生成的數(shù)據(jù)來說是一種有效的大型語言模型指令調(diào)優(yōu)方法。

人類評(píng)估

為了評(píng)估該指令調(diào)優(yōu)后的大型語言模型對(duì)齊質(zhì)量，研究人員遵循之前提出的對(duì)齊標(biāo)準(zhǔn)：如果一個(gè)助手是有幫助的、誠實(shí)的和無害的（HHH），那它就是與人類評(píng)估標(biāo)準(zhǔn)對(duì)齊的，這些標(biāo)準(zhǔn)也被廣泛用于評(píng)估人工智能系統(tǒng)與人類價(jià)值觀的一致性程度。

幫助性（helpfulness）：是否能幫助人類實(shí)現(xiàn)他們的目標(biāo)，一個(gè)能夠準(zhǔn)確回答問題的模型是有幫助的。

誠實(shí)性（honesty）：是否提供真實(shí)信息，并在必要時(shí)表達(dá)其不確定性以避免誤導(dǎo)人類用戶，一個(gè)提供虛假信息的模型是不誠實(shí)的。

無害性（harmlessness）：是否不會(huì)對(duì)人類造成傷害，一個(gè)產(chǎn)生仇恨言論或提倡暴力的模型不是無害的。

基于HHH對(duì)齊標(biāo)準(zhǔn)，研究人員使用眾包平臺(tái)Amazon Mechanical Turk對(duì)模型生成結(jié)果進(jìn)行人工評(píng)估。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

文中提出的兩個(gè)模型分別在GPT-4和GPT-3生成的數(shù)據(jù)上進(jìn)行了微調(diào)，可以看到LLaMA-GPT4以51.2%的占比在幫助性上要大大優(yōu)于在GPT-3上微調(diào)的Alpaca（19.74%），而在誠實(shí)性和無害性標(biāo)準(zhǔn)下，則基本處于平局狀態(tài)，GPT-3要略勝一籌。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

在和原版GPT-4對(duì)比時(shí)，可以發(fā)現(xiàn)二者在三個(gè)標(biāo)準(zhǔn)上也是相當(dāng)一致的，即GPT-4指令調(diào)優(yōu)后的LLaMA表現(xiàn)與原始的GPT-4類似。

GPT-4自動(dòng)評(píng)估

受 Vicuna 的啟發(fā)，研究人員也選擇用GPT-4來評(píng)估不同聊天機(jī)器人模型對(duì)80個(gè)未見過的問題所生成回答的質(zhì)量，從 LLaMA-GPT-4(7B)和 GPT-4模型中收集回復(fù)，并從以前的研究中獲得其他模型的答案，然后要求GPT-4對(duì)兩個(gè)模型之間的回復(fù)質(zhì)量進(jìn)行評(píng)分，評(píng)分范圍從1到10，并將結(jié)果與其他強(qiáng)競(jìng)爭(zhēng)模型(ChatGPT 和 GPT-4)進(jìn)行比較。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

評(píng)估結(jié)果顯示，反饋數(shù)據(jù)和獎(jiǎng)勵(lì)模型對(duì)提高 LLaMA 的性能是有效的；用GPT-4對(duì)LLaMA進(jìn)行指令調(diào)優(yōu)，往往比用text-davinci-003調(diào)優(yōu)（即Alpaca）和不調(diào)優(yōu)（即LLaMA）的性能更高；7B LLaMA GPT4的性能超過了13B Alpaca和LLaMA，但和GPT-4等大型商業(yè)聊天機(jī)器人相比，仍有差距。

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

進(jìn)一步研究中文聊天機(jī)器人的性能時(shí)，首先使用GPT-4將聊天機(jī)器人的問題也從英文翻譯成中文，用GPT-4獲得答案，可以得到兩個(gè)有趣的觀察結(jié)果：

1. 可以發(fā)現(xiàn)GPT-4評(píng)價(jià)的相對(duì)分?jǐn)?shù)指標(biāo)是相當(dāng)一致的，無論是在不同的對(duì)手模型（即ChatGPT或GPT-4）和語言（即英語或中文）方面。

2. 僅就GPT-4的結(jié)果而言，翻譯后的回復(fù)比中文生成的回復(fù)表現(xiàn)得更好，可能是因?yàn)镚PT-4是在比中文更豐富的英文語料庫中訓(xùn)練的，所以具有更強(qiáng)的英文instruction-following能力。

非自然指令評(píng)估（Unnatural Instruction Evaluation）

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

從平均ROUGE-L得分來看，Alpaca優(yōu)于LLaMA-GPT 4和GPT-4，可以注意到，LLaMA-GPT4和GPT4在ground truth回復(fù)長(zhǎng)度增加時(shí)逐漸表現(xiàn)得更好，最終在長(zhǎng)度超過4時(shí)表現(xiàn)出更高的性能，意味著當(dāng)場(chǎng)景更具創(chuàng)造性時(shí)，可以更好地遵循指令。

在不同的子集中，LLaMA-GPT4跟GPT-4的行為相差無幾；當(dāng)序列長(zhǎng)度較短時(shí)，LLaMA-GPT4和GPT-4都能生成包含簡(jiǎn)單的基本事實(shí)答案的回復(fù)，但會(huì)增加額外的詞語，使回復(fù)更像聊天，可能會(huì)導(dǎo)致ROUGE-L得分降低。

參考資料：

https://arxiv.org/pdf/2304.03277.pdf

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）

訓(xùn)練數(shù)據(jù)

指令調(diào)優(yōu)語言模型

實(shí)驗(yàn)結(jié)果

相關(guān)新聞

家用版GPT-4！微軟開源微調(diào)指令集效果不輸原版，中英雙語都能用（微指令控制器）