黄色中文字幕在线观看,久久中文精品无码中文字幕,人妻中文无码就熟专区

盤點(diǎn)我跳過的科研天坑，進(jìn)坑就是半年白干（科研四大天坑）

文 | 白鹡鸰 and 小軼祝大家新年快樂！

去年白鹡鸰花了兩個(gè)月，刷了八千篇Arxiv，結(jié)果發(fā)現(xiàn)很多論文存在一些比較“基本”的常見問題：

研究問題和問題假設(shè)存在嚴(yán)重的漏洞，或者缺少充分的相關(guān)工作調(diào)研，導(dǎo)致所謂的新問題只是新瓶裝舊酒。
模型的選擇與想解決的問題牛頭不對(duì)馬嘴。
實(shí)驗(yàn)設(shè)計(jì)錯(cuò)誤，并沒有針對(duì)所聲稱的模型優(yōu)勢(shì)來進(jìn)行實(shí)驗(yàn)設(shè)計(jì)（還試圖用不合理的實(shí)驗(yàn)分析去強(qiáng)行圓回來）。比如，一篇論文號(hào)稱自己可解釋性強(qiáng)，卻拿著精度當(dāng)指標(biāo)。

以上本應(yīng)是研究的基本要求，只有滿足了這些條件才能再去討論一份工作是否有所創(chuàng)新，有所貢獻(xiàn)。但現(xiàn)在不少論文都本末倒置了。很多人在科研的過程中，一些最基本的科研要求往往被忽視，更多關(guān)注的反倒是“創(chuàng)新”（novelty）和“貢獻(xiàn)”（contribution）之類更高層次的要求。殊不知，后者必須建立在前者的基礎(chǔ)上。否則，所謂的創(chuàng)新與貢獻(xiàn)恐怕只是水中撈月的假象——

“創(chuàng)新性”被替換為“方法夠不夠花哨復(fù)雜”。為了這虛假的 “創(chuàng)新”，模型被強(qiáng)行塞入無效模塊，或是添上意義不大的技巧。

“貢獻(xiàn)度”被替換為“有沒有刷到 SOTA”。但 SOTA 有時(shí)候也并不能代表全部：或許模型并沒有掌握任務(wù)所必須具備的能力，只是過擬合了特定的數(shù)據(jù)集；或許模型的性能提升不是論文提出的核心方法帶來的，而只是某個(gè)一筆帶過的技巧、或者是不公平的比較方式導(dǎo)致的。

Severus 曾在往期推文中談過他對(duì)“算法崗”的理解。其中一些觀點(diǎn)與我們這里想說的不謀而合。他認(rèn)為很多畢業(yè)生剛進(jìn)入工業(yè)界時(shí)，最大的短板是缺少扎實(shí)地分析問題的能力，導(dǎo)致方法難以落地。并且吐槽了科研界很多 idea 的形成過程只是“靈光一現(xiàn)”，評(píng)價(jià)方式則“唯指標(biāo)論”。其實(shí)，做科研何嘗不需要扎實(shí)的分析能力？不止需要，而且是基本技能之一。只是，忽視這些基本要求，不知從什么時(shí)候開始已經(jīng)成為主流了。

這就像一個(gè)歌手，唱歌“是否音準(zhǔn)”本應(yīng)是基本要求，“有沒有流傳度高的音樂作品”是較高層次的要求。而現(xiàn)在卻變成了：基本要求被忽視，高級(jí)要求則被“粉絲多少/身價(jià)高低”取代。

1 科研誤解的流行從何而來？

那么，為何會(huì)存在這么普遍的科研誤解，以致于工業(yè)界的大佬會(huì)認(rèn)為：只經(jīng)歷過科研訓(xùn)練的畢業(yè)生，往往連最基本問題分析能力都沒有？大抵可以歸為這樣兩個(gè)原因：

其一， “基本”要求≠“簡(jiǎn)單”的要求。雖然“扎實(shí)的問題分析、相關(guān)工作調(diào)研充分、解決方法合理、實(shí)驗(yàn)設(shè)計(jì)有針對(duì)性”是一篇工作的基本要求，但并不代表這些要求是容易達(dá)成的。就像“音準(zhǔn)”等等是一個(gè)歌手的基本要求，但好的唱功又談何容易。即使已經(jīng)具備一定歌唱實(shí)力，也難免會(huì)有失誤的時(shí)候。同理，扎實(shí)的科研基本功豈是朝夕可得。

其二，研究的思維誤區(qū)和思維慣性、知識(shí)的局限性息息相關(guān)，不能一勞永逸地避免。無論是小軼還是白鹡鸰，在剛?cè)腴T科研的時(shí)候，文章開頭所提到的坑基本全都踩了個(gè)遍。只是有幸碰到了好的引導(dǎo)者，而且經(jīng)驗(yàn)不斷積累，才逐漸能夠有意識(shí)地去規(guī)避這些問題。但是，在某個(gè)思維松懈的瞬間，或是出于無法避免的知識(shí)局限性，哪怕是已經(jīng)有一定經(jīng)驗(yàn)的研究者，仍然可能再次踏入陷阱。

如果身邊能有一位有經(jīng)驗(yàn)的前輩在科研進(jìn)程中定期討論，避免踩坑的概率會(huì)大大降低一些，也會(huì)更快地對(duì)科研形成正確認(rèn)識(shí)。這位前輩倒也不必事事躬親地教，只需幫助識(shí)別出一些常見的坑，發(fā)出“別跳”的警告即可。遺憾的是，在近年來全民 AI 的趨勢(shì)下，許多入門科研的年輕人并沒有條件得到這樣的指導(dǎo)，只能摸黑前進(jìn)。投入了大量時(shí)間、精力，甚至犧牲健康才完成的工作，卻因?yàn)閺母旧暇痛嬖诼┒?，使得一切努力都成了泡影。到最后，可能都還沒對(duì)科研形成最基本的正確認(rèn)識(shí)，就帶著誤解畢業(yè)了。

有的工作不能夠達(dá)到某些基本科研要求，或許是作者的無心之失。但也不否認(rèn)有一些工作是在有意識(shí)地粗制濫造，將存在問題的工作加以包裝，以次充好。模型上堆疊各式各樣模塊，把各種當(dāng)下熱點(diǎn)技術(shù)都沾了點(diǎn)邊。然后煞費(fèi)苦心調(diào)出實(shí)驗(yàn)結(jié)果。最后再胡謅個(gè)似是而非的 motivation，補(bǔ)齊相關(guān)工作。面對(duì)這類工作，也許有經(jīng)驗(yàn)的審稿人很容易就能發(fā)現(xiàn)問題。但若是遇到個(gè)經(jīng)驗(yàn)不足的審稿人，很可能就打出了高分。畢竟這樣的論文經(jīng)過一番包裝，確實(shí)金玉其外。再加上這樣的工作制造成本低廉，大可以多做幾份，搞“海投戰(zhàn)術(shù)”——只要分母夠大，總有能中的。這種行為的流行將戕害到整個(gè) AI 行業(yè)。隨著海投的水文越來越多，審稿需求就越來越大。審稿人的平均水準(zhǔn)也相應(yīng)越來越低，于是漏網(wǎng)之魚的錄用水文也越來越多。從此進(jìn)入惡性循環(huán)。

2 如何避免科研誤區(qū)？

科研誤區(qū)可能是無心之失，或刻意而為。后者牽扯到太多利益糾葛，不多加討論。但對(duì)于還對(duì)科研帶有熱情，有心做出有價(jià)值的工作的同行，我們?cè)诖讼敕窒硪环?機(jī)器學(xué)習(xí)避坑指南，互相提醒，互相勉勵(lì)。

盤點(diǎn)我跳過的科研天坑，進(jìn)坑就是半年白干（科研四大天坑）

Warning：下文一半是搬運(yùn)，一半是個(gè)人理解。感興趣的朋友還請(qǐng)移步原文。

論文題目:

How to Avoid Machine Learning Pitfalls: A Guide for Academic Researchers

論文鏈接:

http://arxiv.org/abs/2108.02497

原作者熱烈歡迎大家一起補(bǔ)充完善這份指南。

3 建模前需要做的準(zhǔn)備

1. 花點(diǎn)時(shí)間了解你的數(shù)據(jù)

當(dāng)你的數(shù)據(jù)來源可靠時(shí)，你訓(xùn)練的模型才可能可信。在使用來自網(wǎng)絡(luò)的數(shù)據(jù)時(shí)，稍微看一眼，數(shù)據(jù)是哪里來的？有沒有對(duì)應(yīng)的文章或文檔說明？如果有說明，多看幾眼數(shù)據(jù)的采集方法，檢查一下作者有沒有提及數(shù)據(jù)的局限性（可能沒有，所以還要自己多想想）。不要因?yàn)橐粋€(gè)數(shù)據(jù)集被很多文章采用了，就假設(shè)它是可信的。即使是標(biāo)桿級(jí)別的數(shù)據(jù)集，數(shù)據(jù)也可能沒經(jīng)過仔細(xì)篩選（請(qǐng)參見《Google掀桌了，GLUE基準(zhǔn)的時(shí)代終于過去了？》）。而不靠譜的數(shù)據(jù)，只會(huì)導(dǎo)致 garbage in，garbage out。所以，在開始跑實(shí)驗(yàn)之前，先好好地探索一下你的數(shù)據(jù)吧！在工作開始的時(shí)候就對(duì)數(shù)據(jù)有一個(gè)整體把控，總比最后再不得不向?qū)徃迦私忉屇愕哪Ｐ捅憩F(xiàn)是受到了垃圾數(shù)據(jù)影響要好。

2. 不要過度地分析數(shù)據(jù)

當(dāng)你對(duì)數(shù)據(jù)集有一定了解之后，可能會(huì)發(fā)現(xiàn)一些肉眼可見的規(guī)律。但是，千萬不要基于初步的數(shù)據(jù)分析作出任何沒經(jīng)過檢驗(yàn)的假設(shè)！提出假設(shè)本身沒有錯(cuò)，重點(diǎn)是避免“沒經(jīng)過檢驗(yàn)”的假設(shè)，一方面是因?yàn)閿?shù)據(jù)集都會(huì)帶有偏差，你無法確定你發(fā)現(xiàn)的規(guī)律是不是基于特定的偏差的；另一方面，在沒有區(qū)分訓(xùn)練和測(cè)試數(shù)據(jù)前就基于數(shù)據(jù)開始大膽猜測(cè)（帶入先驗(yàn)知識(shí)），這其實(shí)也是測(cè)試數(shù)據(jù)泄漏到訓(xùn)練過程的一種形式?？傊?，輕率地提出假設(shè)對(duì)于模型的可靠性百害無一利，如果你發(fā)現(xiàn)之前很多論文都用了相同的假設(shè)，也請(qǐng)謹(jǐn)慎確定這個(gè)假設(shè)適用于你的數(shù)據(jù)。假如你發(fā)現(xiàn)這個(gè)領(lǐng)域長(zhǎng)期公認(rèn)的假設(shè)其實(shí)是不合理的——嗨呀，送上門的文章快寫吧。

3. 確保你擁有足夠的數(shù)據(jù)

這其實(shí)不止是對(duì)數(shù)據(jù)的要求，也要求你要對(duì)自己的模型有一定的了解：到底需要多少數(shù)據(jù)，才能保證你的模型的泛化性？此外，數(shù)據(jù)的“量”是否充足，和數(shù)據(jù)的“質(zhì)”有一定的關(guān)聯(lián)。如果數(shù)據(jù)中噪聲太大，那即使量夠大，也不一定能獲得很好的模型訓(xùn)練效果。而如果數(shù)據(jù)類與類不均衡，模型的泛化性也會(huì)受到影響。如果數(shù)據(jù)因各式各樣的原因不夠充足，你可以考慮交叉驗(yàn)證、數(shù)據(jù)增強(qiáng)、均衡訓(xùn)練等操作，如果數(shù)據(jù)無論怎樣操作都不足以支撐你的模型，那就趁早換個(gè)復(fù)雜度低一點(diǎn)的模型吧。

4. 和領(lǐng)域內(nèi)的專家保持交流

領(lǐng)域內(nèi)專家的意見是很重要的（特別是你的導(dǎo)師）。基于豐富的經(jīng)驗(yàn)，他們能更好地估計(jì)研究的可行性和研究?jī)r(jià)值；對(duì)于研究結(jié)果的預(yù)期可能會(huì)更準(zhǔn)確，因此當(dāng)你誤入歧途時(shí)，更可能及時(shí)地指出；而對(duì)于你的成果面向的受眾也會(huì)更了解，能幫助你選擇論文投稿的正確的期刊。因此，多和前輩們交流。記住，前輩不限于你的導(dǎo)師，院系內(nèi)類似工作的老師、學(xué)長(zhǎng)學(xué)姐都是可以請(qǐng)教的對(duì)象。多交流還能防自閉！

5. 好好做文獻(xiàn)調(diào)研！好好做文獻(xiàn)調(diào)研！

重復(fù)一遍是因?yàn)樾≥W覺得這點(diǎn)簡(jiǎn)直是坑中之坑！需要鞭策自己！

當(dāng)你想到一個(gè)研究問題的時(shí)候，你很可能不是第一個(gè)想到的。如果你沒找到相關(guān)的研究，可能只是因?yàn)?strong>他人描述問題的形式和你不盡相同，更糟糕的是可能是因?yàn)?strong>你的問題根本不具備研究?jī)r(jià)值。無論哪種情況，都是由于文獻(xiàn)調(diào)研還不夠充分導(dǎo)致的。需要多讀論文，然后通過交流討論，確定這個(gè)研究問題能不能做下去。不要擔(dān)心那些和你研究同一個(gè)問題的論文：創(chuàng)新性可以來自很多方面，新方法，新結(jié)論，新應(yīng)用點(diǎn)，世界這么大，只要你會(huì)講故事，沒那么多論文能和你完全一樣（真一樣的話就說明是有緣人，發(fā)郵件交個(gè)朋友去吧）。前人的工作將為你提供很多寶貴的結(jié)論、經(jīng)驗(yàn)、教訓(xùn)，也必然存在不完善的地方，沿著前人的不足做下去就好了。

盤點(diǎn)我跳過的科研天坑，進(jìn)坑就是半年白干（科研四大天坑）

6. 考慮好要如何部署模型

“你為什么一定要用深度學(xué)習(xí)模型？傳統(tǒng)方法它不香嗎？”這是每一篇應(yīng)用機(jī)器學(xué)習(xí)模型的論文必須回答的問題。

目前，有很大一部分的機(jī)器學(xué)習(xí)模型并不具有實(shí)用價(jià)值，它們只代表了建模和數(shù)據(jù)分析的發(fā)展方向。如果只是運(yùn)用機(jī)器學(xué)習(xí)模型，一定要注意模型的適用范圍（實(shí)時(shí)性、計(jì)算力等），還要對(duì)如何魔改模型的輸入輸出心里有數(shù)?！耙?yàn)闆]人把機(jī)器學(xué)習(xí)用在我的領(lǐng)域，所以我把模型套過來跑一跑”的行為早就飽受詬病了（詳見《近期神奇機(jī)器學(xué)習(xí)應(yīng)用大賞》）。

4 如何建立可靠的模型

1. 不要混淆訓(xùn)練和測(cè)試數(shù)據(jù)！

要使用能證明模型泛化性的測(cè)試集。訓(xùn)練集上表現(xiàn)再好也可能只是過擬合，只有在一個(gè)盡可能貼近實(shí)際場(chǎng)景的測(cè)試集中表現(xiàn)過關(guān)，才能證明模型的訓(xùn)練是有效的。你的訓(xùn)練集中數(shù)據(jù)可以是在單一條件下采集的，但測(cè)試集中數(shù)據(jù)必須包括各式各樣的情況。而且測(cè)試集和訓(xùn)練集絕對(duì)不能有重合。

2. 多嘗試幾個(gè)模型

根據(jù) No Free Lunch 理論，任何的機(jī)器學(xué)習(xí)方法都不可能在所有領(lǐng)域表現(xiàn)最好。所以，當(dāng)你將機(jī)器學(xué)習(xí)引入自己的領(lǐng)域的時(shí)候，多試幾個(gè)模型，確保你用的是最合適的那一個(gè)，當(dāng)然，也可能沒有一個(gè)適合你：）

3. 不要使用不合適的模型

由于現(xiàn)在機(jī)器學(xué)習(xí)的庫(kù)太多了，生搬硬套的現(xiàn)象也越來越普遍。搞不清模型輸入輸出，只想用新興神經(jīng)網(wǎng)絡(luò)炮轟一切問題的，看到個(gè)新模型就想拿來用的，是不是聽起來就要血壓升高？

盤點(diǎn)我跳過的科研天坑，進(jìn)坑就是半年白干（科研四大天坑）

4. 好好調(diào)參！好好調(diào)參！

重復(fù)一遍是因?yàn)榘n鸰特別懶不喜歡調(diào)參需要鞭策自己

很多模型中都有超參數(shù)，它們對(duì)模型的表現(xiàn)影響重大，而不同的領(lǐng)域/數(shù)據(jù)集對(duì)超參數(shù)的要求又各有不同。所以，即使是懶，也必須采用一些自動(dòng)化方法來調(diào)參，比如網(wǎng)格搜索，簡(jiǎn)單粗暴，我的摯愛。如果模型很大，訓(xùn)練成本高昂，甚至可以利用一些工具包幫忙調(diào)參。

需要指出的是，盡管經(jīng)常會(huì)聽到一些關(guān)于調(diào)參的詬?。愃朴凇斑@篇論文效果好完全是靠調(diào)參！”的抱怨），但是調(diào)參是有其必要性的。應(yīng)該避免的是不規(guī)范的調(diào)參和不公平的實(shí)驗(yàn)比較方式。比如，不能用測(cè)試集數(shù)據(jù)調(diào)參；以及，不能僅對(duì)自己提出的模型瘋狂調(diào)參，而應(yīng)對(duì)所有使用中的模型都進(jìn)行同等程度的調(diào)參方式等等。

5. 注意調(diào)參和選擇特征的階段

超參數(shù)調(diào)整和特征選擇都應(yīng)當(dāng)是訓(xùn)練的一部分，而不是說訓(xùn)練之前運(yùn)行一次就以為萬事大吉。特別是特征選擇，如果對(duì)整個(gè)數(shù)據(jù)集統(tǒng)一進(jìn)行特征選擇，很可能又會(huì)把測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)中包含的知識(shí)混在一起，導(dǎo)致測(cè)試結(jié)果不可靠，因此，最好只對(duì)你訓(xùn)練用的那一部分?jǐn)?shù)據(jù)進(jìn)行調(diào)參和特征選擇。一種推薦的方法是嵌套交叉驗(yàn)證，這種方法在交叉驗(yàn)證外面再套了一圈驗(yàn)證，用來測(cè)試不同超參數(shù)和特征選擇對(duì)模型的影響。

5 如何合理地評(píng)估模型

1. 選擇合適的測(cè)試集

能夠證明模型泛化性才是好的測(cè)試集。訓(xùn)練集上表現(xiàn)再好也可能只是過擬合，只有在一個(gè)盡可能貼近實(shí)際場(chǎng)景的測(cè)試集中表現(xiàn)過關(guān)，才能證明模型的訓(xùn)練是有效的。你的訓(xùn)練集中數(shù)據(jù)可以是在單一條件下采集的，但測(cè)試集中數(shù)據(jù)必須包括各式各樣的情況。而且測(cè)試集和訓(xùn)練集絕對(duì)不能有重合。

2. 驗(yàn)證集是有必要的

在剛開始做機(jī)器學(xué)習(xí)的時(shí)候，我對(duì)于驗(yàn)證集的概念不甚清楚，也不明白為什么要掐出來那么多數(shù)據(jù)當(dāng)驗(yàn)證集（甚至有人告訴過我驗(yàn)證集可有可無，謝謝您嘞！）。驗(yàn)證集主要是用在訓(xùn)練過程中，用來對(duì)比多個(gè)模型的表現(xiàn)的。當(dāng)你需要同時(shí)訓(xùn)練好幾個(gè)超參數(shù)設(shè)置不一樣的模型時(shí)，幫助挑選這些模型的就是驗(yàn)證集。雖然測(cè)試集沒有直接參與模型的訓(xùn)練，但它指導(dǎo)了訓(xùn)練的方向。驗(yàn)證集就是訓(xùn)練和測(cè)試之間的緩沖地帶，保證了模型的訓(xùn)練集和測(cè)試集沒有任何重疊。驗(yàn)證集的另一個(gè)好處就是，你可以用它來檢查你的模型是否真的學(xué)到了數(shù)據(jù)的規(guī)律，見勢(shì)不妙時(shí)可以趁早停下；如果模型在驗(yàn)證集中表現(xiàn)先升后降，很可能是模型過擬合的標(biāo)志。

3. 一個(gè)模型多驗(yàn)證幾次

機(jī)器學(xué)習(xí)的模型能有多不穩(wěn)定，我相信所有用過GAN和RL的人都有話要說，隨機(jī)采樣訓(xùn)練樣本的情況下，模型能往各種神奇的方向發(fā)展，收斂到各式各樣的局部最優(yōu)。這就是為什么我們需要交叉驗(yàn)證法，它能盡可能地保證模型訓(xùn)練效果，一定程度上防止過擬合。需要注意的是，如果數(shù)據(jù)集中存在類別不均衡的問題，最好保證每個(gè)驗(yàn)證組中都能包含所有類別。在交叉驗(yàn)證的過程中，強(qiáng)烈推薦大家記錄每輪中測(cè)試的均值和方差，在比較模型表現(xiàn)時(shí)這些數(shù)據(jù)會(huì)起到重要作用。

4. 留點(diǎn)數(shù)據(jù)用于最終驗(yàn)證

在訓(xùn)練過程中，交叉驗(yàn)證可以很大程度上保證一類模型的訓(xùn)練效果的穩(wěn)定性，但是，對(duì)于訓(xùn)練中的每個(gè)模型個(gè)體，這樣的驗(yàn)證還不夠充分，因?yàn)槊拷M交叉驗(yàn)證的子集中數(shù)據(jù)量往往都不大，不一定具有泛化性，說不定，表現(xiàn)最好的模型只是恰好遇到了最簡(jiǎn)單的驗(yàn)證子集。因此，如果你的數(shù)據(jù)還算充裕，最好能留一部分?jǐn)?shù)據(jù)，在訓(xùn)練結(jié)束之后再無偏驗(yàn)證一下模型們的表現(xiàn)。

5. 數(shù)據(jù)不均衡的時(shí)候，精度是沒有意義的

數(shù)據(jù)采集不均衡的情況很常見。例如，很多的自動(dòng)駕駛的數(shù)據(jù)集中，行人、自行車、卡車的數(shù)量加起來還沒有小轎車多。這種情況下，用模型對(duì)交通參與物分類的精度作為衡量模型表現(xiàn)的標(biāo)準(zhǔn)，恐怕意義不大。這種情況下，應(yīng)當(dāng)先對(duì)不同類別樣本的分類精度進(jìn)行一致性檢驗(yàn)，或者采用一些適用于不均衡數(shù)據(jù)的評(píng)估指標(biāo)，例如Kappa系數(shù)，Matthews相關(guān)系數(shù)等。

盤點(diǎn)我跳過的科研天坑，進(jìn)坑就是半年白干（科研四大天坑）

6 如何公平地比較模型

1. 不要以為分高了模型就好

這真是非常常見的問題：“XX模型精度94%，我們的模型精度95%，所以我們nb”。然而，可能存在幾種可能性：兩個(gè)模型是在不同的數(shù)據(jù)集上測(cè)試的（直接斃了吧）；兩個(gè)模型用的同一個(gè)數(shù)據(jù)集，但是訓(xùn)練和測(cè)試集劃分并不一樣，特別有些論文，直接引用他人模型訓(xùn)練出來的精度，連復(fù)現(xiàn)都不帶的（危）；復(fù)現(xiàn)的模型超參數(shù)可能和原論文存在出入，或者沒有費(fèi)心去調(diào)參。總之，比較模型表現(xiàn)的時(shí)候，可能出現(xiàn)各種各樣的事故，一定要記得將模型放在同樣的起跑線上，進(jìn)行同樣的優(yōu)化步驟，最后，多測(cè)試幾次來證明模型的表現(xiàn)確實(shí)有顯著的進(jìn)步。

2. 比較模型時(shí)，用點(diǎn)統(tǒng)計(jì)學(xué)

看到這一條的時(shí)候，實(shí)在忍不住想到，現(xiàn)在比較模型的方法，有時(shí)甚至不如寶可夢(mèng)對(duì)戰(zhàn)。寶可夢(mèng)好歹還可能因?yàn)閷傩院图寄軐?dǎo)致的勝負(fù)反轉(zhuǎn)。模型之間就列一兩個(gè)指標(biāo)，拿著1%的差異說事。還是多用用壓箱底的統(tǒng)計(jì)學(xué)知識(shí)吧，例如，比較分類器的時(shí)候可以上McNemar檢驗(yàn)，檢查模型對(duì)數(shù)據(jù)擬合的分布時(shí)，可以試試Student’s T檢驗(yàn)。關(guān)于模型到底有沒有顯著的改進(jìn)這個(gè)問題，這些方法能夠提供更有力的理論支撐。

3. 如何正確地比較多個(gè)模型

如果用了統(tǒng)計(jì)學(xué)的知識(shí)來好好驗(yàn)證模型效果，你需要注意到，比較多個(gè)模型的操作有點(diǎn)復(fù)雜。進(jìn)行統(tǒng)計(jì)檢驗(yàn)時(shí)，置信度往往設(shè)為95%，那么從統(tǒng)計(jì)學(xué)上來說，每20次檢測(cè)就會(huì)有1次的結(jié)論可能不可信。而模型越多，比較次數(shù)越多，出現(xiàn)失誤的概率也就越大。為了避免這一風(fēng)險(xiǎn)，比對(duì)模型后，應(yīng)當(dāng)進(jìn)行矯正，Bonferroni校正便是一種常用的方法，能夠簡(jiǎn)單地根據(jù)測(cè)試的數(shù)量修正顯著性的閾值（這一操作目前仍然存在爭(zhēng)議）。

Bonferroni 校正：如果在同一數(shù)據(jù)集上同時(shí)檢驗(yàn)n個(gè)獨(dú)立的假設(shè)，那么用于每一假設(shè)的統(tǒng)計(jì)顯著水平，應(yīng)為僅檢驗(yàn)一個(gè)假設(shè)時(shí)的顯著水平的1/n。

4. 不要盲信benchmark的結(jié)果

基準(zhǔn)測(cè)試之所以存在，是希望大家使用統(tǒng)一的數(shù)據(jù)訓(xùn)練和測(cè)試模型，使模型之間更容易比較。但是，即使你自己的模型訓(xùn)練完全符合規(guī)范，也不能保證他人是否將測(cè)試集用于訓(xùn)練了。實(shí)際上，很多表現(xiàn)最好的模型可能只是恰好過擬合了測(cè)試集，泛化性未必有保障?？傊欢ㄒ?jǐn)慎地對(duì)待基準(zhǔn)測(cè)試的結(jié)果，不要以為在基準(zhǔn)數(shù)據(jù)集上有一點(diǎn)點(diǎn)性能提升就能證明模型的顯著性。

5. 記得考慮集成模型

雖然有些人可能很嫌棄，但應(yīng)用到子領(lǐng)域的的時(shí)候，能抓老鼠的就是好貓。縫合怪沒有錯(cuò)。有時(shí)候，把不同的模型集成成為一個(gè)大一統(tǒng)模型，確實(shí)能夠利用它們各自的特點(diǎn)補(bǔ)齊短板，提升模型在面對(duì)多樣化場(chǎng)景時(shí)的泛化性。比如最近幾年興起的全景分割，目前最流行的操作就是把語義分割和像素分割的模型拼在一起，從而得到對(duì)前景中獨(dú)立個(gè)體和背景內(nèi)容的全面信息。集成模型的難點(diǎn)就是集成，如何結(jié)合每個(gè)子模型提取的數(shù)據(jù)特征，如何選擇合理的輸入和輸出格式。我有一位朋友，似乎每天在因?yàn)檫@些問題愁得掉頭發(fā)。

7 如何描述你的結(jié)果

1. 盡可能透明公開

機(jī)器學(xué)習(xí)領(lǐng)域的透明公開，一方面是指論文當(dāng)中對(duì)實(shí)驗(yàn)關(guān)鍵步驟的詳細(xì)描述，另一方面則是指公開代碼。公開代碼能夠節(jié)約其他研究者復(fù)現(xiàn)論文的時(shí)間，也是督促你自己謹(jǐn)慎實(shí)驗(yàn)的動(dòng)力。

2. 多角度評(píng)估表現(xiàn)

用多個(gè)數(shù)據(jù)集、多個(gè)指標(biāo)顯然能更好地評(píng)估模型的性能，比如實(shí)時(shí)性、泛用性、魯棒性。

需要注意的是，如果你采用的指標(biāo)非常常見，如AP，MSE，就別在論文里列公式了，占地方。但是如果你采用的指標(biāo)是近年新出的，甚至是你自己新提出的，花上幾行好好解釋一下這個(gè)指標(biāo)的意義吧！你論文的貢獻(xiàn)說不定也包括這幾行！

3. 不要輕易推廣結(jié)論

“因?yàn)槲业哪Ｐ驮赬X數(shù)據(jù)集表現(xiàn)良好，它在XX任務(wù)上必然是未來之星“。這類說法不是很嚴(yán)謹(jǐn)，因?yàn)閿?shù)據(jù)集永遠(yuǎn)是真實(shí)世界的子集，無論你是否看得見，偏差必然存在。雖然這個(gè)說法一般不會(huì)直接導(dǎo)致論文被拒，但可能成為需要大修的理由之一。

4. 謹(jǐn)慎地討論顯著性

統(tǒng)計(jì)檢驗(yàn)不是萬能的，不同的指標(biāo)可能高估或低估模型之間的差異。在描述模型差異前，請(qǐng)先想清楚，這個(gè)差異重要嗎？只要數(shù)據(jù)集足夠大，哪怕模型性能相差無幾，實(shí)際測(cè)試結(jié)果也必然存在差異。或許，效應(yīng)量 (effect size)也是不錯(cuò)的選擇，效應(yīng)量可以量化模型之間差異的大小，例如Cohen’s d，或者更為魯棒的Kolmogorov-Smirnov。

5. 模型：請(qǐng)?jiān)俣喽乙稽c(diǎn)

這一點(diǎn)我非常痛苦地贊同?？磩e人的論文時(shí)，我最關(guān)心的就是討論部分，分析一個(gè)模型為什么會(huì)表現(xiàn)好，機(jī)理上有什么改變。但這也是論文、尤其是使用機(jī)器學(xué)習(xí)的論文最難寫的部分，因?yàn)楹芏嘧髡咦约憾冀忉尣磺鍨槭裁茨Ｐ托阅鼙憩F(xiàn)好。想要提供模型的可解釋性，目前最常見的做法就是可視化（我對(duì)你的愛，是為你而留的神經(jīng)元～?），XAI現(xiàn)在也在不斷發(fā)展，可以參考的方法越來越多。好好寫討論，論文的可信度會(huì)上升不少，被接收/引用的概率也會(huì)顯著提升。

8 尾聲

這其實(shí)不僅僅是對(duì)跑實(shí)驗(yàn)過程的指南。如果按照這個(gè)規(guī)范來做實(shí)驗(yàn)，你會(huì)發(fā)現(xiàn)論文會(huì)變得很好寫，而不是等要投稿了，再絞盡腦汁去想自己的工作到底有什么意義。因?yàn)槟銓?strong>有充分的理由去研究一個(gè)問題，有充分的理由把機(jī)器學(xué)習(xí)方法應(yīng)用到這個(gè)問題上，你的實(shí)驗(yàn)過程是經(jīng)得起推敲的，你的結(jié)果分析是面面俱到的。最終，你會(huì)發(fā)自內(nèi)心地覺得自己沒有浪費(fèi)生命，而是真的做出了一份有價(jià)值的工作，并獲得相當(dāng)?shù)某删透?/strong>。

引用原作者的話作為結(jié)尾：

這份指南并不完善，未必告訴了你所有你應(yīng)當(dāng)知道的內(nèi)容，提到的一些方法和技巧也是經(jīng)驗(yàn)性的，它們可能在未來被證明有誤，或者存在爭(zhēng)議——但這恐怕是由研究的本性決定的。如何跑機(jī)器學(xué)習(xí)的方法論總是會(huì)落后于實(shí)踐，學(xué)者們總會(huì)在最佳的做事方法上爭(zhēng)論不休，而我們今日所信奉的正確可能在明天就會(huì)被證偽。因此，研究機(jī)器學(xué)習(xí)，其實(shí)與做其他研究無異：永遠(yuǎn)保持開放的思維，愿意跟進(jìn)最新的研究進(jìn)展，并保持謙遜，承認(rèn)你并非無所不知。

GAIR 2021大會(huì)首日：18位Fellow的40年AI歲月，一場(chǎng)技術(shù)前沿的傳承與激辯

2021-12-10

致敬傳奇：中國(guó)并行處理四十年，他們從無人區(qū)探索走到計(jì)算的黃金時(shí)代 | GAIR 2021

2021-12-09

時(shí)間的力量——1991 人工智能大辯論 30 周年紀(jì)念：主義不再，共融互生｜GAIR 2021

2021-12-12

論智三易，串聯(lián)通訊，貫通邊緣，演進(jìn)認(rèn)知，匯于機(jī)器：聽五位IEEE Fellow暢談AI未來 | GAIR 2021

2021-12-25

新一代AI人才從哪里來，該往哪里去？| GAIR 2021院長(zhǎng)論壇

2021-12-29

盤點(diǎn)我跳過的科研天坑，進(jìn)坑就是半年白干（科研四大天坑）

1. 花點(diǎn)時(shí)間了解你的數(shù)據(jù)

2. 不要過度地分析數(shù)據(jù)

3. 確保你擁有足夠的數(shù)據(jù)

4. 和領(lǐng)域內(nèi)的專家保持交流

5. 好好做文獻(xiàn)調(diào)研！好好做文獻(xiàn)調(diào)研！

6. 考慮好要如何部署模型

1. 不要混淆訓(xùn)練和測(cè)試數(shù)據(jù)！

2. 多嘗試幾個(gè)模型

3. 不要使用不合適的模型

4. 好好調(diào)參！好好調(diào)參！

5. 注意調(diào)參和選擇特征的階段

1. 選擇合適的測(cè)試集

2. 驗(yàn)證集是有必要的

3. 一個(gè)模型多驗(yàn)證幾次

4. 留點(diǎn)數(shù)據(jù)用于最終驗(yàn)證

5. 數(shù)據(jù)不均衡的時(shí)候，精度是沒有意義的

1. 不要以為分高了模型就好

2. 比較模型時(shí)，用點(diǎn)統(tǒng)計(jì)學(xué)

3. 如何正確地比較多個(gè)模型

4. 不要盲信benchmark的結(jié)果

5. 記得考慮集成模型

1. 盡可能透明公開

2. 多角度評(píng)估表現(xiàn)

3. 不要輕易推廣結(jié)論

4. 謹(jǐn)慎地討論顯著性

5. 模型：請(qǐng)?jiān)俣喽乙稽c(diǎn)

相關(guān)新聞

盤點(diǎn)我跳過的科研天坑，進(jìn)坑就是半年白干（科研四大天坑）

5. 好好做文獻(xiàn)調(diào)研！好好做文獻(xiàn)調(diào)研！

4. 好好調(diào)參！好好調(diào)參！

5. 數(shù)據(jù)不均衡的時(shí)候，精度是沒有意義的

2. 比較模型時(shí)，用點(diǎn)統(tǒng)計(jì)學(xué)