日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

盤點(diǎn)我跳過的科研天坑,進(jìn)坑就是半年白干(科研四大天坑)

盤點(diǎn)我跳過的科研天坑,進(jìn)坑就是半年白干(科研四大天坑)

文 | 白鹡鸰 and 小軼 祝大家新年快樂!

去年白鹡鸰花了兩個(gè)月,刷了八千篇Arxiv,結(jié)果發(fā)現(xiàn)很多論文存在一些比較“基本”的常見問題:

  • 研究問題和問題假設(shè)存在嚴(yán)重的漏洞,或者缺少充分的相關(guān)工作調(diào)研,導(dǎo)致所謂的新問題只是新瓶裝舊酒。

  • 模型的選擇與想解決的問題牛頭不對(duì)馬嘴。

  • 實(shí)驗(yàn)設(shè)計(jì)錯(cuò)誤,并沒有針對(duì)所聲稱的模型優(yōu)勢(shì)來進(jìn)行實(shí)驗(yàn)設(shè)計(jì)(還試圖用不合理的實(shí)驗(yàn)分析去強(qiáng)行圓回來)。比如,一篇論文號(hào)稱自己可解釋性強(qiáng),卻拿著精度當(dāng)指標(biāo)。

以上本應(yīng)是研究的基本要求,只有滿足了這些條件才能再去討論一份工作是否有所創(chuàng)新,有所貢獻(xiàn)。但現(xiàn)在不少論文都本末倒置了。很多人在科研的過程中,一些最基本的科研要求往往被忽視,更多關(guān)注的反倒是“創(chuàng)新”(novelty)和“貢獻(xiàn)”(contribution)之類更高層次的要求。殊不知,后者必須建立在前者的基礎(chǔ)上。否則,所謂的創(chuàng)新與貢獻(xiàn)恐怕只是水中撈月的假象——

“創(chuàng)新性”被替換為“方法夠不夠花哨復(fù)雜”。為了這虛假的 “創(chuàng)新”,模型被強(qiáng)行塞入無效模塊,或是添上意義不大的技巧。

“貢獻(xiàn)度”被替換為“有沒有刷到 SOTA”。但 SOTA 有時(shí)候也并不能代表全部:或許模型并沒有掌握任務(wù)所必須具備的能力,只是過擬合了特定的數(shù)據(jù)集;或許模型的性能提升不是論文提出的核心方法帶來的,而只是某個(gè)一筆帶過的技巧、或者是不公平的比較方式導(dǎo)致的。

Severus 曾在往期推文中談過他對(duì)“算法崗”的理解。其中一些觀點(diǎn)與我們這里想說的不謀而合。他認(rèn)為很多畢業(yè)生剛進(jìn)入工業(yè)界時(shí),最大的短板是缺少扎實(shí)地分析問題的能力,導(dǎo)致方法難以落地。并且吐槽了科研界很多 idea 的形成過程只是“靈光一現(xiàn)”,評(píng)價(jià)方式則“唯指標(biāo)論”。其實(shí),做科研何嘗不需要扎實(shí)的分析能力?不止需要,而且是基本技能之一。只是,忽視這些基本要求,不知從什么時(shí)候開始已經(jīng)成為主流了。

這就像一個(gè)歌手,唱歌“是否音準(zhǔn)”本應(yīng)是基本要求,“有沒有流傳度高的音樂作品”是較高層次的要求。而現(xiàn)在卻變成了:基本要求被忽視,高級(jí)要求則被“粉絲多少/身價(jià)高低”取代。

1 科研誤解的流行從何而來?

那么,為何會(huì)存在這么普遍的科研誤解,以致于工業(yè)界的大佬會(huì)認(rèn)為:只經(jīng)歷過科研訓(xùn)練的畢業(yè)生,往往連最基本問題分析能力都沒有?大抵可以歸為這樣兩個(gè)原因:

其一, “基本”要求≠“簡(jiǎn)單”的要求。雖然“扎實(shí)的問題分析、相關(guān)工作調(diào)研充分、解決方法合理、實(shí)驗(yàn)設(shè)計(jì)有針對(duì)性”是一篇工作的基本要求,但并不代表這些要求是容易達(dá)成的。就像“音準(zhǔn)”等等是一個(gè)歌手的基本要求,但好的唱功又談何容易。即使已經(jīng)具備一定歌唱實(shí)力,也難免會(huì)有失誤的時(shí)候。同理,扎實(shí)的科研基本功豈是朝夕可得

其二, 研究的思維誤區(qū)和思維慣性、知識(shí)的局限性息息相關(guān),不能一勞永逸地避免。無論是小軼還是白鹡鸰,在剛?cè)腴T科研的時(shí)候,文章開頭所提到的坑基本全都踩了個(gè)遍。只是有幸碰到了好的引導(dǎo)者,而且經(jīng)驗(yàn)不斷積累,才逐漸能夠有意識(shí)地去規(guī)避這些問題。但是,在某個(gè)思維松懈的瞬間,或是出于無法避免的知識(shí)局限性,哪怕是已經(jīng)有一定經(jīng)驗(yàn)的研究者,仍然可能再次踏入陷阱。

如果身邊能有一位有經(jīng)驗(yàn)的前輩在科研進(jìn)程中定期討論,避免踩坑的概率會(huì)大大降低一些,也會(huì)更快地對(duì)科研形成正確認(rèn)識(shí)。這位前輩倒也不必事事躬親地教,只需幫助識(shí)別出一些常見的坑,發(fā)出“別跳”的警告即可。遺憾的是,在近年來全民 AI 的趨勢(shì)下,許多入門科研的年輕人并沒有條件得到這樣的指導(dǎo),只能摸黑前進(jìn)。投入了大量時(shí)間、精力,甚至犧牲健康才完成的工作,卻因?yàn)閺母旧暇痛嬖诼┒?,使得一切努力都成了泡影。到最后,可能都還沒對(duì)科研形成最基本的正確認(rèn)識(shí),就帶著誤解畢業(yè)了。

有的工作不能夠達(dá)到某些基本科研要求,或許是作者的無心之失。但也不否認(rèn)有一些工作是在有意識(shí)地粗制濫造,將存在問題的工作加以包裝,以次充好。模型上堆疊各式各樣模塊,把各種當(dāng)下熱點(diǎn)技術(shù)都沾了點(diǎn)邊。然后煞費(fèi)苦心調(diào)出實(shí)驗(yàn)結(jié)果。最后再胡謅個(gè)似是而非的 motivation,補(bǔ)齊相關(guān)工作。面對(duì)這類工作,也許有經(jīng)驗(yàn)的審稿人很容易就能發(fā)現(xiàn)問題。但若是遇到個(gè)經(jīng)驗(yàn)不足的審稿人,很可能就打出了高分。畢竟這樣的論文經(jīng)過一番包裝,確實(shí)金玉其外。再加上這樣的工作制造成本低廉,大可以多做幾份,搞“海投戰(zhàn)術(shù)”——只要分母夠大,總有能中的。這種行為的流行將戕害到整個(gè) AI 行業(yè)。隨著海投的水文越來越多,審稿需求就越來越大。審稿人的平均水準(zhǔn)也相應(yīng)越來越低,于是漏網(wǎng)之魚的錄用水文也越來越多。從此進(jìn)入惡性循環(huán)。

2 如何避免科研誤區(qū)?

科研誤區(qū)可能是無心之失,或刻意而為。后者牽扯到太多利益糾葛,不多加討論。但對(duì)于還對(duì)科研帶有熱情,有心做出有價(jià)值的工作的同行,我們?cè)诖讼敕窒硪环?機(jī)器學(xué)習(xí)避坑指南 ,互相提醒,互相勉勵(lì)。

盤點(diǎn)我跳過的科研天坑,進(jìn)坑就是半年白干(科研四大天坑)

Warning:下文一半是搬運(yùn),一半是個(gè)人理解。感興趣的朋友還請(qǐng)移步原文。

論文題目:

How to Avoid Machine Learning Pitfalls: A Guide for Academic Researchers

論文鏈接:

http://arxiv.org/abs/2108.02497

原作者熱烈歡迎大家一起補(bǔ)充完善這份指南。

3 建模前需要做的準(zhǔn)備

1. 花點(diǎn)時(shí)間了解你的數(shù)據(jù)

當(dāng)你的數(shù)據(jù)來源可靠時(shí),你訓(xùn)練的模型才可能可信。在使用來自網(wǎng)絡(luò)的數(shù)據(jù)時(shí),稍微看一眼,數(shù)據(jù)是哪里來的?有沒有對(duì)應(yīng)的文章或文檔說明?如果有說明,多看幾眼數(shù)據(jù)的采集方法,檢查一下作者有沒有提及數(shù)據(jù)的局限性(可能沒有,所以還要自己多想想)。不要因?yàn)橐粋€(gè)數(shù)據(jù)集被很多文章采用了,就假設(shè)它是可信的。即使是標(biāo)桿級(jí)別的數(shù)據(jù)集,數(shù)據(jù)也可能沒經(jīng)過仔細(xì)篩選(請(qǐng)參見《Google掀桌了,GLUE基準(zhǔn)的時(shí)代終于過去了?》)。而不靠譜的數(shù)據(jù),只會(huì)導(dǎo)致 garbage in,garbage out。所以,在開始跑實(shí)驗(yàn)之前,先好好地探索一下你的數(shù)據(jù)吧!在工作開始的時(shí)候就對(duì)數(shù)據(jù)有一個(gè)整體把控,總比最后再不得不向?qū)徃迦私忉屇愕哪P捅憩F(xiàn)是受到了垃圾數(shù)據(jù)影響要好。

2. 不要過度地分析數(shù)據(jù)

當(dāng)你對(duì)數(shù)據(jù)集有一定了解之后,可能會(huì)發(fā)現(xiàn)一些肉眼可見的規(guī)律。但是, 千萬不要基于初步的數(shù)據(jù)分析作出任何沒經(jīng)過檢驗(yàn)的假設(shè)! 提出假設(shè)本身沒有錯(cuò),重點(diǎn)是避免“沒經(jīng)過檢驗(yàn)”的假設(shè),一方面是因?yàn)閿?shù)據(jù)集都會(huì)帶有偏差,你無法確定你發(fā)現(xiàn)的規(guī)律是不是基于特定的偏差的;另一方面,在沒有區(qū)分訓(xùn)練和測(cè)試數(shù)據(jù)前就基于數(shù)據(jù)開始大膽猜測(cè)(帶入先驗(yàn)知識(shí)),這其實(shí)也是測(cè)試數(shù)據(jù)泄漏到訓(xùn)練過程的一種形式??傊?,輕率地提出假設(shè)對(duì)于模型的可靠性百害無一利,如果你發(fā)現(xiàn)之前很多論文都用了相同的假設(shè),也請(qǐng)謹(jǐn)慎確定這個(gè)假設(shè)適用于你的數(shù)據(jù)。假如你發(fā)現(xiàn)這個(gè)領(lǐng)域長(zhǎng)期公認(rèn)的假設(shè)其實(shí)是不合理的——嗨呀,送上門的文章快寫吧。

3. 確保你擁有足夠的數(shù)據(jù)

這其實(shí)不止是對(duì)數(shù)據(jù)的要求,也要求你要對(duì)自己的模型有一定的了解:到底需要多少數(shù)據(jù),才能保證你的模型的泛化性?此外,數(shù)據(jù)的“量”是否充足,和數(shù)據(jù)的“質(zhì)”有一定的關(guān)聯(lián)。如果數(shù)據(jù)中噪聲太大,那即使量夠大,也不一定能獲得很好的模型訓(xùn)練效果。而如果數(shù)據(jù)類與類不均衡,模型的泛化性也會(huì)受到影響。如果數(shù)據(jù)因各式各樣的原因不夠充足,你可以考慮交叉驗(yàn)證、數(shù)據(jù)增強(qiáng)、均衡訓(xùn)練等操作,如果數(shù)據(jù)無論怎樣操作都不足以支撐你的模型,那就趁早換個(gè)復(fù)雜度低一點(diǎn)的模型吧。

4. 和領(lǐng)域內(nèi)的專家保持交流

領(lǐng)域內(nèi)專家的意見是很重要的(特別是你的導(dǎo)師)。基于豐富的經(jīng)驗(yàn),他們能更好地估計(jì)研究的可行性和研究?jī)r(jià)值;對(duì)于研究結(jié)果的預(yù)期可能會(huì)更準(zhǔn)確,因此當(dāng)你誤入歧途時(shí),更可能及時(shí)地指出;而對(duì)于你的成果面向的受眾也會(huì)更了解,能幫助你選擇論文投稿的正確的期刊。因此,多和前輩們交流。記住,前輩不限于你的導(dǎo)師,院系內(nèi)類似工作的老師、學(xué)長(zhǎng)學(xué)姐都是可以請(qǐng)教的對(duì)象。多交流還能防自閉!

5. 好好做文獻(xiàn)調(diào)研!好好做文獻(xiàn)調(diào)研!

重復(fù)一遍是因?yàn)樾≥W覺得這點(diǎn)簡(jiǎn)直是坑中之坑!需要鞭策自己!

當(dāng)你想到一個(gè)研究問題的時(shí)候,你很可能不是第一個(gè)想到的。如果你沒找到相關(guān)的研究,可能只是因?yàn)?strong>他人描述問題的形式和你不盡相同,更糟糕的是可能是因?yàn)?strong>你的問題根本不具備研究?jī)r(jià)值。無論哪種情況,都是由于文獻(xiàn)調(diào)研還不夠充分導(dǎo)致的。需要多讀論文,然后通過交流討論,確定這個(gè)研究問題能不能做下去。不要擔(dān)心那些和你研究同一個(gè)問題的論文:創(chuàng)新性可以來自很多方面,新方法,新結(jié)論,新應(yīng)用點(diǎn),世界這么大,只要你會(huì)講故事,沒那么多論文能和你完全一樣(真一樣的話就說明是有緣人,發(fā)郵件交個(gè)朋友去吧)。前人的工作將為你提供很多寶貴的結(jié)論、經(jīng)驗(yàn)、教訓(xùn),也必然存在不完善的地方,沿著前人的不足做下去就好了。

盤點(diǎn)我跳過的科研天坑,進(jìn)坑就是半年白干(科研四大天坑)

6. 考慮好要如何部署模型

你為什么一定要用深度學(xué)習(xí)模型?傳統(tǒng)方法它不香嗎?”這是每一篇應(yīng)用機(jī)器學(xué)習(xí)模型的論文必須回答的問題。

目前,有很大一部分的機(jī)器學(xué)習(xí)模型并不具有實(shí)用價(jià)值,它們只代表了建模和數(shù)據(jù)分析的發(fā)展方向。如果只是運(yùn)用機(jī)器學(xué)習(xí)模型,一定要注意模型的適用范圍(實(shí)時(shí)性、計(jì)算力等),還要對(duì)如何魔改模型的輸入輸出心里有數(shù)?!耙?yàn)闆]人把機(jī)器學(xué)習(xí)用在我的領(lǐng)域,所以我把模型套過來跑一跑”的行為早就飽受詬病了(詳見《近期神奇機(jī)器學(xué)習(xí)應(yīng)用大賞》)。

4 如何建立可靠的模型

1. 不要混淆訓(xùn)練和測(cè)試數(shù)據(jù)!

要使用能證明模型泛化性的測(cè)試集。訓(xùn)練集上表現(xiàn)再好也可能只是過擬合,只有在一個(gè)盡可能貼近實(shí)際場(chǎng)景的測(cè)試集中表現(xiàn)過關(guān),才能證明模型的訓(xùn)練是有效的。你的訓(xùn)練集中數(shù)據(jù)可以是在單一條件下采集的,但測(cè)試集中數(shù)據(jù)必須包括各式各樣的情況。而且測(cè)試集和訓(xùn)練集絕對(duì)不能有重合。

2. 多嘗試幾個(gè)模型

根據(jù) No Free Lunch 理論,任何的機(jī)器學(xué)習(xí)方法都不可能在所有領(lǐng)域表現(xiàn)最好。所以,當(dāng)你將機(jī)器學(xué)習(xí)引入自己的領(lǐng)域的時(shí)候,多試幾個(gè)模型,確保你用的是最合適的那一個(gè),當(dāng)然,也可能沒有一個(gè)適合你:)

3. 不要使用不合適的模型

由于現(xiàn)在機(jī)器學(xué)習(xí)的庫(kù)太多了,生搬硬套的現(xiàn)象也越來越普遍。搞不清模型輸入輸出,只想用新興神經(jīng)網(wǎng)絡(luò)炮轟一切問題的,看到個(gè)新模型就想拿來用的,是不是聽起來就要血壓升高?

盤點(diǎn)我跳過的科研天坑,進(jìn)坑就是半年白干(科研四大天坑)

4. 好好調(diào)參!好好調(diào)參!

重復(fù)一遍是因?yàn)榘n鸰特別懶不喜歡調(diào)參需要鞭策自己

很多模型中都有超參數(shù),它們對(duì)模型的表現(xiàn)影響重大,而不同的領(lǐng)域/數(shù)據(jù)集對(duì)超參數(shù)的要求又各有不同。所以,即使是懶,也必須采用一些自動(dòng)化方法來調(diào)參,比如網(wǎng)格搜索,簡(jiǎn)單粗暴,我的摯愛。如果模型很大,訓(xùn)練成本高昂,甚至可以利用一些工具包幫忙調(diào)參。

需要指出的是,盡管經(jīng)常會(huì)聽到一些關(guān)于調(diào)參的詬?。愃朴凇斑@篇論文效果好完全是靠調(diào)參!”的抱怨),但是調(diào)參是有其必要性的。應(yīng)該避免的是不規(guī)范的調(diào)參和不公平的實(shí)驗(yàn)比較方式。比如,不能用測(cè)試集數(shù)據(jù)調(diào)參;以及,不能僅對(duì)自己提出的模型瘋狂調(diào)參,而應(yīng)對(duì)所有使用中的模型都進(jìn)行同等程度的調(diào)參方式等等。

5. 注意調(diào)參和選擇特征的階段

超參數(shù)調(diào)整和特征選擇都應(yīng)當(dāng)是訓(xùn)練的一部分,而不是說訓(xùn)練之前運(yùn)行一次就以為萬事大吉。特別是特征選擇,如果對(duì)整個(gè)數(shù)據(jù)集統(tǒng)一進(jìn)行特征選擇,很可能又會(huì)把測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)中包含的知識(shí)混在一起,導(dǎo)致測(cè)試結(jié)果不可靠,因此,最好只對(duì)你訓(xùn)練用的那一部分?jǐn)?shù)據(jù)進(jìn)行調(diào)參和特征選擇。一種推薦的方法是嵌套交叉驗(yàn)證,這種方法在交叉驗(yàn)證外面再套了一圈驗(yàn)證,用來測(cè)試不同超參數(shù)和特征選擇對(duì)模型的影響。

5 如何合理地評(píng)估模型

1. 選擇合適的測(cè)試集

能夠證明模型泛化性才是好的測(cè)試集。訓(xùn)練集上表現(xiàn)再好也可能只是過擬合,只有在一個(gè)盡可能貼近實(shí)際場(chǎng)景的測(cè)試集中表現(xiàn)過關(guān),才能證明模型的訓(xùn)練是有效的。你的訓(xùn)練集中數(shù)據(jù)可以是在單一條件下采集的,但測(cè)試集中數(shù)據(jù)必須包括各式各樣的情況。而且測(cè)試集和訓(xùn)練集絕對(duì)不能有重合。

2. 驗(yàn)證集是有必要的

在剛開始做機(jī)器學(xué)習(xí)的時(shí)候,我對(duì)于驗(yàn)證集的概念不甚清楚,也不明白為什么要掐出來那么多數(shù)據(jù)當(dāng)驗(yàn)證集(甚至有人告訴過我驗(yàn)證集可有可無,謝謝您嘞!)。驗(yàn)證集主要是用在訓(xùn)練過程中,用來對(duì)比多個(gè)模型的表現(xiàn)的。當(dāng)你需要同時(shí)訓(xùn)練好幾個(gè)超參數(shù)設(shè)置不一樣的模型時(shí),幫助挑選這些模型的就是驗(yàn)證集。雖然測(cè)試集沒有直接參與模型的訓(xùn)練,但它指導(dǎo)了訓(xùn)練的方向。驗(yàn)證集就是訓(xùn)練和測(cè)試之間的緩沖地帶,保證了模型的訓(xùn)練集和測(cè)試集沒有任何重疊。驗(yàn)證集的另一個(gè)好處就是,你可以用它來檢查你的模型是否真的學(xué)到了數(shù)據(jù)的規(guī)律,見勢(shì)不妙時(shí)可以趁早停下;如果模型在驗(yàn)證集中表現(xiàn)先升后降,很可能是模型過擬合的標(biāo)志。

3. 一個(gè)模型多驗(yàn)證幾次

機(jī)器學(xué)習(xí)的模型能有多不穩(wěn)定,我相信所有用過GAN和RL的人都有話要說,隨機(jī)采樣訓(xùn)練樣本的情況下,模型能往各種神奇的方向發(fā)展,收斂到各式各樣的局部最優(yōu)。這就是為什么我們需要交叉驗(yàn)證法,它能盡可能地保證模型訓(xùn)練效果,一定程度上防止過擬合。需要注意的是,如果數(shù)據(jù)集中存在類別不均衡的問題,最好保證每個(gè)驗(yàn)證組中都能包含所有類別。在交叉驗(yàn)證的過程中,強(qiáng)烈推薦大家記錄每輪中測(cè)試的均值和方差,在比較模型表現(xiàn)時(shí)這些數(shù)據(jù)會(huì)起到重要作用。

4. 留點(diǎn)數(shù)據(jù)用于最終驗(yàn)證

在訓(xùn)練過程中,交叉驗(yàn)證可以很大程度上保證一類模型的訓(xùn)練效果的穩(wěn)定性,但是,對(duì)于訓(xùn)練中的每個(gè)模型個(gè)體,這樣的驗(yàn)證還不夠充分,因?yàn)槊拷M交叉驗(yàn)證的子集中數(shù)據(jù)量往往都不大,不一定具有泛化性,說不定,表現(xiàn)最好的模型只是恰好遇到了最簡(jiǎn)單的驗(yàn)證子集。因此,如果你的數(shù)據(jù)還算充裕,最好能留一部分?jǐn)?shù)據(jù),在訓(xùn)練結(jié)束之后再無偏驗(yàn)證一下模型們的表現(xiàn)。

5. 數(shù)據(jù)不均衡的時(shí)候,精度是沒有意義的

數(shù)據(jù)采集不均衡的情況很常見。例如,很多的自動(dòng)駕駛的數(shù)據(jù)集中,行人、自行車、卡車的數(shù)量加起來還沒有小轎車多。這種情況下,用模型對(duì)交通參與物分類的精度作為衡量模型表現(xiàn)的標(biāo)準(zhǔn),恐怕意義不大。這種情況下,應(yīng)當(dāng)先對(duì)不同類別樣本的分類精度進(jìn)行一致性檢驗(yàn),或者采用一些適用于不均衡數(shù)據(jù)的評(píng)估指標(biāo),例如Kappa系數(shù),Matthews相關(guān)系數(shù)等。

盤點(diǎn)我跳過的科研天坑,進(jìn)坑就是半年白干(科研四大天坑)

6 如何公平地比較模型

1. 不要以為分高了模型就好

這真是非常常見的問題:“XX模型精度94%,我們的模型精度95%,所以我們nb”。然而,可能存在幾種可能性:兩個(gè)模型是在不同的數(shù)據(jù)集上測(cè)試的(直接斃了吧);兩個(gè)模型用的同一個(gè)數(shù)據(jù)集,但是訓(xùn)練和測(cè)試集劃分并不一樣,特別有些論文,直接引用他人模型訓(xùn)練出來的精度,連復(fù)現(xiàn)都不帶的(危);復(fù)現(xiàn)的模型超參數(shù)可能和原論文存在出入,或者沒有費(fèi)心去調(diào)參。總之,比較模型表現(xiàn)的時(shí)候,可能出現(xiàn)各種各樣的事故,一定要記得將模型放在同樣的起跑線上,進(jìn)行同樣的優(yōu)化步驟,最后,多測(cè)試幾次來證明模型的表現(xiàn)確實(shí)有顯著的進(jìn)步。

2. 比較模型時(shí),用點(diǎn)統(tǒng)計(jì)學(xué)

看到這一條的時(shí)候,實(shí)在忍不住想到,現(xiàn)在比較模型的方法,有時(shí)甚至不如寶可夢(mèng)對(duì)戰(zhàn)。寶可夢(mèng)好歹還可能因?yàn)閷傩院图寄軐?dǎo)致的勝負(fù)反轉(zhuǎn)。模型之間就列一兩個(gè)指標(biāo),拿著1%的差異說事。還是多用用壓箱底的統(tǒng)計(jì)學(xué)知識(shí)吧,例如,比較分類器的時(shí)候可以上McNemar檢驗(yàn),檢查模型對(duì)數(shù)據(jù)擬合的分布時(shí),可以試試Student’s T檢驗(yàn)。關(guān)于模型到底有沒有顯著的改進(jìn)這個(gè)問題,這些方法能夠提供更有力的理論支撐。

3. 如何正確地比較多個(gè)模型

如果用了統(tǒng)計(jì)學(xué)的知識(shí)來好好驗(yàn)證模型效果,你需要注意到,比較多個(gè)模型的操作有點(diǎn)復(fù)雜。進(jìn)行統(tǒng)計(jì)檢驗(yàn)時(shí),置信度往往設(shè)為95%,那么從統(tǒng)計(jì)學(xué)上來說,每20次檢測(cè)就會(huì)有1次的結(jié)論可能不可信。而模型越多,比較次數(shù)越多,出現(xiàn)失誤的概率也就越大。為了避免這一風(fēng)險(xiǎn),比對(duì)模型后,應(yīng)當(dāng)進(jìn)行矯正,Bonferroni校正便是一種常用的方法,能夠簡(jiǎn)單地根據(jù)測(cè)試的數(shù)量修正顯著性閾值(這一操作目前仍然存在爭(zhēng)議)。

Bonferroni 校正:如果在同一數(shù)據(jù)集上同時(shí)檢驗(yàn)n個(gè)獨(dú)立的假設(shè),那么用于每一假設(shè)的統(tǒng)計(jì)顯著水平,應(yīng)為僅檢驗(yàn)一個(gè)假設(shè)時(shí)的顯著水平的1/n。

4. 不要盲信benchmark的結(jié)果

基準(zhǔn)測(cè)試之所以存在,是希望大家使用統(tǒng)一的數(shù)據(jù)訓(xùn)練和測(cè)試模型,使模型之間更容易比較。但是,即使你自己的模型訓(xùn)練完全符合規(guī)范,也不能保證他人是否將測(cè)試集用于訓(xùn)練了。實(shí)際上,很多表現(xiàn)最好的模型可能只是恰好過擬合了測(cè)試集,泛化性未必有保障??傊欢ㄒ?jǐn)慎地對(duì)待基準(zhǔn)測(cè)試的結(jié)果,不要以為在基準(zhǔn)數(shù)據(jù)集上有一點(diǎn)點(diǎn)性能提升就能證明模型的顯著性。

5. 記得考慮集成模型

雖然有些人可能很嫌棄,但應(yīng)用到子領(lǐng)域的的時(shí)候,能抓老鼠的就是好貓。縫合怪沒有錯(cuò)。有時(shí)候,把不同的模型集成成為一個(gè)大一統(tǒng)模型,確實(shí)能夠利用它們各自的特點(diǎn)補(bǔ)齊短板,提升模型在面對(duì)多樣化場(chǎng)景時(shí)的泛化性。比如最近幾年興起的全景分割,目前最流行的操作就是把語義分割和像素分割的模型拼在一起,從而得到對(duì)前景中獨(dú)立個(gè)體和背景內(nèi)容的全面信息。集成模型的難點(diǎn)就是集成,如何結(jié)合每個(gè)子模型提取的數(shù)據(jù)特征,如何選擇合理的輸入和輸出格式。我有一位朋友,似乎每天在因?yàn)檫@些問題愁得掉頭發(fā)。

7 如何描述你的結(jié)果

1. 盡可能透明公開

機(jī)器學(xué)習(xí)領(lǐng)域的透明公開,一方面是指論文當(dāng)中對(duì)實(shí)驗(yàn)關(guān)鍵步驟的詳細(xì)描述,另一方面則是指公開代碼。公開代碼能夠節(jié)約其他研究者復(fù)現(xiàn)論文的時(shí)間,也是督促你自己謹(jǐn)慎實(shí)驗(yàn)的動(dòng)力。

2. 多角度評(píng)估表現(xiàn)

用多個(gè)數(shù)據(jù)集、多個(gè)指標(biāo)顯然能更好地評(píng)估模型的性能,比如實(shí)時(shí)性、泛用性、魯棒性。

需要注意的是,如果你采用的指標(biāo)非常常見,如AP,MSE,就別在論文里列公式了,占地方。但是如果你采用的指標(biāo)是近年新出的,甚至是你自己新提出的,花上幾行好好解釋一下這個(gè)指標(biāo)的意義吧!你論文的貢獻(xiàn)說不定也包括這幾行!

3. 不要輕易推廣結(jié)論

“因?yàn)槲业哪P驮赬X數(shù)據(jù)集表現(xiàn)良好,它在XX任務(wù)上必然是未來之星“。這類說法不是很嚴(yán)謹(jǐn),因?yàn)閿?shù)據(jù)集永遠(yuǎn)是真實(shí)世界的子集,無論你是否看得見,偏差必然存在。雖然這個(gè)說法一般不會(huì)直接導(dǎo)致論文被拒,但可能成為需要大修的理由之一。

4. 謹(jǐn)慎地討論顯著性

統(tǒng)計(jì)檢驗(yàn)不是萬能的,不同的指標(biāo)可能高估或低估模型之間的差異。在描述模型差異前,請(qǐng)先想清楚,這個(gè)差異重要嗎?只要數(shù)據(jù)集足夠大,哪怕模型性能相差無幾,實(shí)際測(cè)試結(jié)果也必然存在差異。或許,效應(yīng)量 (effect size)也是不錯(cuò)的選擇,效應(yīng)量可以量化模型之間差異的大小,例如Cohen’s d,或者更為魯棒的Kolmogorov-Smirnov。

5. 模型:請(qǐng)?jiān)俣喽乙稽c(diǎn)

這一點(diǎn)我非常痛苦地贊同??磩e人的論文時(shí),我最關(guān)心的就是討論部分,分析 一個(gè)模型為什么會(huì)表現(xiàn)好,機(jī)理上有什么改變。但這也是論文、尤其是使用機(jī)器學(xué)習(xí)的論文最難寫的部分,因?yàn)楹芏嘧髡咦约憾冀忉尣磺鍨槭裁茨P托阅鼙憩F(xiàn)好。想要提供模型的可解釋性,目前最常見的做法就是可視化(我對(duì)你的愛,是為你而留的神經(jīng)元~?),XAI現(xiàn)在也在不斷發(fā)展,可以參考的方法越來越多。好好寫討論,論文的可信度會(huì)上升不少,被接收/引用的概率也會(huì)顯著提升。

8 尾聲

這其實(shí)不僅僅是對(duì)跑實(shí)驗(yàn)過程的指南。如果按照這個(gè)規(guī)范來做實(shí)驗(yàn),你會(huì)發(fā)現(xiàn)論文會(huì)變得很好寫,而不是等要投稿了,再絞盡腦汁去想自己的工作到底有什么意義。因?yàn)槟銓?strong>有充分的理由去研究一個(gè)問題,有充分的理由把機(jī)器學(xué)習(xí)方法應(yīng)用到這個(gè)問題上,你的實(shí)驗(yàn)過程是經(jīng)得起推敲的,你的結(jié)果分析是面面俱到的。最終,你會(huì)發(fā)自內(nèi)心地覺得自己沒有浪費(fèi)生命,而是真的做出了一份有價(jià)值的工作,并獲得相當(dāng)?shù)某删透?/strong>。

引用原作者的話作為結(jié)尾:

這份指南并不完善,未必告訴了你所有你應(yīng)當(dāng)知道的內(nèi)容,提到的一些方法和技巧也是經(jīng)驗(yàn)性的,它們可能在未來被證明有誤,或者存在爭(zhēng)議——但這恐怕是由研究的本性決定的。如何跑機(jī)器學(xué)習(xí)的方法論總是會(huì)落后于實(shí)踐,學(xué)者們總會(huì)在最佳的做事方法上爭(zhēng)論不休,而我們今日所信奉的正確可能在明天就會(huì)被證偽。因此,研究機(jī)器學(xué)習(xí),其實(shí)與做其他研究無異:永遠(yuǎn)保持開放的思維,愿意跟進(jìn)最新的研究進(jìn)展,并保持謙遜,承認(rèn)你并非無所不知

GAIR 2021大會(huì)首日:18位Fellow的40年AI歲月,一場(chǎng)技術(shù)前沿的傳承與激辯

2021-12-10

致敬傳奇:中國(guó)并行處理四十年,他們從無人區(qū)探索走到計(jì)算的黃金時(shí)代 | GAIR 2021

2021-12-09

時(shí)間的力量——1991 人工智能大辯論 30 周年紀(jì)念:主義不再,共融互生|GAIR 2021

2021-12-12

論智三易,串聯(lián)通訊,貫通邊緣,演進(jìn)認(rèn)知,匯于機(jī)器:聽五位IEEE Fellow暢談AI未來 | GAIR 2021

2021-12-25

新一代AI人才從哪里來,該往哪里去?| GAIR 2021院長(zhǎng)論壇

2021-12-29

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢
分享本頁(yè)
返回頂部
奈曼旗| 闽侯县| 塔河县| 郸城县| 上犹县| 桐乡市| 西平县| 温宿县| 诏安县| 罗城| 伊金霍洛旗| 永福县| 定安县| 天水市| 木兰县| 高清| 错那县| 白银市| 江源县| 菏泽市| 威海市| 云霄县| 建昌县| 松原市| 黔西| 古交市| 陵川县| 大石桥市| 阿拉尔市| 姜堰市| 饶河县| 盖州市| 开鲁县| 易门县| 来宾市| 庆元县| 文登市| 彩票| 镇康县| 思茅市| 淄博市|