日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

到底要不要參加Kaggle競賽

【編者按】數(shù)據(jù)科學(xué)家Reshama Shaikh分享了參加Kaggle的理由,并簡要介紹了如何入門Kaggle。

關(guān)于Kaggle

Kaggle是最著名的預(yù)測建模分析競賽平臺。Kaggle公司于2010年在澳大利亞的墨爾本成立,在收到硅谷的投資之后遷往舊金山。2017年被Google收購。如果想了解更多關(guān)于Kaggle的歷史和未來,可以看AMA with Anthony Goldbloom(Kaggle CEO的訪談)。

在過去十年來,英文語境中的“數(shù)據(jù)科學(xué)”(data science)一詞的含義逐漸發(fā)生了變化。同樣,“數(shù)據(jù)科學(xué)”和“kaggle”也逐漸變得密不可分,與此同時,數(shù)據(jù)科學(xué)社區(qū)中的很多人在探究和爭辯這一平臺的用途:

Kaggle……有用嗎?

我對Kaggle最初的想法

和很多人一樣,我對Kaggle競賽抱有一些成見。我聽說Kaggle有好幾年了,也從數(shù)據(jù)科學(xué)領(lǐng)域的其他人那里獲得了一些對Kaggle的認識:

  • 我聽說過擁有數(shù)十年經(jīng)驗的退休博士成為Kaggle競賽贏家的傳奇(我過去常常好奇這些天才是在沙灘上參賽的,享受著碧水藍天和流暢的wifi,還是呆在昏暗、滿是灰塵的、亂糟糟的辦公室里參賽的……)
  • 我獲勝的概率為零。
  • 我真的能學(xué)到有價值的東西嗎?
  • 投入時間提升精確度0.01有何意義?
  • 這真的是使用我的時間的最好方式嗎?還是說我應(yīng)該花時間學(xué)習(xí)另一項更有價值的數(shù)據(jù)科學(xué)技能?
  • 贏家需要使用復(fù)雜的集成方法。
  • 數(shù)據(jù)很干凈,人為地干凈,一點也不現(xiàn)實。
  • 參加一項Kaggle競賽并不能讓我成為一個合格的數(shù)據(jù)科學(xué)家,所以何必呢?
  • 我不知道從何開始……

我的第一項Kaggle競賽

在抗拒了幾年之后,我最近第一次參加了Kaggle競賽,Is it a Ship or Iceberg。我寫了一篇文章,分享了初次參加Kaggle競賽的體驗。

到底要不要參加Kaggle競賽

Kaggle競賽和紐約馬拉松

我發(fā)現(xiàn)Kaggle競賽和紐約馬拉松很像。大部分參賽者是為了享受過程,而不是贏得第一。

結(jié)論:參加吧

要不要參加Kaggle?我的答案:“是”。不管是數(shù)據(jù)科學(xué)的初學(xué)者,還是資深的數(shù)據(jù)科學(xué)家,參加Kaggle競賽都是有價值的。下面是一些理由。

評測

獲取你自己的數(shù)據(jù)集或從網(wǎng)站抓取數(shù)據(jù)能讓你學(xué)到很多,但這么做的缺點是沒有評測標(biāo)準(zhǔn),無法比較你的發(fā)現(xiàn)。有可能你犯了大錯,但無人知曉,因為沒有經(jīng)過驗證。Kaggle競賽則提供了一個“檢查你的作品”的平臺。

不同水平的人都能從中學(xué)到東西

初學(xué)者有很多可以學(xué)的:

  • 熟悉Kaggle平臺
  • 如何使用命令行或API從Kaggle獲取數(shù)據(jù)
  • 結(jié)構(gòu)化的生態(tài)系統(tǒng)讓高級統(tǒng)計學(xué)技能不足的人集中全力解決問題
  • 理解評估指標(biāo)
  • 開發(fā)、運維技能:Git、云計算
  • 練習(xí)
  • Kaggle提供了一些免費的交互式教程

有經(jīng)驗的從業(yè)人員,仍有許多東西可以學(xué)習(xí):

  • 結(jié)構(gòu)化的生態(tài)系統(tǒng)讓具備高級統(tǒng)計學(xué)技能的人集中全力解決問題
  • 更深入地探索超參數(shù)
  • 聚焦當(dāng)前最先進的新方法
  • 賽后分析贏家的做法
  • 管理大規(guī)模數(shù)據(jù)集(超過一百萬項記錄)
  • 配置GPU機器進行深度學(xué)習(xí)
  • 使用深度學(xué)習(xí)并與傳統(tǒng)算法比較結(jié)果

數(shù)據(jù)

整個數(shù)據(jù)科學(xué)社區(qū)都在談?wù)撜摂?shù)據(jù)集。你能在Kaggle上熟悉其他學(xué)習(xí)平臺以及會議發(fā)言人提到的流行的數(shù)據(jù)集。

盡管Kaggle提供了數(shù)據(jù)集,你仍然需要理解數(shù)據(jù)和評估指標(biāo)。和流行的觀點不同,仍有需要進一步檢查的“臟數(shù)據(jù)”。深入分析錯誤標(biāo)記項將帶來算法方面的調(diào)整。

作品集的組成部分

沒錯,參加Kaggle競賽并不能證明你勝任數(shù)據(jù)科學(xué)家的工作。參加一門課程、出席一次會議、分析一個數(shù)據(jù)集、閱讀一本數(shù)據(jù)科學(xué)的書也不能。參加競賽增加了你的經(jīng)驗,增強了你的作品集。它是你其他項目的補充,而不是數(shù)據(jù)科學(xué)技能集的唯一證明。

獲得樂趣

人們經(jīng)常不確定是否要追尋一個數(shù)據(jù)科學(xué)的職位。參加競賽是一種測量你的能力和興奮點的非正式方法。如果你確實很享受參加Kaggle的過程,那說明你的方向沒錯。如果你選擇把時間花在其他事情上面,那也很好;這是一種找到答案的方法。

Kaggle入門

入門指南

EliteDataScience上的The Beginner’s Guide to Kaggle提供了關(guān)于Kaggle的詳盡信息,以及上手Kaggle的一些技巧。

核(kernel)是Kaggle用戶分享的代碼(Jupyter Notebook形式,R或Python)。參加競賽時,你可以復(fù)制、使用這些代碼。

討論區(qū)

每項競賽都有一個討論區(qū),可以交流問題,給核、主題投票。

Slack

Kaggle有一個Slack小組:KaggleNoobs,擁有近四千成員,另外還有一個AMA(Ask Me Anything,問我任何事)頻道,經(jīng)常訪談Kaggle參賽者和贏家。

選擇

  • 你可以參加已經(jīng)結(jié)束的競賽。記住,參加Kaggle是為了學(xué)習(xí),而不是最終結(jié)果。
  • 有各種各樣的主題(隨機森林、多元分類、神經(jīng)網(wǎng)絡(luò)、NLP)和各種各樣的數(shù)據(jù)集(圖像、結(jié)構(gòu)化數(shù)據(jù)、文本、大數(shù)據(jù))

組隊

  • 不管你是初學(xué)者還是有經(jīng)驗的數(shù)據(jù)科學(xué)家,都可以組隊。
  • 剛開始可以作為獨立的小組參賽,以最大化每日的結(jié)果提交數(shù)量,在競賽快結(jié)束時再合并小組。

結(jié)論

我覺得很有必要參加至少一次競賽。對沒試過的東西的看法,和已經(jīng)嘗試過的東西的看法,是不一樣的。和一切事物一樣,Kaggle在不斷演化,特別是Google收購以后。過段時間可以回去看看,有沒有什么新東西。

不必局限于Kaggle

盡管Kaggle是最出名的平臺,參加競賽的機會還有很多:

  • 許多大學(xué)的數(shù)據(jù)分析部門舉辦年度競賽
  • 會議經(jīng)常會辦一些競賽(有時稱為“任務(wù)”)
  • 私營公司會贊助自己的競賽

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部
宜宾县| 萝北县| 承德县| 汤阴县| 望江县| 汉沽区| 弥渡县| 湘乡市| 南安市| 常宁市| 武义县| 屯门区| 开远市| 临泉县| 大埔区| 清远市| 大渡口区| 麦盖提县| 宁德市| 阳原县| 常宁市| 塘沽区| 枣庄市| 镇雄县| 铜梁县| 大名县| 罗田县| 田林县| 五大连池市| 新昌县| 莱州市| 监利县| 海原县| 民丰县| 万源市| 温州市| 黄石市| 沛县| 木兰县| 麻城市| 都昌县|