日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

今天你低代碼了嗎?(低代碼是什么)

編輯導語:當下,各行各業(yè)都在尋找可以降本增效的效率途徑,AI人工智能、機器學習等概念也被廣泛應用至業(yè)務中;而亞馬遜云科技推出的0代碼機器學習智能工具——Amazon SageMaker Canvas,就是一款可以應用于數(shù)據(jù)分析業(yè)務中的工具。本文作者就對這款工具做了體驗測評,一起來看。

今天你低代碼了嗎?(低代碼是什么)

隨著人工智能技術(shù)的發(fā)展和普及,人們對機器學習和數(shù)據(jù)分析的需求一直居高不下。幾乎沒有哪個行業(yè)在交易中不涉及機器學習。

在這一背景下,與許多大型科技公司一樣,亞馬遜云科技也推出了一款無低代碼機器學習平臺——Amazon SageMaker Canvas,今天就讓我們來試用一下吧。

一、測評說明

  • 測評人:剛畢業(yè)一年的B端產(chǎn)品經(jīng)理,碩士畢業(yè),計算機專業(yè),機器學習方向;
  • 測評對象:Amazon SageMaker Canvas(一款低代碼機器學習平臺);
  • 測評目的:對產(chǎn)品的可操作性(用起來方不方便)、預測準確性(好不好用)進行測評。

二、使用體驗測評

1. 對沒有機器學習知識的人友好

作為一個有機器學習專業(yè)知識背景的新用戶,我從最初的賬號注冊,到最終使用SageMaker Canvas構(gòu)建模型,花費了不過半天時間,非但不用在本地電腦裝各種軟件、各種庫、各種包,還省去了幾百行的機器學習代碼,整個過程無需編碼即可構(gòu)建機器學習模型,完成對本地數(shù)據(jù)的預測分析。

對比過去和現(xiàn)在,如果你想使用機器學習算法對手頭上的數(shù)據(jù)進行分類、預測:

今天你低代碼了嗎?(低代碼是什么)

表1 過去 VS. 現(xiàn)在

2. 界面風格簡潔

以產(chǎn)品經(jīng)理的視角看,Amazon SageMaker Canvas每個頁面的排版樣式、控件設計及交互效果都非常的通俗易懂。

例如,登錄Amazon SageMaker Canvas的工作臺后,能在其中查看該賬戶下所有已創(chuàng)建模型和已導入的數(shù)據(jù)集。其中,模型列表支持兩種展現(xiàn)形式:卡片列表和表格列表。

我個人比較喜歡卡片列表,因為卡片列表相比于表格列表,樣式要活潑很多,能讓頁面顯得不那么死板和單調(diào)。接著進入一個模型之后,會看到選擇數(shù)據(jù)>>模型構(gòu)建>>模型分析>>模型預測這四個步驟,這能指引用戶更便捷地完成模型構(gòu)建工作。

今天你低代碼了嗎?(低代碼是什么)

圖1 模型列表—卡片式

今天你低代碼了嗎?(低代碼是什么)

圖2 訓練模型的步驟

三、功能測評

低代碼作為一種技術(shù)手段,自然有它獨特的優(yōu)勢,可低代碼機器學習平臺的預測準確性相較于常規(guī)的python編程語言會有所下降嗎?

下文將從分類、預測兩大類場景使用Amazon SageMaker Canvas構(gòu)建模型,并將Amazon SageMaker Canvas構(gòu)建的模型準確度與python編程語言得出的結(jié)果進行對比分析。

1. 分類問題

1)數(shù)據(jù)集

我們一般接觸到的分類問題大多屬于二分類問題,非此即彼。乳腺癌分類問題就是機器學習中一個經(jīng)典的二分類問題,建立乳腺癌風險評估模型,預測乳腺癌發(fā)生概率,對乳腺癌的防治具有重要意義。

本文使用的數(shù)據(jù)據(jù)集來自美國威斯康星州公開的乳腺癌診斷數(shù)據(jù)集,醫(yī)療人員采集了患者乳腺腫塊經(jīng)過細針穿刺后的數(shù)字化圖像,并從這些數(shù)字圖像中提取了32個特征,用這些特征描述圖像中的細胞核呈現(xiàn)。

數(shù)據(jù)集共569行,每行數(shù)據(jù)具有32個特征,第一行是id,第行為diagnosis診斷類型(良性/惡性),第3-32個特征其實只包含了十個屬性,只是每個屬性都從3個維度:平均、標準差、最大值去分析,所以總共有30個特征。

今天你低代碼了嗎?(低代碼是什么)

表2 乳腺癌數(shù)據(jù)集說明

2)對比分析

使用Amazon SageMaker Canvas實現(xiàn)乳腺癌分類的步驟如下:

① 登錄Amazon SageMaker Canvas。

② 數(shù)據(jù)準備:導入本地數(shù)據(jù)到Amazon SageMaker Canvas。

③ 構(gòu)建模型,選擇數(shù)據(jù)集中的某一列作為讓模型去預測的目標列,此時SageMaker Canvas會根據(jù)該列的值,自動識別該問題是分類問題還是預測問題。在我導入乳腺癌數(shù)據(jù)集,選擇了“diagnosis”列作為目標列后,Amazon SageMaker Canvas判斷其為二分類問題。的確,該列只有兩種值:B表示乳腺癌良性,M表示乳腺癌惡性。

除此之外,SageMaker Canvas會自動對上傳的數(shù)據(jù)集進行預處理,例如,使用數(shù)據(jù)集中毗鄰的值來推斷缺失值,且能提供數(shù)據(jù)集中每列的數(shù)據(jù)是如何分布的,這極大省去了在使用python進行分類時的特征預處理以及特征選擇的工作。

今天你低代碼了嗎?(低代碼是什么)

圖3 使用python進行特征預處理

接著點擊構(gòu)建或預覽模型,SageMaker Canvas會從自身封裝的眾多模型中為你推薦最合適的一個,并將特征按照重要程度排名,你可據(jù)此看出哪些特征對機器學習模型影響最大,去掉不重要的特征,點擊更新模型,待到模型準確率無明顯變化后便可不再調(diào)整。

今天你低代碼了嗎?(低代碼是什么)

圖4 特征重要程度排名

講到這里,大家肯定想印證一下,用python編程語言篩選出的特征和Amazon SageMaker Canvas給出的特征排名,二者之間有沒有偏差,或者說有多少是吻合的?下面就為大家揭秘。

如下圖所示,左側(cè)是Amazon SageMaker Canvas得出的排名,右側(cè)是python得出的特征相關(guān)性熱力圖,據(jù)此熱力圖選取相關(guān)性特征值維度值較大的特征。

今天你低代碼了嗎?(低代碼是什么)

表3 SageMaker Canvas Vs. Python

能夠識別患者是否罹患乳腺癌的分類器訓練完了,那么如何評判這個分類器的優(yōu)劣呢?

傳統(tǒng)的評估分類器性能的方法是使用混淆矩陣來描述數(shù)據(jù)集的真實標簽和模型預測標簽之間的差異。此外,基于混淆矩陣,還可以計算出各種指標來比較分類器的性能,如F1-Score、準確率(Accuracy)、精確率(Precision)、召回率(Recall)、AUC值。

如下表所示,針對以上指標,對比二者的結(jié)果。通過比較,使用Amazon SageMaker Canvas得出的模型評估值,和用Python中l(wèi)inear_SVM算法得到的結(jié)果幾乎吻合,近似一致。

只是AUC值一列,似乎存在一些問題,Amazon SageMaker Canvas得出的為0.991%,python得出的是0.974,數(shù)值上是吻合的,但在度量上差了兩位小數(shù)點兒,這一點還有待進一步探討。

今天你低代碼了嗎?(低代碼是什么)

表4 Amazon SageMaker Canvas VS. Python

今天你低代碼了嗎?(低代碼是什么)

圖5 SageMaker Canvas的混淆矩陣和幾大指標

3)小結(jié)

分類算法的應用范圍和涉及的場景非常多,涉及各行各業(yè),我們要解決的問題大都可以抽象為分類問題.

就拿信用卡的生命周期來講,在營銷期,利用分類算法對積累的客戶的數(shù)據(jù)進行預測,找到潛在的推廣客戶,滿足個性化營銷。

到審核階段,需要對客戶進行資質(zhì)評估,無通過分類算法預測違約的概率,從而達到信用評級的目的。

到了穩(wěn)定期,隨著客戶的賬齡不斷增長,客戶的資質(zhì)不斷發(fā)生變化,需要定時定點對客戶進行風險的研究,及時發(fā)現(xiàn)風險客戶并進行管理。

最后,到了衰退期,會涉及到客戶流失的問題,需要用分類算法預測客戶流失的可能性有多高。

2. 預測問題

1)數(shù)據(jù)集

波士頓房價預測是經(jīng)典的數(shù)據(jù)分析/機器學習入門項目,我們都知道,房價一般會與房間面積的大小、房子所在的城市、房子的空間布局等因素有關(guān)。而房價預測的任務就是給定與房價相關(guān)因素的數(shù)據(jù),通過這些數(shù)據(jù)預測出房子的價格。

波士頓房價數(shù)據(jù)集:波士頓房價數(shù)據(jù)集來自卡內(nèi)基梅隆大學StatLib庫,涵蓋了麻省波士頓的506個不同郊區(qū)的房屋數(shù)據(jù),404條訓練數(shù)據(jù)集,102條測試數(shù)據(jù)集 每條數(shù)據(jù)14個字段,包含13個屬性和1個房價的平均值。下表是對波士頓房價數(shù)據(jù)集的特征描述:

今天你低代碼了嗎?(低代碼是什么)

表5 波士頓房價預測數(shù)據(jù)集

2)對比分析

波士頓房價數(shù)據(jù)集中共計13個特征,每個特征都會或多或少的提升或者抑制房價?,F(xiàn)將SageMaker Canvas預測出的特征重要程度排名與Python機器學習算法得出的進行對比,發(fā)現(xiàn)前7個特征中,有5個特征是重疊的,這證明SageMaker Canvas的模型預測性是值得信賴的。

比如,抑制房價最明顯的是特征NOX,它表示一氧化氮的濃度,基于常識可知,一氧化氮濃度越高,說明住房所在地的環(huán)境污染越嚴重,房價也就越便宜。對房價提升最明顯的特征是 RM,對應數(shù)據(jù)集可知,RM指的是每處住房的平均房間數(shù)量,這也是很容易理解,房間越多,房屋總面積就越大,面積越大,總房價就高。

今天你低代碼了嗎?(低代碼是什么)

表6 Canvas得出的特征重要性排名 VS. Python得出的

SageMaker Canvas除了能夠?qū)?shù)據(jù)集中影響預測結(jié)果的特征進行重要性排名,還能清晰地展示出每一個特征和預測結(jié)果之間的關(guān)系(是正相關(guān)的還是負相關(guān)的),例如,LSTAT這一特征表示“該地區(qū)中有多少房東屬于低收入人群”,如下圖所示,該地區(qū)低收入人群越多,房價越低。

今天你低代碼了嗎?(低代碼是什么)

圖7 各個屬性對模型預測的影響力排名

鑒于可視化能給人們帶來最直觀的認知,SageMaker Canvas中提供了可視化方法,來展示回歸模型預測的效果。

如下圖,可以看到針對波士頓房價數(shù)據(jù)集,預測房價和實際房價之間的對比圖。針對預測類問題,SageMaker Canvas提供了均方根誤差(RMSE),如下圖所示,線條周圍紫色區(qū)域的寬度代表了RMSE的范圍,房價預測的值通常會落在這個范圍之內(nèi)。

今天你低代碼了嗎?(低代碼是什么)

3)小結(jié)

本次,在使用SageMaker Canvas預測房價的過程中,我們只需要給定輸入數(shù)據(jù)集,SageMaker Canvas就可以從中推演出指定目標變量的可能結(jié)果。其他預測問題,也能在SageMaker Canvas上實現(xiàn)。

四、總結(jié)

高昂的硬件價格、復雜軟件配置一直是阻礙初學者入門 AI 的絆腳石,低代碼機器學習開發(fā)平臺的問世與推廣可謂是“碼盲人群”的一道曙光。通過低代碼功能,使用支持比 Python 編碼更快、更容易的模型操作的新的機器學習算法,變得讓人期待??梢?,在未來,即使是完全不具備機器學習知識的業(yè)務人員,也可以運用機器學習模型高效解決業(yè)務上的實際問題。

本文由 @麥地與詩人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自unsplash,基于CCO協(xié)議

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部
科尔| 靖江市| 青岛市| 扬中市| 寿宁县| 浪卡子县| 连平县| 康保县| 宝应县| 旺苍县| 玉田县| 鄂伦春自治旗| 西藏| 长泰县| 娄底市| 错那县| 额尔古纳市| 右玉县| 彩票| 霞浦县| 桃园县| 彰化县| 精河县| 眉山市| 蒙山县| 南平市| 新竹县| 天门市| 新昌县| 青神县| 彰武县| 武威市| 荣成市| 武邑县| 嘉定区| 桐梓县| 确山县| 岳西县| 剑河县| 林口县| 隆子县|