機(jī)器學(xué)習(xí)零代碼平臺(tái):SageMaker Canvas拆解
低代碼、無(wú)代碼平臺(tái)在近幾年流行了起來(lái),那么這類(lèi)平臺(tái)的實(shí)際體驗(yàn)效果如何?本篇文章里,作者就針對(duì)一款面向業(yè)務(wù)分析師的零代碼機(jī)器學(xué)習(xí)工具——Amazon SageMaker Canvas,進(jìn)行了分析體驗(yàn),一起來(lái)看一下。
一、概述
Sagemaker Canvas 是一款面向非技術(shù)人員,提供無(wú)代碼自動(dòng)化建模及數(shù)據(jù)預(yù)測(cè)的機(jī)器學(xué)習(xí)服務(wù)。所以,在拆解該產(chǎn)品前,我覺(jué)得有必要了解下機(jī)器學(xué)習(xí)和無(wú)代碼這兩個(gè)的基本概念。
1. 機(jī)器學(xué)習(xí)
關(guān)于機(jī)器學(xué)習(xí)的定義,我引用百度百科說(shuō)明:“機(jī)器學(xué)習(xí)是對(duì)能通過(guò)經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究;機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)”。
簡(jiǎn)單來(lái)講,機(jī)器學(xué)習(xí)是一個(gè)模型訓(xùn)練過(guò)程:數(shù)據(jù)輸入-建模-結(jié)果輸出,基于結(jié)果再進(jìn)行“數(shù)據(jù)輸入-建模-結(jié)果輸出”循環(huán)往復(fù),最終得到最優(yōu)模型的過(guò)程。此處用到的模型,也可以叫算法,算法基本上是有現(xiàn)成方法論的機(jī)器學(xué)習(xí)模型。所以,想要得到一個(gè)最優(yōu)的模型,核心是需要:
2. 無(wú)代碼
低代碼平臺(tái)概念最早在2014年由Forrester Research正式提出,隨后各低代碼頭部企業(yè)對(duì)低代碼平臺(tái)有了自己的定義和解釋?zhuān)虼艘舱Q生了無(wú)代碼這種類(lèi)型的產(chǎn)品。粗獷點(diǎn)理解,我覺(jué)得低代碼是一個(gè)便于開(kāi)發(fā)人員快速開(kāi)發(fā)和部署應(yīng)用的平臺(tái),而無(wú)代碼是面向業(yè)務(wù)人員通過(guò)頁(yè)面的可視化操作便可以搭建應(yīng)用的平臺(tái)。
由此我得到了一個(gè)信息:那就是無(wú)代碼平臺(tái)適用于流程比較容易標(biāo)準(zhǔn)化的業(yè)務(wù)場(chǎng)景;面向的是技術(shù)能力相對(duì)不足且希望能快速搭建自己的業(yè)務(wù)系統(tǒng)以降本增效的中小企業(yè)業(yè)務(wù)人員,及大型企業(yè)中對(duì)這部分預(yù)算投入較少的部門(mén)。
機(jī)器學(xué)習(xí)流程上容易標(biāo)準(zhǔn)化,且一方面建設(shè)一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的成本很高,另一方面從業(yè)務(wù)需求到模型產(chǎn)出之間的時(shí)間也會(huì)比較長(zhǎng),作為需要及時(shí)相應(yīng)的業(yè)務(wù)來(lái)說(shuō),他們也需要一個(gè)可以業(yè)務(wù)直接使用的輕量機(jī)器學(xué)習(xí)工具,我覺(jué)得這是canvas找到的一個(gè)突破口。
二、行業(yè)
1. 規(guī)模
基于艾瑞2022年8月低代碼行業(yè)報(bào)告顯示,2021年中國(guó)低代碼行業(yè)市場(chǎng)規(guī)模為27.5億,預(yù)計(jì)未來(lái)4年復(fù)合增速達(dá)到44.1%,2025年規(guī)模達(dá)到118.4億。單從增速上來(lái)看,低代碼在國(guó)內(nèi)還處于成長(zhǎng)期。但一個(gè)比較有意思的數(shù)據(jù)是,基于海比研究院2021年中國(guó)低代碼/無(wú)代碼行業(yè)報(bào)告顯示,2020年低代碼行業(yè)市場(chǎng)規(guī)模占比86%,無(wú)代碼市場(chǎng)規(guī)模僅占了14%。
2022年1月艾瑞人工智能行業(yè)報(bào)告,2021年中國(guó)AI產(chǎn)品服務(wù)核心市場(chǎng)規(guī)模達(dá)到275億,預(yù)計(jì)未來(lái)4年復(fù)合增速達(dá)到20.6%,2025年規(guī)模達(dá)到578億。從增速和現(xiàn)有市場(chǎng)規(guī)模來(lái)看,機(jī)器學(xué)習(xí)相較低代碼行業(yè)已經(jīng)進(jìn)入一個(gè)穩(wěn)定增長(zhǎng)期,但增速還是比較可觀(guān)的。
2. 標(biāo)準(zhǔn)化
無(wú)代碼適用于流程相對(duì)固定且容易標(biāo)準(zhǔn)化的場(chǎng)景。作為一個(gè)機(jī)器學(xué)習(xí)工具類(lèi)產(chǎn)品,無(wú)疑它的標(biāo)準(zhǔn)化是更容易做到且更容易跨行業(yè)兼容的產(chǎn)品形態(tài)。
3. 商業(yè)環(huán)境
1)根據(jù)國(guó)家統(tǒng)計(jì)局數(shù)據(jù),2022年前三季度,GDP累計(jì)同比增長(zhǎng)為3%,第三產(chǎn)業(yè)累計(jì)同比增長(zhǎng)為2.3%,其中,信息傳輸、軟件和信息技術(shù)服務(wù)同比增長(zhǎng)8.8%。整體經(jīng)濟(jì)增速放緩,傳統(tǒng)企業(yè)對(duì)數(shù)字化轉(zhuǎn)型的愿望更加迫切,需求也會(huì)逐步提高。
2)根據(jù)億歐智庫(kù)2020年報(bào)告統(tǒng)計(jì),2010年至2020年4月,中國(guó)人工智能企業(yè)數(shù)量共計(jì)1135家,私募股權(quán)投資從2015年的千億級(jí)別回落到2020年第一季度的幾十億,人工智能的創(chuàng)業(yè)敞口期正在縮緊。資本對(duì)人工智能的認(rèn)知更加理性,更加看重人工智能在實(shí)際場(chǎng)景的落地而不是炒概念,所以未來(lái)所謂AI 產(chǎn)品更加重要的是如何通過(guò)AI解決企業(yè)的實(shí)際業(yè)務(wù)痛點(diǎn)。
3)技術(shù)應(yīng)用上,據(jù)億歐智庫(kù)2020年報(bào)告,機(jī)器學(xué)習(xí)在中國(guó)13項(xiàng)人工智能技術(shù)應(yīng)用企業(yè)數(shù)量中排名第三,占比為12%。機(jī)器學(xué)習(xí)是需求側(cè)比較受認(rèn)可的應(yīng)用之一。
4. 競(jìng)爭(zhēng)態(tài)勢(shì)
三、定位
中大型企業(yè)/通用型/工具型。
一款面向業(yè)務(wù)分析師的零代碼機(jī)器學(xué)習(xí)工具,幫助客戶(hù)解決:① 機(jī)器學(xué)習(xí)結(jié)果對(duì)業(yè)務(wù)的相應(yīng)時(shí)間過(guò)慢問(wèn)題 ② 為沒(méi)有機(jī)器學(xué)習(xí)能力的企業(yè)快速構(gòu)建自己的機(jī)器學(xué)習(xí)模型。
客群:主要為能夠有一定業(yè)務(wù)量的中大型企業(yè)。
盈利模式:會(huì)話(huà)時(shí)長(zhǎng)及訓(xùn)練數(shù)據(jù)單元格的數(shù)量付費(fèi)。
產(chǎn)品線(xiàn):Amazon Sagemaker。
四、資源
- 原生的云服務(wù)資源,提供穩(wěn)定的算力和數(shù)據(jù)存儲(chǔ)服務(wù)。
- 亞馬遜作為在北美區(qū)月活占有率50%以上的頭部線(xiàn)上交易平臺(tái),擁有豐富的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)及客戶(hù)資源。
五、能力
- 豐富的適用場(chǎng)景:由于機(jī)器學(xué)習(xí)的通用性,canvas理論上可以服務(wù)于大部分?jǐn)?shù)字化程度較高的行業(yè),如:金融、電商、物流、倉(cāng)儲(chǔ)、連鎖超市等。
- 云計(jì)算:AWS擁有超過(guò)16年的云服務(wù)運(yùn)營(yíng)經(jīng)驗(yàn),能為應(yīng)用程序提供穩(wěn)定性更高的云服務(wù)。
- 使用便捷:Amazon SageMaker是基于AWS構(gòu)建的完全托管的機(jī)器學(xué)習(xí)服務(wù),可讓日常開(kāi)發(fā)人員和數(shù)據(jù)科學(xué)家無(wú)需任何前置經(jīng)驗(yàn)即可運(yùn)用機(jī)器學(xué)習(xí)。
六、用戶(hù)體驗(yàn)
1. 注冊(cè)
AWS提供統(tǒng)一賬號(hào)管理,注冊(cè)試用期12個(gè)月,可免費(fèi)試用AWS所有產(chǎn)品。
因?yàn)锳WS提供的產(chǎn)品實(shí)在太多了,注冊(cè)頁(yè)還能檢索具體的免費(fèi)方案。
注冊(cè)后進(jìn)入SageMaker,需要先配置SageMaker域。這一步作為非技術(shù)的我不知道有什么作用,但是在這個(gè)配置的過(guò)程中,每個(gè)頁(yè)面都會(huì)有明確引導(dǎo),所以不理解也沒(méi)關(guān)系,照著做就行。設(shè)置頁(yè)已經(jīng)配置好了默認(rèn)設(shè)置,這個(gè)也很友好,基本傻瓜式點(diǎn)下一步就可以完成了。
每一步提示信息都很明晰。
總結(jié):就注冊(cè)環(huán)節(jié)上來(lái)說(shuō),引導(dǎo)清晰,每一步都有明確提示,注冊(cè)上不會(huì)有太多障礙。
2. 實(shí)際試用
亮點(diǎn)一:針對(duì)0代碼經(jīng)驗(yàn)的業(yè)務(wù)分析人員提供的樣例和操作導(dǎo)覽很豐富。
非常清晰的使用導(dǎo)覽(幾個(gè)月前試用的時(shí)候還是沒(méi)有的,迭代速度還是很快的,而且也很注重用戶(hù)的反饋):
workshop studio提供樣例數(shù)據(jù)集試用,標(biāo)明行業(yè),使用場(chǎng)景以及使用的模型,真的太贊了。
功能模塊按照機(jī)器學(xué)習(xí)的核心流程劃分清晰:
亮點(diǎn)二:基于需要預(yù)測(cè)的字段數(shù)據(jù)類(lèi)型自動(dòng)推薦模型類(lèi)型。
配置需要預(yù)測(cè)的數(shù)據(jù),系統(tǒng)為你推薦最優(yōu)模型類(lèi)型,當(dāng)然你也可以自己選。目前支持二分類(lèi)、時(shí)間序列、numeric model
亮點(diǎn)三:提供可視化的數(shù)據(jù)預(yù)處理界面。
可查看每個(gè)字段的數(shù)據(jù)分布:
支持通過(guò)托拉拽對(duì)數(shù)據(jù)進(jìn)行交叉分析:
支持建模前的預(yù)處理:
亮點(diǎn)四:模型結(jié)果報(bào)告自動(dòng)生成
這個(gè)需求的點(diǎn)在于,業(yè)務(wù)分析師通過(guò)0代碼平臺(tái)構(gòu)建模型最大的好處是提高對(duì)業(yè)務(wù)的響應(yīng),可以對(duì)數(shù)據(jù)和模型訓(xùn)練做一個(gè)預(yù)探索,如果有更復(fù)雜的需求才找到數(shù)據(jù)團(tuán)隊(duì)解決。
就拿風(fēng)控策略來(lái)說(shuō),一個(gè)策略分析師必須是對(duì)風(fēng)控策略及各類(lèi)信貸產(chǎn)品有非常深刻的理解的,但是TA不一定懂復(fù)雜的代碼編寫(xiě),很多業(yè)務(wù)的需求需要經(jīng)由風(fēng)控分析師的分析將需求給到數(shù)據(jù)團(tuán)隊(duì),數(shù)據(jù)團(tuán)隊(duì)接到需求建模后給到業(yè)務(wù),業(yè)務(wù)基于數(shù)據(jù)表現(xiàn)再?zèng)Q定是要再進(jìn)行優(yōu)化調(diào)整還是可以直接投入使用,這一來(lái)二去的耗時(shí)是非常久了。
如果有一個(gè)0代碼的分析工具,業(yè)務(wù)分析師可以自己先進(jìn)行簡(jiǎn)單的數(shù)據(jù)探索和模型構(gòu)建,之后再把可能需要編程才能完成的工作給到數(shù)據(jù)科學(xué)團(tuán)隊(duì),這樣顯然效率是更高的。這就需要一個(gè)可以將模型結(jié)果對(duì)外分享的功能,以便數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以再做進(jìn)一步優(yōu)化。canvas提供了PNG下載,以解決此需求。
提供報(bào)告png圖片格式下載,方便分享給部門(mén)其他人:
亮點(diǎn)五:結(jié)果預(yù)測(cè)支持在線(xiàn)調(diào)整數(shù)值以更新預(yù)測(cè)結(jié)果。
這個(gè)功能的好處是,你可以自己調(diào)整每個(gè)字段的數(shù)值,來(lái)測(cè)試哪個(gè)數(shù)值區(qū)間對(duì)預(yù)測(cè)結(jié)果更敏感。
七、總結(jié)
首先就canvas的定位而言,我覺(jué)得是一個(gè)比較巧妙的切入點(diǎn),產(chǎn)品功能小而聚焦,功能設(shè)計(jì)輕便且直觀(guān),滿(mǎn)足了高可用的這一特點(diǎn)。
就我比較了解的電商運(yùn)營(yíng)和信貸風(fēng)控而言,由于是業(yè)務(wù)需要及時(shí)響應(yīng)的領(lǐng)域,如果一個(gè)需求響應(yīng)時(shí)間需要1-2周,一個(gè)大促都走完一半了,一個(gè)信貸周期都過(guò)去一半了。如果有一個(gè)產(chǎn)品能幫業(yè)務(wù)人員解決這個(gè)問(wèn)題,以前1周的需求周期能縮減到幾個(gè)小時(shí),這將大大提升業(yè)務(wù)的運(yùn)營(yíng)效率。但是在實(shí)際試用后我發(fā)現(xiàn)理想是豐滿(mǎn)的,但是現(xiàn)實(shí)還是很骨感:
① canvas依照會(huì)話(huà)時(shí)長(zhǎng)及訓(xùn)練數(shù)據(jù)單元格的數(shù)量付費(fèi),并不適宜國(guó)內(nèi)的使用習(xí)慣
我在試用canvas的一周內(nèi),幾乎無(wú)感知的獲得了一份費(fèi)用大禮包,我甚至都不知道這些費(fèi)用是怎么產(chǎn)生的。謝謝亞馬遜,讓我對(duì)云服務(wù)的收費(fèi)有了直觀(guān)的理解。
② 可以對(duì)數(shù)據(jù)進(jìn)行自動(dòng)處理的功能很吸引人,但是實(shí)際使用并不美好
我試用了一組《信貸用戶(hù)逾期預(yù)測(cè)建模》數(shù)據(jù),這組數(shù)據(jù)中有非常多的空值。在做機(jī)器學(xué)習(xí)之前,對(duì)無(wú)效數(shù)據(jù)進(jìn)行處理是一種基本操作,canvas很自然的提供了可以自動(dòng)識(shí)別missing data且進(jìn)行刪除的功能,但是這個(gè)功能只支持單個(gè)字段添加刪除的形式。所以當(dāng)我的元數(shù)據(jù)集中有非常多空值時(shí),我甚至多了非常多的機(jī)械操作。
③ 目前的預(yù)測(cè)只支持單指標(biāo)預(yù)測(cè),使用場(chǎng)景可能會(huì)受限制
首先是只能對(duì)單指標(biāo)進(jìn)行預(yù)測(cè),其次模型分享其實(shí)只能分享給同樣使用了sagemaker studio的用戶(hù)。這意味著想要有更好的用戶(hù)體驗(yàn)和更便利的辦公協(xié)同環(huán)境,企業(yè)可能需要同時(shí)購(gòu)買(mǎi)sagemaker studio服務(wù)。合理懷疑,canvas是studio產(chǎn)品使用過(guò)程中催生出來(lái)的新需求。
參考資料:
[1] sagemaker canvas產(chǎn)品文檔:https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html
[2] 【海比研究院】2021年中國(guó)低代碼_無(wú)代碼市場(chǎng)研究報(bào)告
[3] 【億歐智庫(kù)】2021低代碼市場(chǎng)研究報(bào)告0806_2021-08-11
[4] 艾瑞咨詢(xún):生態(tài)聚合-中國(guó)低代碼行業(yè)生態(tài)發(fā)展洞察報(bào)告
[5] 艾瑞咨詢(xún):不啻微芒,造炬成陽(yáng):2022年中國(guó)低代碼行業(yè)研究報(bào)告
數(shù)據(jù)來(lái)源:
[1] Amazon workshop studio:https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US
[2] 阿里云天池:信貸用戶(hù)逾期預(yù)測(cè)建模【銀聯(lián)商務(wù)】
本文由 @隱君隨記 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。