0代碼體驗效果,1行實現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)
作者:謝宣松 阿里達摩院開放視覺智能負責人
編輯:好困
【新智元導讀】11 月 3 日,在 2022 云棲大會上,阿里達摩院聯(lián)手 CCF 開源發(fā)展委員會共同推出了 AI 模型社區(qū)「魔搭」ModelScope。本文,阿里達摩院開放視覺智能負責人謝宣松,深入解析了魔搭社區(qū)里首批開源的 101 個視覺 AI 模型。
計算機視覺是人工智能的基石,也是應(yīng)用最廣泛的 AI 技術(shù),從日常手機解鎖使用的人臉識別,再到火熱的產(chǎn)業(yè)前沿自動駕駛,視覺 AI 都大顯身手。
作為一名視覺 AI 研究者,我認為視覺 AI 的潛能遠未得到充分發(fā)揮,窮盡我們這些研究者的力量,也只能覆蓋少數(shù)行業(yè)和場景,遠未能滿足全社會的需求。
因此,在 AI 模型社區(qū)魔搭 ModelScope 上,我們決定全面開源達摩院研發(fā)的視覺 AI 模型,首批達 101 個,其中多數(shù)為 SOTA 或經(jīng)過實踐檢驗。我們希望讓更多開發(fā)者來使用視覺 AI,更期待 AI 能成為人類社會前進的動力之一。
魔搭社區(qū)地址:modelscope.cn
背景
AI 模型較為復雜,尤其是要應(yīng)用于行業(yè)場景,往往需要重新訓練,這使得 AI 只掌握在少數(shù)算法人員手中,難以走向大眾化。
而新推出的魔搭社區(qū) ModelScope,踐行模型即服務(wù)的新理念(Model as a Service),提供眾多預訓練基礎(chǔ)模型,只需針對具體場景再稍作調(diào)優(yōu),就能快速投入使用。
達摩院率先向魔搭社區(qū)貢獻 300 多個經(jīng)過驗證的優(yōu)質(zhì) AI 模型,超過 1/3 為中文模型,全面開源開放,并且把模型變?yōu)橹苯涌捎玫姆?wù)。
社區(qū)首批開源模型包括視覺、語音、自然語言處理、多模態(tài)等 AI 主要方向,并向 AI for Science 等新領(lǐng)域積極探索,覆蓋的主流任務(wù)超過 60 個。
模型均經(jīng)過專家篩選和效果驗證,包括 150 多個 SOTA(業(yè)界領(lǐng)先)模型和 10 多個大模型,全面開源且開放使用。
概要:以人為中心的視覺 AI
這些年來,達摩院作為阿里巴巴的基礎(chǔ)科研機構(gòu)和人才高地,在阿里海量業(yè)務(wù)場景中研發(fā)出一批優(yōu)秀的視覺 AI 能力,分布在各個環(huán)節(jié):
這些視覺 AI 技術(shù),幾乎覆蓋了從理解到生成等各方面。因視覺技術(shù)任務(wù)眾多,我們需要有一個相對合理的分類方法,可以從模態(tài)、對象、功能、場景等幾個維度來分:
魔搭社區(qū)首批開放了主要的視覺任務(wù)模型,這些模型即有學術(shù)創(chuàng)新的 SOTA 技術(shù),也有久經(jīng)考驗的實戰(zhàn)模型,從「功能 / 任務(wù)」的維度上,涵蓋了常見的感知、理解、生產(chǎn)等大類:
雖然視覺技術(shù)有點龐雜,但其實有個核心,那就是研究「對象」,「人」一直以來都是最重要的「對象」?!敢匀藶橹行摹沟囊曈X AI 技術(shù),也是研究最早最深、使用最普遍的技術(shù)。
我們以一個人的照片作為起點。
AI 首先需要理解這個照片 / 圖像,如識別這個照片是誰,有什么動作,能否摳出像等。
然后,我們還需要進一步探索:照片質(zhì)量如何,能否畫質(zhì)變得更好,其中的人能否變得更漂亮,甚至變成卡通人、數(shù)字人等…
如上的 7 個「人」相關(guān)的流程,基本涵蓋了視覺任務(wù)中的「理解」、「增強」、「編輯」等大類,我們以魔搭社區(qū)已開放的相關(guān)模型為實例,來分享以人為中心的視覺技術(shù)的特點、優(yōu)點、示例以及應(yīng)用。
感知理解類模型
1. 從照片摳出人像
模型名:BSHM 人像摳圖
體驗鏈接:https://www.modelscope.cn/models/damo/cv_unet_image-matting/
從照片摳出人像,去掉背景,是一個非常普遍的需求,也是「PS」的基本操作之一,但傳統(tǒng)人工操作費時費力、且效果不佳。
魔搭提供的人像摳圖模型,是一個 全自動、端到端的人像摳圖模型,能夠?qū)崿F(xiàn)發(fā)絲級別的精細分割。
技術(shù)上我們也進行了創(chuàng)新,不同于其他模型基于大量精細標注數(shù)據(jù)訓練的方法,我們的模型使用粗標注數(shù)據(jù)就能實現(xiàn)精細摳圖,對數(shù)據(jù)要求低、精度高。
具體來說,模型框架分為三部分:粗 mask 估計網(wǎng)絡(luò)(MPN)、質(zhì)量統(tǒng)一化網(wǎng)絡(luò)(QUN)、以及精確 alpha matte 估計網(wǎng)絡(luò)(MRN)。
我們首先將復雜問題拆解,先粗分割(MPN)再精細化分割(MRN)。
學術(shù)界有大量易獲取的粗分割數(shù)據(jù),但是粗分割數(shù)據(jù)和精分割數(shù)據(jù)不一致導致預期 GAP 很大,故而我們又設(shè)計了質(zhì)量統(tǒng)一化網(wǎng)絡(luò)(QUN)。
MPN 的用途是估計粗語義信息(粗 mask),使用粗標注數(shù)據(jù)和精標注數(shù)據(jù)一起訓練。
QUN 是質(zhì)量統(tǒng)一化網(wǎng)絡(luò),用以規(guī)范粗 mask 質(zhì)量,QUN 可以統(tǒng)一 MPN 輸出的粗 mask 質(zhì)量。
MRN 網(wǎng)絡(luò)輸入原圖和經(jīng)過 QUN 規(guī)范化后的粗 mask,估計精確的 alpha matte,使用精確標注數(shù)據(jù)訓練。
當然,摳圖分割相關(guān)的需求非常多樣化,我們也上線了一系列模型,支持非人像摳圖以及視頻摳圖等。
開發(fā)者可以直接拿來即用,如進行輔助設(shè)計師摳圖,一鍵摳圖,大幅提升設(shè)計效率,或者自由換背景,可實現(xiàn)會議虛擬背景、證件照、穿越等效果。這些也在阿里自有產(chǎn)品(如釘釘視頻會議)及云上客戶廣泛使用。
2. 檢測并識別是誰
模型名:MogFace 人臉檢測
體驗鏈接:https://www.modelscope.cn/models/damo/cv_resnet101_face-detection_CVPR22papermogface/
人臉檢測和識別是一個 AI 經(jīng)典任務(wù),也是應(yīng)用最廣泛的視覺技術(shù)之一;從另一方面看,其對效果和性價比要求非??量?。
我們自研的 MogFace 為當前 SOTA 的人臉檢測方法,已在 Wider Face 六項榜單上霸榜一年半以上,具體技術(shù)論文發(fā)表于 CVPR2022,主要貢獻是從 label assignment, scale-level data augmentation and reduce false alarms 三個角度改進人臉檢測器。
技術(shù)上的特點有:
- Scale-level Data Augmentation (SSE):SSE 是第一個從 maximize pyramid layer 表征的角度來控制數(shù)據(jù)集中 gt 的尺度分布,而不是 intuitive 的假想檢測器的學習能力,因此在不同場景下都很魯棒;
- Adaptive Online Anchor Mining Strategy(Ali-AMS):減少對超參的依賴, 簡單且有效的 adpative label assign 方法;
- Hierarchical Context-aware Module (HCAM):減少誤檢是真實世界人臉檢測器面對的最大挑戰(zhàn),HCAM 是最近幾年第一次在算法側(cè)給出 solid solution。
人臉檢測作為人臉相關(guān)的基礎(chǔ)能力,可應(yīng)用于人臉相冊 / 人臉編輯 / 人臉比對等場景。
由于人臉相關(guān)的模型使用非常廣泛,我們也有系列模型的迭代計劃,包括 MogFace 中所介紹的技術(shù)點除了 HCAM 均無需引入額外的計算量,后續(xù)準備打造 SOTA 的 family-based 人臉檢測模型;以及真實世界的人臉檢測器除了面對減少誤檢的問題,還面對如何增加人臉檢出率的問題,以及他們之間如何平衡的問題,我們正在進一步探索。
3. 人體關(guān)鍵點及動作識別
模型名字:HRNet 人體關(guān)鍵點 -2D
體驗鏈接:https://www.modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/
該任務(wù)采用自頂向下的人體關(guān)鍵點檢測框架,通過端對端的快速推理可以得到圖像中的 15 點人體關(guān)鍵點。
其中人體關(guān)鍵點模型基于 HRNet 改進的 backbone,充分利用多分辨率的特征較好地支持日常人體姿態(tài),在 COCO 數(shù)據(jù)集的 AP 和 AR50 上取得更高精度。
同時我們也針對體育健身場景做了優(yōu)化,尤其是在瑜伽、健身等場景下多遮擋、非常見、多臥姿等姿態(tài)上具有 SOTA 的檢測精度。
為了更好的適用于各種場景,我們持續(xù)進行優(yōu)化:
- 針對通用場景的大模型在指標上達到 SOTA 性能;
- 針對移動端部署的小模型,內(nèi)存占用小,運行快、性能穩(wěn)定,在千元機上達到 25~30FPS;
- 針對瑜伽、跳繩技術(shù)、仰臥起坐、俯臥撐、高抬腿等體育健身計數(shù)和打分場景下多遮擋、非常見、多臥姿姿態(tài)等情況做了深度優(yōu)化,提升算法精度和準確度。
本模型已經(jīng)廣泛應(yīng)用于 AI 體育健身、體育測試場景,如阿里體育樂動力,釘釘運動,健身鏡等,也可應(yīng)用于 3D 關(guān)鍵點檢測和 3D 人體重建等場景。
4. 小結(jié)
上述三個「人」相關(guān)的模型,都屬于感知理解這個大類。先認識世界,再改造世界,感知理解類視覺技術(shù)是最基礎(chǔ)、也是應(yīng)用最廣泛的模型大類,也可以分為識別、檢測和分割三小類:
- 識別 / 分類是視覺(包括圖像、視頻等)技術(shù)中最基礎(chǔ)也是最經(jīng)典的任務(wù),也是生物通過眼睛了解世界最基本的能力。簡單來說,判定一組圖像數(shù)據(jù)中是否包含某個特定的物體,圖像特征或運動狀態(tài),知道圖像視頻中描述的對象和內(nèi)容是什么。此外,還需要了解一些更細維度的信息,或者非實體對象的一些描述標簽。
- 目標檢測的任務(wù)是找出視覺內(nèi)容中感興趣的目標(物體),確定它們的位置和大小,也是機器視覺領(lǐng)域的核心問題之一。一般來說,也會同時對定位到的目標進行分類識別。
- 分割是視覺任務(wù)中又一個核心任務(wù),相對于識別檢測,它又更進一步,解決「每一個像素屬于哪個目標物或場景」的問題。是把圖像分成若干個特定的、具有獨特性質(zhì)的區(qū)域并提出感興趣目標的技術(shù)和過程。
魔搭社區(qū)上面開放了豐富的感知理解類模型,供 AI 開發(fā)者試用使用:
5. 彩蛋:DAMO-YOLO 首次放出
模型名字:DAMOYOLO- 高性能通用檢測模型 -S
體驗鏈接:https://www.modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary
通用目標檢測是計算機視覺的基本問題之一,具有非常廣泛的應(yīng)用。
DAMO-YOLO 是阿里新推出來的 目標檢測框架,兼顧模型速度與精度,其效果超越了目前的一眾 YOLO 系列方法,且推理速度更快。
DAMO-YOLO 還提供高效的訓練策略和便捷易用的部署工具,能幫助開發(fā)者快速解決工業(yè)落地中的實際問題。
DAMO-YOLO 引入 TinyNAS 技術(shù),使得用戶可以根據(jù)硬件算力進行低成本的檢測模型定制,提高硬件利用效率并且獲得更高精度。
另外,DAMO-YOLO 還對檢測模型中的 neck、head 結(jié)構(gòu)設(shè)計,以及訓練時的標簽分配、數(shù)據(jù)增廣等關(guān)鍵因素進行了優(yōu)化。
由于做了一系列優(yōu)化,DAMO-YOLO 在嚴格限制 Latency 的情況下精度取得了顯著的提升,成為 YOLO 框架中的新 SOTA。
底層視覺模型
1. 照片去噪去模糊
模型名字:NAFNet 圖像去噪
體驗地址:https://www.modelscope.cn/models/damo/cv_nafnet_image-denoise_sidd/
因拍攝環(huán)境、設(shè)備、操作等原因,圖像質(zhì)量不佳的情況時而存在,怎么對這些圖像的噪聲去除、模糊還原?
該模型在圖像恢復領(lǐng)域具有良好的泛化性,無論是圖像去噪還是圖像去模糊任務(wù),都達到了目前的 SOTA。
由于技術(shù)創(chuàng)新,該模型使用了簡單的乘法操作替換了激活函數(shù),在不影響性能的情況下提升了處理速度。
該模型全名叫 NAFNet 去噪模型,即非線性無激活網(wǎng)絡(luò)(Nonlinear Activation Free Network),證明了常見的非線性激活函數(shù)(Sigmoid、ReLU、GELU、Softmax 等)不是必須的,它們是可以被移除或者是被乘法算法代替的。該模型是對 CNN 結(jié)構(gòu)設(shè)計的重要創(chuàng)新。
本模型可以做為很多應(yīng)用的前置步驟,如智能手機圖像去噪、圖像去運動模糊等。
2. 照片修復及增強
模型名字:GPEN 人像增強模型
體驗地址:https://www.modelscope.cn/models/damo/cv_gpen_image-portrait-enhancement/
除照片去噪以外,對照片的質(zhì)量(包括分辨、細節(jié)紋理、色彩等)會有更高的處理要求,我們也開放了專門的人像增強模型,對輸入圖像中的每一個檢測到的人像做修復和增強,并對圖像中的非人像區(qū)域采用 RealESRNet 做兩倍的超分辨率,最終返回修復后的完整圖像。該模型能夠魯棒地處理絕大多數(shù)復雜的真實降質(zhì),修復嚴重損傷的人像。
從效果上看,GPEN 人像增強模型將預訓練好的 StyleGAN2 網(wǎng)絡(luò)作為 decoder 嵌入到完整模型中,并通過 finetune 的方式最終實現(xiàn)修復功能,在多項指標上達到行業(yè)領(lǐng)先的效果。
從應(yīng)用的視角,本模型可以修復家庭老照片或者明星的老照片,修復手機夜景拍攝的低質(zhì)照片,修復老視頻中的人像等。
后續(xù)我們將增加 1024、2048 等支持處理大分辨人臉的預訓練模型,并在模型效果上持續(xù)更新迭代。
3. 小結(jié)
底層視覺,關(guān)注的是畫質(zhì)問題。只要是生物(含人),都會對因光影而產(chǎn)生的細節(jié)、形狀、顏色、流暢性等有感應(yīng),人對高畫質(zhì)的追求更是天然的,但由于各種現(xiàn)實條件,畫質(zhì)往往不理想,這時候視覺 AI 就能派上用場。
從任務(wù)分類上,可以分為:清晰度(分辨率 / 細節(jié)、噪聲 / 劃痕、幀率)、色彩(亮度、色偏等)、修瑕(膚質(zhì)優(yōu)化、去水印字幕)等,如下表:
編輯生成類模型
1. 變得更漂亮
模型名字:ABPN 人像美膚
體驗鏈接:https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/
人們對照片人像的美觀度是一個剛性需求,包括斑點、顏色、瑕疵等,甚至高矮胖瘦。本次我們開放了專業(yè)級別的人像美膚、液化等模型供大家使用。
本模型提出了一個新穎的自適應(yīng)混合模塊 ABM,其利用自適應(yīng)混合圖層實現(xiàn)了圖像的局部精準修飾。此外,我們在 ABM 的基礎(chǔ)上進一步構(gòu)建了一個混合圖層金字塔,實現(xiàn)了超高清圖像的快速修飾。
相比于現(xiàn)有的圖像修飾方法,ABPN 在修飾精度、速度上均有較大提升。ABPN 人像美膚模型為 ABPN 模型在人像美膚任務(wù)中的具體應(yīng)用。
如下示例:
更進一步,我們還可以在服飾上做一些有意思的嘗試,如去皺:
甚至瘦身美型:
體驗鏈接:https://www.modelscope.cn/models/damo/cv_flow-based-body-reshaping_damo/summary
從效果上來說,有如下幾點特色:
- 局部修飾。只對目標區(qū)域進行編輯,保持非目標區(qū)域不動。
- 精準修飾。充分考慮目標本身的紋理特征和全局上下文信息,以實現(xiàn)精準修飾,去除瑕疵的同時保留皮膚本身的質(zhì)感。
- 超高分辨率的處理能力。模型的混合圖層金字塔設(shè)計,使其可以處理超高分辨率圖像(4K~6K)。
本模型有很強的實用性,比如可應(yīng)用于專業(yè)修圖領(lǐng)域,如影樓、廣告等,提高生產(chǎn)力,也可以應(yīng)用于直播互娛場景,提升人像皮膚質(zhì)感。
2. 變成卡通人
模型名:DCT-Net 人像卡通化模型
體驗鏈接:https://www.modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/
人像卡通化是一個具有很好互動性的玩法,同時又有多種風格可選。魔搭開放的人像卡通化模型基于全新的域校準圖像翻譯網(wǎng)絡(luò) DCT-Net(Domain-Calibrated Translation)實現(xiàn),采用了「先全局特征校準,再局部紋理轉(zhuǎn)換」的核心思想,利用百張小樣本風格數(shù)據(jù),即可訓練得到輕量穩(wěn)定的風格轉(zhuǎn)換器,實現(xiàn)高保真、強魯棒、易拓展的高質(zhì)量人像風格轉(zhuǎn)換效果。
如下示例:
從效果上來看:
- DCT-Net 具備內(nèi)容匹配的高保真能力,能有效保留原圖內(nèi)容中的人物 ID、配飾、身體部件、背景等細節(jié)特征;
- DCT-Net 具備面向復雜場景的強魯棒能力,能輕松處理面部遮擋、稀有姿態(tài)等;
- DCT-Net 在處理維度上和風格適配度上具有易拓展性,利用頭部數(shù)據(jù)即可拓展至全身像 / 全圖的精細化風格轉(zhuǎn)換,同時模型具有通用普適性,適配于日漫風、3D、手繪等多種風格轉(zhuǎn)換。
后續(xù)我們也會對卡通化進行系列化的開放,除圖像轉(zhuǎn)換外,后續(xù)將包含圖像、視頻、3D 卡通化等系列效果,先放一些效果大家看看:
3. 小結(jié)
這類模型對圖像內(nèi)容進行修改,包括對源圖內(nèi)容進行編輯加工(增加內(nèi)容、刪除內(nèi)容、改換內(nèi)容等),或者直接生成一個新的視覺內(nèi)容,轉(zhuǎn)換一個風格,得到一張新的圖像(基于源圖像且與源圖不同),都屬于編輯生成這個大類,可以理解成,從 A 圖得到 B 圖的過程。
行業(yè)場景類模型
如最開始所說,視覺 AI 技術(shù)的價值體現(xiàn),在廣泛的各類場景中都存在,除了上述「人」相關(guān)的視覺 AI 技術(shù),我們也開放了來自互聯(lián)網(wǎng)、工業(yè)、互娛、傳媒、安全、醫(yī)療等多個實戰(zhàn)型的模型,這些模型可以拿來即用,也可以基于finetune訓練或自學習工具進一步加工完善,用于開發(fā)者、客戶特定的場景,這里舉一個例子:
模型名:煙火檢測(正在集成中)
模型功能: 可做室外、室內(nèi)的火焰檢測以及煙霧檢測,森林、城市道路、園區(qū),臥室、辦公區(qū)域、廚房、吸煙場所等,算法打磨近 2 年,并在多個客戶場景實際應(yīng)用,整體效果相對穩(wěn)定。
從技術(shù)視角來說,本模型提出 Correlation block 提升多幀檢測精度,其設(shè)計數(shù)據(jù)增強方法提高識別靈敏度同時有效控制誤報。
從應(yīng)用上來說,模型可應(yīng)用于室內(nèi)、室外多種場景,只需要手機拍攝、監(jiān)控攝像頭等簡單設(shè)備就可以實現(xiàn)模型功能。
結(jié)語:視覺 AI 的開放未來
通過上述分析,我們可以發(fā)現(xiàn),視覺 AI 的應(yīng)用潛能極為廣泛,社會需求極為多樣,但現(xiàn)實情況卻是:視覺 AI 的供給能力非常有限。
達摩院在魔搭 ModelScope 之前,就率先開放了 API 形態(tài)的視覺 AI 服務(wù),通過公共云平臺對 AI 開發(fā)者提供一站式視覺在線服務(wù)平臺,即視覺智能開放平臺(vision.aliyun.com),其中開放了超 200 個 API,涵蓋了基礎(chǔ)視覺、行業(yè)視覺等方面,也包括上面所說的「以人為中心」的視覺技術(shù)。
從開放視覺平臺到魔搭社區(qū),這意味著達摩院視覺 AI 的開放邁出了更大的一步。從 OpenAPI 拓展到 OpenSDK、OpenSOTA,從公共云到端云協(xié)同,從平臺到社區(qū),我們希望去滿足千行百業(yè)對視覺 AI 的需求,希望促進視覺 AI 的生態(tài)發(fā)展。