每日最新頭條.有趣資訊

神奇!零基礎分分鐘玩轉AI,華為雲ModelArts全體驗

智東西(公眾號:zhidxcom)

文 | 心緣

2019年,熱門的人工智能(AI)繼續在產業中快速奔跑,越來越多的行業開始搭上智能化升級的大潮。然而,長時間、高成本、高投入、複雜繁瑣的AI開發流程,正阻礙著AI產業的規模化發展,許多傳統企業不能輕鬆快速地構建AI能力。

喝一杯水要幾步? 對於普通人來說,這是一件毫不費腦的事。那麽AI開發需要幾步呢?對於開發小白和AI專業開發者來說,答案截然不同。

1月底,華為雲EI(企業智能)一站式AI開發平台ModelArts正式商用上線,不僅讓許多AI小白拆除AI開發的門檻,同時也讓諸多AI開發者享受到更為高效便捷的開發體驗。

這一被稱為“開發者的福音”的AI平台,究竟是怎樣的利器?它又在如何在各個傳統行業發揮作用呢?對此,智東西分析了ModelArts加速AI開發的四大亮點,詳解ModelArts平台使用步驟,並親身體驗了ModelArts的極簡操作流程,過了一把AI開發癮。

一、ModelArts四大亮點,加速AI開發流程

簡單的說,ModelArts平台就是一個讓小白輕鬆學會訓練AI模型、讓AI老手節省時間腦力的開發神器,讓各行各業關於AI的創意都能快速實現。

這裡,我們先從四大亮點分析ModelArts如何幫助有經驗的開發者加快AI模型開發和部署,然後複原小白輕鬆上手AI開發的全過程。

1、提供開源數據集,部分場景實現數據自動標注

對於飽受數據標注困擾的開發者而言,ModelArts是可以簡化數據標注流程的優質平台。

ModelArts通過對數據進行采樣、篩選、預標注,可以將大部分數據進行自動標注和篩選,而人工只需在自動數據標注後做篩選確認,這將極大地降低開發者的工作量。

目前,ModelArts機器數據標注已廣泛應用於“自動駕駛學習”場景,後續ModelArts還將持續更新,以服務更多新興業務場景。

ModelArts還有一個亮點功能——市場。“市場”是一個共享平台,為開發者提供多種開源數據集和一些預置模型,開發者也可以上傳自己的數據集合模型。後續可能還會有交易模式,讓一些AI開發者在提供AI模型後,可以實現知識價值變現。

2、自動學習+自動訓練模型並調參,簡化工作量

對於算法工程師來說,在訓練中會有很多調參,由於不同的調參會影響最後模型的收斂速度及精度,這一部分通常會給算法工程師製造大量的工作量。

ModelArts提供自動化調參服務,採用momentum、batch size等動態超參策略,將模型收斂所需 epoch個數降到最低,不僅可以簡化算法工程師調參的工作量,還能幫助算法工程師找到盡可能最優的參數,在滿足精度的前提下讓模型快速收斂。

3、大規模分布式訓練,加快訓練速度

ModelArts平台的高效不止體現在簡化步驟和數據標注上。它是一個端到端從硬體到軟體協同的平台,華為在其中做了很多深層次的優化和高性能調優,包括對分布式調度、網絡通信和硬體特性等做整體優化,以提供加速訓練的能力。

在深度學習模型訓練過程中,華為雲將分布式加速層抽象出來,自研了一套分布式通用加速框架MoXing,在TensorFlow、MXNet、PyTorch、Keras等框架上實現再優化,使得這些計算引擎分布式性能更高,訓練時間更短。

開發者可以通過幾個接口直接調用MoXing框架,將本地單機的業務變成分布式業務,僅用一串代碼就實現單機和分布式部署。開發者無需關心下層分布式相關API,只需聚焦在業務模型中,根據實際需求輸入數據、模型和相應優化器。

ModelArts在衡量分布式深度學習框架加速性能主要考慮的吞吐量、收斂時間等關鍵指標上都做了精心處理。通過提供MoXing分布式框架和千級GPU集群規模訓練加速,ModelArts可為用戶帶來極高性能的AI開發體驗。

4、模型一鍵式部署,適配到端邊雲

通常情況下,模型部署非常複雜,需要寫代碼集成到應用系統,維護和更新。ModelArts可以一鍵將模型部署到雲、端、邊緣的設備上,根據端邊雲不同的特點,幫助開發者做模型壓縮和模型加速。該平台還支持在線和批量推理,滿足多種場景需求。

根據開發者制定的策略,ModelArts平台可以自動調整雲伺服器的計算資源,在業務需求下降時將減少雲伺服器,高效節省資源和成本;在業務需求增多時增加雲伺服器,保證業務平穩健康運行。

二、ModelArts用法拆解之開發小白篇——五個步驟讓小白玩轉AI

在ModelArts超高配置的加持下,即便是不具備任何AI開發算法能力的小白,也可以零負擔地來構建AI模型。這就要提到ModelArts非常強大的功能——自動學習。

如果你是AI小白,或者是不想在模型訓練上花費時間和精力的開發者,在ModelArts上,只需掌握如下五個步驟,就能完成整個算法從開發到最後部署上線的全過程。

目前華為雲ModelArts提供物體檢測、圖像分類、預測分析和聲音分類四類開發項目,為了將用戶使用門檻降到最低,華為雲EI企業智能不僅提供內容詳細的新手入門和用戶指南,還為前三類項目分別錄製了視頻教程。

這裡,智東西記者以圖像分類項目為例,在不寫一行代碼的情況下,訓練出一個AI模型。

1、準備數據

我們準備了10張向日葵和10張玫瑰的照片作為訓練模型的數據集。不過,如果開發者只是想簡單練習如何做AI開發,可以直接在市場中下載預置數據集,導入至自己的數據集中。

2、創建項目

在準備好數據後,開發者可點擊左側導航欄的“自動學習”,創建一個“圖像分類”項目,創建時會有彈窗讓開發者選擇訓練數據集存放位置,這需要開發者預先創建一個華為雲OBS桶。

3、數據標注

項目創建完畢後就進入數據標注頁面,點擊添加圖片一次性上傳全部照片。隨後,點擊每張圖片進行標注,每張圖片至少有兩個標注分類,用於訓練的圖片至少有5張。當然,如果想讓模型獲得更高的精度,訓練圖片的數量自然是多多益善。

4、模型訓練

接下來就可以開始訓練模型了,點擊“開始訓練”,然後等待約一分鐘,模型就訓練成功了。

更喜歡DIY的用戶,還可以在創建訓練作業時,自己設定更想要的參數。

5、部署上線

訓練完模型的最後一步是模型部署。部署上線後,用戶就可以隨時用模型來測試某一張圖片中的花卉了。

當然,智東西只是拿20張圖片簡單地練手,如果想要更精確的模型,用戶需要用大量的數據集來訓練。

三、ModelArts用法拆解之高階程序媛篇——用ModelArts玩比賽

說完了小白,再來說一下專業人群。

如果你具備一定的AI開發基礎和編程能力,已經迫不及待地想用ModelArts練練手了,不妨關注一下正在進行中的2019數字中國創新大賽。華為雲作為大賽出題方之一,提出了“文化傳承——漢字書法多場景識別”的賽題,而ModelArts正是華為雲附送給參賽者們的開發神器。

日前,智東西就收到一位程序媛投稿,詳細講述了她如何用ModelArts玩比賽。

賽題模型由兩個部分組成,一個是文字檢測,一個是文字識別。

在文字框檢測上,可使用EAST模型(下載地址:https://github.com/argman/EAST);在文字識別OCR模型上,可使用西安交通大學人工智能實踐大賽第一名的方案模型(下載地址:https://github.com/yinchangchang/ocr_densenet)。

本文代碼均已開源在代碼庫GitHub中(地址:https://github.com/DataFountainCode/huawei_code_share ),可直接下載使用。

1、EAST文字檢測模型

使用ModelArts訓練EAST模型

第一步是數據準備工作,首先下載並解壓比賽數據包。

將處理過的數據上傳到在OBS上創建的路徑,如:

同樣,下載EAST訓練代碼,並將代碼上傳到OBS,

然後就可以創建作業了,選擇訓練作業中的“創建”。

之後選擇數據存儲路徑、使用的引擎、啟動文件等,

再輸入使用腳本需要的相應參數,

選擇計算資源,並保存作業參數以便下次使用,就可以開始運行了。

點擊運行,還可以在日誌裡看到訓練過程。

推理測試

在訓練到一定精度後,就可以測試了。同樣創建作業,選擇test數據集,輸入必要參數,

之後就可以得到測試集的檢測結果了,裡面的每行包含測試圖片的名字和4個x和y的點。

2、OCR文字識別模型

創建OCR訓練作業

與EAST模型一樣,將處理完後OCR模型的數據和OCR代碼上傳到OBS相應路徑,就可以開始訓練。

點擊確定開始運行,在日誌中可以看到,幾個step之後loss在下降了。

推理預測

最後一步,使用OCR訓練完成的模型文件和EAST生成的數據進行推理測試,

最終可以在OBS路徑上看到predict.csv的文件,下載就可以上傳到比賽官網參賽了。

本文代碼均已開源,且修改成了可以在ModelArts訓練的格式,可以對比開源的EAST和OCR代碼,查看修改了哪些地方。本文在OCR模型上用時6個小時,僅訓練了10個epoch,就在排行榜A榜得到了0.42的F1,目測再訓練久一點F1>0.80是肯定有的。

目前,超過700支隊伍已經加入2019數字中國創新大賽的戰局。

報名將到3月22日截止,進入比賽決賽的隊伍將獲得直通華為雲終面的資格,前三甲還將分別獲得8萬、5萬和3萬元的獎金。感興趣的請點擊“閱讀原文”參加比賽一試身手吧!

獲得更多的PTT最新消息
按讚加入粉絲團