神奇！零基礎分分鐘玩轉AI，華為雲ModelArts全體驗

智東西(公眾號:zhidxcom)

文 | 心緣

2019年，熱門的人工智能（AI）繼續在產業中快速奔跑，越來越多的行業開始搭上智能化升級的大潮。然而，長時間、高成本、高投入、複雜繁瑣的AI開發流程，正阻礙著AI產業的規模化發展，許多傳統企業不能輕鬆快速地構建AI能力。

喝一杯水要幾步？對於普通人來說，這是一件毫不費腦的事。那麽AI開發需要幾步呢？對於開發小白和AI專業開發者來說，答案截然不同。

1月底，華為雲EI（企業智能）一站式AI開發平台ModelArts正式商用上線，不僅讓許多AI小白拆除AI開發的門檻，同時也讓諸多AI開發者享受到更為高效便捷的開發體驗。

這一被稱為“開發者的福音”的AI平台，究竟是怎樣的利器？它又在如何在各個傳統行業發揮作用呢？對此，智東西分析了ModelArts加速AI開發的四大亮點，詳解ModelArts平台使用步驟，並親身體驗了ModelArts的極簡操作流程，過了一把AI開發癮。

一、ModelArts四大亮點，加速AI開發流程

簡單的說，ModelArts平台就是一個讓小白輕鬆學會訓練AI模型、讓AI老手節省時間腦力的開發神器，讓各行各業關於AI的創意都能快速實現。

這裡，我們先從四大亮點分析ModelArts如何幫助有經驗的開發者加快AI模型開發和部署，然後複原小白輕鬆上手AI開發的全過程。

1、提供開源數據集，部分場景實現數據自動標注

對於飽受數據標注困擾的開發者而言，ModelArts是可以簡化數據標注流程的優質平台。

ModelArts通過對數據進行采樣、篩選、預標注，可以將大部分數據進行自動標注和篩選，而人工只需在自動數據標注後做篩選確認，這將極大地降低開發者的工作量。

目前，ModelArts機器數據標注已廣泛應用於“自動駕駛學習”場景，後續ModelArts還將持續更新，以服務更多新興業務場景。

ModelArts還有一個亮點功能——市場。“市場”是一個共享平台，為開發者提供多種開源數據集和一些預置模型，開發者也可以上傳自己的數據集合模型。後續可能還會有交易模式，讓一些AI開發者在提供AI模型後，可以實現知識價值變現。

2、自動學習+自動訓練模型並調參，簡化工作量

對於算法工程師來說，在訓練中會有很多調參，由於不同的調參會影響最後模型的收斂速度及精度，這一部分通常會給算法工程師製造大量的工作量。

ModelArts提供自動化調參服務，採用momentum、batch size等動態超參策略，將模型收斂所需 epoch個數降到最低，不僅可以簡化算法工程師調參的工作量，還能幫助算法工程師找到盡可能最優的參數，在滿足精度的前提下讓模型快速收斂。

3、大規模分布式訓練，加快訓練速度

ModelArts平台的高效不止體現在簡化步驟和數據標注上。它是一個端到端從硬體到軟體協同的平台，華為在其中做了很多深層次的優化和高性能調優，包括對分布式調度、網絡通信和硬體特性等做整體優化，以提供加速訓練的能力。

在深度學習模型訓練過程中，華為雲將分布式加速層抽象出來，自研了一套分布式通用加速框架MoXing，在TensorFlow、MXNet、PyTorch、Keras等框架上實現再優化，使得這些計算引擎分布式性能更高，訓練時間更短。

開發者可以通過幾個接口直接調用MoXing框架，將本地單機的業務變成分布式業務，僅用一串代碼就實現單機和分布式部署。開發者無需關心下層分布式相關API，只需聚焦在業務模型中，根據實際需求輸入數據、模型和相應優化器。

ModelArts在衡量分布式深度學習框架加速性能主要考慮的吞吐量、收斂時間等關鍵指標上都做了精心處理。通過提供MoXing分布式框架和千級GPU集群規模訓練加速，ModelArts可為用戶帶來極高性能的AI開發體驗。

4、模型一鍵式部署，適配到端邊雲

通常情況下，模型部署非常複雜，需要寫代碼集成到應用系統，維護和更新。ModelArts可以一鍵將模型部署到雲、端、邊緣的設備上，根據端邊雲不同的特點，幫助開發者做模型壓縮和模型加速。該平台還支持在線和批量推理，滿足多種場景需求。

根據開發者制定的策略，ModelArts平台可以自動調整雲伺服器的計算資源，在業務需求下降時將減少雲伺服器，高效節省資源和成本；在業務需求增多時增加雲伺服器，保證業務平穩健康運行。

二、ModelArts用法拆解之開發小白篇——五個步驟讓小白玩轉AI

在ModelArts超高配置的加持下，即便是不具備任何AI開發算法能力的小白，也可以零負擔地來構建AI模型。這就要提到ModelArts非常強大的功能——自動學習。

如果你是AI小白，或者是不想在模型訓練上花費時間和精力的開發者，在ModelArts上，只需掌握如下五個步驟，就能完成整個算法從開發到最後部署上線的全過程。

目前華為雲ModelArts提供物體檢測、圖像分類、預測分析和聲音分類四類開發項目，為了將用戶使用門檻降到最低，華為雲EI企業智能不僅提供內容詳細的新手入門和用戶指南，還為前三類項目分別錄製了視頻教程。

這裡，智東西記者以圖像分類項目為例，在不寫一行代碼的情況下，訓練出一個AI模型。

1、準備數據

我們準備了10張向日葵和10張玫瑰的照片作為訓練模型的數據集。不過，如果開發者只是想簡單練習如何做AI開發，可以直接在市場中下載預置數據集，導入至自己的數據集中。

2、創建項目

在準備好數據後，開發者可點擊左側導航欄的“自動學習”，創建一個“圖像分類”項目，創建時會有彈窗讓開發者選擇訓練數據集存放位置，這需要開發者預先創建一個華為雲OBS桶。

3、數據標注

項目創建完畢後就進入數據標注頁面，點擊添加圖片一次性上傳全部照片。隨後，點擊每張圖片進行標注，每張圖片至少有兩個標注分類，用於訓練的圖片至少有5張。當然，如果想讓模型獲得更高的精度，訓練圖片的數量自然是多多益善。

4、模型訓練

接下來就可以開始訓練模型了，點擊“開始訓練”，然後等待約一分鐘，模型就訓練成功了。

更喜歡DIY的用戶，還可以在創建訓練作業時，自己設定更想要的參數。

5、部署上線

訓練完模型的最後一步是模型部署。部署上線後，用戶就可以隨時用模型來測試某一張圖片中的花卉了。

當然，智東西只是拿20張圖片簡單地練手，如果想要更精確的模型，用戶需要用大量的數據集來訓練。

三、ModelArts用法拆解之高階程序媛篇——用ModelArts玩比賽

說完了小白，再來說一下專業人群。

如果你具備一定的AI開發基礎和編程能力，已經迫不及待地想用ModelArts練練手了，不妨關注一下正在進行中的2019數字中國創新大賽。華為雲作為大賽出題方之一，提出了“文化傳承——漢字書法多場景識別”的賽題，而ModelArts正是華為雲附送給參賽者們的開發神器。

日前，智東西就收到一位程序媛投稿，詳細講述了她如何用ModelArts玩比賽。

賽題模型由兩個部分組成，一個是文字檢測，一個是文字識別。

在文字框檢測上，可使用EAST模型（下載地址：https://github.com/argman/EAST）；在文字識別OCR模型上，可使用西安交通大學人工智能實踐大賽第一名的方案模型（下載地址：https://github.com/yinchangchang/ocr_densenet）。

本文代碼均已開源在代碼庫GitHub中（地址：https://github.com/DataFountainCode/huawei_code_share ），可直接下載使用。

1、EAST文字檢測模型

使用ModelArts訓練EAST模型

第一步是數據準備工作，首先下載並解壓比賽數據包。

將處理過的數據上傳到在OBS上創建的路徑，如：

同樣，下載EAST訓練代碼，並將代碼上傳到OBS，

然後就可以創建作業了，選擇訓練作業中的“創建”。

之後選擇數據存儲路徑、使用的引擎、啟動文件等，

再輸入使用腳本需要的相應參數，

選擇計算資源，並保存作業參數以便下次使用，就可以開始運行了。

點擊運行，還可以在日誌裡看到訓練過程。

推理測試

在訓練到一定精度後，就可以測試了。同樣創建作業，選擇test數據集，輸入必要參數，

之後就可以得到測試集的檢測結果了，裡面的每行包含測試圖片的名字和4個x和y的點。

2、OCR文字識別模型

創建OCR訓練作業

與EAST模型一樣，將處理完後OCR模型的數據和OCR代碼上傳到OBS相應路徑，就可以開始訓練。

點擊確定開始運行，在日誌中可以看到，幾個step之後loss在下降了。

推理預測

最後一步，使用OCR訓練完成的模型文件和EAST生成的數據進行推理測試，

最終可以在OBS路徑上看到predict.csv的文件，下載就可以上傳到比賽官網參賽了。

本文代碼均已開源，且修改成了可以在ModelArts訓練的格式，可以對比開源的EAST和OCR代碼，查看修改了哪些地方。本文在OCR模型上用時6個小時，僅訓練了10個epoch，就在排行榜A榜得到了0.42的F1，目測再訓練久一點F1>0.80是肯定有的。

目前，超過700支隊伍已經加入2019數字中國創新大賽的戰局。

報名將到3月22日截止，進入比賽決賽的隊伍將獲得直通華為雲終面的資格，前三甲還將分別獲得8萬、5萬和3萬元的獎金。感興趣的請點擊“閱讀原文”參加比賽一試身手吧！