每日最新頭條.有趣資訊

人工智能我想搞到50歲!這群開發者值得敬佩!

現階段,國內人工智能的發展進程已經跨入到國際的快車道,AI的落地實踐,已經深入到各個行業及技術領域下。目前,無論是雲計算、大數據、區塊鏈還是物聯網等等領域,AI 都在其中扮演了推動技術發展以及影響該領域前景的決定性角色。

2019年9月7日,雲+社區(騰訊雲官方開發者社區)主辦的技術沙龍-AI技術原理與實踐,在上海成功舉行。現場的 5 位騰訊雲技術專家,在現場與開發者們面對面交流,並深度講解了騰訊雲雲智天樞人工智能服務平台、OCR、NLP、機器學習、智能對話平台等多個技術領域背後架構設計理念與實踐方法。

1

騰訊雲雲智天樞平台的架構設計理念

來自騰訊雲的資深技術專家黃文才老師,從雲智天樞平台的架構設計理念入手,詳細闡述了騰訊雲最強人工智能平台技術實踐。

騰訊雲資深技術專家黃文才

雲智天樞是一款支持快速接入各種算法、數據和智能設備的人工智能平台,提供可視化的編排工具進行服務和資源的管理和調度。並進一步通過 AI 服務組件持續集成和標準化的接口開放,幫助開發者快速構建 AI 應用。總的來說,雲智天樞平台的定位是全棧式人工智能服務平台,實現與應用、算法、設備等合作夥伴共贏,合作夥伴只需要實現應用層邏輯。

雲智天樞平台架構

雲智天樞平台是典型的三層架構,分別為基礎支撐層、存儲層以及中間層。基礎能力位於整個架構的最下層,負責整體平台基礎性能力的支撐,如 Docker、 K8S、 藍盾 CICD 等;往上一層是存儲層,用到了一些諸如 MySQL、Kafka、Influxdb、Cos/Ceph、ES 等組件。

中間層是今天將要重點介紹的部分,利用微服務將其劃分為了 6 個主要的功能性窗口,他們分別是算法倉庫、設備中心、數據中心、AI 工作時、應用中心以及管理中心。

算法倉庫:主要提供自助打鏡像的能力,可快速把可執行程序、模型文件等容器化為服務等,目前接入算法種類 50+,涵蓋人臉,車輛,語音,文字,語義等;

設備中心:主要對接各個廠商的各個型號的設備,比如普通攝影機,抓拍機,AI 相機等等;

數據中心:主要負責數據接入、推送、轉換、存儲;

AI 工作室:主要實現了任務調度,流程與服務的編排能力;

應用中心:主要是創建應用、密鑰、訂閱管理,視圖庫等能力;

管理中心:账號系統、角色權限、鏡像倉庫、操作日誌等能力。

最上方是網關層面,分為 API 網關以及消網關兩部分。API 網關採用的是 API3.0 標準,主要做健全、限頻、轉發等功能;消息網關支持 GPRC 和 HTTP 推送能力,監控系統用了 Telegraf 和 Grafana,日誌系統採用的是 ELK。

基於雲智天樞平台的核心業務窗口架構設計

AI 工作室

基於雲智天樞人工智能服務平台的 AI 工作室架構

AI 工作室作為一個可編排的流程引擎,其對上整合組件,對下對接開發者,是整個雲智天樞平台的核心。其主要由三大塊組成,分別為平台對接系統、流程引擎系統、函數服務系統。平台對接系統:負責打通平台各個窗口的能力;流程引擎系統:我們參考了 AWS 的 ASL,定義了我們的描述 DAG 圖規範。這裡實現了流程與服務的編排能力。其中 Taskschesvr 是任務調度器, taskProcesssvr 是流程引擎執行器,主要解析 DAG 圖,自動安裝編排好的流程執行任務;函數服務系統:它是一個 Python 服務,負責執行 Python 代碼段。因為流程服務編排的時候,調用 A 的輸出不一定滿足 B 的輸入,所以這裡主要做數據轉換。使用函數服務進行轉換參數,實現用戶邏輯或者啟用參數映射的方式實現參數轉換,這樣可以很好改善參數映射無法完全呈現服務狀態的問題,從而實現中間態的轉換。

流程服務編排引擎

平常在開發業務功能過程中會經常寫一些相似的代碼邏輯,比如調用 A 服務,A 服務回來之後會做數據處理,處理完以後會並發調用 BC 服務,之後等 BC 回包回來再做數據處理,這一塊兒有很多相似的業務邏輯,在業務中抽象並實現流程和服務的編排能力相當重要。流程編排能力實現了並發分支、條件分支、合並等操作;服務編排方面支持直接調用服務,用戶不用關心網絡層的調用,只需關注純業務邏輯。

函數服務

函數服務是為了解決 A 服務的輸出無法滿足下遊 B 服務的輸入,其核心優勢是通用組件可累積複用,大大減少了用戶的開發成本。

算法倉庫

雲智天樞算法倉庫,主要目的是將平台上的算法統一接入到一個地方,由平台統一提供算法服務,並將鏡像製作頁面可視化,這樣不懂 Docker 的用戶也可以方便製作。通過將算法服務發布託管,直接調用 k8s 的源生 api-server,這樣可以有效解決算法種類多、管理對接成本高、鏡像製作門檻過高等問題。

設備中心

設備中心的功能主要是設備自助接入能力,由於當前市面上各個廠商間產品的型號、協議都有差異,很難統一,並且其中私有化協議又佔了大部分。設備中心通過實現每個子分類的微服務,將其劃分為三層,分別為上層服務邏輯(基礎鏡像)、適配邏輯 SDK(so 插件)、私有化 SDK(so 插件)。同時也實現了雲邊端混合部署的能力,主要是為了解決邊端算力不足、帶寬,延時不滿足需求的場景。

數據中心

數據中心主要功能使實現數據的接入、推送、轉換以及存儲等,也包括本地上傳、在線拉取、外部推送等能力。實現了項目落地實施過程中,屏蔽不同存儲介質(包括結構化與非結構化數據)的讀寫能力。

監控系統

這個監控系統是經由開源組件 Telegraf + Influxdb + Grafana 搭建起來的。其比較適合應用在私有化部署的場景下,具備支持多種數據源、開放 API 擴展性強、單獨微服務對應單獨數據庫、界面配置可導入導出等特性。

2

騰訊雲文字識別 OCR 的技術演進歷程

騰訊雲高級工程師彭碧發,從騰訊雲 OCR 技術出發,淺談 OCR 背後的能力和原理,共同探討 OCR 在工程演化過程中,如何保障服務及快速上線新的能力,為大家帶來“騰訊雲文字識別 OCR 技術構建和應用”的分享。

騰訊雲高級工程師彭碧發

騰訊雲的 OCR 能力,目前定位是打造文字識別工具箱,要求具備豐富的接口能力,要能夠被集成的同時保持靈活性。目前是專注於公有雲領域,加速規模化複製後再切入私有化。中間組件產品這部分,是目前騰訊雲 OCR 所提供的組件接口,向下依賴基礎組件和引擎的方面的各種文字和內容處理能力,同時結合不同的技術形成不同的組合產品和解決方案,最終賦能給合作夥伴。

騰訊雲 OCR 整體框架設計

從上到下,分為用戶接入層、Web 接入層、業務邏輯層、引擎平台層和基礎服務層,通過類微服務的設計,保證各邏輯服務之間是互相解耦的狀態。

首先是接入層,分為用戶接入層和 Web 接入層。用戶接入層通過 API 和 SDK 的方式接入;Web 接入層,除域名解析外,新增雲標準 3.0 接入,會自動生成如在線調試和文檔生成等 SDK 和相應的配套。

往下是業務邏輯層,每個業務邏輯都是分離的,各個業務有自己的配置,互不影響。

引擎平台層,這裡都是最基礎的原子能力的封裝,通過統一引擎原子能力的輸入參數和錯誤碼,從而能夠更好地被業務邏輯所應用。

基礎服務層,主要包含引擎的基礎能力、計費控制、DB,COS 等。

OCR 引擎平台層

引擎平台層可以是整個架構中的重中之重,原因就在於引擎平台層是提升整個架構運作效率的核心。改造之後統一引擎接入和引擎適配都放在了一個工程裡面,將正常邏輯和錯誤碼都收斂代理在一個配置文件下,修改非常方便和靈活,發布的時候只需要發布代碼就行。同時通過收斂各引擎原子能力的差異,包括錯誤碼,保證對內接口的返回更友好;將服務層級從 3 精簡到 1,極大提升了維護效率。

3

騰訊雲知文 NLP 平台的技術架構

來自騰訊雲的高級研究員許澤柯,從騰訊雲 NLP 技術和能力矩陣出發,淺談 NLP 背後的算法、原理及架構。

騰訊雲高級研究員許澤柯

騰訊雲 AI 語義產品矩陣

騰訊雲知文 NLP 平台,是基於騰訊在各領域上豐富語料及多年 NLP 能力的積累,結合騰訊雲的專業產品與服務,推出的一站式自然語言處理平台。知文 NLP 平台融合深度學習、雲服務、人工智能,大數據等多方面技術,全面覆蓋基礎 NLP 中詞法分析、句法分析、篇章分析、向量技術等各方面技術,廣泛應用於泛互聯網、政府、金融等行業。

騰訊雲知文 NLP 服務框架

為了保障線上服務的穩定性以及高效性,整個產品的系統架構採用的是微服務 + DevOps 的構建方式,每一個算法微服務都是單獨的容器實例。

整個產品的系統架構可以分為 5 層,分別是用戶層、API3.0 接入層、業務接入層、應用層、數據層。其中用戶層主要包括計費、控制台管理以及 SDK/API 使用。API3.0 接入層是所有雲上業務對外提供服務必須接入的,目的是為了統一雲業務規範,對齊業界標準,從而提升用戶對雲 api 的體驗;除此之外,雲 API3.0 還接入了公司內部的星雲告警系統、哈勃監控系統以及 CAM 簽名服務,能夠保障服務的正常運行,同時還減少業務的部分工作量。業務接入層、應用層以及數據層屬於業務後端服務。其中業務接入層主要負責服務的接入以及路由。應用層則包括業務邏輯層跟算法邏輯層,業務邏輯層指計費、額度、控制台等服務;算法邏輯層是整個系統架構的核心,也是知文 NLP 產品的價值體現,需要不斷迭代更新。最後的數據層則負責數據的存儲、上報等,採用的都是目前騰訊雲主流的組件。

上述所有的業務後端服務都是基於微服務架構,區別於傳統的單體服務,我們將不同的業務邏輯劃分成小的服務,服務之間通過相互通信的方式來進行調用。服務與服務之間採用的是輕量級的通信機制進行溝通(目前我們的架構中既支持 gRPC 也同時支持基於 http 的 RestfulAPI),每個服務都是圍繞獨立的業務邏輯進行構建,同時能夠被獨立地部署到生產環境、測試環境等。知文 NLP 後端服務採用上述的微服務架構,主要是基於以下幾點考慮:

知文 NLP 平台涵蓋十多個原子化算法服務,採用微服務的架構有利於算法的獨立開發以及獨立部署,能夠更靈活、更快速地響應算法頻繁的迭代需求;

基於微服務的架構可以實現松耦合且各個服務之間無需統一語言,可以加速合作夥伴上雲的節奏;

微服務架構結合容器化的 DevOps 平台,可以簡化服務的部署以及運維。

AutoNLP

AutoNLP 元素架構圖

AutoNLP 的概念來自於 AutoML,目的就是在做機器學習和數據挖掘的過程中可以將數據標注、特徵選擇、模型選擇、模型上線等過程自動化。AutoNLP 所針對的就是 NLP 任務的 pipeline。上圖為 AutoNLP 的元素架構圖,先看最左側 Data 部分,底層為 IaaS,會提供 GPU 到 CPU 的資源供開發者使用。往上是 Data,有 Data Market,不僅可以應用自己的語料,也會內嵌騰訊的語料。Data Factory 則會提供可視化數據以及數據預處理工具。中間的 Framework 會內嵌 ModelZoo,提供不同領域的 Bert 模型。將 AutoNLP 以 容器的形式部署,很好保障了容災、擴容、服務穩定性等方面,且最終服務上線後會提供 rpc 跟 resrful 兩種調用方式。

4

智能鈦機器學習平台 TI-ONE 在工業的落地實踐

智能鈦機器學習平台是面向廣大開發者的一站式機器學習平台,覆蓋了數據預處理、特徵工程、模型訓練、模型推理、一鍵部署等機器學習建模全流程功能。包含傳統機器學習算法、時間序列算法、NLP 算法、圖處理算法、計算機視覺等。目前已經廣泛落地在工業和金融業領域,騰訊雲高級研究員尹迪重點為大家介紹智能鈦機器學習平台在工業領域的具體實踐。

騰訊雲高級研究員尹迪

工業領域當前面臨的問題還是比較多的,從用戶角度來看,生產工程師不會數據分析、數據挖掘、圖像處理、目標檢測等工作。算法工程師又對站點數據不熟悉,對製程的經驗不足,無法進行相應的數據分析和建模。

從數據的角度來看,工業行業數據維度高、因子雜亂,數據類型種類多、識別困難,並且真因往往隱藏在海量數據之中,且由多個因子聯合起作用。並且容易漏掉字元型數據,字元型數據往往包含十分豐富的數據信息,在一般的工業機器學習建模過程中,字元型數據是最容易被忽略掉的那一類。

從實踐的角度看,往往是算法應用不明確、無法分析個性化案例、AI 手段無法有效改善生產問題以及如何匯報自己的建模方法這四個問題。

智能鈦機器學習平台在工業的解決方案架構圖

依上圖所示,整體解決方案共分為 5 個層面,分別為業務、大數據、AI、應用場景以及前端展示:

業務平台,包括物聯網數據收集、邊緣計算、業務系統、數據存儲;

大數據平台,包含了計算引擎、大數據存儲 / 加速層、大數據分析挖掘、消息接入層;

AI 平台,包含了智能鈦機器學習訓練平台和推理平台,提供了數據預處理、特徵工程、模型訓練、模型推理和部署工作;

應用場景,有虛擬量測、高效良率、壽命預測、真因分析、缺陷檢測、圖像分類等;

前端展示,包括伯拉圖、等高線圖、散點圖等。

現階段常用的是異常數據檢測、時間序列數據檢測、全特徵數據檢測、異常圖片智能檢測等功能。此外包括最優路徑的搜索、良率測算、異常解析等。異常解析的主要作用是在平台出現異常後主動追溯造成異常的原因。

從這 5 個層面,能對工業界的實踐起到什麽樣的價值?主要包含六方面:

系統自動監控和告警;

提高工作效率,通過將解析資料進行系統化管理,將異常發生至解決的時間從 6h 縮短至 1h;

提升良率品質,通過異常因子分析、圖像異常檢測等方式,準確定位異常信息,盡早發現異常並處理,提升良品率;

減少人力投入,提升系統自動化的程度,將數據分析時間從 60min 縮短至 5min;

策略參考,智能排出最優路徑,從無法獲取最優 run 貨路徑,到現在 10min 內就可以獲取到;

降低失效成本提升效益,加強異常攔截,及時發現異常,減少異常漏放。

5

Workshop:零代碼使用騰訊 TBP 打造智能對話機器人

就像文章開頭所說,正是開發者的努力,才造就了國內 AI 生態持續繁榮的這一現狀。這一幕,從現場參加 Workshop 同學的熱情中就可以看出來。

騰訊智能對話平台(Tencent Bot Platform), 專注於“對話即服務”的願景,全面開放騰訊對話系統核心技術,為大型企業客戶、開發者和生態合作夥伴提供開發平台和機器人中間件能力,實現便捷、低成本構建人機互動體驗和高效、多樣化行業賦能。

騰訊智能對話平台簡介

騰訊智能對話平台產品功能全景圖

如上圖所示,騰訊智能對話平台全面開放騰訊智能語音與對話系統技術,包括:語音識別、語音合成、意圖識別、實體抽取、知識圖譜、多輪對話狀態跟蹤、自然語言生成、服務決策與分發等。

騰訊雲產品技術團隊結合智能對話應用的使用場景,將底層對話系統技術抽象和封裝出多種機器人開發類型 (如常用的任務型機器人和問答型機器人),以滿足不同開發中需求,在不同類型的機器人種,開發中可通過意圖管理、實體管理和問答管理自定義語義模型。除語義模型構建外,平台還為開發者提供服務連接與部署、網頁模擬器測試、版本控制與發布、線上數據洞察與運營等機器人開發全流程工具。

同時,平台提供了強大的內置對話能力和豐富的內置實體庫,並將業內最領先的語義理解模型,囊括 Transformer, BERT, LSTM,VDCNN 等,廣泛應用於意圖識別,實體識別,槽位抽取, 知識問答, 對話生成等業務流程。

平台滿足不同類型應用開發者與合作夥伴訴求。對於應用開發者,平台為開發者連接多個應用渠道、可實現一次構建、無處不在,使開發者更加專注於機器人業務邏輯和服務;對於微信運營者,平台與微信開放平台打通,實現零代碼接入微信公眾號;對於對於傳統客服和外呼廠商等業內合作夥伴,平台提供機器人中間件 API,幫助合作夥伴實現以機器人能力替代人工、從傳統客服到智能客服的轉型。

騰訊智能對話平台面向對話服務高頻場景,提供行業解決方案,實現向上多樣化行業助力。

使用騰訊智能對話打造智能出行助手

本次 Workshop 主題是使用騰訊智能對話平台打造一款智能出行對話助手。在騰訊 AI 技術專家葉聰老師的講解與指導下,現場開發者深入了解了對話系統核心原理、以及騰訊智能對話平台的特性和使用方法,最後都順利完成智能對話機器人的實操開發。實操緩解結束後,現場開發者熱情不減,有幾位開發者圍在講師身邊,向講師表達從零到一開發出屬於自己的對話助手的喜悅,並詳細描述場景尋求講師提升對話體驗的建議。

在此次 Workshop 中,現場的開發者也對平台的體驗提出了非常有價值的建議。葉聰老師表示,團隊會持續傾聽開發者聲音,持續與開發者連接互動,持續致力於為開發者提供最好的人機對話產品開發體驗。

在此次技術沙龍的現場,參會者中既有 40 多歲經驗豐富的開發者,也有 14 歲左右的初中生。小編有幸和其中一位年長的參會者有過對話,他提到,“國內人工智能的潛力還很大,即便是到了知天命的年紀,人工智能的技術對自己仍然具有很強的吸引力,可能這就是自己做開發者的特性吧,如果可以的話,希望不止是 50 歲,而是能一直做下去。”

也許正是如此,國內的 AI 生態才會進入到現在的黃金發展期,歸根結底,不論是雲計算、區塊鏈還是人工智能,開發者永遠是推動技術發展、維持技術生態繁榮的最根本因素。感謝國內的開發者,也感謝騰訊雲雲 + 社區能為現場的廣大開發者提供這樣一個交流協作的平台。騰訊雲願積極擁抱開發者,願與開發者攜手一起,共建屬於人工智能技術更先進的未來。

文末福利

獲得更多的PTT最新消息
按讚加入粉絲團