雲知聲發布多模態AI戰略，欲依托算法與芯片構建場景優勢

雷鋒網消息，當前我們正處於5G爆發的邊緣，5G與AI的結合將真正促使AIoT智慧物聯的落地與實現。可以預見的是，未來巨量的多維數據（如語音、影像、影片等）集中處理與邊緣式分布計算的需求，將進一步挑戰AI芯片的計算能力。

2019年1月2日，雲知聲在北京召開新聞發布會，正式公布了其多模態AI芯片戰略與規劃，並同步曝光了在研的三款定位不同場景的AI芯片。

AIoT造就AI芯片新形態

2018年，“多模態”逐漸成為了業界研究的一個重點。如果把模態理解為感官，那麽多模態即是調用多種感官的互動方式，它跨過了自然語言，其方式也更加貼近人，是AI未來的一個發展方向。

雲知聲創始人兼CEO黃偉認為，隨著AIoT場景的逐漸豐富，未來應用對於端雲互動有更強的需求，二者需要緊密結合，這要求對芯片設計和雲端架構進行統一考量，具備多維度AI數據集中處理能力的多模態AI芯片將成必由之路。雲知聲接下來將依托AI算法與AI芯片構建場景優勢，關鍵就在於多模態AI芯片戰略。

基於此，雲知聲進一步對傳統SoC（System on Chip）概念提出全新定義，其中S代表不同的AI服務能力即Skills，O代表雲端與邊緣側的互動On/Off Cloud，C代表具備智能處理能力的AI芯片。

同時，雲知聲發布了DeepNet2.0多模態人工智能核心IP，其AI處理能力也從1.0的語音進化到2.0的多模態，支持語音、影像等處理能力。DeepNet2.0可兼容LSTM/CNN/RNN/TDNN等多種推理網絡，支持可重構計算與Winograd處理，最高可配置算力達4Tops。目前雲知聲DeepNet2.0已在FPGA上得到驗證，將在今年的全新多模態AI芯片海豚（Dolphin）上落地。

在會後的交流中，黃偉特別向雷鋒網強調“多模態不是為了做視覺而做視覺，而是產品真正需要這種能力”。他以自動駕駛為例，可以通過面部影像識別司機注意力是否集中、是否疲勞駕駛，並根據識別結果提醒司機安全駕駛。“又如夜間行車時視野不如白天清晰，這時如果有實時影像增強的幫助就能大大提升安全性。”

多模態演進之路

作為一家國內領先的AI企業，雲知聲2014年開始切入物聯網AI硬體芯片方案（IVM），並於2015年開始量產出貨。在深入場景提供服務的過程中，為彌補通用芯片方案在給定成本和功耗條件下的能效比問題，以及在邊緣算力、多模態AI數據處理方面的能力短板，2015年雲知聲正式啟動自研AI芯片計劃。

去年5月，雲知聲推出業內首款面向IoT的AI芯片UniOne及其解決方案雨燕（Swift），加速商業擴張與應用。該芯片採用雲知聲自主AI指令集，擁有具備完整自主知識產權的DeepNet1.0、uDSP（數字信號處理器），並支持DNN/LSTM/CNN等多種深度神經網絡模型，性能較通用方案提升超50倍。

雲知聲聯合創始人李霄寒曾指出，“UniOne不是一顆芯片，而是一系列芯片，它代表了雲知聲對於物聯網AI芯片發展戰略的整體構想”。在今天的發布會上，李霄寒再次從三方面論證了物聯網多模態AI芯片的必要性。他認為，當前物聯網產品線的AI芯片越來越明顯地體現出三個趨勢：

場景化：芯片設計正在由原來的片面追求PPA，即性能（Power）、功耗（Performance）和面積（Area），逐漸演變成基於軟硬一體，甚至包括雲端服務的方式來解決某個垂直領域的具體問題，芯片本身上升成為整個解決方案中的重要部分，而非唯一；

端雲互動：在物聯網的不同應用場景下，海量終端設備要實現功能智能化必須端雲配合，即形成邊緣算力和雲端算力的動態平衡。端雲互動的命題需要AI芯片的強有力支持，進一步也深刻影響到芯片的設計，以及最終的交付；

數據多模態：在以5G驅動的萬物智聯場景下，芯片所接觸到的數據維度將由原來的單一化走向多元化，芯片所需處理的數據也由單模態變成多模態，這對芯片尤其是物聯網人工智能芯片的設計提出了新的挑戰。

以此來看，面向物聯網終端場景的AI芯片核心是解決垂直場景問題的能力，其呈現形式將不再是一個單一的硬體，而是承載著邊緣能力與雲端能力的多模態AI軟硬一體解決方案。

三款芯片蓄勢待發

在首款量產芯片雨燕已有大批客戶導入，佔領市場先發優勢的背景下，2019年雲知聲在芯片落地規劃方面仍將保持積極態度。

李霄寒向雷鋒網透露，在持續迭代更新現有雨燕芯片的性能與服務之外，目前雲知聲多款面向不同方向的芯片也已在研發中，包括適用性更廣的超輕量級物聯網語音AI芯片雨燕Lite、可面向智慧城市場景提供對語音和影像等多模態計算支持的多模態AI芯片海豚（Dolphin），以及與吉利集團旗下生態鏈企業億咖通科技共同打造的面向智慧出行場景的多模態車規級AI芯片雪豹（Leopard），三款芯片計劃於2019年啟動量產。

為實現多模態AI芯片的戰略落地，目前雲知聲已在加速技術布局，並在機器視覺方面取得飛速進展。其中，面向機器視覺的輕量級影像信號處理器已可實現在不依賴外部記憶體的情況下，在30fps的速率下實時對傳感器的圖片進行預處理，以進一步提高後續機器視覺處理模塊的處理速度和效果。

據悉，借助基於人臉資訊分析的多模態技術，已可實現人臉/物體識別、表情分析、標簽化、唇動狀態跟蹤等功能，可為產品互動和用戶體驗提供更多的可玩性和靈活性。

此外，在影像與芯片技術的產學研合作方面，雲知聲還與杜克大學所長官的美國自然科學基金旗下唯一人工智能計算中心ASIC達成深度合作，致力於AI芯片算法壓縮與量化技術，以及非馮·諾依曼架構的新型AI芯片計算架構研究，將進一步為雲知聲多模態AI芯片戰略的推進夯實基礎。

目前，依托在家居、車載等真實場景下豐富的產品經驗，以及具備先發優勢的AI芯片能力，雲知聲將業務覆蓋到包括智能家居、智能汽車、智能兒童機器人、智慧酒店、智慧交通等諸多場景。未來雲知聲將持續發力多模態AI芯片，不斷拓展技術與場景生態，以實現面向未來AIoT時代的全面賦能。