每日最新頭條.有趣資訊

比特大陸阮沈勇:軟體定義的AI芯片未來一定成為基礎設施

3月15日,由智東西主辦,AWE和極果聯合主辦的GTIC 2019全球AI芯片創新峰會在上海成功舉辦!本次峰會報名參會的觀眾覆蓋了近4500家企業,到會觀眾極為專業,其中總監以上級別佔比超過62%,現場實際到會人數超過1800位。

大會現場來自學術、投資、安防、芯片等多個領域的21位重磅嘉賓共聚一堂,系統的探討了AI芯片在架構創新、生態構建、場景落地等方面的技術前景和產業趨勢。

會上,比特大陸AI產品線總裁阮沈勇為我們帶來了主題為《AI芯片激發數據中心澎湃算力》的演講,分享了比特大陸的AI技術與芯片發展歷史以及比特大陸的產品部署三大案例。

在他看來,基於GPU的圖片處理會帶來高成本以及高能耗,而基於TPU架構芯片部署一定會帶來速度的大幅提升,以及能耗的數倍降低。

此外,比特大陸還宣布SC3加速卡正式對外銷售。

附比特大陸AI產品線總裁阮沈勇演講實錄

阮沈勇:大家好,我叫阮沈勇,是比特大陸AI產品線的負責人。

首先我先給大家介紹一下比特大陸的AI芯片發展歷程。

比特大陸是2013年成立的,2013年底發布首款區塊鏈芯片;2014年Antpool上線;2015年區塊鏈市場領先,AI業務啟動;2016年開發第一代BM1680 AI芯片;2017年第一代AI雲端芯片面世;2018年推出了第二代AI雲端芯片BM1682以及第一代AI終端芯片BM1880。

那麽大家都知道驅動人工智能的三個因素是算法、數據以及算力。

算法方面,AlphaGo的出現是一個分水嶺,自從AlphaGo以後,人工智能高速發展。2015年人工智能的算法的錯誤率已經低於人類的認知水準。另外在互聯網上,每年產生的圖片流是10的15次方,在安防行業的數量10的17次方,我們可以清晰的看到數據和算法在推動人工智能的發展。

那麽算力呢?互聯網圖片加視頻流,全球34億互聯網用戶,每年產生10^15的圖片和視頻流,每秒產生10^9的圖片和視頻流。我們GPU按照P4的算力5T flops來算,每個圖片處理30GFlops,乘以每秒10^9的圖片和視頻流,對應需要的算力為30,000,000Tflops,需要的就是6,000,000張GPU,對應的就是1,800,000千瓦功耗以及3000億人民幣的成本。不難看到GPU芯片的高成本以及高能耗。

再放眼安防行業,當前,全球的安防行業共計有5億多個攝影頭,僅僅中國就有2億多個攝影頭。按照GPU芯片的性能來算,0.5T處理一路視頻結構化,如果四千萬路的視頻那就需要兩千萬TOPS的算力。另外,這也會帶來很大的功耗問題。

因此我們在思考我們到底需要什麽樣的AI芯片,可以提升性能,比如從CPU到GPU已經有了10倍以上的性能提升。

當前谷歌已經推出了TPU的芯片,比特大陸是全世界第二家推出基於TPU芯片架構的企業。因為我們相信TPU架構一定會帶來速度10倍的提升,能耗10倍的降低。

比特大陸的AI芯片是部分可編程的架構,不是完全的ASIC。因為我們相信算法軟體定義的芯片,未來TPU會打破雲端AI的GPU壟斷地位。魏少軍教授在早上的峰會中講到的軟體定義芯片,我們也正在往這個方向追求發展。

這是比特大陸算豐AI路線圖,2019年我們今年上半年會推出第三代芯片BM1684,其處理性能與處理路數會比1682均有幾倍的提升。我們現在正在跟很多客戶接觸,把1684芯片推給他們。另外,我們現在還在規劃2020年的產品,1686芯片。

基於1682芯片我們做出了加速卡SC3,它支持兩路的4K視頻,可用於視頻圖像解碼加速和CV加速。其硬體視頻解碼引擎支持1080P@240fps,最高至4K@60fps的高清視頻流解碼;支持視頻前處理、後處理等加速。我們今天也借助智東西這個平台,正式宣布SC3加速卡對外銷售。

我們前面講我們的產品時,並沒有講很高深的技術,其實我們想告訴大家比特大陸是做事很低調的公司,我們的產品已經有很多客戶用了。應用案例中,用於視頻的VCR處理,視頻廣告,遊戲AR的增強,或者醫療影像的處理,或者證照處理,還有客戶用於人臉識別的應用場景都是可以的。

舉一個例子,我們有一個合作夥伴叫優必達,這是一家遊戲雲服務商。他們的用戶可以通過互聯網的方式訪問優必達的伺服器產品,然後在上面做各種AI處理。優必達在其當前的 GameCloud雲伺服器生產環境中,有越來越多的應用各種 AI 模型,用於遊戲圖像的特徵提取、分類;遊戲畫質增強;AI 遊戲(自動駕駛遊戲)等。快速增長的 AI 應用使得雲端伺服器的算力性能需求急劇增加,並對計算加速產品的適用度、兼容性、穩定性、計算效率、性價比提出了較高的綜合要求。

此前這些部署都是基於GPU和CPU做的。那麽我們雙方的合作方式為基於BM1682芯片的SC3板卡,在優必達的數據中心做了批量部署,其次使用易用成熟工具鏈BMNETT將客戶用Tensorflow訓練好的模型快速部署在SC3加速卡上,另外對外提供Python接口,調用形式兼容常規的Tensorflow,最後就是讓客戶雲端生產環境下增強了AI算力、並快速部署。

當前他們已經完成了移植的工作,已經部署在雲端用起來了。

那麽對方為什麽要和比特大陸合作,為什麽從CPU、GPU移植到SC3呢?

第一,在移植性能上,比特大陸的產品比如在遊戲增強性能的主要特徵提取以及強化學習模型上的推理性能表現優異,相當於標稱11.5T算力的TITAN X GPU加速卡。我們的有效利用率和GPU是相似的,我們的產品物理算力雖然比GPU低了3倍,但是有效利用率相當高,這是給客戶帶來性價比,能夠以更有益的性價比得到產品和服務。

第二是我們在模型的移植上,從開始這個項目開始合作到驗證、部署只花三周的時間。我們做AI產品和別的東西不太一樣,芯片本身是一方面,需要很完備的工具鏈,把軟體做好。我們這方面表現優異,我們做移植的時候非常快,隻用三周的時間完成了部署。我們對技術支持的時候也是點對點的技術支持,保證客戶的問題及時響應。我們從開始做這個東西,到最後量產很快夠弄完了,客戶已經部署在雲端上了。

我們的產品主要為視頻、圖片加速處理,我們的芯片做了很多的加速處理,剛才我們講的是互聯網的應用場景,那麽安防場景呢?

安防是一個對圖片和視頻做加速處理一個非常合適的應用場景,比如說安防行業出去和客戶交流,他們說需要做人臉識別,或者根據圖片分析人的軌跡等,這是目前很常規的應用場景。另外,在視頻結構化處理上,可以做比如機非人(機動車、非機動車、人),看到這個人什麽樣子的頭髮,穿著什麽顏色的衣服,戴不戴帽子,衣服褲子什麽顏色的?這樣各種各樣的結構化處理下來,追蹤人的速度就會非常快,結構化以後視頻空間變得非常少。

另外就是車輛分析,比如看我們開車的時候經過紅綠燈是否有違章,晚上是否有渣土車出現,通過攝影頭的方式抓拍過來在雲端計算,然後分析出來結果。我們的產品已經和很多的客戶進行的合作。

這是一個我們在福建省的合作案例,客戶基於比特大陸的SA3伺服器,用三個CPU的伺服器加5個TPU的伺服器在警察局內部的網上進行的合作。深瞐科技基於比特大陸伺服器進行了算法的移植工作,可以更好的對車進行結構化。

順便講一下我們SA3伺服器相對友商來說,我們的產品密度更高,比如說SA3伺服器裡面有18顆1682的芯片,可以提供54T算力,比如說用GPUX86伺服器,密度是我們友商的2-4倍。這說明在一樣的成本下,我們可以給客戶帶來更大的路數,更高的計算密度,幫客戶間接降低了成本,提供更好的性價比。

第三個案例是加速政府超算數據中心,在DFCC數字福建雲計算中心中應用。對方會把數據中心建好之後,提供出租服務給他們的客戶,比如說初創公司在上面進行人工智能開發或者其他的應用,他們之前基於P100的伺服器做的,這款伺服器是基於訓練做的,對科學計算比較擅長。那麽比特大陸的產品特點是更加擅長對圖像進行處理加速,所以當客戶需要更好的圖像處理加速產品的時候,他們就和我們進行了合作,我們基於SA3伺服器進行部署和加速處理。跟P100的伺服器比起來,我們提供了更高性價比,路數更高,而且對視頻和圖片處理進行了非常好的加速。

我們認為比特大陸是一個做事情的公司,做事情一直比較低調,因此一直沒有對外宣布過我們的產品用在哪些客戶。今天講了三個案例,一個在互聯網上的應用也就是優必達的應用,第二個用在安防方面的警察局應用,第三個在數據中心的應用。我們其實想告訴大家,我們的產品已經在市場上批量部署,有很多客戶已經實際應用完成了部署。

那麽最後總結來說,我們基於TPU的伺服器是軟體可編程,對算法是友好的,客戶可以基於我們的產品對算法進行很好的加速處理。回應今天上午魏教授的講話,我們認為軟體算法定義的AI芯片未來一定成為基礎設施。

獲得更多的PTT最新消息
按讚加入粉絲團