拿下BAT跟華為之後這家公司跟騰訊一起做車機

車東西（公眾號：chedongxi）

文 | 曉寒

隨著這一輪人工智能技術的興起，語音互動和影像識別技術迅速在消費電子乃至汽車領域普及。近來無論是國產還是合資品牌上市的新車，在進行市場宣傳時無一不在強調其車聯網和語音互動功能。

然而就在車企大肆宣傳的背後，科大訊飛這類各種語音技術公司才是真正的幕後英雄。

無獨有偶，雖然名聲不及科大訊飛響亮，但本文的主角，擁有中科院聲學所背景，為BAT和小米、華為等一系列巨頭提供語音互動技術的聲智科技也是不得不提的一個玩家。

隨著GTIC 2018全球智能汽車供應鏈創新峰會重磅嘉賓對話系列報導啟動，車東西奔赴聲智科技北京辦公室，與聲智科技戰略合夥人、副總裁李智勇展開對話，就聲智科技的發展現狀、產品體系，以及其對車內語音互動應用前景的看法等關鍵問題進行了深入交流，弄明白了這家創業為何能夠在語音互動領域得到BAT、360、小米等一系列大公司青睞的原因。

一、一家中科院聲學所背景的公司

作為一家語音互動技術公司，聲智科技最引以為傲，以及對外進行傳播時的一個關鍵標簽就是其中科院聲學所的背景。聲智科技創始人、CEO陳孝良此前為中科院聲學所的副研究員，曾參與海軍某重大項目，以及國家863等科研項目，在聲學領域耕耘多年。

2015年，語音互動、智能音箱等技術與設備逐漸在消費領域普及，陳孝良及其團隊也開始醞釀到體制外創業。彼時，聲智科技戰略合夥人、副總裁李智勇則還在360工作，任高級投資經理和戰略分析師。

▲李智勇

李智勇告訴車東西，那時候360正在尋找語音賽道上的玩家準備投資，剛好經人介紹認識了陳孝良等人。

聊完之後雙方彼此認可，於是李智勇就聯合峰瑞資本一起，向陳孝良及其團隊提供了超過1000萬元的天使投資（峰瑞資本領投），直接促成陳孝良及其團隊於2016年一起離職創辦了聲智科技，而李智勇隨後也以戰略合夥人和副總裁的身份加入聲智一起創業，負責戰略規劃和商業落地事宜。

隨後在2016年和2017年底，聲智科技又先後獲得由俞敏洪參與創辦的洪泰資本領投的1600萬元PreA輪和百度的A輪融資。

李智勇透露，經過2年多的發展，聲智科技團隊規模已百人，在老的中科院團隊基礎之上又大量補充了來自亞馬遜、騰訊、360等大型互聯網科技公司的力量，形成了聲學+電腦科學+互聯網的團隊結構。

二、提供全套語音互動解決方案

粗略來說，目前這波以智能音箱或車內語音互動為代表的中遠場語音互動技術主要分為如下幾個步驟：

1、由麥克風陣列拾取外界語音命令，並對其進行、降噪、增強等處理。2、將處理後的聲音上傳至雲端並將其識別為文字。

3、用NLP自然語言理解技術對文字進行處理，了解用戶意圖。4、根據用戶意圖，為用戶反饋內容（如音樂，氣象等資訊）或者進行具體控制操作（如打開天窗）。

按照這個框架，聲智科技目前的核心產品主要集中在1和2，即為B端客戶提供軟硬體一體的拾音和語音識別系統。

雖然看似簡單，其實背後還有不少細分技術。

▲搭載聲智語音互動技術的部分產品

例如在有許多人說話的場景中拾音時首先要識別哪些是噪音，哪些是實際的語音命令。在拾取聲音之後還要對噪音進行處理並增強語音命令的聲音才能供識別系統使用。而在語音識別步驟，則需要大量的語料，並運用神經網絡才能訓練出一個高準確率的識別系統。

“與Siri等挨著手機說話的近場語音互動技術不同，中遠距離拾音背景環境複雜噪音更多，不對聲音進行處理單靠電腦很難做識別。”李智勇向車東西說道，“而這正是我們聲學+電腦科學+互聯網的團隊結構的優勢。”

李智勇告訴車東西，聲智科技目前已經擁有百餘家客戶，包括BAT、小米、華為、360等巨頭與大型科技公司的智能語音互動設備都會用到其產品與技術。

除了前兩步，李智勇透露聲智也在向上述第3和第4步進發，目前已經與各大內容平台完成了對接，從而為一些傳統行業的客戶提供一套涵蓋4大步驟的完整解決方案。

三、車內語音互動的第一要務是便利

對於行駛在公路上的汽車來說，用語音命令來操作導航、音樂系統，或是控制門窗與冷氣機系統被普遍認為是比低頭去按按鈕更好的互動方式。最近一兩年上市的新車，無論是國產還是合資品牌，無一不在強調其語音互動功能，甚至有廠家也就著語音互動技術大肆宣傳智能和互聯網特性。

但就目前一些車型的實際體驗來說，其語音互動系統離智能二字還有段距離，表現為語音識別準確率不夠，對語句意思理解不到位，或者是控制功能不足等。

“我覺得目前是一些廠商把出發點搞錯了。”對於目前車內語音互動市場的現狀，李智勇這樣評論道，“我們首先應該解決便利問題，其次才是實現智能。”

在李智勇看來，由於技術所限，目前的各類人工智能技術都是弱人工智能，基於此的語音互動技術也是這樣。在這種背景下，車企與技術公司應該先解決最基礎的便利性問題，而後才是追求智能。

例如使用語音技術控制導航系統，應該先將產品做到能夠準確識別命令，準確搜索到地點，並迅速執行導航操作，而不是去琢磨讓語音系統能夠聽懂多種方言，或者是去猜測用戶的目的地等。

那麽給汽車與給音箱等設備提供語音互動技術究竟有何異同呢？李智勇認為，兩者整體的邏輯相似，最大的不同其實在於聲學前端處理與用戶判斷兩個方面。

首先，車內場景環境比室內場景更為複雜多了風噪、胎噪、其他交通車輛的噪音等，同時還包括車內的音樂與乘客之間的交談等，與室內場景區別較大，因此需要不同的降噪算法。

其次，車內語音互動系統還要具備判斷不同乘客的能力。例如“打開車窗”這個命令，如果系統不知道是誰在說話，就不知道究竟是要打開哪一扇車窗，這就要求在車內設定分布式麥克風陣列來予以解決。

“與技術相比，汽車開發的漫長周期和複雜流程才是真正的挑戰。”在講完車內語音互動技術的特點後，李智勇補充道。以設定分布式麥克風陣列為例，在車機裡安裝麥克風需要找車機的生產商，而如果還要在車頂和車內其他位置安裝，又要與其他汽車零組件供應商去溝通，比消費電子產品複雜太多。

四、與騰訊一起讓語音互動上車

就在聲智科技以其拾音和語音識別方案在消費電子領域攻城略地之時，其也在盯著中國每年2000萬+輛的汽車市場。

李智勇告訴車東西，2017年末的時候其也騰訊達成了合作，共同研發一款搭載語音互動功能的車載系統，聲智在其中提供拾音及語音識別模塊。在聲智科技辦公室，車東西也看到了這款車載系統的Demo原型，採用了長條狀的矩形設計，整體尺寸非常大。

▲聲智科技與騰訊合作的車機樣機

據悉，這款車載系統目前已經研發完成，騰訊正在與某自主品牌合作推動其量產裝車事宜，年底即可看到搭載該車機的3款量產車型上市。

“正如此前說的，由汽車產業比較複雜，因此我們前期在切入汽車產業時也會與騰訊這類合作夥伴一起推動。”李智勇說道。與此同時，李智勇透露稱其也在尋求與車企組建合資公司這樣的途徑來實現自家技術的量產裝車。

在採訪最後，車東西與李智勇也談到了車內互動技術的未來發展趨勢。

車東西觀察到，以蔚來ES8的NOMI為代表，車載互動系統正在具象化，例如蔚來NOMI這樣的實體形象可以通過旋轉來看著司機乘客，並作出相應的表情，增加語音互動系統的趣味性。

▲蔚來汽車的NOMI

李智勇則認為，具象化只是第一步，車內互動系統未來還會與視覺和其他技術結合，做到“讀懂”司機乘客。例如車內攝影頭能通過觀察駕駛員的面部表情來判斷其心情狀態從而有針對性地與之交談，或是在看到副駕駛有異性時會自動播放一些浪漫的音樂等。

“車內互動是一個非常有意思的領域，聲智也會從語音互動開始，向更多互動方式前進。”李智勇總結道。

結語：從“小事”開始創業

產品層面，聲智科技主要圍繞語音互動系統的拾音與識別兩個步驟進行布局，其中又以遠場語音互動技術為其最強項。

表面上看，聲智科技隻涉及了語音互動產業鏈裡的“小部分”，但其實是在對自己的強項進行深入鑽研，僅在遠場語音互動領域，聲智就開發了包括波束成型、噪聲抑製、人聲干擾抑製、語音增強、聲源測向、聲紋識別等幾十個細分技術方向，並以這種專業度拿下了BAT、360、小米、華為等一系列巨頭或大企業客戶。