每日最新頭條.有趣資訊

語音識別已成紅海,聲紋識別正成為AI領域新熱點

記者 | 饒文怡

過去幾年有不少人工智能領域獨角獸企業崛起,比如視覺識別領域的商湯科技和曠視科技,語音識別領域的雲知聲等。但在聲紋識別領域,還沒有明顯一些公司可以算是一馬當先。

這背後的原因在於,視覺識別和語音識別所解決的往往是一種有關共性的問題,以語音識別為例,它所要做的只是將說話人的語音內容識別出來。然而聲紋識別除了要識別文本內容之外,可能還要涉及到識別說話人的身份等方面,多種因素的疊加使得這項技術的落地有更多的難度。

不過,隨著技術的逐步完善,已經有一些初創企業開始推出了相應的技術解決方案,並且開始在各個細分行業中落地。

成立於2016年的聲揚科技是聲紋識別這個賽道中的一家初創企業。公司創始人兼CEO李亞桐認為,從最近整個行業展現出的狀況來看,聲紋識別的發展程度已經類似2014年前後的視覺識別,正處於一個早期階段,並且等待著爆發期的來臨。

“目前市面上,以語音識別、轉寫為主打方向的SaaS服務提供商已經有很多;鑒於聲紋識別的技術難度要更為複雜,這個領域應該還在剛起步階段,但隨著應用場景的越來越多,它很快會迎來爆發。”李亞桐對界面新聞記者分析稱。

他認為,相比於人臉識別和指紋識別,聲紋的采集只需要麥克風模塊,成本相比於攝影頭或者指紋識別模塊而言要低,采集的方便性和安全性則要高,因此這項技術有著比較明確的市場前景。

在國內,有助於聲紋識別落地的行業政策已經頒布。2018年11月,中國人民銀行正式對外發布《移動金融基於聲紋識別的安全應用技術規範》金融行業標準,這意味著聲紋識別技術得到金融監管部門的認可,也為聲紋識別技術進入移動金融領域解決了標準難題。

此前,聲揚科技也已經在海外的金融相關業務落地。2018年,它們在印尼為當地的養老基金項目打造了一套聲紋識別系統,讓當地居民通過閱讀特定文本的方式來通過驗證,申領養老金。

以往,當地居民申領養老金需要在線下的銀行機構等排隊等候,這一方式的不便之處在於,既佔用了居民的生活時間,也導致機構需要投入額外的人力來進行信息驗證。目前,聲揚科技的方案已經覆蓋了當地250萬名居民。

在打造技術方案的過程中,聲揚科技的技術團隊不可避免地會遇到語音方面的一些複雜問題。比如說,作為一個多民族國家,印尼國內居民口音的多樣性,以及文化水準的差異性,都會使得用戶在讀出同一段文字時有不同的效果。另外,當地居民在采集聲紋時使用的不同設備,如智能機和功能機,也都會影響到聲音的真實性。

為了解決這個問題,聲揚科技在複雜的場景下,基於自身的神經網絡技術做了很多用戶測試;除此之外,養老基金的識別系統除了聲紋識別外,還有指紋識別和人臉識別模塊,三種方式之中的兩種通過了,驗證才算正式完成。

目前,聲揚科技的方案已經服務了印尼當地250萬名居民,並做到了99.5%以上的準確率。如今在國內,聲揚科技也已經和一些金融機構達成了合作。

“人行的規範出來之後,需求也相應起來了。”李亞桐表示,除了金融領域之外,機器人、車載、安放等領域,之後也都是聲紋識別首要的幾個的落地場景。

除了聲紋識別的技術方案之外,聲揚科技也在發展自己的語音識別方案,比如語音轉文字等。公司首席科學家張偉彬對界面新聞記者表示,單一的技術儲備很容易帶來技術方案的不完整性,有的場景可能需要幾種技術一起結合;因此在語音識別方面進行布局,也是構建技術壁壘的必要舉措。

就在最近,聲揚科技也完成了香港X科技基金領投的Pre-A輪融資。在AI企業逐漸成為投資風口的大背景下,李亞桐認為,資本的活躍能夠加速技術的落地,並且為AI應用帶來更多的新變革。

“現在還只是一個弱人工智能時代,長遠來看,AI需要和行業以及場景結合,提升效率;可以說,有多少行業就需要多少個方向的AI,這個領域無疑需要更多資本的進入。”張偉彬說。相比於行業格局已經趨向穩定的語音識別和視覺識別而言,聲紋識別確實是一個潛力有待挖掘的賽道。

獲得更多的PTT最新消息
按讚加入粉絲團