每日最新頭條.有趣資訊

依圖進軍語音賽道,與微軟、華為達成合作,多模態成勢

12月11 日,起步於電腦視覺的依圖正式進軍語音識別領域,宣布其在全球最大的中文開源數據庫AISHELL-2中取得了短語音聽寫字錯率3.71%的好成績。

依圖還宣布與微軟合作推出依圖開放平台,提供語音識別算法API及大量的數據集;依圖同時宣布與華為合作,結合依圖的軟體優勢和華為昇騰(Ascend)系列芯片Atlas 300 AI加速卡的硬體優勢,發布軟硬體一體化的智能語音聯合解決方案。

值得注意的是,依圖針對不同場景,採用了同一種語音識別算法,單個算法模型表現出了多場景的適用性。

資訊源:

https://www.leiphone.com/news/201812/GmTkTYOsCXZ0u4Bs.html

點評

目前,多家從語音或視覺出發的公司,在經過各場景的商業探索後,已形成相似判斷:AI時代最重要的互動入口不會隻包含單一的語音或影像功能,而是影像、語音等多模態技術的融合。

在依圖之前,同樣屬於“電腦視覺四小龍”的雲從已在今年10月發布全新Pyramidal-FSMN語音識別模型,將錯詞率降低至2.97%,超過受過嚴格訓練的專業人類速記員。

今年7月,智能語音公司雲知聲聯合創始人、芯片技術負責人李宵寒也曾在接受採訪時說:“人工智能設備是讓機器更像人,這樣的話就必須提供多種感知能力,影像是必不可少的環節。”雲知聲目前也確實在做影像方面的布局。

未來,市場上會出現更多像雲知聲、雲從、依圖這樣的“跨賽道”行為;打造多模態技術能力將成為人工智能行業的重要趨勢。

獲得更多的PTT最新消息
按讚加入粉絲團