麻省理工新型AI技術融合了語音和物體識別技術

公開日: 2018-10-12

本文由騰訊數位獨家發布

麻省理工學院的研究人員已經創建了一個新的人工智能程式，它不僅能夠同時識別影像和語音中的物體，而且還能積極地將兩者結合起來，從而更有效地理解和利用兩者。這個人工智能程式可以分析帶有音頻標題的影像，然後把這兩個資源放在一起，然後找出哪個對象對應於標題的哪些部分。它在測試中通過突出顯示影像區域和對象來演示這一點，而它們是由標題描述的。根據該項目的研究人員的說法，這比傳統的語音識別或影像識別訓練更自然、更有機。從本質上講，人工智能正在像人類一樣學習，這將使它更加靈活，從而在未來更有能力。

這個人工智能程式實際上是一個以前的模型的擴展，它能夠將單詞和短語與影像的主題集合相匹配，比如顏色和原型。該模型使用兩個卷積神經網絡，分別處理語音輸入和影像輸入，然後一個更高的層組合這些神經網絡並構建關聯。研究人員向模型展示了正確和不正確的關聯，以幫助它學會識別或缺乏聯繫。

這個項目的意義是相當大的，而且是顯而易見的。這一發現不僅可以在未來的模型中實現更快的語音識別和影像識別AI訓練，還將為基於卷積神經網絡的人工智能鋪平路線，這種神經網絡不僅在結構上模仿人類的大腦，而且在學習方法上也是如此。理論上,這將打開通往諸如人工智能與常識,知道它是不好開車的懸崖,或人工智能識別和適當應對人類情感,如知道一個哭泣的孩子可以通過做或說一些安慰孩子變成破涕為笑。改進的基於人工的翻譯也是一種可能，因為人工智能有可能在同一時間內，在相同的材料上學習單詞和其他語言的對等物，即使在沒有足夠的語言轉錄語言來進行傳統的語音識別或翻譯訓練時也是如此。

來源：androidheadlines

麻省理工新型AI技術 融合了語音和物體識別技術

麻省理工新型AI技術融合了語音和物體識別技術