每日最新頭條.有趣資訊

AI的看圖說話準確率比人類還高!阿里AI再摘一冠

近日, 在第二屆視覺對話競賽Visual Dialogue Challenge中,阿里AI擊敗了微軟、首爾大學等十支參賽隊伍,獲得冠軍。

視覺對話競賽由美國佐治亞理工大學、Facebook人工智能實驗室(FAIR)等機構聯合全球視覺技術領域頂級學術會議CVPR發起,是目前視覺對話領域最權威的競賽之一。

該競賽要求參賽的AI在看完近萬張圖片後,回答出人類對於任一圖片任一內容的提問。競賽結果顯示,阿里AI以74.57%的準確率獲得冠軍,將上一屆比賽的紀錄提高了16.82%。在相同的數據集中,人類的準確率僅為64.27%。

傳統的視覺AI主要針對目標的檢測和識別,例如識別出圖片是否是一隻貓,但對複雜場景中目標之間的邏輯關係理解、推理能力較弱,無法回答“這隻貓旁邊的男生穿了什麽顏色的衣服”等複雜問題,也難以將圖片信息轉化為人類理解的語言輸出。

阿里AI的突破在於提出了“遞歸探索對話模型”,綜合集成了圖像識別、關係推理與自然語言理解三大能力,它通過高效利用標注信息學習出模仿人類認知複雜場景的思維方式,能夠有效識別圖片裡的實體以及它們之間的關係,推理出圖片所描述的事件內容,並通過對上下文進行有效建模,理解人類提出的問題及真實意圖,給出自然準確的回復。

視覺對話是近年來快速崛起的AI研究方向,目的在於教會機器用自然語言與人類討論視覺內容。如果說視覺識別技術,讓機器具備了視覺能力;那麽視覺對話技術,則使得機器擁有了對真實視覺世界的理解與推斷能力,意味著AI的認知能力將邁上新的台階。

據了解,這項技術未來將被應用在人機互動諸多場景: 地震後在廢墟中尋找幸存者的救援機器人,能夠更加及時、高效地綜合指揮指令和場景信息作出行動;視障人士可以通過提問阿里AI,理解網絡照片中的內容,了解自身所處的周圍環境;無人駕駛車輛對影響因子的意圖理解會更為準確,乘客的乘坐體驗更好。

獲得更多的PTT最新消息
按讚加入粉絲團