每日最新頭條.有趣資訊

AI更懂人話:谷歌發布全新對話數據集,模仿智能助理

新智元報導

來源; google

編輯:元子

【新智元導讀】谷歌發布了Coached Conversational Preference Elicitation(CCPE)和Taskmaster-1 對話數據集,在設計中獨特地模仿當今基於語音的數字助理,在自動化系統的環境中保留口語對話的特徵。

今天的智能助理可以完成各式任務並返回多個主題的個性化結果,例如電影列表、餐廳預訂和旅行計劃。

然而,儘管近年來取得了巨大進步,但尚未達到人類的理解水準。部分原因是由於缺乏高質量的訓練數據,這些數據能夠準確地反映人們向智能助理表達他們的需求和偏好的方式。

這是因為這些系統的局限性誤解了我們說的話,和我們希望被理解之間的關係,我們只好遷就智能助理,來說它們能夠理解的詞語。也就是說,今天我們看到的智能助理對對話的理解,遠沒有達到人類的複雜度水準。

為解決這個問題,谷歌發布了Coached Conversational Preference Elicitation(CCPE)和Taskmaster-1對話框數據集。

這兩個系列都使用了一個綠野仙蹤平台,該平台將兩個參與口語對話的人配對,就像那些想要擁有真正有效的智能助理的人一樣。

對於這兩個數據集,內部的綠野仙蹤設計旨在獨特地模仿當今基於語音的智能助理,在自動化系統的環境中保留口語對話的特徵。

由於人類“助手”能夠準確地理解用戶所要求的內容,因此我們能夠捕捉用戶如何將自己真實地表達給“完美”的智能助理,以便我們可以繼續改進這樣的系統。

CCPE數據集的全部細節在谷歌發表的研究論文中有所描述,該論文將在2019年的話語和對話特別興趣小組年會上發布,而Taskmaster-1數據集論文將在2019年大會自然語言處理中的經驗方法研究出現。

偏好啟發

在面向電影的CCPE數據集中,冒充用戶的個人對著麥克風講話,並且音頻直接播放給冒充智能助理的人。

“助手”輸出他們的響應,然後通過文本到語音向用戶播放。這些雙人對話自然包括在使用合成對話難以複製的雙方之間自發發生的不流暢和錯誤。這創建了一系列關於人們電影偏好的自然而有條理的對話。

在對這個數據集的見解中,谷歌發現人們描述他們的偏好的方式非常豐富。該數據集是第一個大規模表征該豐富度的數據集。

谷歌還發現,偏好並不總是與智能助理的方式相匹配,或者與推薦網站的方式相匹配,也就是選項的特徵。

換句話說,你最喜歡的電影網站或服務上的過濾器可能與你在尋求個人推薦時描述各種電影時使用的語言不匹配。

面向任務的對話框

Taskmaster-1數據集利用上述方法和單人書面技術來增加語料庫大小和說話者多樣性,使用了大約7700寫入“自我對話”條目和約5500雙人口語對話。

對於書面對話,谷歌讓人們根據每個任務概述的場景自己創建完整的對話,從而扮演用戶和助手的角色。

因此,雖然口語對話更接近地反映了會話語言,但書面對話既適當豐富又複雜,但更便宜,更容易收集。

該數據集基於六個任務之一:訂購披薩,創建汽車維修預約,設置租車,訂購電影票,訂購咖啡飲料和預訂餐廳。

此數據集還使用簡單的注釋模式,為數據提供足夠的基礎,同時使工作人員可以輕鬆地將標簽始終應用於對話框。

與傳統的,詳細的策略相比,谷歌隻關注每種類型的會話的API參數,而不僅僅是執行事務所需的變量。

例如,在關於安排乘坐共享的對話框中,谷歌將“到”和“從”位置標記為汽車類型(經濟,豪華,游泳池等)。

對於電影票,谷歌標記電影名稱,劇院,時間,票數,有時標記螢幕類型(例如3D或標準)。語料庫版本中包含完整的標簽列表。

谷歌希望這些數據集對於研究界在對話系統和會話推薦中的實驗和分析都是有用的。

獲得更多的PTT最新消息
按讚加入粉絲團