每日最新頭條.有趣資訊

AI 推動硬體變革,第一步是建立成熟的互動模型

具體的做法是:優化現有互動模型+建立新的互動模型

-shenzhenware-

互聯網與 AI 的到來,往往伴隨著新的技術以及新的產品。但讓新產品滲透到人們的生活中並不是件簡單的事情,其中,新產品所承載的人機互動體驗是否足夠好,起到至關重要的作用。

對於產品廠商來說,將一個新興的人機互動模式從頭進行研究和打磨,意味著高成本、長周期的投入,但以他們有限的精力來看,卻是力不從心。

但好在有這麽一些研究機構願意全身心投入其中,並積極將研究結果共享出來,推動行業的共同進步。

百度人工智能互動設計院就是這麽一個專注研究和探索人機互動應用的機構,於 2017 年 11 月成立,使命是引領與定義最好的人機互動。

在最近由深圳灣主辦的「ON THE GO:隨行 AI 場景的產品創新」峰會上,百度人工智能互動設計院人機探索實驗室負責人李士岩發表主題為《人機互動如何推動硬體周期性變革》的演講。

以下為演講實錄,內容經深圳灣整理和編輯。

新互動、新產品、新應用存在相輔相成的關係

百度人工智能互動設計院研究方向有三個層次,最底層是「輸入」與「輸出」,即聽覺、視覺、觸覺、嗅覺、情感。中層是互動模型,語音、手勢、多模態互動。上層則是基於這些互動模型產生的硬體生態和服務生態。

我今天演講的幾個關鍵詞是新互動、新產品、新應用,這三者存在著內在推動關係與周期性規律,人機互動的本質是:基於軟硬一體化和傳感器的輸入反饋循環,人機互動的進化是計算平台迭代的基礎,新計算平台的規模化會促進應用生態的繁榮。

從 PC 到智能手機,回顧人機互動的發展歷程

在介紹百度人工智能互動設計院的一些研究進展之前,我們先用「從 PC 到智能手機」這樣一個典型的發展案例來講解新互動、新產品、新應用這三者的關係,幫助大家更好的理解。

最早的滑鼠於 1968 年秋季聯合計算機會議上發布,那時候的滑鼠只能移動 XY 軸。

「滑鼠之父」格拉斯·恩格爾巴特

而真正形成現代的滑鼠互動模型,是由施樂公司在 1981 年發布的 Xerox Star 模型,它具備了目前大家都熟悉的操作:左擊-選擇、雙擊-打開、右擊-更多。

從 1968 年到 1981 年現代滑鼠互動模型的形成,這期間經歷了 13 年的時間。而正因為滑鼠互動模型形成,從 90 年代到 20 世紀初,PC 硬體生態得到了發展,使得我們產生了基於工作的軟體生態,基於在線教育的軟體生態,以及基於娛樂的遊戲生態。

事實上,早在 1965 年,人機互動歷史上就已經有了手指的位置檢測技術,而將這種技術真正轉化為現在的點擊、Pinch、長按的成熟互動模式是在 2007 年。

手指的位置檢測技術形成於 1965 年

這種成熟的互動模型,使得眾多觸摸設備得以被規模化,尤其是智能手機。以手機為主的觸摸設備的規模化,直接促進了各種服務生態的繁榮,比如滴滴、餐飲 O2O 等。

從上帝視角來看人機互動和產品,它的完整歷程是:先有一個技術起點,包括算法、設計、人因工程、硬體,接著將這些技術起點打包成一個成熟的互動模型,應用到新的計算平台上。計算平台的發展,進一步促進了衣食住行等服務生態的發展,而服務生態的發展將反過來促進硬體規模化。

我們正處於硬體生態的末端,但 AI 可改變這一切

目前,我們本質上正處於移動硬體生態的末端,不只是因為人口紅利的消失,更是因為觸摸+傳感器所能激發的服務生態走到了盡頭,近幾年不再看到一個新的服務生態被大規模發展。所以說:

整個硬體的周期始於技術的升級,發展於人機互動的成熟,終結於生態枯竭於規模化的終止。

而 AI 的到來將改變這一切。

AI 讓最底層的輸入輸出層擁有了聽、看和思考的能力,基於 AI 這個技術起點,目前已經形成了語音互動、手勢互動、應用各種輸入輸出層結合形成的多模互動。

由於這種互動模型尚未成熟,智能音箱只是其中一種目前看起來比較有前景的計算平台,但還有更多平台需要被創造,也更談不上新的計算平台的規模化,服務生態沒有達到繁榮。所以我們認為:

目前的當務之急是要將待成熟的人機互動推向成熟。

將待成熟的人機互動推向成熟

要改變這一現狀,我認為努力的方向有兩個,第一個是優化現有互動模型,提升產品體驗。第二個是發展新的互動模型,衍生全新品類。

1. 優化現有互動模型,提升產品體驗。

在這方面,百度 AI 人機互動設計院主要把精力花在語音互動的優化上,具體如下:

在語音互動的 5 個節點中:喚醒、響應、輸入、理解、反饋,將每一個維度拆分出來不同的維度,進行深入的研究和探索。

# 1.1 語音互動的響應時間是否就越快越好呢?

經試驗研究發現,語音互動的最佳響應時間是 650ms,底線是 2150s。與觸控互動對反饋的要求是越快越好不同,語音互動的響應時間卻不是越快越好。

經研究發現,智能音箱對語音指令的響應時間在 1250ms 以內是一個較優的區間,其中 650ms 為最佳體驗值,遠好於 200ms,過快的響應時間會給用戶帶來緊迫感。

# 1.2 什麽樣的喚醒詞用戶是認為好的呢?

喚醒詞為疊字,或陰平、尾音聲母為零聲母的好。研究表明,用戶最不喜歡「品牌+名字」的命名方式,Z/C/S 的舌尖音最不被歡迎。

# 車機螢幕互動、手勢操作等人機互動的研究:

其次在車機螢幕互動、手勢操作方面,百度 AI 人機互動設計院也進行了大量的研究和探討。比如,在車載駕駛情況下,用頭戴式設備判斷用戶開車時目光集中分布的部分,從而找到最自然手勢操作及對應關係。再比如,從多個手勢模型測試中,找到最適合用在「暫停」、「關閉」的手勢。

2. 發展新的互動模型,衍生全新品類

#2.1 用戶情緒應對模型

在這方面,百度 AI 人機互動設計院研究了用戶情緒應對模型,即用戶的情感互動模型。

情感是人的剛需,但是卻人機互動缺失的一個維度。人機互動發展的幾十年來,機器的 IQ 得到發生,但 EQ 沒有得到提升。而實際表明,兩個 IQ 差不多的產品,EQ 更高的那個產品一定更受歡迎。由此看來,情感互動模型在人機互動中起到重要的作用。

情感互動模型分兩個維度,分別為情感識別以及識別情感之後的應對。

情感識別方面,基於東方人的情緒面部數據並進行訓練,百度 AI 人機互動設計院打造了適合東方人的情感識別系統。

至於識別情感之後的應對,我們將模式場景分為兩種,第一種是附帶情緒的任務,第二種單純負向情緒的化解。

在實驗室中,我們用不同的應對策略看用戶的腦電曲線。比如,在附帶情緒的任務中,當用戶用悲傷的情緒說一個任務,最好的策略是先用幾句話回應情緒再說解決方案,當用戶憤怒的時候,則要直接提供解決的方案。

語音互動還有一些特殊的情況,比如在用戶指責產品的時候,語音應給予禮貌的回應,表明自己的立場,而不是謙卑的「跪舔」。

人類有 27 種情感,通過情感識互動模型,我們能夠將這 27 種豐富的情感一一賦予機器。

#2.2 更自然語音互動模型

在新的人機互動模型方面,我們研究的第二個維度是更自然的自然語音互動模型。

根據用戶的專注度和與設備的距離,可以將人機互動分四個象限:低專注距離遠和距離近、高專注距離遠和距離近。

在我們人和智能音箱互動的過程中,讓音箱播放歌曲是屬於第三、第四象限的互動範疇(遠距離、低專注度),在這個範疇內,也會經常出現為了完成一個連續任務而多次呼喚音箱名字的情況。

其中,第一象限的近場高專注度互動,是目前帶屏音箱可以提供的。但針對這一產品品類,目前還缺乏真正有效的互動模型來解決一些互動上的問題。對此,百度 AI 人機互動研究院在過去一年裡,研究了名為 Easytalk 的互動模型。

在 Easytalk 的模型中,依托複雜的算法,能在不用麥克風陣列、不用喚醒詞的情況下,支持不斷打斷的語音互動,並且不受其他環境因素影響(比如噪音、其他用戶)。基於這個互動模型,每 4 輪對話效率能提升 5%,非 ONE SHOT 主觀感受體驗提升了 56.2%,ONE SHOT 主觀感受體驗提升了 31.2%。

我們認為,近場高專注度互動才是未來真正能夠帶來內容和生態爆發的場景,從人機互動的角度看,帶屏智能音箱具備了語音、手勢、視覺等更豐富的輸入輸出能力,既可以滿足遠場非專注的場景,更可以滿足近場、專注的場景,未來有可能真正激發一個繁榮的服務生態。

在未來,這套 Easytalk 模型將被應用在手機、智能音箱、智能機器人上。

尾聲

百度 AI 互動設計院人因工程方向和人機探索實驗室一面腳踏實地,一面仰望星空。並且,我們有著最專業的設備,專業的 AI 人機互動實驗室。

微信號:shenzhenware

整理、編輯:大林/ 深圳灣

審校:森林木/ 深圳灣

/////////////

獲得更多的PTT最新消息
按讚加入粉絲團