聞音識人？美專家發現人人都有「聽覺面孔」 | 科學有意思

作者 | 周亦川

來源 | 搜狐健康

一個人通過聲音，被別人識別出來。聲音除了傳遞語言本身的資訊，還傳遞了你的情緒，傳遞了你的聲音特色。最新的研究發現，這種識別的過程，是雙向的，聲音還會在聽者的大腦裡，有一個信號對比的過程。聽者對你原有的主觀認知，加上聲音傳遞過來後的疊加，最終讓聽者從人群中識別出你的存在。

網傳「中年男人判斷標準之一是，接電話第一句『喂』，你說的是第二聲還是第四聲？」——網友紛紛留言，效果準確，一個字竟判明了「小鮮肉」和「中年油膩男」也正是這個道理。

最近召開的美國聲學協會會議上，加州大學洛杉磯分校語音感知實驗室的首席研究員喬迪·克裡曼介紹，你的聲音就是你的聽覺面孔。

音調反映對話中的社會地位

斯特林大學一項心理學研究介紹，人類會根據與誰交談、談話中的主導地位來改變聲音的音調。

研究發現，與人交談的過程中，當你碰到地位更高的人，碰到讓你感覺更強大的人，你往往會提高音調，這樣更能讓你感受到自信，無所畏懼。

相反，斯特林大學維托裡亞·米列娃博士說，遇見比自己卑微的談話對象，或沒有威脅的談話對象，讓你有安全感的談話對象，反而，你會降低你的音調水準。

研究人員還發現，自我感覺很好的人，很自信的人，認為自己有較高威望的人，他們相信自己受到尊重，別人會重視他們的意見，賦予他們更多的社會地位和權力。這種人，無論和誰說話，他們的音調都不會改變，這表明他們更平靜，更能掌控局勢。

從聲音的「平均」表徵辨別聲音個體「特徵」

多年不聯絡的朋友，我們常說連聲音都聽不出來了？而對於熟識的人，哪怕他的聲音陷入一群人的說話聲音中，你閉著眼也能分辨出哪個是老王，哪個是小趙？一個沒有來電顯示的電話，你能聽一耳朵就分辨出是誰打的……這些對你來說，自然而然的事情，背後的機理可能還真挺複雜的。

克裡曼在美國聲學協會的報告中指出，個人的聲音可能會隨著時間的推移而變化，這是因為他們的情緒狀態、健康狀況、談話內容，或者其他許多因素使得將其量化變得特別困難，即機器很難通過這些細微區別判斷是哪一個人（舉例來說，老王很生氣或者心情很愉悅時說話，我們都可以聽出是老王，但機器卻可能認為是兩個人）；而通過語音學、認知心理學和神經心理學的大量證據表明，聽者將所有這些說者組織成成一種「平均」表徵，對比其它個體與原型的偏差。在這種情況下，即使是一個音節也能承載足夠的資訊來區分一個聲音和另一個聲音。

克裡曼對50名婦女的錄音進行了數字分析，這一分析考察了構成朗讀句子的母音和輔音的多個聲學參數，例如基頻、諧波頻率相對於彼此的強度，以及它們與語音內部潛在雜訊水準的比較。這些句子為每個特徵提供了一個量化的平均值和範圍，通過使用她們的樣本句子的隨機集合，將所有說者的語音與這組特徵進行比較，可以區分究竟是哪一個人說的。這項工作如果交給機器去做，可能需要一分鐘完成去除混淆的工作，而人類隻用幾秒鐘即可完成，確實很有意思。

換言之，人對於聲音的判別，是一個雙向的對比過程，而並非單向的接受判別。

為何有人喪失了聞音識人的功能？

聲音的識別來源於我們的大腦，那麼腦部疾病是否會導致我們分辨不出聲音？發表於《大腦》雜誌的一份研究中，萊比錫馬克斯·普朗克人類認知和腦科學研究所科學家克勞迪婭·羅斯旺多維茨對58名腦損傷患者進行觀察，測試他們學習和識別聲音的能力，特別是中風患者。

科學家們觀察了參與者的腦部掃描——他們腦部結構和損傷的高解析度影像。結果發現腦內右後顳葉某些部位有病變的人，在辨認聲音時會遇到困難。他們認為顳上後回（STG）是語音識別的關鍵。在參與研究的人中還有一名聲音失認症的人，如同我們常說的「臉盲」，他們是「音盲」——無法通過聲音識別人，甚至無法識別自己的母親或孩子。他們的腦後右側顳葉的變化導致了相應的缺陷。

羅斯旺多維茨指出，腦內右後顳葉的變化導致了相應的缺陷，這種缺陷在「音盲」患者中十分常見。有很少的一部分人出生時就存在，有些在中風後出現。

語音識別安全嗎？你的聲音會不會被黑客模仿

Siri、微信和其他基於語音的智能手機應用程式雖然方便，但可能會讓你面臨日益嚴重的安全威脅：語音黑客。只需幾分鐘的音頻樣本，攻擊者就可以重放您的聲音，以欺騙人們以及頂級數字安全系統，潛入你的銀行帳戶，這些都是非常可怕的事情。

在第37屆分散式計算系統國際會議上發表的一項研究報告中，來自於紐約布法羅大學長官的工程師團隊創建一個阻止語音黑客攻擊的應用程式，可以阻止基於機器的語音模擬攻擊。

安全和隱私研究實驗室主任、該研究的主要作者之一奎仁博士說:「你生活的方方面面內容現在都在你的手機上。不幸的是，黑客無處不在，有一個完整的地下灰色市場出售你的密碼和你的個人資訊。」

奎仁介紹：「技術快速進步，我們的防禦策略是使用多道防線，稱之為縱深防禦。語音識別可能會成為更常見的安全工具，因為更多的互聯網連接設備沒有觸摸屏或鍵盤。」

語音識別攻擊有多種形式。黑客可以合成你的聲音，但是這可以被現有的演算法檢測到；其他人可以模仿你的聲音，現有技術也能夠檢測到這一點。

但是第三種方法是重播某人的真實聲音，這是一項很強的攻擊技術，這也正是奎仁的防禦研究成果。奎仁指出，任何重播都必須在揚聲器上播放，揚聲器具有磁場，那麼我們就可以使用手機中的磁強計來探測這個磁場。系統使用手機的軌跡映射演算法來測量揚聲器和手機之間的距離，它要求手機用戶在解鎖語音識別時靠近電話。也就是說，任何人想通過機械揚聲器重播語音時都要讓兩者足夠靠近，這樣手機就可以檢測到磁場，警告異常。

最後，當使用語音識別時，防禦系統要求手機在嘴前移動-擺動。那麼，當播放器的聲音來源移動時，磁場也會發生變化，那麼手機程式也可以檢測到這一點。

將來是否會有機器人通過演算法模擬人的聲音情緒以假亂真呢？世界真奇妙啊！

資料來源：

TAG: |