這個網站只要錄音1分鐘，就能克隆出你的聲音

從遙不可及到到成為現實，AI 技術的發展令人驚訝。

只需要你的幾段話，機器就能克隆出你的聲音，這樣的事情你相信嗎？

這種似乎只有在過去電影和科幻作品裡才會出現的情節，最近在極客之選（微信號 GeekChoice）發現的這個名叫 Lyrebird 的網站成為現實，並且明白無誤地呈現在我們面前。

影片 | Lyrebird

Lyrebird 取自一種生活在澳洲的特殊鳥類——琴鳥，它最大的特點是能模仿周圍的聲音，只要聽到聲音信號，它都可以很自然模擬出來。事實上 Lyrebird 網站做的就是類似的事情。

打開網站，主頁上清晰的寫著「我們創造世界上最真實的人造聲音」（We create the most realistic artificial voices in the world），看起來有點讓人疑惑，不過下方寫著這樣三條注釋，表明網站的目的：

通過賦予獨特聲音使你的產品獨特；

在你需要時創造你自己的聲音助手；

為你的應用集成用戶自己的聲音。

既然是創造聲音的網站，那麽它到底能有多像？這就引起了我們的強烈好奇，雖然在網站 DEMO 部分，我們聽到了官方合成的足以以假亂真的川普以及奧巴馬的聲音（文章開頭影片部分），但那和我們以前見到的 AI 影片作假都更像是展示技術而已，究竟能否模擬出坐在電腦前的你我呢？

帶著這個問題，我們又看到官方一個名為「CREATE YOUR OWN VOCAL AVATAR」的功能，上面寫道只要錄製 1 分鐘，就能創造出屬於每個人的聲音，這就讓我們迫不及待想要試試看這扇新世界大門背後的秘密。好在這個功能並沒有使用門檻，官方只要求使用前先注冊，就能免費使用。

懷著半信半疑又滿心期待的心情，我開啟了特別的錄音之旅。Lyrebird 官方要求每個人必須至少錄製 1 分鐘，即 30 段英文，這些英文是來自官方素材庫中的隨機句子，或長或短，但都不算太難。

點擊「Start recording」，對著麥克風念出句子，點擊上傳，接著出現下一個句子，點擊「Start recording」...... 如此往複，完成 30 句就算采集成功。值得注意的是，每一句話錄製過程中，如果你感覺不滿意，都可以選擇重新錄製。

經過幾分鐘的錄製，30 句話上傳完畢，這時會彈出一個視窗，上面告訴大家，錄製的材料越多最終呈現的聲音效果越好，30 句話的英語實際上是 1 分鐘的素材，最好能夠錄製 5 分鐘，也就是 150 句話，效果會更好。當然，其實 30 句話也符合標準，點擊「創造我的聲音」，見證奇跡的時刻就要到了。

Lyrebird 網站會在雲端利用 AI 技術進行分析和合成，大概一分鐘左右，我們終於看到官網出現了一個新的對話框。而這就是最終我們的「聲音製造器」。

在對話框輸入任意句子或單詞，你就能聽到被機器製造出來的聲音，聽起來和我本人的聲音的確非常接近，即便是稍長一點的句子，它也能發出很正常的聲音，給人一種更專業的感覺，不過也並非全無缺點，至少我發現了兩個目前還不完美的方面：

第一，聲音表現出來的儘管非常還原本人，但能聽到其中夾雜的細微電流聲，嘗試多次都會這樣，仔細聽其實和真人的聲音會有差別；

第二，由於用英語錄製素材，輸出的也是英語句子，所以整體雖然在英語上可圈可點，但當讓它說出中文句子時，表現的並不好。

儘管如此，Lyrebird 仍然讓我們感到驚訝，在創造自己聲音這件事情上，至少並不如我們想象的那麽困難。實際上，它目前的效果已經比去年好了不少，就在上個月，Bloomberg 記者 Ashlee Vance 就用機器合成的句子跟家裡人打電話並問好，他的母親甚至很難分清楚究竟是不是真的。

在讓人驚歎的技術背後，Lyrebird 所關注的領域自然也引發不少人的擔憂，究竟這些能被用來做些什麽？如何不被濫用？更進一步會變成什麽？

在 Lyrebird，我們看到了創始團隊設想的幾個場景，包括聊天機器人、電子書、智能客服、影片遊戲、以及文章輔助。這些場景實際上已經有聲音存在，但 Lyrebird 希望做到的是，通過更真實的聲音，能幫助大家更好融入這些場景，同時也能節省下很多人力資源。

至於如何不被濫用，Lyrebird 聯合創始人 Jose Sotelo 在接受 Bloomberg 採訪時談到，他們希望這個技術能幫助那些發聲困難的人，通過官方 API 接口，為他們打造出自己克隆出的更真實聲音，而不再是過去那種機器發出的聲音。一個例子是 Ice Bucket Challenge 創始人 Pat Quinn，他患有 ALS（肌萎縮側索硬化），但在使用 Lyrebird 之後，他也可以通過「自己的」聲音進行演講和交流。

而關於 Lyrebird 的未來，我們不妨再回想一下今年五月，Google I/O 大會上，Google Assistant 帶來的令人驚訝的現場演示環節。當機器已經能夠模擬出真實的人類聲音之後，如果還能表現出人類說話時斷斷續續、略帶思考的頓挫節奏，達到以假亂真的程度，是否就會更進一步，幫助我們處理那些日常的瑣碎事情呢？

新的技術出現往往會伴隨人們的一些焦慮，但即便如此，它在前進的過程中也會慢慢修正錯誤，改進不足，我們既是見證者，也是能夠改進的參與者，所以也不必過於擔心，正如 Jose Sotelo 所說：

「我們希望技術能用於積極的事情，而不應該令我們害怕。這就是我們應該小心和熱情的原因。」

頭圖來自視覺中國