每日最新頭條.有趣資訊

這個網站只要錄音1分鐘,就能克隆出你的聲音

從遙不可及到到成為現實,AI 技術的發展令人驚訝。

只需要你的幾段話,機器就能克隆出你的聲音,這樣的事情你相信嗎?

這種似乎只有在過去電影和科幻作品裡才會出現的情節,最近在極客之選(微信號 GeekChoice)發現的這個名叫 Lyrebird 的網站成為現實,並且明白無誤地呈現在我們面前。

影片 | Lyrebird

Lyrebird 取自一種生活在澳洲的特殊鳥類——琴鳥,它最大的特點是能模仿周圍的聲音,只要聽到聲音信號,它都可以很自然模擬出來。事實上 Lyrebird 網站做的就是類似的事情。

打開網站,主頁上清晰的寫著「我們創造世界上最真實的人造聲音」(We create the most realistic artificial voices in the world),看起來有點讓人疑惑,不過下方寫著這樣三條注釋,表明網站的目的:

通過賦予獨特聲音使你的產品獨特;

在你需要時創造你自己的聲音助手;

為你的應用集成用戶自己的聲音。

既然是創造聲音的網站,那麽它到底能有多像?這就引起了我們的強烈好奇,雖然在網站 DEMO 部分,我們聽到了官方合成的足以以假亂真的川普以及奧巴馬的聲音(文章開頭影片部分),但那和我們以前見到的 AI 影片作假都更像是展示技術而已,究竟能否模擬出坐在電腦前的你我呢?

帶著這個問題,我們又看到官方一個名為「CREATE YOUR OWN VOCAL AVATAR」的功能,上面寫道只要錄製 1 分鐘,就能創造出屬於每個人的聲音,這就讓我們迫不及待想要試試看這扇新世界大門背後的秘密。好在這個功能並沒有使用門檻,官方只要求使用前先注冊,就能免費使用。

懷著半信半疑又滿心期待的心情,我開啟了特別的錄音之旅。Lyrebird 官方要求每個人必須至少錄製 1 分鐘,即 30 段英文,這些英文是來自官方素材庫中的隨機句子,或長或短,但都不算太難。

點擊「Start recording」,對著麥克風念出句子,點擊上傳,接著出現下一個句子,點擊「Start recording」...... 如此往複,完成 30 句就算采集成功。值得注意的是,每一句話錄製過程中,如果你感覺不滿意,都可以選擇重新錄製。

經過幾分鐘的錄製,30 句話上傳完畢,這時會彈出一個視窗,上面告訴大家,錄製的材料越多最終呈現的聲音效果越好,30 句話的英語實際上是 1 分鐘的素材,最好能夠錄製 5 分鐘,也就是 150 句話,效果會更好。當然,其實 30 句話也符合標準,點擊「創造我的聲音」,見證奇跡的時刻就要到了。

Lyrebird 網站會在雲端利用 AI 技術進行分析和合成,大概一分鐘左右,我們終於看到官網出現了一個新的對話框。而這就是最終我們的「聲音製造器」。

在對話框輸入任意句子或單詞,你就能聽到被機器製造出來的聲音,聽起來和我本人的聲音的確非常接近,即便是稍長一點的句子,它也能發出很正常的聲音,給人一種更專業的感覺,不過也並非全無缺點,至少我發現了兩個目前還不完美的方面:

第一,聲音表現出來的儘管非常還原本人,但能聽到其中夾雜的細微電流聲,嘗試多次都會這樣,仔細聽其實和真人的聲音會有差別;

第二,由於用英語錄製素材,輸出的也是英語句子,所以整體雖然在英語上可圈可點,但當讓它說出中文句子時,表現的並不好。

儘管如此,Lyrebird 仍然讓我們感到驚訝,在創造自己聲音這件事情上,至少並不如我們想象的那麽困難。實際上,它目前的效果已經比去年好了不少,就在上個月,Bloomberg 記者 Ashlee Vance 就用機器合成的句子跟家裡人打電話並問好,他的母親甚至很難分清楚究竟是不是真的。

在讓人驚歎的技術背後,Lyrebird 所關注的領域自然也引發不少人的擔憂,究竟這些能被用來做些什麽?如何不被濫用?更進一步會變成什麽?

在 Lyrebird,我們看到了創始團隊設想的幾個場景,包括聊天機器人、電子書、智能客服、影片遊戲、以及文章輔助。這些場景實際上已經有聲音存在,但 Lyrebird 希望做到的是,通過更真實的聲音,能幫助大家更好融入這些場景,同時也能節省下很多人力資源。

至於如何不被濫用,Lyrebird 聯合創始人 Jose Sotelo 在接受 Bloomberg 採訪時談到,他們希望這個技術能幫助那些發聲困難的人,通過官方 API 接口,為他們打造出自己克隆出的更真實聲音,而不再是過去那種機器發出的聲音。一個例子是 Ice Bucket Challenge 創始人 Pat Quinn,他患有 ALS(肌萎縮側索硬化),但在使用 Lyrebird 之後,他也可以通過「自己的」聲音進行演講和交流。

而關於 Lyrebird 的未來,我們不妨再回想一下今年五月,Google I/O 大會上,Google Assistant 帶來的令人驚訝的現場演示環節。當機器已經能夠模擬出真實的人類聲音之後,如果還能表現出人類說話時斷斷續續、略帶思考的頓挫節奏,達到以假亂真的程度,是否就會更進一步,幫助我們處理那些日常的瑣碎事情呢?

新的技術出現往往會伴隨人們的一些焦慮,但即便如此,它在前進的過程中也會慢慢修正錯誤,改進不足,我們既是見證者,也是能夠改進的參與者,所以也不必過於擔心,正如 Jose Sotelo 所說:

「我們希望技術能用於積極的事情,而不應該令我們害怕。這就是我們應該小心和熱情的原因。」

頭圖來自視覺中國

獲得更多的PTT最新消息
按讚加入粉絲團