每日最新頭條.有趣資訊

王源也推薦!“讀詩成曲”遊戲火了,思必馳揭秘背後技術

安妮 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

學唱一首歌要多久?1小時,5小時還是一天?

如果你關注了昨晚(1月28日)央視八點檔的《經典詠流傳》就會發現,學會一首歌的時間,30秒足夠了。

輸入詩詞朗讀,輸出自己嗓音的歌曲,這個“讀詩成曲”的H5遊戲火了。

據統計,節目播出後的90分鐘內,超過14萬人次參與合成自己的歌,H5轉發量超過10萬。連王源小哥哥也在線推薦:

王源在節目現場演唱《長歌行》並邀請你一起來讀詩成曲

甚至還登上了實時熱搜榜:

用你的聲音合成歌曲,這次又是AI立功了。

決戰30秒

掃碼進入H5界面,量子位開啟了“讀詩成曲”遊戲玩法探索模式。

在你開口讀詩前,首先需要戳選你的音色,選擇你的聲音為男聲、女聲還是童聲。隨後,頁面跳轉到一個經典詩詞曲庫,請開始pick你喜歡的歌曲。

“決定性30秒”來了,此時,對著話筒大聲朗讀所選曲目的歌詞(也是詩詞),上傳後稍等片刻,你朗讀的詩詞就被自動轉換成了由宮商角徵羽組成的旋律。

確定過眼神,是自己的嗓音。

而且用這個小工具合成的歌聲不僅聽起來像自己的聲音,而且高音部分還不、會、破、音,完美避開了“一破毀所有”的尷尬境地。

韻律合拍,又在傳統春節的氣氛中,可以無壓力分享到票圈了。

技術揭秘

一段平平無奇的語音經AI之手,是怎樣變成了婉轉流利的歌曲的?

“讀詩成曲”應用背後技術提供方其實是語音技術起家的思必馳。

思必馳副總裁兼北京研發院院長初敏解釋,“讀詩成曲”背後,主要應用了思必馳語音技術,尤其是個性化歌聲合成技術

從一段文字到個性化,從技術角度來講分為2大處理階段,即語音識別與語音合成,後者又分為兩步。

具體來看:

第一步,語音識別。用戶按照螢幕提示朗讀詩詞,系統會先判定讀音是否正確,通過後進行如語音合成階段成曲。

第二步,聲學模型加持,調整頻譜參數。也就是說,通過第一步收集的你的聲音數據訓練模型,個性化學習後,讓生成歌曲的音色像你本人。

第三步,韻律模型調節韻律參數,控制每個音的聲音長短及高低,旋律就此確定。

隨後,將韻律參數和頻譜參數結合,生成歌聲。一段音色屬你,旋律似原唱且歌詞為經典詩詞的片段已合成。

整個流程下來,在網速保證的情況下1~2秒就能合成成功。初敏表示,至少支持10萬人同時點擊使用時秒出結果。

AI可以很好玩

把理解中國古詩詞這種教育行為與合成歌聲這種娛樂行為結合,也算的上是AI與泛娛樂領域結合的一次嘗試。

初敏表示,讀詩成曲項目雖然最初的動力來自央視,想要傳承經典古詩詞。但將AI與泛科技結合卻是自己一直想做的。意義不僅在於好玩,也在於學習與教育。

思必馳副總裁、北京研發院院長初敏

比如,在讀詩成曲中錄音時,讀錯一個字語音識別系統就會提示錄入錯誤建議重讀,重新朗讀至全部字詞正確才可以進行合成。

這不是思必馳第一次在歌聲和成領域的嘗試,此前在《機智過人》節目中,思必馳打造的“小馳機器人”用撒貝寧的聲音生成了一曲《好久不見》,還獲得了撒貝寧的官方認可。

小撒表示,該歌聲的“聲音的相似度基本在90%以上”。

和《機智過人》中的離線技術不同,讀詩成曲的難度大大提升,由一個非線上、不能互動的離線功能轉變成一個近實時的互動遊戲,時間要求高了,且未知性變大了。

挑戰也隨之而來。

變成互動性遊戲後,錄音效果無法預測,使用時不同的方言口音、手機機型、錄音環境的嘈雜度是未可知的。初敏表示,針對極端場景已經進行了不少測試,但技術永遠不能保證百分百。

初敏認為,科技公司有兩個出口,一是嚴肅向、實用風的老路,第二就是走好玩的娛樂向,讀詩成曲的項目就是。

娛樂向看似實用性不如前者,但每個人有機會可以去感受體驗,且可以具有教育意義,所謂“寓教於樂”是也。

作為一家To B的企業,思必馳認為AI可以不用那麽嚴肅,也不用那麽高高在上,因為無論To B還是To C,最終面向的都是用戶。

思必馳CMO龍夢竹表示,“讀詩成曲”的這種大眾參與方式還談不上科普教育,但如果能讓大眾覺得“AI挺有趣”,也是一件很酷的事情。

獲得更多的PTT最新消息
按讚加入粉絲團