每日最新頭條.有趣資訊

亮點與槽點齊飛的Netflix“黑客日”

科技公司令人神往的特色之一,就是為了激發員工的創造力,尋找下一個大事件,它們什麽都乾得出來!

比如谷歌著名的“20%時間”,邀請Lady Gaga和員工交談;微軟每年還會在比爾蓋茨的辦公室舉辦兩次“科學展會”為員工的創意項目評分;HubSpot的員工可以短時間換崗……

流媒體巨頭Netflix自然也不甘落後,每年都有幾次內部黑客馬拉松,讓不同學科的員工抽出時間聚在一起,嘗試一些新興技術,挖掘新的idea。

Hack Day活動上的創意未必每一個都精妙而實用,之前就誕生過在原始NES上玩紙牌屋,將目錄轉變為VR租賃店,創建使用摩爾斯電碼的搜索系統等等創意……但哪怕是愚蠢的想法也有可能成為扇動的“蝴蝶翅膀”,碰撞出妙趣橫生的未來體驗。

今年的Netflix Studio Hack Day就亮點與槽點齊飛,來為大家簡單介紹一下。

手機版“4D”

不少小夥伴想必都體驗過遊戲城裡打著4D、5D、7D等各種旗號的動感電影,每當劇情中出現爆炸、翻車之類的情節,影院中的座椅就會做出各種令人哭笑不得的震動效果,試圖營造身臨其境的感覺。

今年Hack Day,Netflix的技術人員卻通過觸摸反饋技術將類似的體驗搬到了手機劇集上。

項目組“Project Rumble Pak”使用Immersion Corporation技術,將Netflix上的劇集內容與觸覺效果同步。遇到爆炸、打鬥之類的情節,手機就會接收到力反饋開始震動。工作人員認為,這能夠增強觀眾的興奮感。(是對我們觀眾有什麽誤會?)

足不出戶就能感受4D版大片,享受同款體感特效,還不用擔心手機朝你滋水,驚不驚喜?

飯圈產糧神器

若是對手機版4D特效無感的話,那麽接下來這個The Voice of Netflix可能會讓不少追星男孩女孩發出雞叫。

Netflix的工程師訓練出了一個深度神經網絡,能夠從Netflix網劇中掃描並對單個詞語進行分割,然後根據需要將它們重新組合成新的句子。比如在搜索資料欄中鍵入“that is preposterous”,Netflix就會以最喜歡的角色聲音念出來。

飯圈產糧神器、鬼畜up主好幫手啊有木有,從此告別幾TB的剪輯素材包。

從海量視頻中完成文本分析、韻律分析、聲學分析,然後準確地將某一個演員的聲音提取並合成,再以富有情緒的語調念出來,不僅要求有情感豐富的大數據,比如更自然的發音、更高強度的表現力,還需要應用到一系列訓練好的語音模型,高性能的語義理解能力,這些才是Netflix真正能夠“秀肌肉”的地方。

當然,黑客日上展示的詞匯量和語句長度都還比較淺,但研究人員說實驗數據正在積極地延長。未來,機器會不會連影視配音都一起搞定了呢?

劇組“最強輔助”

輔助PGC創作的專業級工具也初露苗頭。

拍攝前期,影視製作團隊往往會在選景、機位、構圖等方面下很大的工夫籌備。而Netflix的新軟體TerraVision,就重新設想了創作過程,徹底改變了電影製作人搜索和發現拍攝地點的方式。

作為一種計算機視覺模型,TerraVision可以基於線稿圖或關鍵詞來顯示類似的建築物或場景,並確定和匹配它們的位置。

比如劇情中需要拍攝城堡的鏡頭,輸入設計圖就可以在城市中找到可能符合條件的建築。電影製作人可以將他們喜歡的外觀照片放入界面,並從我們的集中位置照片庫中找到最接近的視覺匹配。

不滾蛋就搗蛋的會議系統

當然,Netflix的員工並不是隻惦記著吃瓜刷劇,他們也躲不過社畜的命運——開會。想必每個工作黨都有類似的體會,如果前面的人會議逾期,那簡直和老師上課“拖堂”一樣令人氣憤。大多數人是不是都選擇“表面笑嘻嘻內心mmp”地等在會議室外呢?Netflix員工表示偏要像魏瓔珞一樣跟敵對勢力正面剛。

有一個小組設計出了簡單的Web應用程序,員工在全球任何地方都可以連入會議室,如果日歷中早該結束事項的人超時了,就會自動呼入那個會議並播放類似於奧斯卡獎的離場音樂,簡單粗暴地歡送同事趕緊出去!

對此我只想說,請Netflix大力開源這款產品好嗎?拯救社畜,人人有責!

One more thing:流媒體“創新樣本”

隨著Disney+、Apple TV+等競爭對手的相繼上線,在流媒體賽道擁擠的情況下,Netflix的壓力也在增大。可以發現,為了持續領跑,技術起家的Netflix,正在把AI系統性地整合到更寬廣的產業維度中去。

無論是給App增加帶有未來感的體驗元素,到內容製作和發行的智能工具,都或多或少展示出了Netflix探索中的技術成果和產業方向。

整體來看,主要體現在以下幾個方面:

1. 基於視頻理解技術提升觀看體驗

手機震動功能其實早在功能機時代就出現了,觸屏手機中我們也經常能夠接觸到類似設計,比如系統設置或遊戲、繪圖等App中,就常常加入力反饋來讓用戶更加直觀地感知自己的操作效果。而觸控技術與App端內容的結合,無疑為人機互動注入了新鮮的血液。

要實現觸覺與音畫的同步,這對視頻理解相關算法也提出了更高的要求。

目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡來學習視頻特徵,這種方法僅僅是對單幀圖像的語義特徵進行融合,卻往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。

Netflix對音畫同步震感的創新,可以看做是流媒體在視頻理解技術上的新嘗試,也可以以此為支點,撬動更多的影視立體化體驗。某種程度上,也可以看做是Netflix釋放給行業的技術迭代信號。

2. 語音視覺技術輔助內容生產

目前很多流媒體平台都在用AI輔助視頻內容的生產工作,以期扶持和吸引創作者。

比如愛奇藝就曾推出過智能聽打字幕,通過智能語音識別技術,幫助後期人員縮短音頻到文字的轉換時間。百度大腦也曾推出過“創作大腦”,識別視頻片段中的關鍵人物,然後配上圖片及文字介紹,自動生成預告片。而Netflix的新創意則告訴我們,AI與內容生產環節的故事絕對不僅於此。從the voice of Netflix及TerraVision等創意中,我們可以看到在語音識別與合成(TTS)、視頻語義理解等等技術的全新進展。

顯而易見,為視頻產業尋求更低的製作成本、更豐富的創作素材、更高效的產業效率,是Netflix重點關注的技術方向,也確實在重構整個生產環節的固有體系。

3.雲端視頻流進入辦公場景

至於讓拖堂同事置身奧斯卡的會議系統,目前也已經被Netflix員工放置在了雲伺服器AWS上。

可以看到,Netflix的雲基礎設施正在讓穩定可靠高並發的雲端視頻流成為現實,這意味著未來視頻的生產與分發都可以基於雲服務持續創新。

比如與辦公場景流程集合,實現跨區域的多屏互動、全媒體內容匯聚、流傳輸會議內容等等,進一步豐富辦公場景的互動效果。

從 2015 年開始,Netflix 就投入了大量資金用於原創內容的製作和優質內容的版權購買。到 2018 年,Netflix 已經成為整個好萊塢對原創內容投入力度最大的製片公司,全年共投入了 80 億美元。

巨大的投入和精品策略,讓Netflix迅速站到了行業巔峰,全球用戶逼近1.5億,卻也為營收蒙上了一層陰影。

Netflix的2019年第一季度財報顯示,其現金流狀況並不容樂觀,較去年同期下降了2.87億美元。

今年隨著HBO、disney等傳統娛樂公司與Apple等矽谷新貴們進入流媒體“奪食”,為了鞏固自己在流媒體領域的領頭羊身位,Netflix不得不持續加碼內容。

但持續燒錢總不是辦法。從這次hackday展示的內容來看,為了交出一個漂亮的營收成績單,通過技術創新來“開源節流”,拉開與不同平台的技術差距,才是流媒體平台競爭的重要籌碼。

在眾多創新創意之後,隱藏著的其實是AI之於視頻娛樂的核心要義——用戶體驗的提升與內容場景的擴展,以及成本的持續降低。

練兵場、創意趴、秀場……我們可以用許多詞來形容hack day這樣瘋狂開腦洞的創新活動, 愚蠢的創意可能將點燃未來的火花,無用的功能也可能會改變世界。

想知道技術將引領產業走向何方,只能不斷推開一扇扇未知的大門。

獲得更多的PTT最新消息
按讚加入粉絲團