每日最新頭條.有趣資訊

新娛樂時代的愛奇藝,工程師和藝術家們共同成長

作為一名技術極客,加入一家娛樂公司,對愛奇藝 CTO 劉文峰來說,是個不小的挑戰。剛加入時,劉文峰還頗為忐忑,看劇本、跑片場,這些工作都是他沒經歷過的。而愛奇藝的成員也是包容了這兩種人才,兩類人思維方式不同,但通過包容、尊重找到相處之道。

在愛奇藝自製綜藝節目的拍攝現場,由於節目類型注重演員的臨場自我發揮,為了避免遺漏一名演員可能有 10 台攝影機對準他,播出 1 小時的綜藝節目,現場拍攝可能最多有 50 台攝影機,每台攝影機大概進行 20 小時的錄製,最終產生超過 1000 個小時的原片。如何剪輯海量的錄像?用哪台、用哪段?後期工作讓導演組和製作團隊都格外頭疼。

技術人員針對現場提出了改良建議,通過 AI 語音識別和人臉識別等技術,將時間戳精準對齊,將不清晰的畫面篩掉,尋找錄像中某句台詞或某個畫面也都變得簡單快捷,之後再交給人類做後期剪輯,不僅提高了工作效率,還大大縮短了節目上線的時間。愛奇藝的 ZoomAI 超分辨技術用於老舊影片修複和動畫增強,讓老電影有了高分辨率而煥發新生,HomeAI 讓消費者可以通過語音直接控制播放影視,甚至提問「這個演員是誰?」、「我只想看 XXX」、「跳轉到 XXX 跳舞的片段去」並得到回應。這些能提升工作效率和用戶體驗的科技創造,都是藝術家們的創意做不到的,卻讓藝術家們的創意變得更加精彩。

在愛奇藝的工作經歷,讓劉文峰感慨學到了很多技術之外的知識,但他身上的技術底色依舊未變。從誕生之初,工具的進步就一直在推動文化藝術的進步,在互聯網時代,大數據、AI 等科技並未遠離科技與人文的十字路口,而是配合和賦能創意,讓創意更加有趣。

以下是 愛奇藝 CTO 劉文峰 在 2019 極客公園創新大會上的演講內容(經極客公園編輯整理):

大家上午好!經過前面兩個論壇,可以讓張鵬休息一會兒,下面我來給大家做一些分享。

今天我分享的題目是「科技×創意,新娛樂時代的成長法則」,實際上這個題目想了很久,為什麽是這樣一個題目呢?最開始說的主題是「人和組織的成長」,我想這個主題挺契合我的。我作為一個技術男,有時候也可以成為一個極客,加入一個娛樂公司,實際上最開始想加入互聯網公司挺好的,可是進來之後發現真的是一家娛樂公司,對於我來說挑戰很大。

在這麽多年的時間中,變化也蠻大,所以我覺得這個主題很不錯。後來也看到今天最後一個演講嘉賓是皮克斯的創始人和 CEO Ed Catmull,這個特別好。因為愛奇藝本身的基因和矽谷、好萊塢的文化相結合,正好科技和創意可以把人與組織的關係關聯起來,所以非常高興能夠參加今天這個分享。

我們認識上的人工智能和科技創意之間的關係,實際是看工具的發展到底是什麽樣的。大家都很清楚這樣一個過程,從 3000 年前古埃及人類利用滑杆等一類機械的東西,做出那麽巨集偉的金字塔,中間經過了非常長的時間,機械可能有一些發展。但是工具發展的相對比較慢,一直到 18 世紀中葉時,才開始利用蒸汽,發現了新的動力,有了第一次工業革命的發生。

19 世紀中葉時又發現了電,並且電被充分利用到新的生產上來,你可以發現機械和電都帶來了工具上的變更和生產力的大量提升。

20 世紀中葉的時候就更多了,核能、生物技術、電子電腦、資訊產業發展了起來。你可以看到每個工業革命的時間周期越來越短,現在變得更短了。比如說人工智能,1956 年在達特茅斯大學會議上,人工智能的概念才被提出來,提出來之後到現在已經經歷了第三波人工智能浪潮。

資訊產業發展不那麽快的原因是因為一直不容易找到方向,很難講現在處於第三波浪潮的波峰還是開始下降的趨勢。我們很難預測未來幾年人工智能會怎麽樣,但是至少從我們的角度來看,人工智能作為一個工具、更先進的方法,它還可以持續比較長的時間。

所以,我們順勢而為,將 AI 與科技做了非常深度的結合,能夠充分利用在娛樂的場景下。

大家可以看到右邊的技術、應用場景,這個非常重要的價值在於 AI 在第三次浪潮時(深度學習、強化學習技術),我們其實不那麽容易找到非常準確的應用,可是同時發展的雲計算和互聯網帶來的是非常大量的數據,所以要找的是人工智能利用深度學習技術,如何利用大數據產生應用。而娛樂、互聯網的話,這樣的商業模式就更容易在這中間尋找到機會。

我們尋找的機會是如何在整個公司運轉流程中,從最初開始的內容創作-內容生產-內容分類和標注-理解內容-內容分發到用戶-對用戶提供播放體驗-廣告主變現的能力,最後再到客服,在這個完整的生態上都加入了人工智能各種各樣的能力。這些能力使得我們能夠提升效率,利用機器的能力和數據挖掘出來的價值,產生更低成本、更大規模效應的東西。

每個應用的細節我在後面會舉一些例子來講,但是重點還是人和組織怎麽創新和發展,以及如何能營造新的創新機制。

我們認為愛奇藝能做到前面那些點,很重要的原因是我們的基因。我加入的時候還是比較忐忑的,在一家娛樂公司中,我平時可能天天和技術打交道,是否能融入進來。加入之後,我看一下劇本,要去片場看拍攝現場大家是怎麽工作的,發現有非常非常多的傳統東西。

比如我們公司技術人員可能更擅長於代碼溝通,至少我用郵件溝通、共享工具是可以的。可是片場非常原始,甚至還有用紙記錄每天要做哪幾件事情的,非常原始。

我們的人員就是由這兩部分人組成的,一半是科技人員,工程師、算法、IT、運維等,另外一半就是文科生,內容創意、製片人、導演、演員。他們的管理方式工作方式,甚至工作時間都不一樣,有正常上班的,也有從來都是過美國時間的。

所以,我們讓科技人才和創意人才盡可能的一起工作,碰撞出火花。在成長這方面,愛奇藝做到了讓技術人員、工程師、算法人員理解娛樂的本質,理解內容是什麽,理解用戶的娛樂需求在哪裡,才能做出更好的產品,用戶喜歡的內容,這樣才能幫助內容的行銷、推廣、宣發等。

我們讓內容人員也要去理解技術,使得他們不需要靠砸人做內容、運營。因為傳統的娛樂行業、媒體基本上有一點類似於勞動力產業,非常非常多的人都做著非常細的機械性工作。其實技術人員一進去之後,我們發現這裡可以優化,那邊可以自動化,這個地方還可以做的更好等等。

所以,我們通過互相包容、互相尊重、更多的交流機會,技術人員直接在節目攝製組的現場找到非常多合作機會和創新。

比如說工程師、科學家去開會時會講到聽起來非常普遍的詞語,比如並發、吞吐量、IT、運維、做網站;而內容製作的人說的詞不一樣,我們聽起來非常虛,他們聽起來非常正常,比如大計劃、版權、熱度、娛樂等。

所以,很多時候我們會發現產品經理經常給技術提一些不靠譜的想法,這還是產品經理提的。如果你真的要和內容製作人合作,你會發現他提的想法更加天馬行空,互相之間不能理解。

比如說我們在生產的時候,這個生產指的是我們將內容從最原始製作出來的片源、素材等轉化成互聯網上可以發布、傳播、讓用戶觀看的內容。很重要的一點,就是我們要保證影片編碼非常清楚,而且用戶能夠接受。

同時,我們也通過算法能夠去識別這個介質是不是不正常,比如有沒有異常的黑場,有沒有一些花條,有沒有不正常的黑邊等等,這些他們很厲害,能夠寫出算法。可是,真的把這個編碼編完之後,放到電視上去比較效果,評判顏色、風格是不是符合我們創作人員的意圖,我問過好幾個博士生,兩個內容放在一塊兒,相差看不出區別。結果內容的人過來一看說,不對,你那個地方有很明顯的問題。

所以,我們加入了主觀檢測的流程,不在技術團隊的內容、藝術創作、色彩更敏感的文科生對這個技術評估,讓我們的博士生、科學家們更多理解創作的內容。這個清晰不只是邊界清晰,更重要是如何能夠正確表達創作者的意圖,這是一個非常簡單、非常基礎的技術和創意之間合作的例子。

第二個合作例子,我剛才講的技術人員直接到節目拍攝現場,《國風美少年》、《中國音樂公告牌》、《中國新說唱》等等,這些節目是愛奇藝的自製綜藝節目,完全由我們自己的團隊和員工,在攝影棚裡面拍出來的。新的類型綜藝和傳統電視台綜藝有很多不一樣的地方,更注重演員的現場發揮。既然要注重演員的現場發揮,我們沒有辦法給這個綜藝寫劇本,最多提供賽製、規則。演員在舞台上的表演很有可能會發生在任何時刻、任何地方,所以現場的場記很痛苦。因為場記很有可能有一些點沒有捕捉到,事後再找這個片子的時候變得很困難,這是第一。

第二,我們在現場布置最多達 50 台攝影機,50 個鏡頭對準一個舞台。這帶來一個結果,大家知道在節目錄製現場,攝影機都非常高清,每一秒鐘存儲容量很大。一個節目錄製下來,本來 1 小時的節目,可能錄製超過 1000 個小時的原片,才能剪出來。這 1000 個小時,最多的時候 50 台攝影機,每個攝影機拍 20 個小時內容。這些內容拿出來之後,我們用最先進的工作站進行處理都非常痛苦。你要找到合適的時間點,並且同一個表演,演員說的同一句話,當時有 10 個攝影機同時對準他,用哪個更好。

所以導演組和製作團隊非常痛苦,他們實際上招了很多外包、團隊,如何把後期能夠做好,怎麽趕工,晚上 6 點上線,幾乎到最後一刻,5 點的時候才把節目給出來。

技術人員到現場,說這個好像可以有別的方法解決,最簡單的解決方法是,至少我們不需要那麽清楚捕捉的點。場記去找這個台詞的時候,完全可以將語音轉成文字之後,你直接用搜索,搜到文字可以找到至少哪一個片段,這是第一。

第二,我可以用人臉識別技術,將每一個人在什麽時候說話的鏡頭精確匹配到。同時還能經過 AI 初篩選一遍,所有不合適的側臉、所有不清晰的模糊畫面,這些都不用看了。

所以,在我們人工專業剪輯之前,加入了 AI 識別和 AI 系統合成等工作,還包括多個攝影機同時拍一個場景的時候,如何將時間線能夠精準對齊,之前我們用專業軟體做的,現在直接用 AI 做。

所以,技術人員到場之後,內容創作人員、後期人員發現找到救星了。因為來了之後,立刻將系統原形做出來之後,效果非常好,所以現在這幾個節目,直接使用了 AI 能力拍片。

我們互相之間都找到自己的契合點,因為我們做人臉識別技術時,好多時候找不到應用,現在正好找到應用了。內容創作人員發現,我們用這個提高效率之後,效果會非常好。

這是我們的一個播放上的創新,剛才講的如何將播放體驗變好,如何能夠將我們內容更清晰展示給用戶。

舉個例子,我們有很多低質的影片,來源很有可能是非常古老的。大家知道在 70、80 年代的時候都是膠片存儲,膠片品質那時候是最好的了。到 80 年代末的時候,錄影帶、VCR 出現,到後來 VCD、DVD 等等。現在你看任何一部 90 年代和 90 年代之前的老片,會覺得不清楚。不清楚的主要原因不是當時拍的不夠清楚,當然可能也有這部分原因,更重要的是現在設備變好了。現在用的 1080P 內容,看 VCD 都是 540P,所以在這裡會自動拉伸。拉伸之後,每個像素點會變得很大,品質很差。

所以我們這裡面做的技術,ZoomAI,利用人工智能的算法,去學習我們現在更清晰的內容。我們在 1080P 分辨率下展示的清晰內容的特徵是什麽。當你學習到更多清晰照片、清晰影片的特徵之後,就能將這個模型應用於不清晰的、更老的內容,把它變得更清楚。

這聽起來很魔幻,內容製作人員直接說,這好像是神話吧。因為本身不清楚,如何能變得更清楚,難道還能造出一些點,把當時的拍攝現場信號還原嗎?這不太可能。但是,確實做到了。我們一方面對一些老的電視劇進行重新生產,做出新的版本。比如說像現在 540P 的《倚天屠龍記》可能只有 VCD、DVD 的版本,我們做成 1080P 的,大家可以看一下效果。我們也對一些老電視劇,像《渴望》等等都重新上線了 1080P 的新版本,效果非常好。

同時,我們也利用 AI 技術做了一些更有意思的事情,比如說體育直播。我們拿到了信號源經常都是 25 幀的,25 幀在進球的時候會不夠用的,仔細的人會看見畫面是一頓一頓的。所以,我們直接將它用 AI 加入更平滑的切換,使之能夠實現到 50 幀,50 幀的效果看著之後就非常的驚歎了,直接非常順暢的過去。當然,也是因為人的眼睛越來越刁造成的。

我們可以看一下效果,540P 和 1080P 的對比,看眼睛、頭髮上一些很細節的地方。我們利用它批量處理,會比使用第三方通過人工對每一幀進行修複的成本會低很多。還有一個利用 AI 技術改變的是播放互動場景,我們稱之為 HomeAI,這個可能包括剛才傅盛也講到了智能音箱等等。實際上,愛奇藝更多在想如何能夠利用現在出來的 ASR、語義理解這些技術利用於娛樂場景,所以 HomeAI 實際上是在娛樂場景下,解決更多的獲取資訊,讓人和內容之間進行互動的一些能力。

舉個例子,這樣的一幀畫面,看過的人都知道這是《延禧攻略》的一個畫面,這個畫面拿出來做例子,是通過內容的理解。我們可以識別出這個動作是打傘,識別出兩個演員分別是誰,演的角色是什麽,也能識別出當前的場景是在下雨,如果這個字幕是內嵌字幕的話也可以通過 OCR 識別出來。

識別出來這些精彩的片段有兩個作用,第一個作用是可以直接剪成短影片,第二個作用是讓用戶知道、問問題可以回答,包括像人物的片段、情節的提取都能做到,後面有段影片,實際上是我們新做的,在座的北京觀眾如果有歌華有線,你可以裝一個產品叫歌華小果。這個實際上是一個很創新的應用,我們將直播的內容,比如 CCTV1、芒果台、浙江衛視等等這些直播內容和奇異果 TV 的點播內容完全融合在一起。

你不需要在看有線電視或者 OTT(互聯網影片)的時候切換不同的 HDMI,你可以直接在一個設備下點播和直播互相切換。更重要的是,能夠利用 AI 的能力通過語音直接控制,跟搖控器說一聲「我要看芒果台」,電視直接切到芒果台;跟搖控器說一聲「我要看《延禧攻略》」,直接就播放《延禧攻略》,非常的流暢。

更有意思的是,我們可以在任何一個畫面下,直接問這個演員是誰,這個演員還演過什麽劇,給我推薦一部他演的最好的內容,所以這個 HomeAI 的介紹大家可以了解一下。

(播放影片)

包括我們的兒童產品奇巴布,小孩特別喜歡用語音互動,現在家裡五六歲的小孩可以在不認識字的情況下,非常流暢的利用語音使用各類 APP,包括奇巴布的 APP。

愛奇藝建立了全網最全的明星人臉庫,這個人臉識別和手機上人臉識別不一樣的地方在於:手機的人臉識別是為了識別這個人是不是你,而我們的人臉識別是為了識別每一幀畫面裡面,這個人是誰,所以它的複雜度、匹配度更高。

我的演講就到這裡,我想表達的是科技讓創意更加有趣,所以科技和創意的結合能夠讓創新成為可能,謝謝大家!

獲得更多的PTT最新消息
按讚加入粉絲團