每日最新頭條.有趣資訊

這家日本頂尖AI創業公司,邁向“日本三強”產業鏈頂端

撰文 | 微胖

認識 Preferred Network(以下簡稱 PFN),就像玩拚圖。

很多人知道智能上色應用 PaintsChainer,但未必知道它只是這家公司的「副業」;

碼農們都知道 PyTorch,但未必知道它的理念源自這家公司,他們研發出了全球最早動態圖框架 Chainer;

工業界的人都知道發那科正在試水人工智能,但未必知道合作的這家創業公司還要做家用機器人;

當你將這些散落在不同人群目光下的板塊拚在一起後,公司全貌才浮現在眼前:

全棧,並且還要全能。

PFN 研發的不僅僅是深度學習算法,還有簡單好用的 Chainer(TM),一個開源深度學習框架。構建了日本最大的 GPU 集群,甚至自研了專用芯片。

業務跨度之大,更讓這家創業公司顯得與眾不同。

不到 200 名成員的公司已經將深度學習應用到了汽車,製造和生物醫療等行業(日本實力最強的三個領域),而且還有個人機器人的計劃。每個領域都充滿挑戰,一般創業公司通常只會專注某個領域。

2012 年,深度學習取得重要突破後,岡原大輔和西川徹注意到了深度學習的兩個獨特之處,可以將它應用到更加廣泛領域中。

一方面,可以很容易處理非常高維的數據。高維數據的一個重要例子就是時間序列數據,這在工業設備的傳感器數據中很常見;

另一方面,深度學習是無模型,不需要假設概率分布的先驗知識,任何一個概率分布可以用足夠複雜的神經網絡來逼近。

2014 年,他們成立了 PFN。如果說公司設立之初,創始人曾猶豫業務支柱是否放在深度學習上,那麽,2015 年春天對富士山腳下巨頭公司的拜訪,讓他們確信製造將是應用深度學習專業知識的核心領域。

當谷歌、亞馬遜等互聯網巨頭競相訓練系統理解語言時,能造出世界上最先進設備的日本製造業尚未得到開墾。

經歷最初的懷疑之後,公司創始人岡原大輔 (左) 和西川徹 (Toru Nishikawa) 確信,他們應該把整個業務建立在深度學習的基礎上。

如今,PFN 將圖像識別技術用於製造過程中的視覺檢測、倉庫貨架上的取物、機器故障預測,還擴展到了自動駕駛、生物醫療、智慧城市,公共安全等領域。公司估值超過 10 億美元,成為日本最大、最有前途的人工智能公司,合作夥伴包括發那科、豐田、三井、松下、瑞惠金融、京都大學等。打開 innovation Japan 網頁,第八個創新案例就是他們。

巨頭們也開始攻城略地。

谷歌的 14 個機器人手臂可以分享知識並加快行動速度,他們也希望進入日本市場。亞馬遜、微軟、NVIDIA也虎視眈眈。

借用深度學習技術讓機器人操作更加簡單,也正在成為一個創業熱點。一份對機器人報告網站全球數據庫中 752 家機器人創業公司的分析顯示,超過一半的創業公司都是以軟體起家。

不過,他們擔心的不是競爭對手,而是人才的引進與留存。

他們相信,與世界頂級機器人公司和其他製造商的密切關係,可以幫助他們深入了解客戶的實際需求和所面臨的挑戰。

「與再造索尼相比,建立第二家索尼的速度更快。」兩年前,接受《金融時報》採訪的公司首席商務官(chief business officer)長谷川在談及為何離開索尼加入這家創業公司時,曾這樣說。

最近,PFN 首席研究官、研發 VP Shohei Hido 接受了機器之心的獨家專訪。以下是這次專訪的主要內容。我們做了不更改原意的編輯。

Preffered Network 首席研究官、研發 VP Shohei Hido

與發那科合作

發那科在世界製造業的地位,一句話就可以表明,「如果富士山噴發,整個世界都會停止運轉。」公司有三大塊業務:FA(工廠自動化);Robot 以及 Robo-Machine(小型數控機床)。2015 年 8 月,發那科獲得 PFN6% 的股權,計劃將運行深度學習的機器人納入不久的未來。2017 年 12 月,發那科再獲得 PFN 額外股權。目前,PNF 已經將 DL 應用到發那科三大塊業務中,並取得了優於傳統方法的效果,已商用。比如在 FA 中,將機器學習用於伺服器調整;在 Robot 中,將 DL 模型用於提升機器人抓取任務的學習效率與準確性;在 Robo-machine 中,利用機器學習技術預測和補償由溫度波動引起的熱位移,與現有功能相比,加工精度提高了約 40%。在談及與發那科合作面臨的主要挑戰時,PFN 認為專業背景差異導致相互理解很難。計算機科學背景的碼農沒辦法理解機械或控制理論術語。相應地,機器人工程師也沒辦法理解機器學習術語。為此,兩家公司會定期面對面和視頻會議,FANUC 也一視同仁地將 PFN 納入公司的強製性培訓課程。

機器之心:深度學習應用場景有很多,比如金融、零售,為什麽最終選擇製造業?

日本有大型銀行、零售商和電子設備製造商,但大多比較保守,我們沒有找到足夠大的 AI 應用市場,也沒有很好的成功機會。和發那科 CEO 稻葉善治交談後,我們發現在機器人應用方面有很大潛力,他們也在尋找人工智能方面的合作夥伴。他們認為,將自己產品與市場上其他機器人產品(比如 ABB)區別開來的關鍵差異化因素,接下來會是基於 AI 技術的軟體。

機器之心:彭博社報導你們談了一個小時就成功說服發那科投資 900 萬美金,還獲得了數千台機器人的巨大數據流,怎麽做到的?

我們是日本最有前途的創業公司。其實在會面之前,發那科就做了一些調查,也知道有我們這樣一家公司,見面也是為了確認一下真假。在會面的當天早上(會面之前),稻葉先生已經知道 Tensorflow 發布的消息。這是一個很好的信號,他們很了解最新技術趨勢。當然,我們的 CEO 也很善於談判。

機器之心:發那科的 AI 戰略是怎麽樣的?

一開始,也就是四到五年前,他們對 AI 並不如今天這樣積極。當我們展示了一些應用成果後,比如機器人一夜之間就學會了 bin picking,了解到深度學習應用到機器人和其他機器上的機會,現在變得積極多了。一開始,我們只是和機器人業務合作,取得了一些進展後,也與其他業務板塊(Robo-machine 和 FA) 合作。

合作後,發那科也成立了自己的人工智能實驗室,研究人工智能技術。現在已經可以將新技術應用到程序中去,而不是完全依賴我們。在人工智能戰略方面,發那科是領先市場競爭對手的。

機器之心:Bin picking 是機器人應用中最需要解決的問題之一,在深度學習的幫助下,發那科機器人抓取能力得到了哪些具體提升?

在這段最初的概念驗證實驗視頻結尾處可以看到,抓取精度在 8 小時內就可以達到專家水準,這意味著如果花更多時間,它可以超過人類。

來自公司 Youtube 視頻截圖

機器之心:去年發那科推出了新功能 AI bin picking 是否採用了深度強化學習技術?

一開始,我們使用的有監督學習,而不是深度強化學習。因為強化學習很難控制獲得很好的結果,用監督學習的方法解決問題更好一些。對於 bin picking 機器人來說,我們通過使用真實的機器人收集了監督學習訓練數據集,不同情況下,很多時候會失敗,偶爾也有成功,我們搜集有關拾取點的圖像,進行監督學習,訓練神經網絡預測下一次抓取哪個點更容易成功。

機器之心:你們也正嘗試將深度強化學習用到諸如 bulk Bin Picking 等更加廣闊場景中,有商用案例嗎?

目前還沒有。

機器之心:這種技術落地最大的難點是什麽?

深度強化學習很有前景,但是,很難控制獲得好的結果,訓練樣本也不夠,這個訓練方法需要大量的數據樣本訓練模型。所以,就目前來說,深度強化學習的方法比監督學習的辦法難很多。如果你有好的機器人模擬器,就能在虛擬環境中訓練好的模型,如果沒有合適的機器人模擬器,就很難通過使用深度強化學習訓練好模型,因為你在真實世界的環境中並沒有那樣的 machine(機器)。模擬器是個關鍵因素。

機器之心:2018 年亞馬遜機器人挑戰賽(Amazon Picking Challenge)取消,有人認為這表明自主學習機器人發展遠遠低於預期,你們怎麽看?

深度學習在解決感知問題上很發達,計算機可以看見世界。但是,對於機器人來說,抓取(grasp) 仍然很難,即便你使用 CV 和最先進抓取技術,仍然很難做好控制、優化(optimize),我認為這是當前機器人抓取任務最難的地方。

但是,我認為亞馬遜去年取消挑戰賽的原因,並非你說的那個。三年前,我們也參加過這個比賽。我們相信,亞馬遜之所以這麽做是因為最先進的深度學習對機器人技術的改變,並非一兩年內的事情,所以沒必要一年舉辦一次。

機器之心:深度學習在工業上的一個重要應用就是預測機械故障,盡可能早地檢測傳感器數據中的異常。現在許多工業機器已經變得可靠,以至於我們無法獲得很多正 (即異常) 數據的樣本,大大降低了預測準確性。你如何處理這個問題?

我們有一個針對時間序列傳感器數據的異常檢測算法(anomaly detection algorithm),可以訓練出處理任何正常情況數據的檢測模型,對目標系統正常狀態下數據 normalness 建模,然後根據測試數據與正常狀態差異程度,估計測試數據的異常值。如果一個新的輸入數據在統計上是非常不可能的,我們確定輸入數據是一個異常,標誌著機器可能的未來故障。這個方法對工業機器人的故障預測非常有效,可以將監測到故障的發生時間,從幾分鐘前提升到幾周前。

不過,我們仍然需要收集一些陽性異常樣本來評估檢測模型的正確性。與發那科合作進行第一次異常檢測研究時,在一個加速實驗中,為了收集陽性樣本,他們讓機器連續運轉了幾個月。

機器之心:一些跑在NVIDIA芯片上的經典深度學習模型(比如 alexnet VGG, googlenet),運行速度仍然滿足不了工業案例對實時性的高要求,你們在這方面有些什麽探索?

就吞吐量來說(主要就訓練而言),並行使用更多 GPU 是一個解決辦法。不過,我不能透露更多,考慮到更多現有客戶案例情況。就模型推論的延遲來說,我們嘗試加速 NN 模型,既會調整網絡結構,也會調整系統(system)方面。我們研發了 Chainer-TensorRT 庫,這個工具包可以用來將 Chainer 模型轉化為 NVIDIA‘s TensorRT 推論引擎,進而可以在 GPU 上進行更快的推論。(1)另外,我們還研究了在英特爾 CPU 上快速運行 ONNX 模型,可以使用許多編程語言 (C/C#/Node..)(2)

機器之心:仿真環境與現實環境之間的現實差距也是個頭疼的問題,你們嘗試了怎樣的解決方案?

我們在 2016 年日本高新技術博覽會上展示了一個控制無人機的 demo,用的是一種叫「spiral learning」的 sim-to-real(從仿真到現實環境的遷移)技術。我們先在模擬器訓練飛行模型,至少要先讓無人機飛起來,接下來在真實環境中校準,不斷彌合模擬和真實世界的鴻溝。這是個不斷迭代的過程,直到模型收斂到一個好的策略。另外,我們是通過控制無人機擊中虛擬旗幟來訓練模型。無人機經不起撞擊,掉在地上或者撞牆了,很容易就壞掉了。有了這個辦法,我們可以用更少的無人機來測試。

機器之心:目前與豐田的自動駕駛合作進展如何?

自動駕駛研發合作項目還在進行,不過不方便透露這方面的進展情況。

機器之心:2019 年,深度學習在製造業和機器人領域的應用,你們認為值得關注的趨勢有哪些?

很多事情,這個領域一直在變化。不過,聽說亞馬遜今年某些時候會推出(make) 自己的家用機器人,細節不是很清楚,但我們必須關注這個趨勢。

家用機器人:深度學習技術的融合

我們已經習慣了用喚醒詞喚醒智能音箱,然後簡單地命令它執行一些簡單的任務;我們已經習慣按下按鈕,讓掃地機器人自己工作。但是,你有沒有想過用自然語言直接命令機器人執行一些簡單的任務?這正是 PFN 2018ICRA 人機互動最佳論文的主要成果——他們提出了首個可處理無約束口語(Unconstrained Spoken Language)的系統,並能有效解決口語指令中的歧義。而且,他們創造性地將現有的邊界框預測方法與自然語言處理技術融合在了一個簡單框架中,機器人可以根據用戶指令,拾取、歸位房間物品,且運行速度和精度已經達到了實用水準,公司已經有明確的商業化打算。不難看出,除了與與製造業巨頭合作,這家公司正在探索當前主要商業模式之外的可能,將觸角伸向更為廣闊的 C 端消費者市場,探索自己的商業模式。

來自 Youtube 視頻

機器之心:你們在 2018 年日本高新技術博覽會上展示了一款整理(tidy) 家用機器人。家庭環境與工廠環境有很大不同,不僅更複雜,很多物品也不像工件那樣易於抓取,你們做了哪些突破?

我們不僅使用了最先進的深度學習技術(CV 和 NLP),而且還將這些最先進的技術做了融合,讓機器人變得實用。你可以通過自由表達的方式告訴系統需要收拾的玩具的具體位置,對話可以幫助系統提升完成任務的成功率。家庭環境很複雜,會出現各種各樣的物品,我們相信深度學習可以解決感知方面的問題,但是讓機器人成功抓取所有這些東西,還是很難。我們也在開展相關研究課題,比如針對末端執行器。不過,整理機器人不會很快上市。

機器之心:什麽是無約束的口語指令?如何解決口語指令的模糊性問題?

這是我們在 ICRA 2018 會議上發表的研究成果。和傳統的口語指令不同,無約束意味著,不需要擔心如何發出命令,直接對機器人發出命令就可以了,比如 play music。一般的口語指令是有固定語法的,就像 Alexa 那樣,需要念出「Alexa」喚醒詞,再對 Alex 發出命令。為了解決傳統口語指令系統不利於自由表達的問題,我們使用了基於神經網絡模型的系統,它可以理解每個表達或命令的具體意思。

不過,難點在於需要搜集大量數據來訓練模型,針對每一個物品、每個命令搜集很多相關表達數據,讓機器可以理解。我們用眾包的方式,搜集了足夠大的口語指令數據集,因此訓練數據集的多樣性也更高,訓練後的文本識別模型具有足夠的泛化能力,可以識別一般的口語表達。

機器之心:融合這些不同深度學習技術最大的難點是什麽?

非常依賴可用的計算資源。比如,針對新問題和既有模型引入一個新 trick 時,僅用一套固定超參數訓練模型判斷這個 trick 是否有效,通常一開始就會降低準確性。相反,你要再次調優所有參數,判斷這個 trick 是不是真的見效。追求高效的深度學習研發工作,實驗數量和速度非常重要。因此,在訓練模型時,我們使用了自己的分布式深度學習框架,和專門的NVIDIA GPU 集群(1500 多個),這也是目前這個領域最大的 GPU 集群之一。(3)另外,針對高效的超參調優,我們研發了開源庫 Optuna,目前已經在公司廣泛應用開來。(4)

機器之心:說到計算資源,你們也在研發自己的芯片,目前進展如何?

做自己的芯片,也是我們 CEO 的夢想。GPU 很有用,我們肯定會在自己的芯片旁繼續使用它,但與此同時也需要有所替換,這也是為了解決我們的深度學習訓練問題。就每瓦性能來說,我們的芯片性能更優,因為 GPU 是一個通用處理器,針對專門任務,會被專門芯片超越。去年 12 月,我們宣布了要自研芯片,我們計劃 2020 年 4 月投入運營裝有這個芯片的新型大型計算集群。

機器之心:有商業化整理機器人的計劃嗎?目前服務機器人商業化都不成功,家庭服務機器人商業化也會面臨更多的難題,比如高昂售價就足以讓用戶望而卻步,你們打算如何解決這個問題?

是的,我們確實有商業化的打算。研發、銷售都需要大量投入,這些也會推高產品價格,一般的新興創業公司(new born)很難搞定這些事情。如果未來需要給我們的產品投資,我們已經擁有與機器人有關的業務,比如與發那科在工業機器人方面合作,與豐田的合作,現在也在嘗試醫療領域,這是我們獨特的優勢,也是其他新生的機器人創業公司所不具備的。

機器之心:如何看待 Rethink Robotics 的失敗?

他們主要瞄準的是實驗室和教研市場,而不是實際應用,比如發那科那樣,優傲也很不錯,簡單、便宜、可以用於實際場景。他們選擇的這個市場規模太小了,市場選擇的問題。

公司與生態

日本初創公司的普遍成功模式是這樣的:利用研究者在大學開發的技術,受到日本政府政策支持,並得到像大和房屋這樣的大企業在資金上的支援,最終拿出有競爭力的產品,完成上市。一路走來的 PFN 也帶有這樣的色彩,不過 PFN 認為,如果公司由他們的投資者控制,那對每個人來說都會變得乏味。

機器之心:作為一家創業公司,你們不僅擁有全棧能力,而且業務多元,涉足製造業、自動駕駛、生物醫療等,每個領域難度都不小,業務之間的跨度也大,這一策略背後的邏輯是什麽?如何駕馭業務的多元化?

我們也知道這樣的戰略很少見。但這些垂直領域的人工智能應用有交叉部分,可以幫助我們的技術規模化。另外,獲取不用領域大型公司的資金支持,也有利於公司財務獨立。我們不想單純依賴某一個公司,或某一個消費群體,這是非常有風險的。同時發展許多方向,我們不僅可以更好的管理我們公司的產品組合,也可以幫助我們實現財務獨立。

但也像你們說的,同時管理如此多元的業務(manage diverse different product)存在許多困難:不同領域有著不同的商業模式,不同的產品有不同的生命周期,在一個公司內同時運作這些項目,是很難橫向對比每個項目的進度,也比較難管理的,這對我們管理團隊來說是比較困難的。

你很難用單一的簡單 kpi 對所有業務,去衡量各個項目的進度,因為有自己的時間軸和商業模式。如果你用一個簡單的單一的數字去評估項目,那麽管理團隊是很容易評估項目和團隊成員的。如果你沒有那麽簡單的 kpi,那麽評估項目進度,這時候就需要理解所有的細節,不光光是技術,還需要理解項目的商業模式,以及該產業中的一些商業習慣。

對於管理來說,有很多事情要做。我們的經驗是,放棄簡單管理的方式,而是管理團隊必須學習公司的各個項目,理解每個領域,並且投入到團隊中來,參與到用戶學習中來。

機器之心:目前公司的主要商業模式是怎樣的?有沒有考慮向海外擴展業務?

B2B,與豐田、發那科等公司合作是我們目前主要的商業模式。同時,我們也在醫療健康、家用機器人等領域探索我們自己的商業模式。比如,在醫療健康領域,我們已經與在三井(美國)公司合作,我們在伯克利子公司負責這方面的工作。

機器之心:日本經濟有著自己的特點,比如長期主導日本經濟的是「Japan Inc」(日本傳統的,高度集中的經濟體系);日本市值最高的十家公司中並沒有諸如谷歌、亞馬遜、阿里、騰訊這樣的互聯網巨頭,它們如何影響著日本的 AI 創業公司?

我們沒有從 VC 那裡獲得投資,我們引入的都是產業資本。日本市值最高的公司大多都來自製造業,他們往往缺乏軟體能力,這些正是我們的機會,不過同時也面臨著國外巨頭的競爭,比如谷歌雲、亞馬遜雲,NVIDIA等公司提供的解決方案。

現在,如果你有十來個人,有一個 AI 項目,很容易就能獲得幾百萬美元投資,情況比過去好多了。像中、美一樣,日本的風投對 AI 創業公司也很感興趣,2017 年是一個高峰,但這之後他們關注區塊鏈,比特幣更多。

獲得更多的PTT最新消息
按讚加入粉絲團