每日最新頭條.有趣資訊

技術人創業者夏粉:用AI創造AI

這幾年從百度出來創業的人工智能科學家不少,夏粉就是其中一位。去年 6 月,他創立智鈾科技,公司專注開發自動化機器學習平台(AutoML),公司產品名為 Ebrain,至今已獲得兩輪融資。

AutoML 的目的是實現機器學習自動化建模,通俗一些來說,是用 AI 創造 AI。當然,往細來講它並非能將整個人工智能應用的過程自動化,而更多是降低這項技術的使用門檻,從而讓更多的人也能用上。在接受雷鋒網專訪的過程中,夏粉對此進行了詳細解讀。

作為技術人創業者,夏粉也向雷鋒網表達了在向企業家身份轉變的過程中所遇到的挑戰,他表示,

創業跟科學問題不一樣,科學問題是邊界很清晰、非零即一的。但公司創業因素很多,有的時候它不見得用科學的方法能解決,可能需要一些藝術的、模糊處理的方式。

關於夏粉

夏粉博士,畢業於中科院自動化所,師從機器學習泰鬥王玨老師;智鈾科技公司創始人兼 CEO,專注於自動化機器學習平台產品。

15+年機器學習領域的研究和應用經驗,曾在百度任資深科學家,負責百度超大規模機器學習團隊。研發超大規模離散稀疏架構自動化機器學習平台(Pulsar),覆蓋公司 80 % 以上業務線,包括百度最核心的商業變現系統鳳巢、金融、糯米等。在公司內部機器學習平台中用戶數排名第一。

機器學習頂級會議雜誌 JMLR,ICML,NIPS 等發表多篇文章。

創業:技術人的情懷與資本的橄欖枝

“技術人是有情懷的,他們希望技術研發得到認可,開發出世界一流的技術,然後希望它的影響力盡可能大。”夏粉向雷鋒網這樣答道。

回顧之前讀機器學習博士專業的時候,夏粉表示當時技術得到認可的一個表現就是在頂級會議上發表論文。後來他發現,技術還需要落地,需要影響別人,於是加入了百度,在百度最大的廣告業務線網盟,他發展出了一套 AutoML 技術。

但在大企業裡面,每個人都是一顆螺絲釘,其工作目標被一個框所限定。夏粉的這個框就是網盟的點擊預估系統的 CTR 不停地提升。但他希望有一個更大的平台,於是來到了百度研究院大數據實驗室(BDL),站在研究院的基礎上,夏粉推出了業界第一個基於兆規模的深度學習網絡的商用在線學習系統以及全自動機器學習平台 Pulsar。Pulsar 被公司各業務線廣泛使用,平台覆蓋公司絕大部分業務線,包括鳳巢、網盟、金融和糯米等,並受到一致好評。

“在內部平台裡面,我們得分第一,兩年時間被 30 條業務線應用。”夏粉告訴雷鋒網。

在這個過程中,他發現自己的影響力還可以進一步擴大,於是想到跳出百度,將技術應用到各行各業。

除了作為技術人的情懷,國家“大眾創業,萬眾創新”的政策也鼓舞了夏粉。而且,他告訴雷鋒網,當時一些資本把錢放到他眼前了,“一些資本會經常問你要不要創業,你創業了,我的資金放在那,等著你出來創業。”

如此天時地利人和,最終促成了夏粉邁出創業步伐。

對於前東家,他表示非常感謝:

百度是一個對技術非常重視公司,技術人員在那邊地位不一樣。百度給我很大的場景,一個技術人員研究動力技術再厲害,如果沒有給他場景,沒有實際的東西給他去加工,積累不了經驗,他也沒法發現問題來提升自己的技術。百度能提供很多數據和算力方面的集體資源,然後具有非常大的問題規模,你可以在這裡面得到很好的實踐鍛煉。

產品:自動化機器學習降低 AI 門檻

技術的進步終究要落地到實際的經濟生產中去,這也是近幾年人工智能大熱之後,AI+成為各行業乃至國家大力推動的事情。吳恩達說人工智能是未來的水和電,意味著它需要有足夠低的門檻,讓各行各業的人都能很容易地使用。

但俗話說隔行如隔山,想要把一項電腦科學技術深度整合到另一個行業中去,並不是一件容易的事情。解決這個問題有幾個方向,一是培養更多的人工智能專家,並讓他們學習不同行業的專業知識,這方面許多公司、政府和高校都在努力,包括雷鋒網旗下的AI 慕課學院。

然而人工智能人才培養的周期很長,AI 人才稀缺的問題長期困擾著行業。根據教育部印發的《高等學校人工智能創新行動計劃》,中國人工智能人才缺口超過 500 萬,如此龐大的需求,短時間內肯定無法得到滿足。

而另一個方向是降低機器學習的門檻,這正是夏粉的創業團隊在做的事情。智軸科技的產品 Ebrain 是一個機器學習自動化建模平台。其作用就是用 AI 替代機器學習建模過程中需要大量人工操作的部分,從而讓一般的企業技術人員也能輕易使用上機器學習,不需要自己精通機器學習。

關於 Ebrain,雷鋒網針對一些關鍵問題與夏粉進行了交流:

雷鋒網:什麽樣的市場痛點促使你選擇做 AutoML 這個方向?

夏粉:從專業的角度來說,是目睹了工程師辛苦調參的過程,特別累,我覺得一定要把工程師從這種重複勞動中解放出來(高端人才應該致力於前瞻性研究)。

從企業的角度來說,是提升了他的效率,節省了他的研發成本和人力成本。

對業務人員來說,是從不可能變為了可能(致力於做好工具化,讓非專業人士獲得AI能力)。

雷鋒網:AutoML 的優勢是什麽,其解決的關鍵問題是什麽?

夏粉:自動化模型參數調整,節省工作量,降低門檻;

自動化特徵抽取、變形和組合,找到有效的影響結果的特徵;

自動化模型結構設計,比如神經網絡多少層,每一層之間的關係。

雷鋒網:AutoML 的局限又在哪裡?

夏粉:如果做到場景通用化,可能會稍微多消耗一些計算資源,但總是比人便宜。

雷鋒網:你怎麽看待現在國內做 AutoML 的競爭?

夏粉:我們做的更像Google AutoML,但是我們可以支持企業私有化部署。國內這個賽道上,智鈾科技是第一家。

雷鋒網:機器學習的目標仍然是解決具體問題,而要將它應用到各行各業就需要對各行各業的問題有深刻的理解,一般做機器學習定製化服務的公司,都會同時配備領域內的專業人士來幫助了解問題,並制定相應的解決方案,開發相應的ML模型進行解決,AutoML 目前的水準有多大程度可以代替這個過程,有哪些是很難代替的?

夏粉:和業務相關的部分,很難用自動化機器學習來取代,需要業務人員的參與,比如數字化,數據采集,界定問題,設定目標;當然機器學習科學家是可以通過短期學習掌握這些問題。

特徵抽取----建模-----優化,這些過程是可以自動化。

雷鋒網:現階段的 AutoML 可以高效解決模型架構設計、超參數選擇這樣的模型優化方面的問題。商用解決方案裡還有其它的需求,比如前端的數據收集、數據預處理以及模型上線後的長期維護和演進,這些需求你們有針對性技術嗎?有長遠規劃嗎?

夏粉:智鈾科技目前可以在 預處理、特徵抽取、建模、優化這些方面通過自動化的方式幫助到企業。將來在ETL,在線模型演進也要做到產品中去。

雷鋒網:目前有哪些應用案例,能否詳細介紹一個,合作中,智鈾科技提供什麽,企業需要做什麽,最終達到了怎樣的效果?

夏粉:以內容推薦應用為例,醫藥公司會通過微信、郵件等方式為醫生推送一些內容(即文章),推送後醫生會對文章有閱讀或點讚行為。現在需要根據醫生的特徵和歷史閱讀、點讚記錄預測其感興趣的內容,從而進行內容的精準推薦。

常規的做法是:對醫生和文本提取大量特徵,進行特徵選擇和變換,選擇合適算法和對應的超參數,訓練模型。通過在驗證集上效果,挑選最優的特徵、算法和超參數。所有的選擇過程由人工完成,耗費大量人力和計算資源。

對此,智鈾在文本結構化處理的基礎上,利用雲計算提供的大量計算能力,通過Ebrain在很短的時間內自動構建客戶興趣模型,並提供內容推薦核心服務能力。最終,根據醫生的興趣進行資訊推薦,按照行業標準預估客戶內容訪問量提升50%以上。

雷鋒網:Ebrain 對人工智能的發展意味著什麽嗎?

夏粉:降低機器學習門檻;讓普通工程師,業務人員也可以方便使用機器學習;人人都可以成為數據科學家。

雷鋒網:目前大型雲服務廠商都提供人工智能雲服務,提供很強的算力和軟體服務,企業可以在上面構建和訓練模型,作為並非大型雲服務商,Ebrain 在部署上是否會遇到問題,比如算力、數據、接口等方面?

夏粉:產品銷售模式:私有部署+雲上SAAS服務,大客戶有定製解決方案。都是標準的接口,不會有什麽問題。

雷鋒網:如果大型雲平台也推出 AutoML 的話,Ebrain 如何維持競爭優勢?

夏粉:我們對自己的技術、算法積累比較有信心;我們是可以做私有部署的。

我們不僅僅是機器學習,而是機器學習自動化+產品化,並且只有做到自動化,機器學習才能做到產品化。自動化機器學習有很高的技術門檻,難點是“自動化”,在算法和實踐上需要有很深的積累。

自動化機器學習最難的是優化問題。給你個目標函數,我需要找到一個點使目標函數最小,這就有很多研究方法,對目標函數有很多解法,可以求解。自動化機器學習是目標函數不可導,反饋機制不明確,計算複雜度高,所以要全部試一遍,成本非常高。把不可導變成可導的優化問題出來,就要求近似。報導說,人工智能打敗國際象棋大師是在上世紀80年代,通過暴力搜索,每一步都評估,選取分數最好的一步,但是到圍棋就不行,複雜度高搜索不出來,窮搜根本搜不出來,所以要做近似問題,把不可解問題近似成可解的問題,找目標函數,使目標函數以很大的概率覆蓋每個解,同時求解的複雜度降低,我們在這一方面創新了很多算法。(人和機器都沒有辦法找最優解,機器範圍大、效率高,所以效果比人好)以前象棋每步搜索2億次,現在只需要做3000萬次,因為做了優化。

自動化機器學習的突破最大的是算法設計突破,你要找到A問題近似B問題,比如谷歌 AutoML 是用強化學習做的,他也是窮值,窮值下面也是有一個產生概率在裡面,我有幾個候選,這些都有可能是最優解,我把每個最優解都放了一些概率分布在這兒,然後根據概率分布我隨機抽一點,抽一點上去試,試的話反饋過來會改變這個概率的分布形式,最終概率分布形式變了,最終最有可能是最優解的概率覆蓋到更大的概率。

雷鋒網:目前公司的主要工作是什麽?

夏粉:打磨產品。

從技術人到企業家:用機器學習的方法管理一家機器學習的公司

從技術人到企業家,對夏粉來說是一個巨大的轉變,也帶來很多新的挑戰。在他看來,做學術和做企業家有很大差別,涉及到的問題要複雜得多:

第一、做學術可能只是盯著一個問題去研究,而做企業有很多問題需要去解決,每個問題又需要不同的能力和技巧。

第二、原來解決問題可能只需要管自己,而作為企業家不一樣,身後是很多人,需要對他們負責。“原來是很簡單,就是做科學家做一件事情,現在要把這些人也得處理好了。”

第三、原來就學一個點,現在好多東西都要學,“我也觀察了一些做的比較好的企業,其實從一開始創業,一直到企業運營都在不停的學習中。”

夏粉在管理過程中探索了一條類似機器學習的企業管理方法,包含輸入、輸出與中間三個部分。對於一家企業來說,輸入的是資金和人力,之後經過中間的步驟,輸出盡可能接近目標的結果。這裡面,中間是複雜的地方。

人怎麽管?錢怎麽用?客戶怎麽維護?發展節奏怎麽樣的?中間就是調參過程。調參過程跟 AutoML 一樣,難點是啥?原來做機器學習,導入很容易知道,但訓練目標和最終目標之間有一個殘差,通過殘差反過來調參,AutoML 有一個問題是殘差找不到,就需要你自己定義殘差,然後再擬合。

做企業也是一樣,確立一個使命以後,下一階段怎麽走?需要定一個子目標,而且這個目標一定要量化了,達到子目標以後,再根據目標往後面走,然後變成新的目標。

但在向企業家這個角色調整的過程中也不免遇到難處,“我覺得每一個創業的背後都是一段很辛酸的過程,即使你看到那個企業家很成功,背後可能也很多時候會偷偷地抹眼淚。”夏粉告訴雷鋒網。

現在智鈾是十幾個人的規模,很快會到二十來人,其中一半以上是技術。夏粉表示,AI 人才稀缺的問題他們也遇到了,而他的解決途徑除了努力招人,也會自己去培養人才。夏粉之前也是老師,在百度的時候培養過很多 AutoML 方向人才。

除了人才,其實還有很多,“比如說摸索方向,跟客戶談判,之前沒遇到,中間都覺得困難,好歹我們一步步的就跨過來了。”夏粉說。

但這也是一個成長的過程,夏粉表示,創業是一個磨練的過程,磨練到一定程度時,心態會越來越強,在這個過程中也能看到自己的成長。

而且我現在越來越確定了,我們的公司肯定能做成。為什麽?因為我們確確實實給社會創造價值,就很多企業因為有了我們,成本降低了,收益提升了。剩下就是我們怎麽把事情做出來。

獲得更多的PTT最新消息
按讚加入粉絲團