每日最新頭條.有趣資訊

站在大數據金字塔尖的人——數據科學家

撰稿:Kimberley

“我們很容易就可以通過維基百科理解機器學習的概念。但要真正做到這一點,你需要知道對一個具體的問題應該使用哪種工具,而且你需要充分了解每種工具的缺陷和限制。要獲得這些經驗沒有捷徑。只有不斷試錯。你會發現自己將分類問題歸入聚類問題,或將聚類問題歸入假設檢驗問題。在某件事上要想成為專家需要很長時間。這需要多年的錯誤。幾個世紀以來現實一直如此。”

——紐約時報首席數據科學家Chris Wiggins

21世紀“最性感的職業”

在Google、Amazon、Facebook、Uber、Airbnb等公司成功的背後,有一批可以將大量數據變為有價值的“金礦”的人。他們就是被譽為“今後10年IT行業最重要的人才”,也是《哈佛商業評論》評出的21世紀最性感的職業——數據科學家。

近年來,隨著互聯網技術的日漸發展,數據采集手段也日益豐富多樣,人類擁有的可分析數據的種類和量級都有了指數級別的增長,數據科學家這一新興職業正是誕生於這樣的時代背景之下。

越來越多的企業對數據科學家求賢若渴,因為該領域聚集了大量高精尖人才,他們熱衷於解決複雜的問題,通過合理使用大量數據,在這群人的手中,大批新應用、新行業應運而生。

語音識別,電腦視覺中的物體識別,機器人,自動駕駛汽車,生物資訊學,神經科學,系外行星的發現,對宇宙起源的理解,以及在經費有限的條件下,組織一支勝出的棒球隊……

但找到一位優秀的數據科學家和找到一個理解數據科學家是做什麽的人一樣難。當今社會對數據科學家的需求缺口很大。根據IBM的研究,2020在美國的所有數據的專業人員每年的職位空缺數量從36.4萬增加到272萬。另一項調查顯示,到2020年,對數據科學家、數據開發者、數據的工程師等新崗位的需求量將有接近70萬的缺口。

僅能滿足業務的技術要求並不能成為一名合格的數據科學家。那麽,想要成為一名數據科學家需要具備什麽核心技能和特質呢?

數據科學家招聘要求(圖片來自華輿 設計/陳毅星)

數據科學家的自我修養

1. 掌握編程工具。常用的編程語言有 Python、R 和數據庫查詢語言(如SQL),這些都是數據科學家在日常工作中,包括數據讀取、整合、建模分析和可視化等整個流程會用到的工具。

2. 熟悉統計學知識、機器學習方法、微積分和線性代數概念以及數據清理。數據科學家應當了解統計測試、分布、最大似然估計等方法;用機器學習方法來構建模型;理解技術的基礎概念,並了解算法的數學原理;數據的品質對後續的分析和建模都有著重要影響。

3. 數據可視化與溝通技巧。數據科學家不僅需要分析數據,還需要向非技術團隊成員解釋這些數據。資訊的品質很大程度上依賴於其表達方式,因此可視化和傳播數據非常重要,特別是對於非常依據數據做出商業決策的公司。數據科學家需要知道如何溝通和描述發現,這不僅包括技術,也應當涵蓋非技術領域。

4. 軟體工程技術。數據科學家也會負責處理大量數據記錄,以及數據驅動產品的開發。在數據量大的情況下,將會使用到 Spark、Hadoop 等大規模並行處理技術。

5. 業務熟練度和數據直覺。數據科學家的工作需要考慮到公司需要運行哪些測試,開發哪種數據驅動產品,以及如何排定優先級。因此數據科學家也應了解公司業務,用直觀的方式與工程師、產品經理溝通,協作完成任務。

6. 風險分析、過程改進和系統工程。一位優秀的數據科學家需要了解分析業務風險、改進流程以及系統工程如何工作的概念。

7. 分析能力和定量推理能力。一個優秀的數據科學家最主要的特點是具有很強的邏輯分析能力。

8. 解決實際問題。使用數據來解決問題是工作的一個基本要素,但是數據科學家也必須能夠考慮其他方面的問題。隨著行業針對社會需求的發展,數據科學家應該能夠應付技術的缺乏,並完成必要的工作項目。

9. 批判性思維。數據科學家需要是一名具有批判性的思考者,以便在提出意見或作出判斷之前,能夠對特定主題或問題進行客觀的事實分析。

10. 保持好奇心。數據科學正以驚人的速度增長,數據科學家不僅要具有黑客的頭腦,對數據有好奇心,還要對商業有熱情,是有影響力、有創造力,能解決問題的人。

所謂數據科學家就是比軟體工程師更擅長統計學,比統計學家更擅長軟體工程的人。數據科學家必須有能力收集恰當的數據,將之整理為合適分析的形式,設計創造性地方法來實現數據可視化,並挖掘數據資訊來回答具體問題。

你離一名成功的數據科學家還有多遠?

其他推薦職業:程式員鼓勵師;無人機駕駛員;模擬宇航員

獲得更多的PTT最新消息
按讚加入粉絲團