每日最新頭條.有趣資訊

2年自學,21歲最年輕Kaggle大師之路

新智元推薦

來源:圖靈 TOPIA

作者:Mohammad Shahebaz 編譯:劉靜

【新智元導讀】本文作者在 Kaggle 比賽中獲得了 4 枚銀牌和 1 枚金牌獎牌,並且擁有 31 枚討論金牌,他現在是其所在國家(印度)最年輕(21 歲)的 Kaggle X2 Master。

本文作者 Shahebaz,畢業於 JNTUH 大學電子與通信工程學院。他最近在 Kaggle 比賽中獲得了 4 枚銀牌和 1 枚金牌獎牌,並且擁有 31 枚討論金牌,他現在是其所在國家(印度)最年輕(21 歲)的 Kaggle X2 Master。

他表示,介紹進入數據科學領域所需技能的文章有很多,分享成功經驗和意見的訪談也不少。但很少能找到文章具體介紹他們是如何開始自己的數據科學之旅的。所以,近期他在 Medium 上撰文分享了自己的成長經驗。

他表示,剛開始的時候,自己也是個菜鳥,對很多知識並不是很擅長;並且,數學也從來不是自己最喜歡的科目。然而,今天他卻很熱愛這個領域。。。

以下是文章具體內容:

少有人走的路

我是最近才開始參加比賽的,並且在過去的 9 個月中,在各種比賽中贏得了一堆獎牌。這聽起來是不是挺神奇的?

我曾經特別害怕參加 Kaggle 比賽,因為 - 覺得它們很難!

那麽,這一切是從什麽時候開始改變的呢?

2017 年,作為 Oppia.org 的會員和活躍撰稿人,為了更好地工作,我開始學習Python 2.7

後來我學會了所謂的 “過時” 的 Python2.7 版本,但是又不得不重新學習 Python 3。

我幾乎無法創建列表或 add/join 字元串,那時我也只是一名新手程序員。

我在開源貢獻期間學習了編程,使用 git 進行軟體版本控制,以及意識到了良好結構和文檔化代碼的重要性。

有一天,我正在搜索 Python 2.7 還能做什麽的時候,瀏覽了一下互聯網並登陸了 Kaggle。著名的 Kaggle 聲明(statement)正盯著我,讀完問題聲明後,我驚奇地盯著螢幕。

“在這次挑戰中,我們要求您完成對哪些人可能存活的分析”

當我讀到這個。我感覺到了像追星族般的驚奇。預測幸存的人?這是什麽樣的黑魔法?我甚至立刻檢查了 Kaggle 網站的真實性,第二個驚奇的時刻就是我意識到 -

數據科學聽起來像是 21 世紀非常真實的科幻技術!

就像一部科幻電影突然在我的現實生活中出現,它的概念對我來說完全陌生。

我決定讓自己進入這個領域。而對數據科學學習的熱情一直在我身上保持。(老實說,即使今天也沒有任何消減)

我是如何學習的?推薦資源?

選擇的悖論 —— 越多越少

如今,網上有很多課程。通過谷歌搜索 - “如何成為數據科學家” ,你就會得到許多結果,也就很容易陷入選擇的悖論。這種感覺就像在餐館裡從琳琅滿目的選擇中選擇一道美味的開胃菜。就本文的範圍而言,我將列出我最喜歡的幾本書。

Python 推薦

如果您使用 Python 編寫代碼並且您的技能處於中間水準,則本書應該放在您的書架上。

《Python 的數據結構和算法》由 Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰寫。

《Python 中的數據結構和算法》

本書深入探討了 Python 中的 OOP,數據結構和算法的概念。我喜歡本章每一節的練習。在製作需要優化和格式化編碼的車庫項目時,我仍然將其用於日常參考。

著手機器學習基礎知識

結束 Python 基礎知識之後。我買了幾本關於機器學習的書,我推薦這本書;

《用 Python 學習機器學習》

《用 Python 學習機器學習》,作者是 Andreas C. Müllerand Sarah Guido

它涉及機器學習的基礎知識,由 scikit-learn 的創始人自己編寫,它是一本完整的初學者入門書。

讀這本書讓我非常熟悉 scikit-learn,我最終還在官方的 scikit-learn 存儲庫中推了幾個 PR。

但是,如果您熟悉數據科學並已進入任何機器學習競賽的前 20%,您會發現上述的書挺無聊的。但是,如果你仔細閱讀,肯定有一些方便的技巧和方法可以幫助你在比賽中獲得優勢。

另一本比 MOOC 更值得推薦的書是《Introduction to Statistical Learning with Applications in R》

如果我是一名面試官,我會找一個在理論和實踐中理解 ISLR 的人。

《ISLR》

這本書是關於 R 語言的。但是,我仍然十分推薦它。

通常在研究背景下,對於想要深入挖掘並達到統計核心的人來說,《統計學習的要素》是非常推薦的一本書。ISLR 和 ESL 這兩本書都是可以免費下載的。因此,您不必破費,就可以獲得免費的機器學習知識。

《統計學習的要素》

人們經常問我 - 你學習機器學習的 MOOC 是什麽?

答案是None。

我發現在線課程沒有效果。至少,我注冊的那些沒有效果。有以下幾個原因:

與書籍相比,在視頻中很難找到概念參考;

書籍會深入足夠的細節。

這並不意味著我討厭 MOOC。事實上,我計劃在今年完成一些工作。我建議你把基礎打牢,而不是專注於觀看只針對單一課程的視頻內容。閱讀書籍和資源肯定擴展了我對某些概念的認識,我現在可以從不同的角度來解釋這些概念。

初學者的生活

我經常在 LinkedIn 上收到想要從事數據科學的人發來的信息。但痛苦的現實是,根據你之前所做的,學習曲線並不陡峭。我會讓你從我的經歷中走出來。

這是我當時的問題:

1、如何開始使用數據科學?

2、我完成了一堆算法。接下來做什麽?

3、如何找到工作並搞定數據科學面試?

4、做 Kaggle 值得嗎?比賽會有所作為嗎?

我非常渴望得到這些問題的答案!

現在,我已經通過了系統的學習,可以用一句話回答你:事情沒那麽簡單,這很複雜。

部分原因是術語 — 數據分析師、數據科學家和 ML 工程師是三個不同的頭銜。這份工作的性質因公司而異。

數據分析師有時只能執行 SQL 查詢,或者構建模型或進行業務分析。有時他們也會成為項目經理。

數據科學家有時製作基本模型,其他角色需要博士學位。研究工作和很少的其他工作需要在大型系統上進行模型調優和部署。

ML Engineer 是融合了數據科學知識的軟體工程專業知識

問題是……

您的夢想數據科學工作沒有固定的職位描述。

許多公司仍在搞清楚 “究竟什麽屬於數據科學,應該關注哪些問題”。在這種情況下,你的學習必須是連續的,而不是受 MOOC 課程時間限制的,這一點變得非常重要。

追隨你的激情,解決問題。比如從你的 Android 手機上收集數據,匯總推文研究你最喜歡的演員的粉絲,在《復仇者聯盟 3: 無限戰爭》中應用奇怪的機器學習案例等等。

我的圖像說明項目

想象力是無限的,ML 也有無限的可能性。現在讓我們來探索成為一名更好的數據科學家的能力技能。

數據科學愛好者的目標清單

該列表適用於數據科學家角色,但是如果您申請領域特定的角色,則可能需要更多的技能。

1. 掌握統計和概率:比較容易,這項技能數據科學領域的麵包和黃油。我強烈推薦麵包優先的方法,除非你是寫研究論文或在學術界的角色。

在現實世界中,雖然在編寫代碼時不會經常使用 stats 知識。但是,掌握好 stas 知識不僅能讓你成為更好的數據科學家,還能幫助你做出關鍵決定。

2. 參與數據科學競賽:主要是學習不一定非要贏比賽。我明白在比賽中獲勝並且贏得獎金聽起來有利可圖。我花了 100 多場比賽才進入我的第一個 50 強排行榜。沒有人從第一天開始就是贏家。比賽將幫助您在競爭激烈的世界中回顧自己的成長。

3. 你的項目是你自己最好的代言人:使您的 GitHub 配置文件保持活躍並完成至少 2-3 個項目,包括文檔的最終實現。雖然比賽是應用你的技能的一種方式,但是對他們的反對聲很大。

比賽並不是現實世界數據科學任務的同義詞。他們就像在一家五星級餐廳品嚐現成的拚盤。

從頭開始貢獻或處理項目將使您在實際數據科學任務中獲得經驗,這些任務才被認為是最重要的。

數據科學 & 其他

如果你正在尋找一個職位,如果職位描述要求你全能:既要求你是數據科學家又要有 8-10 年 “spark” 經驗。

趕緊跑吧!(Spark 是 2011 年推出的!)

有很多公司只是因為媒體炒作或者人雲亦雲的趨勢而想要去推動數據科學。

有時候,他們需要的只是.groupby (),而不是機器學習。

未來的工作角色將會大不相同。作為一名數據科學家,請確定您想要進入的領域。目標是你在那個領域的項目和競賽。

招聘人員更傾向於雇傭已經從事過公司目前正在從事的工作的人。

假設你要去一家餐廳吃海德拉巴 Biryani。你會喜歡一個剛剛在 YouTube 上看過菜單的新廚師,還是喜歡一家專門製作正宗海德拉巴 Biryani 的餐廳?公司也是如此。他們想要的是一個有經驗的人。

例如:我經常堅持參加金融領域和 NLP 的競賽。這是我幾個月前接受採訪時最大的優勢。我可以問更多與領域相關的問題,了解公司目前正在進行哪些項目,以及我認為自己適合哪些領域。

畢竟,比工作更重要的是,可以在你最喜歡的項目度過每個星期一上午。

寫在最後

我遇到了這樣一個奇妙的場景,實際上是一個極端的場景。想象一下,如果 Tensorflow 消失了會怎樣?

您意識到您不再是數據科學家和 ML 工程師了!

這個想象很有趣但也合法。

未來可能會有一些新的工具和數據科學庫。曾經 XGBoost 是商業機密算法,現在它完全開源。明天,其他一些工具將改變數據遊戲。

AutoML 已經在引領下一代數據科學解決方案。我親自從 H2O.ai 中找到無人駕駛 AI !

當重複性任務自動化時,業界總會出現問題。讓自己了解並學習核心技能,而不是少數庫的語法。探索:

GAN

強化學習

機器學習可解釋性

你需要讓自己時刻保持學習和成長。

打個比方,如果您自己不進行.transform () 和.fit () 改進,那麽您將成為一個 under fit 分類器~

獲得更多的PTT最新消息
按讚加入粉絲團