每日最新頭條.有趣資訊

首屆Apache Hadoop技術社區中國Meetup舉辦

近日,在Apache Hadoop社區主導及邀請下,騰訊開源、騰訊大數據、騰訊雲聯合承辦了Hadoop技術社區在中國的首次Meetup。圍繞Hadoop技術實踐,來自騰訊、Cloudera、京東、小米、阿里、滴滴、華為、字節跳動的多位嘉賓參與了分享討論。

騰訊開源運營負責人王春雨表示:“中國企業的參與是開源生態建設不可或缺的一部分。騰訊作為國內開源的先行者,將持續投入社區協同合作,以開放的心態,推動更多開源社區之間的交流對話,助力技術生態發展。”

Hadoop是由Apache基金會所開發的分布式系統基礎架構。自2006年誕生以來,Hadoop改變了企業對數據的存儲、處理和分析的過程,形成了一個極其豐富的技術生態圈,並在經歷了大數據技術高速發展之後,迎來了3.x的時代。

作為Apache Member, Hadoop PMC & Committer, Hadoop社區負責人之一,堵俊平於2011年開始持續關注Hadoop技術的進展,參與社區貢獻,並積極推動 Hadoop技術在全球各地的落地推廣。他同時也是騰訊TEG數據平台部海量存儲與計算研發負責人、騰訊開源聯盟主席、開源管理委員會委員。據介紹,騰訊是最早採用Hadoop技術的中國公司之一,這兩年向社區貢獻了大量patch和特性,包括HDFS穩定性增強、YARN增強型資源隔離方案、Ozone項目的新特性等,並作為國內首家企業率先在社區發布2.8.4與2.8.5 release。

堵俊平展示了大數據Hadoop技術與社區發展的Roadmap。包括存儲平台(HDFS,Ozone)向大規模、雲、容器化、機器學習等方向的演進路線以及近期的熱點feature,包括RBF(Router Based Federation),即基於路由機制的集群聯邦方案來應對海量數據存儲的增長,HDFS對外部對象存儲的管理,OpenTracing機制的支持,以及Ozone的特性。據悉,Hadoop項目的近期發布計劃將包括2.8.6, 3.1.3,3.2.1和3.3.0。

堵俊平表示,此次Meetup將是Hadoop社區交流的良好開端,騰訊將積極參與社區交流,貢獻自己的技術實踐,推動Hadoop技術生態發展。未來Apache Hadoop社區在中國的Meetup將沿用之前在矽谷的方式,即:由Hadoop PMC組織發起,志願參與社區貢獻的公司來自願承辦,開源貢獻者共同參與並提交議題,活動向開源社區所有用戶與貢獻者免費開放。未來,Hadoop社區將在中國形成每季度舉辦一次中小型的Meetup的慣例,甚至開創新的形式,包括舉辦較大規模的HadoopCon。

騰訊大數據工程師、Apache Hadoop Committer & PMC member陳怡以Ozone為例,介紹了Hadoop原生對象存儲服務的解決方案。

Ozone是由Hadoop社區新發起的一個強一致性分布式對象存儲服務,旨在解決目前HDFS Namenode的擴展性上限問題。Ozone 擁有和HDFS一樣的可靠性,一致性和可用性,支持Hadoop文件系統接口,無縫對接YARN,SPARK 和HIVE。支持S3接口,提供CNCF CSI驅動。Ozone不僅適用於on-premise大數據環境,同時也是大數據上雲,雲端存儲的一個很好的選擇。

陳怡在分享中介紹了Ozone的動機和目標,namespace管理和數據管理分離的構架,支持的對象存儲的語義,對象讀寫流程,訪問控制,用戶可自定義的彈性網絡拓撲結構,和Kubernetes集成的支持等等將要發布的0.5版本的新特性。

騰訊高級工程師、Hadoop YARN和Kubernetes社區活躍貢獻者龔軍、陳東東則介紹了騰訊大規模YARN集群實踐。騰訊的Hadoop YARN集群在2014年就已經支持單集群8800台上的規模,每日調度上億的container。龔軍分享了優化調度器性能的一些基本思路和方法,包括改進熱點代碼的算法、降低時間複雜度、避免重複的查找與計算、減少鎖競爭以及優化鎖粒度等。通過這些調度性能優化,使YARN能滿足大規模集群的吞吐量。

陳東東則主要介紹了如何使用cgroup對底層資源進行彈性控制,確保業務的請求資源可以得到保障,特別是對多資源緯度的管理,包括cpu、記憶體、網絡io、磁盤io等,同時在有空閑資源的情況下,可以臨時借用更多的資源,以此來提高底層資源利用率。

此外,Cloudera、京東、小米、阿里、滴滴、華為、字節跳動的多位嘉賓也參與了分享,分別圍繞Hadoop在各大企業的大規模實踐、HDFS的改進優化,YARN與機器學習和雲原生結合,以及架構演進等話題進行了討論。

獲得更多的PTT最新消息
按讚加入粉絲團