每日最新頭條.有趣資訊

大數據預測的世界杯冠軍是這支球隊!你信麽?

矽谷Live / 實地探訪 /熱點探秘/ 深度探討

世界杯來啦!相信不少球迷最近都沒少熬夜看球,就連小探這種偽球迷,都被世界杯的氣氛感染到了。今天咱們就來聊聊本屆世界杯裡的新玩意兒、新科技。

小探把這些世界杯上的新科技歸為兩類:視覺輔助一類,數據驅動一類。我們先聊視覺輔助、再聊數據驅動,最後再看看在大數據餵養下的機器學習“神算子”,算出的本次世界杯冠軍到底是誰?

視覺助理裁判

影片助理裁判(Video Assisted Referees,簡稱 VAR)可能是今年世界杯最令人興奮的部分了!VAR 將在今年的比賽中首次作為裁判的附加助手使用。VAR 技術由一組位於遠程影片室的助理人員組成,他們將利用影片技術幫主裁判做決定。

說起這些影片助理裁判,還真是挺 “大牌”,他們隻用在可能會決定一場球賽勝負的關鍵時刻,比如進沒進球、要不要紅牌罰下之類的。

首先由裁判決定需不需要用 VAR,如果裁判覺得有用 VAR 的必要,VAR 遠程協助小組會在場外幕後播放錄像,然後會把結果通過裁判戴的耳麥傳給裁判。此時裁判有兩種選擇:如果選擇全盤相信 VAR,裁判就直接做決定;如果裁判仍然存疑,則可以自己在球場邊再看一遍錄像,然後再做決定。

在場邊看 VAR 裁判發來的錄像

本屆世界杯上 VAR 出盡風頭、屢屢發威,尤其 6月 22 號巴西對哥斯達黎加的那場比賽,VAR 更是對比賽得分造成了決定性的影響:在主裁判判罰點球後,根據觀看 VAR 回放,主裁判又將點球取消—— 這在世界杯可是史無前例!

巴西名將內馬爾當時正在嘗試踩球過人,遇到哥斯達黎加中衛岡薩雷斯的防守後,兩人發生身體接觸,內馬爾慘叫一聲,四腳朝天倒在禁區內動不了了,主裁判因此第一時間判罰點球。

沒想到哥斯達黎加球員強烈抗議,主裁判只好走到場邊看影片回放。然後沒想到的一幕發生了:回到場內後,裁判宣布取消此前的點球判罰!

這是遠鏡頭,的確看不太清:

喏,這是正面鏡頭,你自己判斷到底哥斯達黎加球員的手到底碰沒碰到內馬爾的球衣、內馬爾有沒有必要慘叫倒下。

放錯了,這個才是:

這可真是人在做,VAR 在看。如果早幾十年有 VAR,不知道 1986 年阿根廷對陣英格蘭的 “上帝之手”、2002 年韓國世界杯韓國對陣西班牙等比賽的歷史,是否會被改寫。

那麽,VAR 是怎麽得到這些影像的呢?這要得益於分布全場的33個攝影頭:

圖自 FIFA 官網

VAR 的鷹眼系統由英國 Roke Manor Research Limited 研發。33 台廣播攝影機裡,有 8 台是慢動作攝影機,還有 4 台是超慢動作攝影機。但其實我們看的球賽直播只是 33 台攝影機裡的 31 台播的畫面,剩下 2 台是 VAR 的專屬攝影機,只有 VAR 能看到裡面的內容。在淘汰賽階段,每個球門的後面會再安裝兩個超慢動作攝影機,這也是只有 VAR 團隊才能看的。

有意思的是,根據國際足聯規定,慢動作攝影機主要用於關於客觀的事實情況的糾紛,比如到底手打到哪兒了;而主觀判斷—— 比如一個動作到底有多犯規、或者一個手球是不是故意的 ——則只能用正常速度的攝影機

說完了視覺助理,我們現在來說說本屆世界杯的另一個新趨勢:數據驅動。

電子體能跟蹤器

電子體能跟蹤器,又叫 EPTS(Electronic Performance and Tracking Systems)。它能跟蹤每名球員的位置、足球的位置,還能和加速度計、心跳監控器等微機電設備一起,盡可能全方位地收集每位球員的體能資訊。收集到的資訊通過專門的管道和設備,發給每支球隊的技術人員和隊醫,用以做決策。

這個跟蹤器放在什麽位置比較好呢?有三種選擇,各有利弊:

裝在球場高處| 好處是能縱觀全局、不會影響球員,而且收集的數據很全面;壞處是有時容易被遮擋物擋住視線,而且組裝時間略長;

裝在緊鄰球場的周圍| 比如裝在球門附近、球場邊沿的白線附近。這種方法收集的數據更全面、更精確,但缺陷是它位置固定,比較死板。

圖自 FIFA 官網

裝在球員身上| 或者也可以把 GPS 芯片裝附著在球衣上。這麽做的好處是安裝時間短、而且不像前兩種需要專人操作,很方便,GPS 芯片把收集到的數據發到衛星上即可。壞處是比賽時其可能對球員產生干擾。

收集這些數據,主要是為了分析球員的表現和體能。有了這兩個數據,教練和隊醫在做 “要不要改變陣型” 或 “要不要把誰換下來、讓替補隊員上” 之類的重要決定時就不用靠猜的了。不僅如此,電子體能追蹤器還能提高效率、減少球員因體力不支而可能產生的傷病。

雖然美國國家隊今年沒有資格參加本次比賽,但美國足球聯合會已經著手為 2022 年卡達世界杯做準備了(巧了!我們中國男足也在為 2022 年卡達世界杯做準備)。

美國足球最近與 GPS 跟蹤設備公司 STATSports 簽署了價值 15 億美元的協定,以監測其 400 萬注冊足球運動員。從青年聯賽到國家隊,這些球員將用 APEX 運動監控設備,這個設備能追蹤一名球員的各種數據:跑步距離、速度、加速度、減速度、負荷和心率等等。

梅西身穿 STATSports 設備

美國能在訓練時用這些設備,但不知道這對那些在貧困地區塵土飛揚的小路上踢著礦泉水瓶、懷著足球夢的小孩來說,卻未必是個好消息。先進設備固然能大大提升一支球隊的表現,但它有可能也讓那些來自經濟欠發達地區的球隊更不容易出頭。畢竟不論更先進的 VR 技術、還是強大的數據分析,都需要經濟和技術實力做支撐。

通過收集、分析某位球員的數據,我們能對其體能、技巧等有更細節的了解。但要說起對數據的應用,比起只有教練、專業人士才關心的技術分析,更能挑動人神經的恐怕是預測比賽結果。

機器學習預測的比賽結果,能比章魚準嗎?

一直以來為了預測比賽結果,我們可沒少費心思。從 14 場比賽正確預測 12 場的章魚保羅:

到指誰誰害怕的貝利 “烏鴉嘴”:

但說到底,這些所謂 “預測” 幾乎就是猜。在機器學習技術迅速發展的今天,用機器學習預測世界杯結果會不會更準確些呢?

《麻省理工科技評論》報導,如果我們用最近幾年研發的機器學習技術預測世界杯結果,就很有可能比主要靠猜的傳統預測更準確!

科學家們用來預測本屆世界杯比賽結果的方法叫 “隨機森林方法”(Random Forest approach)。就像樹從主乾到最末端的小樹枝一遍一遍地一分二一樣,如果說最終的比賽結果是樹最頂端的一顆小樹枝,那麽樹木的每次分叉就對應著一個關鍵節點(比賽誰輸誰贏),而通過參考一組訓練數據,機器學習能估計每個分支的潛在發生概率,以 “預測” 出本屆世界杯最終獲勝的球隊。

大多數 “決策樹” 在後期都會因為不可靠因素過多而影響決策模擬結果的準確性,這些決策由於不一致和分散的訓練數據(training data)而失真,這種現象叫做 “過度擬合”(overfitting)。而 “隨機森林方法” 則通過多次計算隨機分支的結果來盡量讓結果準確。“隨機森林方法” 取多次隨機決策樹的平均值,以此繞過 “過度擬合”。

在這個研究 “到底誰能獲勝” 的模型裡,有些考量的因素是我們能想到的,比如該球隊在國際足聯排名、球員平均年齡、球隊裡有多少名球員在冠軍聯賽踢球等因素。

除了這些明顯對預測結果有幫助的因素,這個模型還包含了一些看似無關緊要的因素,比如國家人口、國內生產總值、甚至包括執教教練的國籍。

該團隊模擬了足足 10 萬次足球比賽,並根據 2002 年到 2014 年之前所有比賽的成績(數據可以說是很充分了),使用了三種不同的建模方法。

用這種方式預測出來的本屆世界杯冠軍是...

西班牙!

根據預測結果,西班牙奪冠的概率是 17.8%。如果說這個概率還不是很 “自信” 的話,這個預測說西班牙能衝進四強的概率則高出不少,足足有 73%!可以說是相當有信心了。

而這個研究對衛冕冠軍德國隊的預測是:

“能不能闖出小組賽難說,但如果小組賽沒被淘汰,德國隊進四強的幾率高達 58%。”

這讓小探想起一周前墨西哥 1-0 擊敗德國時,不論中外媒體幾乎都用了 “爆冷” 這個詞,這個結果倒是在一定程度上證明了這項研究有一定的準確性。

好在今天凌晨在德國隊 - 瑞典的比賽中,德國戰車終於發威 2-1 擊敗瑞典!這才是德國戰車的精神!!!德國球迷的心情終於也陰轉晴。

輸給墨西哥的德國:

贏了瑞典:

不過按照這種方法計算,中國男足來自一個人口眾多的國家(加分)、中國 GDP 也全球第二(加分),但連世界杯的門兒都摸不到... 難道這種模型不適用於中國男足?

當然,或許是中國男足的世界排名太低了,拉了這項預測的後腿。中國男足全球排名低到什麽程度了呢?這麽說吧,下次你再抱怨網速太慢的時候請牢牢記住,我們的網速世界排名都比國足要高。

獲得更多的PTT最新消息
按讚加入粉絲團