每日最新頭條.有趣資訊

朱小黃:⼤數據異化及算法王道

  文/新浪財經意見領袖專欄作家 朱小黃

  在數據風起雲湧若⼲年後,在⼤數據喧囂若乾年後,當智能社會的廓影現身於東⽅晨景時,⼀切都會回歸常識與基礎邏輯。數據從服務⼈類管理活動,到⼲預並損害⼈類⽣活狀態,產⽣了異化。未來只有建⽴在算法基礎上的數據運⽤才是可持續的。

  1

  大數據是數據的外延

  現在和未來的唯⼀樣本是過去。所有的過去都在數據中。

  數據與⼤數據是不同的概念,但卻是同⼀事物的不同狀態的描述。

  數據(data)是事實或觀察的結果,是對客觀事物的邏輯歸納,是⽤於表示客觀事物的未經加⼯的原始素材。數據表示的是過去,但數據中包含了⼤量的信息,通過技術分析,數據所表達的是未來。所以數據是⼈類⽣活與社會管理活動中最基本的依據。事實上,數據伴隨了⼈類⽂明的全部過程,⼈們對於數據的知識及實際運⽤能⼒也越來越強⼤,並使⼈類受益良多。

  但是所謂⼤數據概念的出現使事情變得複雜起來。

  ⼤數據(big data)是指⽆法在⼀定時間範圍內⽤常規軟體⼯具進⾏捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現⼒和流程優化能力的海量、⾼增⻓率和多樣化的信息資產。通俗地說,也就是同時產⽣的海量數據在技術促進下得到實時運⽤,就構成了⼤數據。

  技術進步、尤其是互聯⽹和各種新的算法模型使得數據獲得了即時采集、即時分析的信息結果。⽽即時⾤集的數據不再是⼈類的⼯作過程,也包括了⼈類的⽣活過程。不僅包括了⼈類⼯作的標的,也包括了⼈類⾃⼰,這使得問題複雜起來。但⼤數據的本質仍然是數據,是新的技術環境下的數據。

  2

  數據公司商業模式根源

  在數據觀念下,我們將以往的數據進⾏有⽬的結構化統計,盡量延⻓數據的⻓度、寬度,充⾜性和真實性,通過分析,發現規律,總結邏輯,借⽤算法,建⽴模型,弄淸從前,預判未來。正視不確定性現實,解決信息不對稱問題,推動社會發展。需要明確的是,數據的基本屬性是公開、透明、共享,所以數據的商業價值有限,社會價值⽆限,基於數據的各種算法和邏輯才是數據商業產品的核⼼競爭力。

  ⼤數據觀念下,傳統數據、社交數據、傳感器數據都可以通過互聯⽹⾤集到。那麽這些碎⽚化的⾮結構性數據價值如何挖掘出來呢?

  ⾸先,結構化的統計數據不構成⼤數據特徵。而傳感器數據更多地用於特定領域的智能識別系統運用,雖然也是新技術帶來的新數據源,但其商品化運用受到⼀定限制,⽽互聯⽹上獲得的社交和⾏為數據由於其海量、實時,得到⼴泛的應用。當我們談論⼤數據時,更多意義上是指這類狹義上的社交、⾏為數據和某些社會服務層⾯的數據,如醫院的診治、⽤藥紀錄、銀⾏的客戶交易紀錄、商場的客戶交易紀錄等等。所謂精準行銷,就是通過搜集某⼈的相關數據進⾏個性化商品信息推送、藥物推薦等,也有數據公司提供各種個⼈的⾏為數據供⾦融機構進⾏⻛險分析。

  ⼤數據運⽤的收益主要是通過掌握信息的時間差、地區差,利⽤特定的數據來源形成或製造信息不對稱,佔據⼀定的交易優勢⽽獲得較⾼收益。

  數據公司通過⽹絡可以在被⾤集⼈不知情的情況下采集到社會成員的身份、身體、特貌、⾏為、家庭及相關的⼀切信息,通過算法把相關信息聯接起來,⽣成針對具體⼈的行銷、個性化推送、趨勢判斷、資產追蹤等等。對於掌握了某些場景下解決某類問題的算法的數據公司⽽⾔,⼤數據帶來了商機。⼀⽅⾯像頭條新聞的個性推送,雖然包含簡易算法,讓我們覺得服務的⽔平更貼近每個⼈;另⼀⽅⾯也因此⽽⽑⻣悚然,因為這樣的推送實際上已經忽略了我們⾃⼰的意願和權利,肆意地侵蝕到個⼈隱私權和獨立權益,隨意進⼊了附屬於個⼈的⽣存空間。當你剛訂完機票,就有⼿機短信推薦接站訂⻋,這讓你⼼⾥惱⽕。但的確對有需求的客戶來說很是⽅便,⽽私⼈空間則漸被侵⼊。這種所謂⼤數據運⽤的危害性可能會動搖社會基礎秩序。

  當前條件下,數據產權制度未形成,個⼈數據權利更沒有觀念,⼀些公司把數據洗去個⼈標識便成為通⽤數據,每個⼈⼀般都不會在海量數據中主張單⼀的權利。⽽國家統計部⻔⽬前也⽆⼒把實時數據納⼊公共統計範圍,向社會提供數據公共服務,這就形成了⼀段較⻓時期的混沌狀態,數據公司通過低成本的數據來源獲得超額收益,得以⽣存發展。

  可⻅,⼤數據之所以蓬勃發展,其經濟依據是數據⾏業的額外收益,這些額外收益主要來⾃於侵犯社會成員的數據權益,使數據公司通過互聯⽹低成本獲得這些數據,然後通過技術和算法優勢形成數據服務產品,獲得不錯的盈利。可以說,數據公司⼏乎⽆償地獲得了數據資源,並把它們轉化成商品。但算法卻是需要真正資本投⼊才能獲得的產品。所以隨著數據的⼤量公共分享,將失去其資源價值,只有那些投⼊設備和智⼒掌握了⼤量社會⽣活情景下解決問題的邏輯和算法的數據公司才真正具有競爭⼒。那些僅僅靠查詢和數據供應⽽⽣存的公司是⽆法持續的。

  傳感器數據也存在同樣的問題。傳感器的設置和⼴泛分布以及分辨技術雖然需要⼤量的投資,但是⽬前⼀些影像數據分析公司和智能公司的數據來源⼤都從公共傳感⽹絡或者企業的傳感系統所收集,客觀上佔⽤了公共資源。⽽這些影像資料的使⽤則更容易直接侵害別個⼈穩私領域。比較典型的是私⾃通過酒店或公寓的視頻紀錄探查個⼈⾏蹤或進⾏所謂市場分析。

  3

  大數據異化

  就像⼯業⾰命造成的異化⼀樣,⼤數據也造成了數據的異化。

  數據從服務⼈類管理活動,到⼲預並損害⼈類⽣活狀態,產⽣了異化。

  那麽這⼀切是怎麽發⽣的呢?

  ⼤數據的實時性製造了市場先機,銷售業⼀哄⽽上,因為有利可圖,傳統的規則被悄然融化,但新的規則有待時⽇。

  互聯⽹提供了數據的多樣性,對客戶的個性化需求定位帶來了可能,⽽這正是傳統銷售業的短板。但新的以⼤數據為基礎的行銷越來越⼲擾到⼈們的正常⽣活⽅式。

  傳統數據分析運⽤需要專業背景,很難⼴泛推⼴,⽽所謂⼤數據只是數據的低端運⽤,⻔檻低,成本低。⼤數據簡單運⽤社交⾏為數據由於缺乏邏輯背景,常常並不準確。例如收集⼩企業或個⼈⽀付能⼒的數據⽤於⻛險評估,⽽許多情況下暫時性的周期性的季節性的現⾦流萎縮都是企業經營和個⼈⽣活中的正常現象,依此評估⻛險是不準確的。

  法律約束不明朗造成濫⽤。⽴法與司法制度的完善需要⼀個信息收集、反饋、設計、測試、⼴泛應⽤的時間周期,這個周期成為數據濫⽤牟取暴利的窗⼝期。⼀旦國內采⽤了類似歐盟《通⽤數據保護條例》(GDPR,2016年4⽉通過法案,2018年5⽉25⽇正式⽣效)這樣的數據保護,⼤數據的⽆序狀態將會結束,今後⼏年內,依靠濫⽤數據獲利的公司⽆疑會被淘汰。

  當數據的運⽤能帶來超額收益時,必然導致濫⽤,從⽽導致數據運⽤所提供的信息服務產⽣的收益歸於⼀部分⼈,⽽⼤多數⼈因此⽽受損本來服務於⼈類的數據開啟了⼲擾⼈類⽣活秩序的模式,⼤數據進⼊數據⽂明的負⾯清單。

  ⾄此⼤數據終於⾛到了數據的反⾯,成為數據的異化現象。⼯業⾰命異化對⼯⼈造成的流⽔線壓⼒隨著技術的升級和⾃動化以及⼈⽂環境的改善⽽逐漸緩和。但⼤數據時代對⼈居環境和⼼理以及權益的威脅更甚於⼯業⾰命異化。⾯對這把粗糙的⼤鎖,理性和規則的複興才是唯⼀的鑰匙。

  4

  數據為王到算法為王

  可以預⻅,當數據的公共資源性質逐漸形成,某些數據的稀有性減退,其價值也會遞減。

  廉價的公共化數據,使得數據稀有性稀釋,價值逐漸式微,⽽作為實現數據價值橋梁的算法卻逐漸進化升級,智⼒投⼊越⼤,準⼊⻔檻越⾼,價值凝聚越多。所以算法的市場價值會逐步提升。

  算法即邏輯。⼀套算法是理論歸納與實務判斷和智能操作技術的綜合產物。⼀類事物,最優算法理論上是唯⼀的,所以算法可以說是有限資源。算法是指解題⽅案的準確⽽完整的邏輯與技術描述,算法代表著⽤系統的⽅法描述解決問題的策略機制和數學模型。也就是說,如果⼀個算法有缺陷,或不適合於某個問題,執⾏這個算法將⽆法解決這個問題。不同的算法可能⽤不同的時間、空間或效率來完成同樣的任務。⼀個算法的優劣可以⽤空間複雜度與時間複雜度來衡量。在數學模型上表現為多種變量之間複雜邏輯關係的處理。

  由於我們⽣活在有限的時間和空間⾥,因此所有⼈都會⾯臨⼀系列需要選擇的特定問題,諸如⼀年內哪些事必須做、哪些事可以放棄。⼈們為了買房,到處去看房,儘管你事先制定了標準,但還是要跑很多建案,什麽時候可以下⼿或者繼續選擇?

  事實上平衡觀念是解決問題的關鍵,那麽這個平衡點在哪⾥?專家計算的結果是37%。看完這個⽐例的房⼦以後就可以下⼿了,再多看意義不⼤。這個37%就是某種算法的產物。

  算法基於專業邏輯和數學模型。未來只有建⽴在算法基礎上的數據運⽤才是可持續的。⽽算法是所有⾏業智能化的技術與邏輯基礎。算法不是源於數據,⽽是源於數學,源於基礎教育,源於專業訓練,源於⻓期積累。相信浮躁的⼤數據⾏業⾃身很難具有這樣的原創能⼒。智能化需要數學家。可以預⻅,⼤數據的煙花將隨⻛飄散,算法為王的時代即將來臨。

  (本文作者介紹:原中信銀行行長)

獲得更多的PTT最新消息
按讚加入粉絲團