關于數據

數據,一個我過去的2019年思考最多的詞匯,幾乎涵蓋了整個人類當代史。

有人說數據是一種能源,沒錯。

作為一個看不見摸不著的虛擬的東西,為什么數據有如此巨大的威力呢?

這就要從數字化和計算說起,數字化是伴隨著人類電子技術的進步而誕生的一個現代化過程,以計算機的誕生為最關鍵標志。從通用計算設備出現開始,計算機就要讀取數據,計算,寫入數據,沒有數據,計算就沒有了價值,即使如加法這么簡單的工作,沒有了輸入,加法這個動作也變得毫無意義,映射到物理世界,如果沒有了相互作用物,也就是沒有了具體的參與者,任何過程都是毫無意義的,一個化學過程,物理過程,每一步能計算的東西,都離不開類型、數值,規律只是應用其上的法則和步驟,不同的輸入會得到不盡相同的輸出。一陣風吹動樹葉,也要和樹葉的位置,質量,面積,風的大小各種各樣的數據有關,有了這些數據才能計算接下來的運動走向。

無論是物理、化學以及其背后的數學,我們發現如果要模擬這個世界,就要學會計算,沒有計算就沒有預測的能力,就沒法掌握規律,就無法完成各種各樣的任務,只是很多情況下,所謂的計算只是對可復現過程的物理過程的簡化,這種簡化是拋棄了物質世界的復雜性,利用簡單性原則,可以分析事物的某個屬性,比如我們研究天體運行規律時,就關注其整體質量和距離,不關心其上面是什么元素構成,是鐵元素多還是鎳元素多,量化是進行事物分析的基礎。整個世界的運轉,整個科學的基礎就是基于這些數據和計算過程的。這也是計算機如此強大的原因,它可以模擬,可以推理,可以在各個抽象層次上計算。而計算的基礎是量化的數據。

所以我們說第三次工業革命既是信息革命也是數字化革命,是傳統的物質世界的過程,科學研究的方法,都搬到計算機世界的過程。無論是計算器、互聯網還是個性化推薦引擎。數字化是一個內涵相當豐富,涉及極為廣泛的概念。任何思想邏輯首先要以數據為基礎。

我們從數據的角度看整個互聯網的發展歷程,第一次以雅虎為代表的目錄型網站,是將互聯網上的網站信息進行人為編輯后呈現出來,第二次以谷歌為代表的搜索型網站,是用PageRank算法將互聯網上的網站進行自動化的匯總和整理,并建立一個大型的可檢索的數據庫,讓用戶通過搜索的產品形態來獲取個性化的數據,第三代以FaceBook為代表的社交性網站,是將人類大腦的想法以文字的形式在互聯網上呈現出來,分享出來,是人的思想的數字化,我們稱之為UGC,如微博、微信、知乎、twitter、facebook都是大眾想法的數字化,記錄生活的瞬間,記錄腦中的靈感,抑或向他人推薦,抑或維持好友關系,人們將傳統的基于聲波的溝通方式,以數據的形式借助互聯網進行傳播和溝通,這種單純的數據傳播的本質是什么呢?我稱之為消除信息不對稱,當數據可以輕易地到達需要的人那里,信息不對稱消除平臺的任務就完成了使命,而數據的使用者登上舞臺。

我們將數據相關的過程可以梳理為:數據生產、數據采集、數據流轉、數據處理、數據分析。這個過程可以貫穿到任何過程,因而參與數字化的公司、組織和個人都只能在一個領域或環節上工作,有的專長數據的生產、有的專長流轉、有專長處理、有的專長數據分析,然后在一個邏輯框架下完成數據的相關工作。舉例如下:

1、搜索引擎:使用爬蟲數據收集器,獲取互聯網上的網站的文本數據,進行索引,當用戶輸入想要的關鍵詞時,從數據庫中搜索對應的網頁列表,甚至直接給出想要的網頁,最好直接給出答案。輸入問題,得到答案,輸入的是數據,輸出的也是數據,輸出后的數據會被人腦這個數據處理器再次吸收處理使用再產出新的動作,這些動作本身就是數據,也是新數據生成的前置。

2、游戲:這個最難理解成是數據相關的應用,其實人腦是重要的數據處理器,計算機應用與人腦看成一個整體的話,就能看懂整個數據的流轉視角了,開發者制作的各種視覺元素本身是人腦數據處理的依賴物,比如一個美女戰士,一個酷炫寶刀,都是直戳人心的數據,游戲的各種ph值、經驗值、積分、獎勵系統都是圍繞搭建一個數據世界,充分利用目標驅動理論,將人的思維元素在其構造的鏈條之上,一個升級打怪的過程,就是一個人高度參與的數據處理過程。

3、推薦引擎:淘寶和頭條為代表的個性化推薦,仍然是以數據為基礎,借助數據分析人類喜好,借助機器學習,進行精準推薦的過程。這里面機器學習是典型的數據依賴型技術。

4、O2O:無論是Airbnb、美團點評還是滴滴打車、亦或是好大夫、58同城、貝殼,首要就是解決信息不對稱的問題,即重點解決數字化和數據流轉問題,GPS給了位置數字化的機會,UGC給了物理實體數字化的機會,人在數據的鏈條上被串了起來。

5、支付:解決貨幣的數字化與交易的數字化問題

6、云:解決數字化的基礎設施問題

7、在線教育:大腦重度參與型的應用都容易被忽略其中間的數據因素,除了O2O特性,像流利說這種是進入到個人學習狀況數字化,基于此進行推薦和個性化教學。VIPKID就更多是基礎的將人進行數字化,然后解決信息不對稱和自動匹配過程。

8、數據設施提供商:圍繞著數據有各類的數據工具和基礎設施、大數據技術的各類工具從各類公司里誕生出來,比如Google、Airbnb、LinkedIn,這些公司本身也有大數據處理的需求,而很多公司沒有處理數據的能力,這些數據資源就變成了浪費,因而一些沒有大數據處理能力的公司,就會尋求一個服務商,購買他們的數據解決方案,早期小數據量時,搭個MySQL或Oracle就可以搞定,但海量數據時代,必須要上大數據集群,有了talking data、明略、亞信、數云、達觀,在垂直領域,很多特定領域的數據處理過程,也有人又各種各樣的需求,因為也誕生了像神策這種垂直化領域的BI和大數據解決方案提供商。

打麻将有什么技巧 哈灵上海麻将官网 3d家彩网开机号试 qq股市直播 股票涨跌的原理 15选5开奖结果奖 上海股票配资 上证指数年k线图 产业基金配资要求 线上股票配资 15选5规则 炒股的人有多少 股票涨跌幅什么意思 十佳股票配资平台 场外配资重来 新快3口诀新闻 股票配资平台哪个好一点