2019年6月9日 星期日

閱讀筆記|大數據的獲利模式(1): 什麼是大數據?




不管是過去還是現在,分析數據(data)以獲得有用的資訊(information)的過程,已經在研究機構和企業裡行之有年了。

例如:農業品種改良,需要執行試驗、搜集資料、使用統計方法決定哪一種品種的環境耐受度高、品質好、產量大。製造業中,工廠需要持續收集數據、使用統計製程管制(SPC),檢視製程能力、是否有品質異常的情形、需不需要改善製程。在商業環境中,商家需要分析客戶的資料(年齡、收入、喜好、消費習慣等等),推出對應的產品,也針對目標客群投放適合的廣告。

這些數據,人們很早就在收集、分析和應用了,那麼究竟大數據是什麼?數據量很大就叫做大數據嗎?為什麼到現在大數據(又稱巨量資料)才受到人們的矚目?我們可以藉由大數據獲得哪些以前無法知道的事情?可以創造什麼價值?


什麼是大數據?為什麼要大數據?過去數據和大數據有什麼差異嗎?

大數據,又稱巨量資料,定義為「用現有的一般技術難以管理的大量資料群」。具有三V的特性,也就是擁有巨大的資料量(Volume),多元化的資料(Variety),和快速產生的資料(Velocity)。


不論是過去和現在,一般的數據還是大數據,「分析資料」從中獲取知識的做法,在研究機構和部分大型企業已行之有年。但過去主要是管理和分析「結構化」的資料,需要先定義結構才能儲存資料。而且如果僅僅比較數據量的話,過去已經有巨「量」資料的存在了。

現在的巨量資料和過去不同的地方是:拜網路和社群媒體的興起,以前不曾存在的資料,像網路點擊的串流資料、社群的貼文,皆屬於「非結構化」資料,這些資料產生的速度很快,資料量龐大,資料類型多元,加上現在硬體和軟體的技術的進步,資料儲存和處理的成本大幅下降,隨著雲端運算的普及,企業已不需要自行準備資料的儲存與處理環境,人們更能夠有效率的處理這些資料。

事實上,Hadoop, NoSQL資料庫等儲存與處理巨量資料的技術,多半來自網路公司或社群媒體之手。過去掌握大量資料的管理與處理的技術掌控者,也從傳統大企業,如Walmart,City Bank轉變為網路公司或社群媒體企業,如Google, Amazon, Facebook等。

資料分析
過去(數據、資料)
現在(大數據、巨量資料)
概念
針對結構化資料,用傳統的關聯資料庫處理,如SQL
針對非結構化資料,諸如網站點擊串流資料、社群資料、或感測器,使用分散式處理技術管理和分析,如Hadoop
舉例
Walmart儲存的資料約2.5PB,
臉書保留的資料約30PB,資料多元(網頁點擊、社群文字、人與人的聯繫等)、資料產生速度快



如何應用大數據獲利?


如何應用大數據的儲存與分析的技術,獲取商業智慧,進而影響商業決策,增加獲利,建立一套以資料為驅動力的商業營運模式,是現今企業的重要課題。現在常見的大數據應用有:一對一的精準行銷、客戶流失分析、淡旺季的動態定價、使用感測器預測設備故障等等,精準行銷、減少浪費、預測可能問題、預測市場行情、成本優化等等,只要能夠從挖掘數據的過程找到有助於增加營運效率的關鍵和執行方式,都有機會為企業帶來利益。後續的篇幅會整理企業詳細的運用案例和模式。


什麼是商業智慧(Business Intelligence)?大數據和商業智慧的關係是什麼? 

商業智慧的概念,1989年由時任美國國際研究暨顧問機構Gartner的分析師Howard Dresner所提出的概念,是有組織、有系統地對儲存於企業內部的資料進行彙集、整理和分析,並創造出有助於商務上各種決策的知識與洞見之概念、機制與活動。為了將資料轉化為知識,需要利用資料倉儲技術、線上分析處理(OLAP)工具和資料探勘的技術,因此從技術層面來看,商業智慧不是一個新的技術,它只是整合不同的技術的綜合應用,可以把它想成一個解決方案。


商業智慧關心的問題是「過去到現在發生了什麼事?」「為什麼發生這件事?」「未來將會發生什麼事?」透過巨量資料的運用,可以更有效率的實現商業智慧的成果,也提升預測未來的準確度。







沒有留言:

張貼留言

統計學 | 什麼是變方分析ANOVA? ANOVA的概念與統計檢定量的推導

什麼是 ANOVA? 在前面的統計學章節,我們學到單變量和兩變量的假設檢定,假設我們想要比較三個以上的樣 本 是否有差異,這時候就要使用 ANOVA了。 ANOVA, analysis of variance, 變方分析,雖然名為「變方」分析,但其實是用來檢定三個以上的樣本...