世界包含的多得難以想象的數(shù)字化信息變得更多更快……從商業(yè)到科學(xué),從政府到藝術(shù),這種影響無(wú)處不在??茖W(xué)家和計(jì)算機(jī)工程師們給這種現(xiàn)象創(chuàng)造了一個(gè)新名詞:“大數(shù)據(jù)”。大數(shù)據(jù)時(shí)代什么意思?大數(shù)據(jù)概念什么意思?大數(shù)據(jù)分析什么意思?所謂大數(shù)據(jù),那到底什么是大數(shù)據(jù),他的來(lái)源在哪里,定義究竟是什么呢?藍(lán)鷗資深講師與大家一起看一看。
一:大數(shù)據(jù)的定義
1、大數(shù)據(jù),又稱巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無(wú)法通過人腦甚至主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
互聯(lián)網(wǎng)是個(gè)神奇的大網(wǎng),大數(shù)據(jù)開發(fā)也是一種模式,你如果真想了解大數(shù)據(jù),可以來(lái)這里,這個(gè)手機(jī)的開始數(shù)字是一八七中間的是三兒零最后的是一四二五零,按照順序組合起來(lái)就可以找到,我想說的是,除非你想做或者了解這方面的內(nèi)容,如果只是湊熱鬧的話,就不要來(lái)了。
2、大數(shù)據(jù)技術(shù),是指從各種各樣類型的大數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)的能力,包括數(shù)據(jù)采集、存儲(chǔ)、管理、分析挖掘、可視化等技術(shù)及其集成。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫(kù),云計(jì)算平臺(tái),互聯(lián)網(wǎng),和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
3、大數(shù)據(jù)應(yīng)用,是 指對(duì)特定的大數(shù)據(jù)集合,集成應(yīng)用大數(shù)據(jù)技術(shù),獲得有價(jià)值信息的行為。對(duì)于不同領(lǐng)域、不同企業(yè)的不同業(yè)務(wù),甚至同一領(lǐng)域不同企業(yè)的相同業(yè)務(wù)來(lái)說,由于其業(yè)務(wù)需求、數(shù)據(jù)集合和分析挖掘目標(biāo)存在差異,所運(yùn)用的大數(shù)據(jù)技術(shù)和大數(shù)據(jù)信息系統(tǒng)也可能有著相當(dāng)大的不同。惟有堅(jiān)持“對(duì)象、技術(shù)、應(yīng)用”三位一體同步發(fā)展,才能充分實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值。
當(dāng)你的技術(shù)達(dá)到極限時(shí),也就是數(shù)據(jù)的極限”。大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫(kù)相比,開源的大數(shù)據(jù)分析工具的如Hadoop的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價(jià)值在哪里。
二:大數(shù)據(jù)的類型和價(jià)值挖掘方法
1、大數(shù)據(jù)的類型大致可分為三類:
1)傳統(tǒng)企業(yè)數(shù)據(jù)(Traditionalenterprisedata):包括 CRM systems的消費(fèi)者數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù),庫(kù)存數(shù)據(jù)以及賬目數(shù)據(jù)等。
2)機(jī)器和傳感器數(shù)據(jù)(Machine-generated/sensor data):包括呼叫記(CallDetailRecords),智能儀表,工業(yè)設(shè)備傳感器,設(shè)備日志(通常是Digital exhaust),交易數(shù)據(jù)等。
3)社交數(shù)據(jù)(Socialdata):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺(tái)。
2、大數(shù)據(jù)挖掘商業(yè)價(jià)值的方法主要分為四種:
1)客戶群體細(xì)分,然后為每個(gè)群體量定制特別的服務(wù)。
2)模擬現(xiàn)實(shí)環(huán)境,發(fā)掘新的需求同時(shí)提高投資的回報(bào)率。
3)加強(qiáng)部門聯(lián)系,提高整條管理鏈條和產(chǎn)業(yè)鏈條的效率。
4)降低服務(wù)成本,發(fā)現(xiàn)隱藏線索進(jìn)行產(chǎn)品和服務(wù)的創(chuàng)新。
三:大數(shù)據(jù)的特點(diǎn)
業(yè)界通常用4個(gè)V(即Volume、Variety、Value、Velocity)來(lái)概括大數(shù)據(jù)的特征。具體來(lái)說,大數(shù)據(jù)具有4個(gè)基本特征:
1、是數(shù)據(jù)體量巨大
數(shù)據(jù)體量(volumes)大,指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;百度資料表明,其新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來(lái)將超過5千億張A4紙。有資料證實(shí),到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量?jī)H為200PB。
2、是數(shù)據(jù)類別大和類型多樣
數(shù)據(jù)類別(variety)大,數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化 數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。
3、是處理速度快
在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。
4、是價(jià)值真實(shí)性高和密度低
數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
四:大數(shù)據(jù)的作用
1、對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)
移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量、多樣化的大數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái)。通過對(duì)不同來(lái)源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。
大數(shù)據(jù)具有催生社會(huì)變革的能量。但釋放這種能量,需要嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(Ramayya Krishnan,卡內(nèi)基·梅隆大學(xué)海因茲學(xué)院院長(zhǎng))。
2、大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎
面向大數(shù)據(jù)市場(chǎng)的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對(duì)芯片、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器、內(nèi)存計(jì)算等市場(chǎng)。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。
3、大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”。對(duì)大數(shù)據(jù)的分析可以使零售商實(shí)時(shí)掌握市場(chǎng)動(dòng)態(tài)并迅速做出應(yīng)對(duì);可以為商家制定更加精準(zhǔn)有效的營(yíng)銷策略提供決策支持;可以幫助企業(yè)為消費(fèi)者提供更加及時(shí)和個(gè)性化的服務(wù);在醫(yī)療領(lǐng)域,可提高診斷準(zhǔn)確性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開始發(fā)揮促進(jìn)經(jīng)濟(jì)發(fā)展、維護(hù)社會(huì)穩(wěn)定等方面的重要作用。
4、大數(shù)據(jù)時(shí)代科學(xué)研究的方法手段將發(fā)生重大改變
例如,抽樣調(diào)查是社會(huì)科學(xué)的基本研究方法。在大數(shù)據(jù)時(shí)代,可通過實(shí)時(shí)監(jiān)測(cè)、跟蹤研究對(duì)象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對(duì)策。
五:大數(shù)據(jù)的商業(yè)價(jià)值
1、對(duì)顧客群體細(xì)分
“大數(shù)據(jù)”可以對(duì)顧客群體細(xì)分,然后對(duì)每個(gè)群體量體裁衣般的采取獨(dú)特的行動(dòng)。瞄準(zhǔn)特定的顧客群體來(lái)進(jìn)行營(yíng)銷和服務(wù)是商家一直以來(lái)的追求。云存儲(chǔ)的海量數(shù)據(jù)和“大數(shù)據(jù)”的分析技術(shù)使得對(duì)消費(fèi)者的實(shí)時(shí)和極端的細(xì)分有了成本效率極高的可能。
2、模擬實(shí)境
運(yùn)用“大數(shù)據(jù)”模擬實(shí)境,發(fā)掘新的需求和提高投入的回報(bào)率?,F(xiàn)在越來(lái)越多的產(chǎn)品中都裝有傳感器,汽車和智能手機(jī)的普及使得可收集數(shù)據(jù)呈現(xiàn)爆炸性增長(zhǎng)。Blog、Twitter、Facebook和微博等社交網(wǎng)絡(luò)也在產(chǎn)生著海量的數(shù)據(jù)。
云計(jì)算和“大數(shù)據(jù)”分析技術(shù)使得商家可以在成本效率較高的情況下,實(shí)時(shí)地把這些數(shù)據(jù)連同交易行為的數(shù)據(jù)進(jìn)行儲(chǔ)存和分析。交易過程、產(chǎn)品使用和人類行為都可以數(shù)據(jù)化?!按髷?shù)據(jù)”技術(shù)可以把這些數(shù)據(jù)整合起來(lái)進(jìn)行數(shù)據(jù)挖掘,從而在某些情況下通過模型模擬來(lái)判斷不同變量(比如不同地區(qū)不同促銷方案)的情況下何種方案投入回報(bào)最高。
3、提高投入回報(bào)率
提高“大數(shù)據(jù)”成果在各相關(guān)部門的分享程度,提高整個(gè)管理鏈條和產(chǎn)業(yè)鏈條的投入回報(bào)率?!按髷?shù)據(jù)”能力強(qiáng)的部門可以通過云計(jì)算、互聯(lián)網(wǎng)和內(nèi)部搜索引擎把”大數(shù)據(jù)”成果和“大數(shù)據(jù)”能力比較薄弱的部門分享,幫助他們利用“大數(shù)據(jù)”創(chuàng)造商業(yè)價(jià)值。
4、數(shù)據(jù)存儲(chǔ)空間出租
企業(yè)和個(gè)人有著海量信息存儲(chǔ)的需求,只有將數(shù)據(jù)妥善存儲(chǔ),才有可能進(jìn)一步挖掘其潛在價(jià)值。具體而言,這塊業(yè)務(wù)模式又可以細(xì)分為針對(duì)個(gè)人文件存儲(chǔ)和針對(duì)企業(yè)用戶兩大類。主要是通過易于使用的API,用戶可以方便地將各種數(shù)據(jù)對(duì)象放在云端,然后再像使用水、電一樣按用量收費(fèi)。目前已有多個(gè)公司推出相應(yīng)服務(wù),如亞馬遜、網(wǎng)易、諾基亞等。運(yùn)營(yíng)商也推出了相應(yīng)的服務(wù),如中國(guó)移動(dòng)的彩云業(yè)務(wù)。
5、管理客戶關(guān)系
客戶管理應(yīng)用的目的是根據(jù)客戶的屬性(包括自然屬性和行為屬性),從不同角度深層次分析客戶、了解客戶,以此增加新的客戶、提高客戶的忠誠(chéng)度、降低客戶流失率、提高客戶消費(fèi)等。對(duì)中小客戶來(lái)說,專門的CRM顯然大而貴。不少中小商家將飛信作為初級(jí)CRM來(lái)使用。比如把老客戶加到飛信群里,在群朋友圈里發(fā)布新產(chǎn)品預(yù)告、特價(jià)銷售通知,完成售前售后服務(wù)等。
6、個(gè)性化精準(zhǔn)推薦
在運(yùn)營(yíng)商內(nèi)部,根據(jù)用戶喜好推薦各類業(yè)務(wù)或應(yīng)用是常見的,比如應(yīng)用商店軟件推薦、IPTV視頻節(jié)目推薦等,而通過關(guān)聯(lián)算法、文本摘要抽取、情感分析等智能分析算法后,可以將之延伸到商用化服務(wù),利用數(shù)據(jù)挖掘技術(shù)幫助客戶進(jìn)行精準(zhǔn)營(yíng)銷,今后盈利可以來(lái)自于客戶增值部分的分成。
以日常的“垃圾短信”為例,信息并不都是“垃圾”,因?yàn)槭盏降娜瞬⒉恍枰灰暈槔?。通過用戶行為數(shù)據(jù)進(jìn)行分析后,可以給需要的人發(fā)送需要的信息,這樣“垃圾短信”就成了有價(jià)值的信息。在日本的麥當(dāng)勞,用戶在手機(jī)上下載優(yōu)惠券,再去餐廳用運(yùn)營(yíng)商DoCoMo的手機(jī)錢包優(yōu)惠支付。運(yùn)營(yíng)商和麥當(dāng)勞搜集相關(guān)消費(fèi)信息,例如經(jīng)常買什么漢堡,去哪個(gè)店消費(fèi),消費(fèi)頻次多少,然后精準(zhǔn)推送優(yōu)惠券給用戶。
7、數(shù)據(jù)搜索
數(shù)據(jù)搜索是一個(gè)并不新鮮的應(yīng)用,隨著“大數(shù)據(jù)”時(shí)代的到來(lái),實(shí)時(shí)性、全范圍搜索的需求也就變得越來(lái)越強(qiáng)烈。我們需要能搜索各種社交網(wǎng)絡(luò)、用戶行為等數(shù)據(jù)。其商業(yè)應(yīng)用價(jià)值是將實(shí)時(shí)的數(shù)據(jù)處理與分析和廣告聯(lián)系起來(lái),即實(shí)時(shí)廣告業(yè)務(wù)和應(yīng)用內(nèi)移動(dòng)廣告的社交服務(wù)。
運(yùn)營(yíng)商掌握的用戶網(wǎng)上行為信息,使得所獲取的數(shù)據(jù)“具備更全面維度”,更具商業(yè)價(jià)值。
六:大數(shù)據(jù)對(duì)經(jīng)濟(jì)社會(huì)的重要影響
1、能夠推動(dòng)實(shí)現(xiàn)巨大經(jīng)濟(jì)效益
比如對(duì)中國(guó)零售業(yè)凈利潤(rùn)增長(zhǎng)的貢獻(xiàn),降低制造業(yè)產(chǎn)品開發(fā)、組裝成本等。預(yù)計(jì)2013年全球大數(shù)據(jù)直接和間接拉動(dòng)信息技術(shù)支出將達(dá)1200億美元。
2、能夠推動(dòng)增強(qiáng)社會(huì)管理水平
大數(shù)據(jù)在公共服務(wù)領(lǐng)域的應(yīng)用,可有效推動(dòng)相關(guān)工作開展,提高相關(guān)部門的決策水平、服務(wù)效率和社會(huì)管理水平,產(chǎn)生巨大社會(huì)價(jià)值。歐洲多個(gè)城市通過分析實(shí)時(shí)采集的交通流量數(shù)據(jù),指導(dǎo)駕車出行者選擇最佳路徑,從而改善城市交通狀況。
3、如果沒有高性能的分析工具,大數(shù)據(jù)的價(jià)值就得不到釋放
對(duì)大數(shù)據(jù)應(yīng)用必須保持清醒認(rèn)識(shí),既不能迷信其分析結(jié)果,也不能因?yàn)槠洳煌耆珳?zhǔn)確而否定其重要作用。
1)由于各種原因,所分析處理的數(shù)據(jù)對(duì)象中不可避免地會(huì)包括各種錯(cuò)誤數(shù)據(jù)、無(wú)用數(shù)據(jù),加之作為大數(shù)據(jù)技術(shù)核心的數(shù)據(jù)分析、人工智能等技術(shù)尚未完全成熟,所以對(duì)計(jì)算機(jī)完成的大數(shù)據(jù)分析處理的結(jié)果,無(wú)法要求其完全準(zhǔn)確。例如,谷歌通過分析億萬(wàn)用戶搜索內(nèi)容能夠比專業(yè)機(jī)構(gòu)更快地預(yù)測(cè)流感暴發(fā),但由于微博上無(wú)用信息的干擾,這種預(yù)測(cè)也曾多次出現(xiàn)不準(zhǔn)確的情況。
2)必須清楚定位的是,大數(shù)據(jù)作用與價(jià)值的重點(diǎn)在于能夠引導(dǎo)和啟發(fā)大數(shù)據(jù)應(yīng)用者的創(chuàng)新思維,輔助決策。簡(jiǎn)單而言,若是處理一個(gè)問題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。
所以,客觀認(rèn)識(shí)和發(fā)揮大數(shù)據(jù)的作用,不夸大、不縮小,是準(zhǔn)確認(rèn)知和應(yīng)用大數(shù)據(jù)的前提。
七:最后藍(lán)鷗資深講師給你總結(jié)一下
不管大數(shù)據(jù)的核心價(jià)值是不是預(yù)測(cè),但是基于大數(shù)據(jù)形成決策的模式已經(jīng)為不少的企業(yè)帶來(lái)了盈利和聲譽(yù)。
1、從大數(shù)據(jù)的價(jià)值鏈條來(lái)分析,存在三種模式:
1)手握大數(shù)據(jù),但是沒有利用好;比較典型的是金融機(jī)構(gòu),電信行業(yè),政府機(jī)構(gòu)等。
2)沒有數(shù)據(jù),但是知道如何幫助有數(shù)據(jù)的人利用它;比較典型的是IT咨詢和服務(wù)企業(yè),比如,埃森哲,IBM,開運(yùn)聯(lián)合等。
3)既有數(shù)據(jù),又有大數(shù)據(jù)思維;比較典型的是Google,Amazon,Mastercard等。
2、未來(lái)在大數(shù)據(jù)領(lǐng)域最具有價(jià)值的是兩種事物:
在大數(shù)據(jù)培訓(xùn)的浪潮中,藍(lán)鷗拒絕隨波逐流,拒絕千篇一律,立足自身的藍(lán)鷗數(shù)據(jù)分析研究院。以自己實(shí)際的數(shù)據(jù)分析來(lái)總結(jié)課程,通過實(shí)踐總結(jié)理論,再通過理論去指導(dǎo)實(shí)踐。真大數(shù)據(jù)公司支撐——鼎富大數(shù)據(jù)是中國(guó)服務(wù)委大數(shù)據(jù)推廣中心的唯一技術(shù)合作單位真大數(shù)據(jù)核心科技,執(zhí)掌上市公司大數(shù)據(jù)和人工智能布局中的核心技術(shù)真大數(shù)據(jù)項(xiàng)目應(yīng)用,市場(chǎng)領(lǐng)先的智慧語(yǔ)義認(rèn)知平臺(tái)產(chǎn)品、人工智能應(yīng)用產(chǎn)品和大數(shù)據(jù)應(yīng)用產(chǎn)品。經(jīng)過長(zhǎng)期的打磨,藍(lán)鷗相信沒有最好只有最合適,藍(lán)鷗會(huì)與時(shí)俱進(jìn),為大數(shù)據(jù)行業(yè)培養(yǎng)更多真正有用的人才。藍(lán)鷗的大數(shù)據(jù)(JavaEE)課程體系,零基礎(chǔ)開始學(xué)習(xí),分為5個(gè)大的階段,課程由淺入深,循序漸進(jìn)。且要求招生對(duì)象具有一定計(jì)算機(jī)操作基礎(chǔ),具備大專以上學(xué)歷,應(yīng)屆畢業(yè)生或35歲以下的在職人員。