網站首頁 學習教育 IT科技 金融知識 旅遊規劃 生活小知識 家鄉美食 養生小知識 健身運動 美容百科 遊戲知識 綜合知識
當前位置:趣知科普吧 > IT科技 > 

什麼是大數據

欄目: IT科技 / 發佈於: / 人氣:1.27W
大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

什麼是大數據

方法

定義

對於“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。
大數據技術的戰略意義不在於掌握龐大的數據資訊,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,透過“加工”實現數據的“增值”。
從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須採用分佈式架構。它的特色在於對海量數據進行分佈式數據挖掘。但它必須依託雲計算的分佈式處理、分佈式數據庫和雲存儲、虛擬化技術。
隨着雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認爲,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因爲實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘、分佈式檔案系統、分佈式數據庫、雲計算平臺、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的十次方)來計算。

什麼是大數據 第2張

特徵


①容量(Volume):數據的大小決定所考慮的數據的價值和潛在的資訊。
②種類(Variety):數據類型的多樣性。
③速度(Velocity):指獲得數據的速度。
④可變性(Variability):妨礙了處理和有效地管理數據的過程。
⑤真實性(Veracity):數據的質量。
⑥複雜性(Complexity):數據量巨大,來源多渠道。
⑦價值(value):合理運用大數據,以低成本創造高價值。

什麼是大數據 第3張

結構
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成爲數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算爲代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,透過各行各業的不斷創新,大數據會逐步爲人類創造更多的價值。
其次,想要系統的認知大數據,必須要全面而細緻的分解它,着手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裏從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這裏分別從雲計算、分佈式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。在這裏分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。

什麼是大數據 第4張

應用
①洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
②google流感趨勢(Google Flu Trends)利用搜尋關鍵詞預測禽流感的散佈。
③統計學家內特.西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。
④麻省理工學院利用手機定位數據和交通數據建立城市規劃。
⑤梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。
⑥醫療行業早就遇到了海量數據和非結構化數據的挑戰,而近年來很多國家都在積極推進醫療資訊化發展,這使得很多醫療機構有資金來做大數據分析。

什麼是大數據 第5張

趨勢


趨勢一:數據的資源化
何爲資源化,是指大數據成爲企業和社會關注的重要戰略資源,並已成爲大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶佔市場先機。


趨勢二:與雲計算的深度結合
大數據離不開雲處理,雲處理爲大數據提供了彈性可拓展的基礎設備,是產生大數據的平臺之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關係將更爲密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據,讓大數據營銷發揮出更大的影響力。


趨勢三:科學理論的突破
隨着大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術。隨之興起的數據挖掘、機器學習和人工智能等相關技術,可能會改變數據世界裏的很多算法和基礎理論,實現科學技術上的突破。


趨勢四:數據科學和數據聯盟的成立
未來,數據科學將成爲一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基於數據這個基礎平臺,也將建立起跨領域的數據共享平臺,之後,數據共享將擴展到企業層面,並且成爲未來產業的核心一環。


趨勢五:數據泄露氾濫
未來幾年數據泄露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。可以說,在未來,每個財富500強企業都會面臨數據攻擊,無論他們是否已經做好安全防範。而所有企業,無論規模大小,都需要重新審視今天的安全定義。在財富500強企業中,超過50%將會設定首席資訊安全官這一職位。企業需要從新的角度來確保自身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而並非在數據儲存的最後一個環節,僅僅加強後者的安全措施已被證明於事無補。


趨勢六:數據管理成爲核心競爭力
數據管理成爲核心競爭力,直接影響財務表現。當“數據資產是企業核心資產”的概念深入人心之後,企業對於數據管理便有了更清晰的界定,將數據管理作爲企業核心競爭力,持續發展,戰略性規劃與運用數據資產,成爲企業數據管理的核心。數據資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對於具有互聯網思維的企業而言,數據資產競爭力所佔比重爲36.8%,數據資產的管理效果將直接影響企業的財務表現。


趨勢七:數據質量是BI(商業智能)成功的關鍵
採用自助式商業智能工具進行大數據處理的企業將會脫穎而出。其中要面臨的一個挑戰是,很多數據源會帶來大量低質量數據。想要成功,企業需要理解原始數據與數據分析之間的差距,從而消除低質量數據並透過BI獲得更佳決策。


趨勢八:數據生態系統複合化程度加強
大數據的世界不只是一個單一的、巨大的計算機網絡,而是一個由大量活動構件與多元參與者元素所構成的生態系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使能者、數據服務提供商、觸點服務、數據服務零售商等等一系列的參與者共同構建的生態系統。而今,這樣一套數據生態系統的基本雛形已然形成,接下來的發展將趨向於系統內部角色的細分,也就是市場的細分;系統機制的調整,也就是商業模式的創新;系統結構的調整,也就是競爭環境的調整等等,從而使得數據生態系統複合化程度逐漸增強。

什麼是大數據 第6張
Tags: