哈爾濱市速爾科技開發有限公司
聯系人:姜女士
電話:0451-87523352-801財務部
0451-87523352-802商務部
0451-87523352-803技術部
0451-87523352-805傳真
0451-87523352-804維修部
0451-82565951
手機:13836033567
郵箱:467371934@qq.com
地址:
哈爾濱市南崗區南通大街258號
大數據(big data),是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》 中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
對于“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
根據維基百科的定義,大數據是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。
數據正在迅速膨脹并變大,它決定著企業的未來發展,雖然很多企業可能并沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,"大數據"時代已經降臨,在商業、經濟及其他領域中,決策將日益基于數據和分析而作出,而并非基于經驗和直覺。
哈佛大學社會學教授加里·金說:"這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。"
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
在現今的社會,大數據的應用越來越彰顯他的優勢,它占領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對于消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。
"大數據"在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網絡行為數據。這些數據的規模是如此龐大,以至于不能用G或T來衡量。
大數據到底有多大?一組名為"互聯網上一天"的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數量37.1萬……
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。 每一天,全世界會上傳超過5億張圖片,每分鐘就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息--包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關于人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處于所謂"物聯網"的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的"可穿戴"科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的癡迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷于找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
十年前,葛大爺曾說過,"21世紀什么最貴?"--"人才",深以為然。只是,十年后的今天,大數據時代也帶來了身價不斷翻番的各種數據。由于急速拓展的網絡帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。
一分鐘內,微博推特上新發的數據量超過10萬;社交網絡"臉譜"的瀏覽量超過600萬……