大數據熱涌背后的冷思考
大數據風起云涌,走紅IT界
IT業從來不缺乏新概念、新名詞、新技術,更新之快、推出之猛,令人目不暇接。
繼云計算、社交網絡之后,如今大數據(Big Data)再度走火,風起云涌,似乎成為2012 年信息技術領域最時髦的詞匯。
Oracle、SAP、IBM 、微軟等IT巨鱷,像是尋找到了新的金礦,開始全力挖掘大數據,多方位推廣大數據理念,尤其是SAP的HANA和Oracle的Exalytics更是賣力,爭搶“頭燙湯”。而眾多中小IT廠商也跟著蜂擁而至,以分得大數據市場一杯羹。
何為大數據呢?根據IDC的定義,大數據是指為了更經濟更有效地從高頻率、大容量、不同結構和類型的數據中獲取價值而設計的新一代架構和技術,人們并用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。
而相比大數據的突然興起,以前以商業智能分析而著稱的BI開發商卻是難掩尷尬和失落的境況,甚至被逼退到邊角。近年來,大數據給BI(商業智能分析系統)帶來了重大的沖擊,發展步伐受到較大拖累。有人大膽預測,未來十年,有關大數據的商務智能分析將引領管理信息化的發展。
從各種專業報道、分析,我們可以看出,大數據呈現3種特性:Volume(數據量)、Velocity(處理速度)、Variety(數據種類)。Volume指的是數據量龐大,如今有許多企業已經面臨單日數據量以數十、數百TB(萬億字節,1TB=1024GB)的速度增加,而總數據量也達到了PB(Petabyte)等級,這樣的數據量已讓傳統的數據庫難以處理;Velocity是指企業數據增加的速度越來越快,諸如移動化、社交網絡的廣泛應用,使得數據增加的速度比傳統的企業應用程式來得快很多,一旦數據增生速度越快,數據處理、分析的速度也就得跟上;而Variety則是指數據的多樣性,時下上互聯網不是只看看資訊,同時也不斷在產出數據:上傳照片、上傳視頻、發微博,另一方面,IT遍及工作生活中的各個角落,各種各樣的傳感器、監控器也時刻不斷產生各種機器資訊,數據的型式已日趨復雜、多樣了。這就催生了大數據技術的強烈需求。
從一些主流廠家的產品介紹,我們可以發現大數據與BI一個主要區別在于:與傳統基于事務的數據倉庫系統相比較,其能在BI的基礎上進行更大容量數據和非機構化數據處理,大數據分析不僅關注結構化的歷史數據,它們更傾向去對Web、社交網絡、RFID傳感器等非結構化海量數據進行更好地分析,整體相比BI而言,大數據是一個完美的大提升。像Facebook、Twitter這樣面臨數據量大爆炸的網路公司,已開始用Hadoop、NoSQL等新興技術來解決海量信息問題,并取得了一定成效。
大數據當立,BI當下?
可見,如何解決日漸緊迫的大數據處理成了企業管理信息化、現代化的必然需求。不過,國內的大數據領域到底有多少活躍跡象?大數據真的有如一些廠商所描繪中的那么強大、好用,成為每個企業所必須的嗎?
在一片叫好聲中,部分專家和業內人士則顯得小心謹慎,甚至有不乏非議。一些專家認為,除了大量的研討會,還有各類公司宣稱進軍大數據領域的雄心,其實際進展至今難見成效。許多企業CIO認為,國內能利用大數據背后產業價值的行業主要集中在金融、電信、能源、證券、煙草等超大型、壟斷型企業,其他行業談大數據價值為時尚早,大數據在企業的運用并不是說只要開放了數據、運用一些技術就可以輕易地發現“金礦”。目前國內大數據應用似乎正在呈現這樣的狀態:投資人活躍,技術和服務供應商熱心,數字媒體高調,而大量應用企業迷惑。
一些專家認為,從結果來看,對于大數據的質疑并沒有比BI少,同樣遭遇了“還差一公里”的尷尬。有人評價“大數據是個相對的概念,是在既有的方案上包裝了一下,其處理方式是新瓶裝舊酒,只不過更時髦。”海量數據時代的數據應用并沒有給多少企業數字運算帶來革命性的變化,在 MapReduce 、Hadoop(兩者都是一種編程模型,用于大規模數據集的并行運算)出現之前,也有企業能夠輕松的對數據進行大規模并行計算了,而 NoSQL 的出現也只是為處理數據的方式帶來了更多可能性罷了,也并沒有革命性的質的飛躍。
從現在業界一些公司拿出來的大數據應用實例來看,依然只是在利用傳統意義上的數據分析與BI,只是巧妙地把這筆帳都記在了大數據上了。一家開發商說利用其大數據技術,一個電子商務網站能知道“什么地方的人買東西最瘋狂”或是“什么型號手機最好賣”,這就是大數據分析的結果。對此有專家反駁道“難道同樣基于數據倉庫系統的BI分析出來的結果和這個大數據出來的結果會有不同么?的確從某些大數據應用中會挖掘出新的價值,但這個價值只是附加價值,沒有理由去夸大它,更沒有理由去無端的想象。大數據是機會,但只是少數人的機會,更多是巨頭們的商業謀略。”廈門一位電子公司CIO也認為,“一些企業所需要的數據內容和運用,其實都可通過開源社區就能獲取,傳統列式數據也能能很好地處理大數據。參加各種大佬們口沫橫飛的會議,還不如和工程師聊聊可以運用什么更實用的工具來具體操練、發揮一下。”
以推廣大數據頗為賣力的EMC公司為例,其 Greenplum核心產品線本身而言并沒有太多的變化——仍然分為Greenplum Database(數據倉庫)、Greenplum HD(Hadoop分析)和Greenplum DCA(數據計算設備),后者還是基于高性價比的工業標準x86服務器的MPP(大規模并行處理)分布式可擴展架構。因此站在廠商的角度,如果沒有更多的新穎有意義的東西,過多地投入資源來大量宣傳推廣顯然不劃算,防止最后客戶不買賬。確實,海量增長的非結構化、半結構化數據中確實有值得更深挖掘的價值,但這并不等于人們就要一下子更換全新的方法、工具來處理它們。就像需求是漸進式的增長一樣,業務的變革也要以漸進式為主,比較穩妥。
什么惹眼就掛什么標簽,什么有好處就往哪鉆,這就是如今商家通行的招數。而面對“大數據”的流行,不少傳統BI廠商最后也禁不住“誘惑”,紛紛搖頭一變,都套上了“大數據”的外套,令人感嘆。
可以說,當前IT廠商心態日趨浮躁,急功近利,沒有真正去認真研究客戶需求、認真研究企業管理,而是還停留在炒作概念甚至撈一把就走的階段。今天你一個SOA,明天我一個EAI,今天你來網格計算,我明天來個云計算,你一個BI,我來個大數據,等等,都是各自從各自的技術特點去闡述各自軟件的概念與應用,引導用戶投懷送抱,但沒有幾家能說清楚自己軟件服務到底是個什么好東西,能給企業帶來什么簡捷實用的好處?性價比是否最優?反而五花八門的概念、定義,令客戶單位眼花繚亂,不知所措。在選擇的時候看看這個也有點道理,那個講的也好象對,但沒有哪個廠商的系統真正令客戶深感滿意。
再回來說說大數據與BI。可以說,大數據與BI二者之間存在著深厚的天然聯系,一對孿生兄弟,它們辦公決策工作本身都是一種團隊協作和協調,尤其是在數據挖掘和數據分析層面,并沒多大的差別。同時,傳統BI與大數據的關系,并不是互相替代、排斥的關系,它們猶如人的左腦和右腦,分工不同,傳統BI以處理結構化信息為主,大數據以處理非結構化、半結構化信息為重,它們相互依存、相互補充、共為一體,組成企業完整的信息化大腦。
大數據的創新性、先進性與前瞻性,不容否定,值得肯定,但當有人提出“大數據當立,BI當下”之論,就顯得過分武斷、偏激了。在如今細分制勝的時代,功能并不是越多越好,功能過多反而顯得累贅,增加無謂費用,因而故弄玄虛、故作高深地過分炒作概念,反而有失本質、主次。Gartner研究公司的BI分析師RitaSallam表示,“大數據將讓BI更有價值和更有利于業務發展。我們總是會需要看看過去的數據,當你擁有大數據時,你更應該這樣做。BI并不會消失,它通過大數據被加強了。在一定時期內,大數據還難于取代傳統BI工具。”
如今各種關于大數據與BI軟件誰優誰劣觀點的交鋒仍不斷泛起,但不管如何,應明白的是,客戶單位、消費者真正需要的不是概念,需要不是優劣是非的爭論,他們需要的是實實在在的應用軟件,需要的是解決問題的有效方法,需要的是軟件恰到好處的功能。
而對應用企業而言,它們必須認真權衡,到底企業利用大數據后能給企業帶來了多少額外增加的價值?這種增加的價值是否能讓企業的投入有一個較好的收獲?而且更為重要的一點是,是否只要使用大數據就一定能夠給企業帶來以前不可能實現的價值?這些都需要應用企業好好重點考慮了。( 文/ 廈門智者恒通 吳勇毅)


