大數據的思考與實踐
"第四屆中國通信行業數據中心與大數據峰會"將于7月17日、18日在北京舉行。中國聯通信息化事業部副總經理耿向東在該屆會議上進行了發言,以下是演講內容。
各位專家、各位業內外的朋友大家上午好!
非常高興能夠參加今天的論壇。應該講我參加這個論壇也有四屆了,大概在其中三屆發表過演講,第一次講的是基礎設施的云化,第二次講的是應用的云化,今天我想跟大家探討的是大數據方面的思考和實踐。當然我們這個論壇也是一個非常開放的交流空間,所以我在這里給大家講的也是一個比較開放的話題。
我想講這個大數據,還是首先要從運營商當前面臨的挑戰來看,大家也都知道,實際上現在有很多的趨勢,應該看得很清楚了。比如說我們以前講叫移動替代固網,這已經成為事實了。現在我們說流量替代語音,也正在成為現實,事實上對于電信運營商來講,語音想守是很難守住的,未來一定是流量經營為主的時代。
這里面有一些數字可以跟大家分享一下,這些數字都是公開的數據,大家也可以從工信部的網站上拿得到。從三大運營商來看,截止到今年的1月份,一共是11.2億的移動用戶,我們不說固網、不說寬帶。移動用戶有11.2億,1月份的時候三大運營商加在一起是8600萬的新發展,但是有將近9400萬的流失,什么意思?負增長,其實用戶在大進大出,這個現象是非常明顯的。2月份大概有9100萬的新發展用戶,但流失的用戶是1.04億,工信部大家都可以看得到這個數據。
所以說運營商當前來講競爭已經非常激烈了,不再是一個增量的市場,而是一個典型意義上的存量市場。也就是說傳統的靠人口紅利的發展模式已經走到了盡頭。
這是一個數字,另外大家也可以看到,OTT通過各種創新的方式來分流、替代電信行業。據工信部的統計,今年1到2月份,全國短信的業務量達到了1576億條,同比增長只有0.7%,明顯低于2011年同期的5.7%。當然在今年的春節期間,我們感覺還是稍微可以的,曾經有人預測說今年是微信的時代,微信的量可能會大幅替代短信,但從實際情況來看還好,短信的增長大概還在10%以上,相比去年。但是毫無疑問微信的沖擊已經非常地明顯了。
這里面大家可以看到點對點的短信下滑的是10.6%,什么意思呢?就是用戶和用戶之間大家相互發的短信下降得非常厲害。
再從另外一個方面來看,比如說移動前兩天也剛剛發布了財報,下面也有移動的同事,移動的收入是5600億,利潤是1293億,利潤首次出現同比下降,但它的總量也還是很大。對電信來講是2800億,利潤是149億,聯通營業收入人民幣2,489.3億元,凈利潤達到人民幣71.0億元,這是運營商當前的總體經營狀態。
另外大家也知道,我想我們可能在座的大部分都是微信的用戶,微信發展1億用戶的時候用了6個月時間,從1億到3億大概只用了3個月的時間,非常快。但是對于我們運營商來講,發展用戶就很難了,我前面跟大家講了這么幾個數字。所以大家可以看到,運營商是面臨了一些新的挑戰的。
未來怎么辦,語音在下降、現金流的業務在萎縮,未來應該是流量經營的時代。過去幾年也一直在講運營商要做智能管道,流量可感知、內容可識別,要做智能管道。運營商做智能管道可能很多時候也是一廂情愿了,前不久有一個電信的基層同志發表了一篇文章,大家可能會看到,說電信十年轉型次次失敗,有這么一篇文章大家可以看一下,說明運營商在智能管道的轉型過程當中也是非常困難的。
我們曾經在去年的9月份推過沃派的定向流量,大家可能知道,在去年高校市場。但是我們很快發現對網絡的壓力、對OCS系統的壓力極其巨大,你的流量分得越細,那么對系統的開銷壓力就越大。在部分省就出現了這種類似于ddos攻擊的雪崩效應,當大到一定的程度,大家已經無法繼續了,無法繼續這個時候你就必須要采取措施,必須要停,不停它會整網都癱瘓,但是你一停就勢必會引發客戶的一些投訴,因為一個用戶的訪問會產生幾個、幾十個不同的進程,會占用你的資源,所以對OCS來講都需要進行巨大的擴容代價才能滿足這種場景。大家知道這不是話音、這是流量,流量是互聯網特征,它的爆發增長很多的時候是很難預計的。所以這是我們面臨的一些問題,運營商想轉型,但是很難。當然我們也會面臨一些體制和機制上的問題。
運營商最核心的優勢是什么?一個是網絡,三大運營商每年都會花2500億以上做網絡,運營商搭建的是高速公路,高速公路上承載的是用戶,用戶只能接觸這三個運營商,即便以后是虛擬運營商,也是承載在運營商的網絡上的。
用戶帶來的是什么?當然對我們來講帶來的是收入,同時在網絡上體現的是業務量、體現的是數據。所以我認為運營商未來最核心的是網絡、用戶和數據。
通過運營商我們可以掌握所有用戶的健全信息,準確識別每一個客戶的身份,可以通過信令來了解用戶的活動范圍和準確的定位,通過通話行為可以了解用戶的交際圈,通過用戶上網的行為了解用戶的興趣和偏好。今年3.15聯通面向iphone用戶推出了流量自主查詢的服務,因為過去流量計費的爭議很大,我們把所有用戶上網的記錄做了留存,面向每個用戶對它進行了分析、展示、在你的手機營業廳上面就可以直接看到自己訪問了什么流量,分別由哪些構成?當你認為運營商計費是不是有問題的時候,你就可以回溯一下,看一看當時你有沒有上過什么網,你大概是怎么樣,增加消費的透明度。
所以我說有了這些之后,我們可以做很多的事情,與其拒絕做管道,不如樂于做管道,可能運營商未來不想做管道,但是這不是你決定的。在這上面未來我們的轉變應該是以大數據以及大數據價值的深度挖掘,乃至于創造一些新的商業模式,來實現運營商到服務商的這么一個轉型,這可能會是另外的一條道路。
所以我們認為,為適應這樣的一些變化,當前在內外部形勢的一些變化,運營商必須要轉變思路、加快企業的戰略轉型,真正地從提升客戶的感知出發,重新構建企業的商業模式、營銷模式和支撐模式,能夠快速、合理地配置一些資源,能夠做到精細化的營銷和精準化的管理,推進一體化的運營和商業模式的創新。所以我們總體未來的方向、未來的思路是這樣子的。
在這里面我特別強調數據的重要性,我們認為數據是企業的核心資產之一,過去大家并不把它當作一回事情,運營商有大量的流量,但是都是白白浪費的,也就是說我們沒有精耕細作,沒有通過這些數據的分析去感知客戶、透視企業,這些數據都浪費了、白白流失了。我們過去從來不把數據當做資產,但是這非常重要。我們經常說我們開了一次正確的會、做了一次正確的部署,但是基于錯誤的數據前提,請問這個結果會怎樣?所以任何未來的企業決策、管理、市場營銷,都應該建立在數據的基礎之上。我想大數據給我們提供了用數據去衡量企業一切的可能,過去可能沒這個條件,現在都可以通過數據進行量化了。
所以我們認為運營商必須充分挖掘數據的價值,發揮數據資產的潛力,實現企業的大服務和大營銷,并且進一步會轉向全業務的電子商務。在這個過程當中數據就變得非常重要了,我們總結了幾個詞兒叫“真、大、快、活、全”。首先你這個數據必須是真實準確的,真實準確的數據又必須建立在完善的數據治理體系和安全的保障之上。“大”就是說未來一定是一個大的數據,未來可能是有PB級的數據,運營商現在每天的數據如果是純粹的計費數據,可能每天增量也就是幾T,頂多幾十T。流量的日志數據每天聯通大概在30T,如果是流量的具體內容可能每天都是幾百T甚至PB的級別。未來運營商關注的數據不僅僅是內部的這些數據,會進一步地向外進行擴張,甚至把互聯網的數據涵蓋在內。
對于這些數據它一定是海量的,也是批量的,許多的數據也需要實時處理。“快”就是說因為數據是有實效性的,很多數據過了今天就沒有什么意義了,所以必須要快,數據的采集要快、處理要快、數據對外提供的服務響應速度也要快。當然數據生命周期的管理也要快。
“活”就是要把數據用活,要通過各種各樣的平臺、各種各樣的工具把數據的價值挖掘出來。所謂的“全”就更容易理解了,就是全面的數據,不僅僅是內部的,也包括外部的,不僅僅是結構化的,也包括非結構化的、半結構化的。
講完了這些后面是一個總體的架構,這里僅供大家參考。面對這些大數據的特點和技術的挑戰,我們制訂了整體的規劃,我們把它簡要地總結叫“三大體系、四大平臺”。所謂的三大體系是我們云化應用的體系,也就是說未來我們所有的應用全部是基于云化的,全部是構建在大數據基礎之上的,是廠家無關化的,是百花齊放的,任何一個廠家都可以在我的平臺上開發他的應用、對外提供他的服務。
統一的數據服務支撐體系是第二個,因為大家也知道聯通和電信、移動可能不一樣,我們要做的是一級平臺,實現七級的支撐。所以這個系統它的復雜性就變得非常高了。你要兼顧到各種不同的情況,所以會有一套完整的、統一的數據服務體系。
第三個是運營管理體系,我剛才講七級服務,涉及到不同層級的個性化數據的加載,共性數據的使用,涉及到數據存儲的管理,涉及到計算能力的調配等一系列的工作,所以有一套完整的運營體系。
四大平臺是從技術層面來講的,一個是數據采集平臺,我們強調的是數據范圍、數據質量、數據效率,也就是你采集和交換的范圍、質量、效率。這里要爭取實現的是一點獲取統一交換、高速共享,這是采集和交換平臺。那么數據服務支撐平臺指的是中間綠色的這一塊兒,數據服務支撐平臺,它包括我們的傳統上大家可以理解的ODS、DW、DM,乃至于在上面構建的立方體等等,但是大數據還不僅僅如此,它還會涉及到一些低價值密度的數據,還會涉及到一些實時的流數據。
什么叫低價值?大家都知道大數據有四個V,其中有一個詞叫Value,但這個Value不是價值的意思,它的內涵是低價值的價值,互聯網很多的數據是低價值的,相對于它的體積來講。對于這些低價值的數據你就要對它進行處理、聚合,把它變成高價值的數據,然后才能進到你的結構化數據里面去,因為大量的互聯網數據對我來講是沒有意義的,但是你訪問了什么、訪問了多少次對我是有意義的。
所以這個數據平臺它是一個混搭的架構,是涉及到各種類型的數據架構,數據服務層一方面要整合、清洗、轉換、加載這些數據,同時對外要實現數據的透明服務,什么叫透明的服務?就是說要屏蔽掉異構倉庫或者說數據庫之間的復雜性,對應用的交付是透明的,所以這是數據服務的支撐平臺。
在應用開發平臺,開放式的開發平臺,大數據和傳統的生產系統又不太一樣,它是應用和數據要緊密結合的,所以在這個里面不僅僅涉及到面向SOA的架構的平臺、一些管理,也會涉及到和數據分析相關的工具、一些深度挖掘的工作等等一系列的工作,這是開放式的平臺。在這個平臺之上去衍生應用,這個應用就會有無限的暢想,你就會做各種各樣的,面向企業內部的、面向外部的統一的或者說自助的、靈活的等等一系列的應用,這是我們總體的架構。
在這里面因為講到大數據,就重點地講一講技術的選擇,基于我剛才所講的數據的范圍得到了極大的擴展,所以運營商的數據類型也是非常復雜的。我們認為傳統的小機加上SMP的方式,加上高端陣列,這種性價比已經接近極限。最典型的就叫IOE,騰訊、淘寶提出去IOE(IBM、甲骨文、EMC),因為他們都是傳統小機加SMP加高端陣列的代表,已經接近了極限。實際上在我們核心的一些系統上,也在用一些新的云化技術產品來替代小機。IBM最高端的小機在我們這里也不行了、承載不下去。
而且我們來看,任何一個單一的技術,可能都沒有辦法滿足全部的要求,從這個圖上面大家可以看到,你比如說MPP(并發分布式處理倉庫),它往往是以結構化數據為主的,當然它面向海量的數據處理是可以的。但是它對于非結構化的一些數據、半結構化的數據可能就會有一些勉為其難。
Hadoop它對于一些海量的、批量的數據很有特點,處理起來非常好,又是開源的、免費的,性價比比較好。但是對于比如說靈活的、小量的、涉及到關聯分析的這種數據,可能它又不擅長,而且對于Hadoop來講,還必須有一個強大的支撐團隊才有可能運營得更好。
同時還有流數據,流數據的要求實時性是非常高的,比如說信令,當我走到了國賓酒店,馬上就應該給我推送一條廣告或者說一條信息,這就依賴于我們的信令,它的要求是實時的。我們認為任何一個單一的技術都無法解決所有的問題,所以我們認為未來的技術選擇應該是深度定制的混搭結構,主體的技術應該是MPP加上Hadoop加上流處理的模式,并且進行深度的整合和融合。對一些特殊的場景,比如說可以通過內存數據庫來進行加快,來提升用戶訪問的感知,一點擊一秒馬上就出來可以了,超過三秒用戶就覺得感知不好了。列存數據庫可能適用在一些自定義查詢類的、挖掘分析類的,不能寫,列存讀是可以的,寫是慢的。所以這些可以作為一些輔助。
所以從架構上來講,我們把它展開一下大家就可以看到,我們未來的考慮應該是這樣的,對于這些結構化為主的、高價值的數據,可能以MPP的形式進行承載,對于涉及到比較復雜的關聯分析的,還是SMP傳統的強項,還會以它為主。對于實時的流數據,它會是相對獨立的一套體系,對于這些流數據,往往它的實效性非常強,我們是不做留存的,比如說通過事件來驅動、實時交互的。
對于這些互聯網的一些信息或者說運營商的一些詳單,這種批量式的,我們就通過Hadoop進行加工、處理。
然后把這些所有的處理后的數據變成結構化整合到我的倉庫里面,對上層進行提供應用。當然數據服務支撐平臺對上層提供應用的時候,也不是單純只有結構化來提供,對于一些實時觸發的一些,也可以直接作用于我的Hadoop的平臺或者說實時流的交互平臺,這是我們的一些考慮。
在基礎設施方面,其實不想講得太多,因為在基礎設施這一塊兒,講了很多年了,至少講了有5年的時間了,我覺得從目前來看,這一塊兒不是太大的問題。
這里我們可能簡單地說一下,一個叫多虛一架構,指的什么意思呢?數據整合層是大數據處理的核心,必須采用的是并行計算技術,通過多虛一架構,由各個集群的管控節點統一進行管控,對外提供統一的分布式處理能力,這是一個。
另外一點叫一虛多架構,比如說其他的部分,像數據獲取、數據服務、能力開放、集中數據管控,這些對于基礎架構沒有特殊的要求,只要你的計算能力可以跟得上就可以,這些可以采用虛擬化的技術實現一虛多架構,由云管理的平臺進行統一管控,更好地去平衡一些負載。
事實上在我們大數據中心的構建當中,其實它也是多種技術、多種產品共存的,目前也是這樣共存的。但是從未來來看,對于海量數據的處理存儲也好,處理的及時性也好,要求都是越來越高的。所以我們認為計算存儲一體化以及內存與多核計算,將成為未來的主要趨勢。比如說這里面提一下現在比較多的,可能有X86加上萬兆或者說4萬兆以太網,這是一種方式;還有一種方式叫X86加上Infiniband再加上RDMA,直接內存讀取交換,那效率可能會更高,這些都是未來發展的趨勢。包括現在大家耳熟能詳的一體機,甲骨文有、IBM有、惠普也有,也是發展的趨勢。當然這些都體現出的是對海量計算快速響應的要求。
第四個方面當然了,我們同樣認為數據的管控也非常地重要,數據雖然很大,但是也必須要可控、可管,所以在這里面數據質量、數據生命周期的管理、數據安全的管理和源數據的管理,也變得同樣重要。這里我就不展開了。
后面對運營商來講,未來的應用應該是多樣的,我們未來考慮不僅僅是從企業的內部運營和管理,也會進一步考慮向外部的客戶感知和外部合作四個方面實施多類應用的嘗試,從而成為企業管理和創新的原動力。比如說在企業內部管理方面,這里舉了幾個例子,比如說可能可以做到多層級、全視圖推進管理模式的改變,比如說全景儀表盤可以支持預算、任務跟蹤、經營以及預算管控,可視、可控、可對比。過去我們衡量一個省公司、一個地市公司做得好不好,可能是單維的,大數據了之后你可以從多個維度反復地去剖析它,可以更加準確地看清楚一個經營主體到底怎么樣。
那么還有數據的挖掘分析,知識庫的積累等等,這是企業內部管理方面。在企業生產運營方面,會面向一體化、智能化、推進生產模式的整體優化。比如說這里面精準化的營銷,我前面講了我們掌握了客戶的消費行為、一些偏好、一些位置的信息,大家可以想像我們有多少的事情可以做,是不是?只要你準確地把握了客戶的需求,能夠在他需要的時間推送給他,那就是有價值的,否則就是垃圾短信,對吧?你可以幫助客戶理財、可以幫助客戶推薦,甚至可以做一些聯合營銷等等,都可以做得到。
還有舉一個例子,比如說審計,過去我們的審計都是派駐制的,我們叫隨機,因為審計主要是發現企業經營當中一些問題的,可能說每年派下去兩次看一看經營過程當中有沒有問題、有沒有水分、有沒有違規。現在基于大數據之后由隨機變成了隨時,因為數據都在上面,隨時可以看得到你的經營狀況,隨時看得到你的風險點,這樣的話很多事情就做得更加有針對性。
在客戶感知方面,前面其實也提到了一點,做到用戶的360精準化下,能夠洞察客戶,能夠做到精準地投放。同時在客戶的接觸面也會變得更加便捷、高效,用戶也會有更多的自助、靈活、直觀的選擇。或許未來用戶就可以在網上直接去定制自己的套餐,選擇自己所需要的一些產品,這些都是可能的。外部合作,當然大數據的價值,相當一部分也是可以用于一些聯盟合作等等。
總體這就是我講的一些內容,不一定全面,也不一定準確,可能也涉及到了我們的一些廠商和合作伙伴,如有冒犯之處也請大家見諒,畢竟是一個開放的論壇,只是在闡明一些看法、一些觀點。
這句話我覺得挺好,在這里引用一下,叫“大數據改變商業模式,云計算改變IT架構,運營商的大數據之路,正在進行當中”。
謝謝大家。



