當前位置: 首頁 精選范文 大數據云計算技術范文

        大數據云計算技術精選(五篇)

        發布時間:2023-09-18 16:38:22

        序言:作為思想的載體和知識的探索者,寫作是一種獨特的藝術,我們為您準備了不同風格的5篇大數據云計算技術,期待它們能激發您的靈感。

        篇1

        1.1大數據的發展

        通過對大數據的匯集、智能分析和挖掘技術,發現數據中的潛在價值信息,幫助人們做出正確決策,這就是大數據產業的利益。國外大數據的起步比較早,比較成功的大數據應用案例有:商業龍頭沃爾瑪公司通過對消費者的購物數據進行分析,了解顧客的行為喜好,對超市的商品結構進行搭配重置以增加銷售額;亞馬遜公司通過大數據構建自己的推薦系統,每年可以靠此多收益20%;奧巴馬通過大數據分析系統進行數據挖掘,用科學的手段獲取選票、募集資金,贏得了總統競選的勝利。相比于國外,國內的大數據研究和應用還處于起步和發展中的階段,比較成功的案例有:淘寶數據魔方平臺,通過大數據,為買家量身打造完善的購物體驗產品;新浪微博大數據產品,通過大量的社交數據,創造不同的社會經濟價值等。

        1.2云計算的發展

        云計算可以像電力資源一樣提供彈性的按需服務,事實上它是集合了一系列的服務提供給用戶。云計算的核心可分為三個層次,分別為基礎設施層、平臺層、應用層,如圖2所示。云計算將基礎設施、軟件運行環境、應用程序抽象成服務,具有可靠性高、可用性強、規模可伸縮等特點,滿足了不同企業的發展需求,各個云服務提供商根據各自服務對象的差別分別開發了各具特色的云服務。(1)基礎設施即服務層基礎設施即服務(InfrastructureasaService,IaaS)層通過部署硬件基礎設施對外提供服務,用戶可以根據各自的需求購買虛擬或實體的計算、存儲、網絡等資源。用戶可以在購買的空間內部署和運行軟件,包括操作系統和應用程序。消費者不能管理或控制任何云計算基礎設施,但能控制操作系統的選擇、存儲空間、部署的應用,也有可能獲得有限制的網絡組件(如防火墻、負載均衡器等)的控制。云服務提供商為了使硬件資源得到更有效的利用,引入了Xen、KVM、VMware等虛擬化技術,使得云服務商可以提供更個性化的IaaS服務。亞馬遜彈性云計算(AmazonElasticComputeCloud,AmazonEC2)是亞馬遜Web服務產品之一,AmazonEC2利用其全球性的數據中心網絡,為客戶提供虛擬主機服務,讓使用者可以租用云服務運行所需應用的系統。(2)平臺即服務層平臺即服務(PlatformasaService,PaaS)層是指云計算應用程序開發和部署的平臺,包括應用設計、應用開發、應用測試和應用托管,都作為一種服務提供給客戶。開發者只需要上傳代碼和數據就可以使用云服務,而無需關注底層的具體實現方式和管理模式。鑒于PaaS平臺的重要意義,國內外廠商根據各自的戰略提出了相應的PaaS平臺,國外的如GoogleAppEngine(GAE),通過GAE,即使在重載和數據量極大的情況下,也可以輕松構建能安全運行的應用程序。國內也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)軟件即服務層軟件即服務(SoftasaService,SaaS)層是為云計算終端用戶提供基于互聯網軟件應用服務的平臺。隨著Web服務、HTML5、AJAX、Mashup等技術的成熟與標準化,SaaS應用近年來發展迅速,典型的SaaS應用包括GoogleApps、SalesforceCRM等。國外云計算平臺比較成功的應用案例有:亞馬遜電子商務網站根據用戶的購買行為和搜索技術搭建Hadoop集群,構建推薦系統;Twitter社交網站搭建Hadoop分布式系統用于用戶關聯的建立。國內云計算平臺的成功案例有:阿里巴巴目前整個集群達到1700個節點,數據容量達到24.3PB,并且以每天255TB的速率不斷攀升;2013年,華為推出國內首個運營云平臺,目前為止與該平臺簽訂協議的ISV有3000多家。

        1.3云計算相關技術

        (1)分布式文件系統分布式文件系統(GoogleFileSystem,GFS)[3]是Google公司針對云計算過程處理海量數據而專門設計的。一個GFS集群由一個主節點和多個從節點組成,用戶可以通過客戶端訪問文件系統,進行正常的文件處理工作。在云計算中,海量數據文件被分割成多個固定大小的數據塊,這些數據塊被自動分配到不同的從節點存儲,并會在多個節點進行備份存儲,以免數據丟失。主服務器管理文件系統記錄文件的各種屬性,包括文件名、訪問控制權限、文件存儲塊映射、塊物理信息等數據。正是通過這個表,文件系統可以準確地找到文件存儲的位置,避免數據丟失,保證數據安全。圖3是GFS的體系結構示意,每一個節點都是普通的Linux服務器,GFS的工作就是協調成百上千的服務器為各種應用提供服務。(2)分布式并行數據庫BigTableBigTable[4]是一個為管理大規模結構化數據而設計的分布式存儲系統,可以擴展到PB級數據和上千臺服務器。很多Google的項目使用BigTable存儲數據,這些應用對BigTable提出了不同的挑戰,比如對數據規模的要求、對時延的要求。BigTable能滿足這些多變的要求,為這些產品成功地提供了靈活、高性能的存儲解決方案。BigTable采用的鍵是三維的,分別是行鍵(RowKey)、列鍵(ColumnKey)和時間戳(Timestamp)。行鍵和列鍵都是字節串,時間戳是64位整型;值是一個字節串,可以用(row:string,column:string,time:int64)string來表示一條鍵值對記錄。(3)分布式計算框架MapReduceMapReduce[5]是Google公司提出的大數據技術計算框架,被廣泛應用于數據挖掘、海量數據處理以及機器學習等領域,由于其并行化處理數據的強大能力,越來越多的廠商根據MapReduce思想開發了各自的云計算平臺,其中以Apache公司的Hadoop最為典型。MapReduce由Map和Reduce兩個階段組成。用戶只需要編寫簡單的map()和reduce()函數就可以完成復雜分布式程序設計,而不用了解計算框架的底層實現。MapReduce的數據分析流程如圖4所示。分布在不同服務器節點上的海量數據首先通過split()函數被拆分成Key/Value鍵值對,map()函數以該鍵值對為輸入,將該鍵值對進行函數處理,產生一系列的中間結果并存入磁盤。MapReduce的中間過程shuffle()將所有具有相同Key值的鍵值對傳遞給Reduce環節,Reduce會收集中間結果,并將相同的Value值合并,完成所有工作后將結果輸出給用戶。MapReduce是一個并行的計算框架,主要體現在不同的服務器節點同時啟動相同的工作,并且在每個獨立的服務器節點上又可以啟動多個map()、reduce()并行計算。

        2基于云計算的大數據處理

        目前大數據處理的基本流程如圖5所示,整個流程經過數據源的采集,用不同的方式進行處理和加工,形成標準的格式,存儲下來;然后用合適的數據計算處理方式將數據推送到數據分析和挖掘平臺,通過有效的數據分析和挖掘手段,找出大數據中有價值的信息;最后通過可視化技術將信息展現給人們。

        2.1數據采集存儲

        大數據具有不同結構的數據(包括結構、半結構、非結構),針對不同類型的數據,在進行云計算的分布采集時,需要選擇不同的數據采集方式收集數據,這也是大數據處理中最基礎的一步。采集到的數據并不是都適合推送到后面的平臺,需要對其進一步處理,例如來源不同的數據,需要對其進行加載合并;數據存在噪聲或者干擾點的,需要對其進行“清洗”和“去噪”等操作,從而保障數據的有效性;數據的格式或者量綱不統一的,需要對其進行標準化等轉換處理;最后處理生成的數據,通過特定的數據庫,如NoSQL數據(Google的BigTable,Amazon的Dynamo)進行存儲,方便進行下一步的數據讀取。由于傳統的數據倉庫無法適應大數據的存儲要求,目前基于云計算的數據倉庫都是采用列式存儲。列式存儲的數據具有相同的數據類型,可以大大提高數據的壓縮率,例如華為的云存儲服務MOS(MassiveObjectService)的數據持久性高達99.9%,同時提供高效率的端到端保障。

        2.2數據計算模式

        這一環節需要根據處理的數據類型和既定目標,選擇合適的計算模型處理數據。由于數據量的龐大,會消耗大量的計算資源,因此,傳統的計算技術很難使用大數據的環境條件,取而代之的是分而治之的分布式計算模式,具有代表性的幾種計算模式的特點見表1。采用批處理方式計算的Hadoop平臺,例如,Facebook擁有全球最大規模的Hadoop集群,集群機器目前超過3000臺,CPU核心更是超過30000個,可以存儲的數據量能夠達到驚人的40PB;采用流處理方式計算的Storm平臺分布式計算的時延比Hadoop更小;實時處理方式計算的Spark是一種基于內存的計算模式,例如,Yahoo運用Spark技術在廣告營銷中實時尋找目標用戶,目前在Yahoo部署的Spark集群有112臺節點和9.2TB內存;交互處理方式計算的Dremel在處理PB級別的數據時耗時可以縮短至秒級,并且無需大量的并發。

        2.3數據分析挖掘

        數據分析挖掘環節是從海量數據中發現隱藏規律和有價值信息的過程,這個環節是大數據處理流程最為有價值和核心的部分,傳統的數據分析方法有機器學習、商業智能等。傳統的數據挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云計算環境下都得到了大幅度的并行優化,在大數據的背景下,計算速度得到了很大程度的提升。現在新興的深度學習是原始機器學習的一個新領域,動機是在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,這種新的數據分析挖掘技術已經在計算機視覺、語音識別、自然語言處理等領域有了成功的應用。

        2.4數據解釋展現

        將挖掘出來的復雜信息進行數據解釋和展現是整個大數據處理流程的最后一個環節,數據分析的結果需要向客戶進行恰當的展現。與傳統的數據輸出和文本展示等方式不同,現在絕大部分的企業都通過引進“數據可視化”技術來展示大數據分析的結果信息,這種方式以圖像、動畫等方式,形象地向客戶展現數據處理分析的結果,也容易被客戶理解和接受,更為先進的是,現在逐步形成的“交互式可視化技術”,大大地方便了數據與人之間的“親密交流”。目前面向大數據主流應用的可視化技術見表2。

        3大數據和云計算的未來挑戰

        大數據需要超大存儲容量的計算能力,云計算作為一種新的計算模式,為大數據的應用研究提供了技術支持,大數據和云計算的完美結合,相得益彰,發揮了各自的最大優勢,為社會創造了巨大的價值。雖然國內大數據和云計算的研究還是處于初步階段,但隨著研究的不斷進行,所面臨的問題也越來越多。在大數據向前不斷邁進的階段里,如何讓我們對大數據的研究朝著有利于全人類的方向發展成為了重中之重。

        3.1重要戰略資源

        在這個信息社會里,大數據將會成為眾多企業甚至是國家層面的重要戰略資源。國家層面要將大數據上升為國家戰略。奧巴馬在2012年3月將“大數據戰略”上升為最高國策,像陸權、海權、空權一樣,將數據的占有和控制作為重要的國家核心能力。大數據資源也會成為各種機構和企業的重要資產以及提升企業社會競爭力的有力武器。在大數據市場里,客戶的各種數據信息都會為企業創造價值,也會在促進消費水平、提高廣告效應等方面扮演重要的角色。

        3.2數據隱私安全

        大數據如果運用得當,可以有效地幫助相關領域做出幫助和決策,但若這些數據被泄露和竊取,隨之而來的將是個人信息及財產的安全問題得不到保障。2011年索尼公司遭到黑客攻擊,造成一億份客戶資料泄露,經濟虧損約1.71億美元。為了解決大數據的數據隱私安全問題,Roy等在2010年提出了一種隱私保護系統,將信息流控制和差分隱私保護技術融入到云計算平臺中,防止MapReduce計算過程中的數據泄露問題。在數據更新飛速的情況下,如何維護數據的隱私安全成為大數據時代研究的重點方向。

        3.3智慧城市

        人口的增長給城市交通、醫療、建筑等各方面帶來了不小的壓力,智慧城市就是依靠大數據和云計算技術,實現城市高效的管理、便捷的民生服務、可持續的產業發展。在剛剛結束的“兩會”的政府工作報告中,總理也特意強調了智慧城市發展的重要性,目前國家智慧城市試點已遍布全國各地,多達409個。智慧安防、智慧交通、智慧醫療等都是智慧城市應用領域。智慧城市的建設也趨使大數據人才的培養。據預測,到2015年,大數據將會出現約100萬的人才缺口,全球將新增440萬個與大數據相關的工作崗位來填補這個空缺。

        3.4能源消耗

        篇2

        【關鍵詞】云計算;云儲存;數據完整性;數據隱私

        1.前言

        云計算和云儲存的不斷成熟、發展為大數據儲存及處理提供了技術支持,可以使更多用戶在不同終端上實現對各類數據的操作,但是數據安全問題一直是大數據云儲存中的一個突出問題,很多用戶在使用云儲存過程中都出現竊取、丟失等現象,這類數據安全問題出現后會給企業和用戶帶來不同程度的經濟損失。日益凸顯的云計算安全問題不僅已成為云服務用戶共同關注的問題,同時也在很大程度上對大數據儲存帶來了威脅,本文針對云計算和大數據的特點對數據儲存的完整性、隱私性進行分析,通過研究和總結國內外最新研究成果來保證大數據儲存安全。

        2.大數據儲存的云端安全接入技術

        傳統的計算機數據關系中數據擁有者擔任著數據提供者的角色,用戶只需要提交有效的賬戶名和密碼便可以對數據進行訪問,并可以根據用戶自身權限進行相關操作,但是在云計算中數據擁有者和云服務提供者是兩個不同的角色,云服務提供者一般都是以商業機構為主,而這些商業機構在實際上是處于用戶信任區域以外,因此,傳統認證方式已無法滿足用戶對云存儲安全接入的實際需求,云儲存在實際使用中的接入需要采用額外的檢驗機制,這樣才能確保云端安全接入技術可以滿足大數據儲存的安全要求。圖1是一種可靠性較高的云端安全接入模型,用戶需要使用數據時需要向數據擁有者提交一個使用請求,在數據擁有者實時頒發的密鑰、證書后便可以接入到云端,該種云端安全接入模型在實際應用中相對較為安全、可靠,但是只有數據擁有者處于在線的狀態才能為用戶提供數據服務,一旦網絡用戶在實際使用中的網絡通信受到任何因素限制,則該安全接入模型無法滿足用戶對大數據儲存安全的要求。

        圖1 一種可靠性較高的云端安全接入模型

        研究表明,云儲存接入的安全性主要受到數據擁有者,根據用戶的實時需求進行驗證、反饋等方式有著直接影響,數據擁有者如果保持在線狀態就可以確保云計算的安全接入,但是由于受到用戶對數據需求量不斷增加的影響,大量分配、更新密鑰等操作會給數據擁有者戶端帶來很大負擔,一旦數據擁有者主機通信受到限制,則其便無法滿足用戶對共享數據的訪問、使用要求。基于第三方云服務器的接入技術可以有效降低主機負擔,并且通過運用重加密技術可以避免數據泄漏,但是該種接入技術在實際應用中的靈活性、實時性還有待提高,短期內無法滿足大量新用戶的接入及使用要求,這也為大數據儲存的云端接入技術指明了一條方向。數據擁有者在選擇云端接入技術與控制方法過程中,應根據數據私密等級、用戶管理模式進行選擇,確保每一個用戶都可以安全接入到云端的同時,可以實現優化網絡效率這一目的。

        3.大數據儲存的數據加密技術

        數據在上傳到云端后可能由于受到服務器故障的影響,導致發生數據泄漏的可能性,云平臺在被非法接入后可能出現數據被竊取、篡改以及偽造等事件,所以儲存在云端的數據需要通過加密技術對其進行加密處理,經過數據擁有者拆分、加密后才能上傳到云計算平臺,用戶根據自身需求將數據下載后需要對其進行解密處理,即使數據在使用、儲存、傳輸過程中出現丟失、被竊等事件,也因數據經過事先加密而不會發生私密信息泄露的事件。現階段云計算中所使用的主流數據加密技術以屬性加密和加密為主,基于密鑰(KP-ABE)和基于密文的屬性加密(CP-ABE),這兩種數據加密策略在實際應用中具有各不相同的特點,圖2是一種基于重加密技術(PRE)的云計算數據加密模型,該種云計算數據加密模型通過部署人來提高數據安全性,由于云平臺在實際運用中扮演的角色為半可信人,將PRE架構移植到云計算中可以塑造出一套安全性較高的加密方案。B用戶如果需要共享A用戶經過加密處理后上傳到云端的數據,A根據用戶信息和B的公鑰來產生一個具有“過渡”作用的密鑰,而該密鑰在實際使用中只具有密文與密文間相互進行轉換的功能,可以將A用戶提供的密文轉換為針對B用戶的密文,B用戶下載該密文后便可以對A用戶共享的數據進行相應操作。

        圖2 基于PRE的云計算數據加密模型

        數據安全是實現大數據云儲存安全的核心內容,因此,大數據儲存過程中必須選擇有效的加密技術,這對提高大數據儲存安全體系的整體性能有著重要作用,通過采用科學、合理的加密方法不僅可以確保大數據儲存過程中的機密性,對幫助云計算及用戶實現網絡資源分配最優化也有著重要意義。

        4.大數據完整性校驗技術

        數據完整性是指數據在儲存、傳輸以及使用等諸多環節,數據不會發生被篡改事件,確保數據信息內部和外部在各環節中的一致性,而大數據存儲在云端容易被非法篡改,這便會導致大數據存儲過程中的完整性被嚴重破壞,因此,對存儲在云端的大數據完整性進行校驗有著重要意義。圖3提出了一種基于“可取回性證明”(POR)的大數據完整性校驗模型,該方案在實際設計中采用了挑戰―應答模式,驗證者在對大數據進行糾錯編碼的同時要在文件隨機位置插入“哨兵”,這些哨兵主要是由帶密鑰的哈希函數根據驗證的實際需求生成的,每次挑戰時證明者為了反饋驗證者的要求,會自動返回一定數目的哨兵,通過哨兵返回數目的完整性對文件進行檢測。該大數據完整性校驗模型在實際應用中不需要對所有數據進行復制,而且存放哨兵的額外存儲量也相對較少,主機不需要對挑戰―應答模式提供過大的計算量,所以其整體性能完全可以滿足大數據存儲安全要求。以可信第三方代替用戶進行大數據可取回性檢查,并根據用戶數據的損害情況來執行數據恢復,這種基于輕量級數據可取回性證明算法“L-POR”可以通過冗余數據來加入到用戶認證信息中,避免了其他同類算法在大數據完整性校驗中產生的大量存儲開銷。

        圖3 一種基于POR的大數據完整性校驗模型

        5.結語

        云計算和大數據儲存中其安全性不僅會對云計算技術的發展有著直接影響,更關系到每一個云計算用戶在使用中的隱私和利益,所以要通過加強接入控制技術、數據加密技術以及大數據完整性校驗檢測技術等方面,來確保大數據存儲的安全工作可以滿足各類用戶的實際需求。

        參考文獻

        篇3

        云計算技術具有高效、可靠、高可擴展性和易用性的特征,被很多領域廣泛的使用。本文討論的內容是如何將云計算技術應用到就業大數據信息服務平臺中,從而高效率、高質量的做好就業服務工作。

        Hadoop是由 Apache 開源組織提供的分布式系統基礎框架,能夠有效的解決海量數據分布存儲和分布計算,是云計算技術應用層面很好的解決方案。

        一、高校就業大數據信息系統現狀

        目前,各高校均建設了高校內部的畢業生就業大數據信息平臺,一定程度上滿足了畢業生就業服務的需要。但是這些系統存在以下幾方面問題:第一,系統側重畢業生和就業信息管理,或者只是學生管理信息系統的一部分,缺乏服務機制,無法實現學生、教師和用人單位的聯動。第二,系統資源利用率低,系統運行效率低、安全可靠性和可擴展性差,給學生數據安全帶來很大的隱患。第三,系統數據利用率低,多數集中在簡單的查詢,很難獲得有益的知識,提供決策服務。第四,系統缺乏個性化定制,很難適應當前就業工作不斷調整的需要。

        隨著高校、畢業生和企業對就業服務的要求提高,現有的就業信息平臺已經不能適應就業工作多元化的增長和發展的需要,影響高校畢業生的就業效果,新型的就業大數據信息平臺的建設已成為破解就業工作難題的必要條件之一。

        二、構建基于云計算的高校就業大數據信息服務平臺

        云計算因其強大的計算和數據儲存的能力、可靠、安全的共享數據存儲中心、客戶端的設備配置沒有限制等特點已廣泛應用各行各業,并日益發展成熟。通過云計算技術建設畢業生就業信息平臺,整合和共享就業信息資源,為畢業生就業提供方便、快捷、高效的信息服務平臺,破解現有就業信息平臺存在的問題。

        從研究現狀來看,云計算具有以下一特點:

        一是強大的計算和數據儲存的能力。“云”能賦予用戶完成各類應用前所未有的計算能力,為用戶儲存和管理數據提供幾乎無限多的空間。服務器的日常維護也有云服務提供商來進行。

        二是最可靠、最安全的共享數據存儲中心。通過云存儲,數據復制到多臺物理機器,避免因硬件崩潰或誤操作刪除的造成的數據的丟失或損壞。

        三是客戶端的設備配置沒有限制。用戶在隨時隨地方便、快捷、安全的使用位于不同計算機、不同的操作系統的應用服務,從“云”中獲取個人的需求。

        2.1 構建高校就業云服務平臺

        根據提供服務資源的類型,云服務被分為三個類別:SaaS(軟件即服務)、PaaS(平臺即服務)、IaaS(基礎設施即服務)。

        高校就業大數據信息云服務平臺采用 SaaS 模式,通過瀏覽器和移動終端將軟件作為云服務提供給所需用戶。用戶無需購買軟件和維護軟件,用戶根據業務需求購買相應的云服務,云服務提供商管理相關軟件并實施軟件的維護。這種方式大大降低用戶在軟件購買和維護上人力和物力的開支。高校就業信息云服務平臺自底向上分別是“云數據層”、“數據服務層”、“業務服務層”、“云服務層”和“應用層”,每層之間采用松耦合,提供相互訪問的接口,用戶不必關注層內部邏輯。

        (1) 數據存儲層

        高校信息服務平臺的數據主要包含學生數據、用人單位數據和高校相關數據,數據是作為平臺的基礎。為了提供便捷、高效、可靠的數據訪問,數據存儲層采用云存儲技術實現。

        (2) 數據服務層

        數據服務層建立專門進行云數據層訪問的接口程序,用戶通過 webservice 或者 API 進行加密數據的訪問,數據的具體存儲對用戶是透明的,這也有效的提高數據安全性,并且為數據的擴展提供基礎。

        (3) 業務管理層

        業務服務層包括高校信息服務平臺所有業務,具體包括應聘招聘、就業指導、畢業生困難幫扶、創業等服務內容,這些業務服務于政府、用人單位、高校、學生和社會等不用的用戶。由于就業工作隨著時間的推移會受到就業形勢、政策等很多因素影響,從而導致就業工作業務和用戶發生不斷變化,所以就業信息服務平臺業務服務層要具備高擴展性。基于以上的要求,我們構建了業務服務控制臺,業務服務被設計為可插拔式,每項業務可以被掛載在控制臺,或者從控制臺被卸載,也可以設定業務接口、執行業務升級操作等服務。

        (4) 云服務層

        云服務層將業務服務層的內容以應用接口的方式提供給應用層,提供的方式是為業務服務層建立 API 接口和webservice 接口。應用層可以通過編程的方式調用業務接口,實現業務訪問。

        設定中文信息處理和語音識別接口,用戶可以通過輸入中文關鍵字或者語音調用業務,在應用層和業務層之間建立更加友好的數據傳送,也為移動終端用戶提供更加便捷的操作方式。

        (5) 應用層

        應用層直接面向實際用戶,實現就業信息云服務平臺不同類型的用戶圖形界面,從而能夠適應不同用戶的不同需求。用戶既可以通過個人電腦上的瀏覽器訪問獲得云服務、也可以使用智能移動終端的應用程序或者微問云服務。

        2.2 建立基于 Hadoop 的云數據存儲

        高校就業大數據信息服務平臺需要大量的數據進行支持,而且數據逐年增加。利用云存儲技術主要解決快速、高效的處理海量數據,從而達到易擴展、低成本、易管理、高效和安全的設計原則。 Hadoop 軟件框架的HDFS(分布式文件系統)提供了具備高擴展性、高容錯性、高可靠性、高效等特點,并且可以部署在低廉的硬件上,從而降低成本。基于以上內容,高校就業服務平臺的數據存儲通過 HDFS 分布式存儲技術實現云存儲,Hadoop 的具體部署

        2.3 建立基于 Hadoop 的數據服務

        數據服務是就業大數據信息云服務平臺重要的業務,用戶需要了解學生年齡、學歷等數據分布,需要了解就業數據分布,需要了解用人單位人才需求分布,需要了解就業數據內部和外部存在的各種聯系。數據服務從海量數據的計算中獲得,利用云計算技術能夠高效、低成本的解決計算問題,Hadoop 為云計算提供了有效的解決方案,它提供了MapReduce 模型,這個模型解決了傳統并行計算在易編程性上的瓶頸,程序員可以更容易的開發分布式并行計算程序。MapReduce 同 HDFS 一樣采用一個主控節點和多個計算節點的架構。

        將大規模數據集分成多個小數據集,然后這些數據集分o多個 map 節點進行并行處理產生中間結果,最后在 reduce階段對這些結果匯總,得到最終結果。

        篇4

        關鍵詞:大數據;移動云計算;云計算;信息

        中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)34-0003-02

        隨著互聯網的快速發展,人們逐步感受到了“信息大爆炸”,特別是各種移動通訊和物聯網的發展,數以億計的網絡用戶隨時產生數據。目前全球的數據總量達到了ZB規模,大數據成為人們關注的熱點話題,生活中的很多方面都可以和大數據技術進行結合,通過大數據技術來為我們服務。

        大數據技術雖然給我們的生活帶來了巨大的改變,但是大數據技術要求計算機具有相應的大數據處理能力,為此,云計算的概念產生了。云計算是分布式計算、網絡存儲、負載均衡等相關技術發展融合的產物。云計算通過網絡將龐大的計算機處理任務進行分解,把分解后的較小的計算任務交給眾多的網絡數據計算服務器,經過網絡服務器的分析處理之后把結果重新傳回給用戶。移動云計算是指通過移動互聯網以按需、易擴展的方式獲得所需的基礎設施、平臺、軟件或應用等的一種IT資源或信息服務的交付與使用模式。[1]

        1 大數據技術

        現今的世界是一個數據的世界,我們身邊到處都充滿著數據,比如打電話的語音數據、發短信的文字數據、微信的聊天數據、報紙、雜志、網絡購物等等。這么多的數據實時地影響了我們的工作、生活、學習,甚至社會的發展。根據維基百科的定義,大數據(Big Data)是用于數據集的一個術語,是指大小超出了常用的軟件工具在運行時間內可以承受的收集、管理和處理數據能力的數據集。[2]美國IBM公司定義了大數據的3V特點,即規模性(Volume)、多樣性(Variety)、高速性(Velocity)。規模性表示大數據涉及的數據量巨大,一方面人們的生活中產生了很多的具體數據,另一方面是互聯網通信中移動通信的虛擬數據,這些數據的數據量是非常巨大的。多樣性表示大數據中數據類型的復雜多樣,其中包括最常見的文本數據、圖像數據、語音數據和視頻數據,除此之外還有很多其他的結構化、半結構化和非結構化的數據。高速性表示大數據技術必須具有實時性,比如實時路況導航、全球股價波動、一些通信業務的處理等等。

        大數據技術的發展越來越成熟,大數據的價值也越來越受到人們的關注,對于數據處理的實時性和有效性要求越來越高。大數據在公共服務、商業智能、科學研究等領域發揮著巨大的作用,影響力越來越大,大數據技術的使用一定會給我們帶來巨大的價值。社會中的各行各業可以通過大數據技術來完成各項工作,比如大數據在汽車制造業中的應用,福特汽車的產品開發團隊曾經就對汽車行李箱的打開形式進行研究。車后行李箱的打開有兩種形式手動式和電動式,如果采用電動式,能自動打開、便捷智能,但是這種方式會影響到車門開啟有限的困擾。此前采用定期調查的形式并沒有發現這個問題,但后來對社交媒體的關注和分析,發現很多用戶在談論這個問題,這對福特汽車以后的產品設計是非常有幫助的。

        數據分析是大數據技術的核心,通過對相關數據的分析產生有價值的信息是大數據技術的關鍵。通過對數據的分析,可以產生有價值的規律和結果并輔助人們進行更為合理的決策。在大數據分析方面除了傳統的技術外,人工智能技術鄰域的很多方法被用得越來越多,包括統計分析、機器學習、數據挖掘等。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的,但又是潛在有用信息和知識的過程。統計分析就是基于數學鄰域的統計學原理,對數據進行收集、組織和解釋的科學。機器學習作為人工智能鄰域的重要內容,分為監督學習和無監督學習兩大類。[3]常見的方法包括聚類算法、預測算法、回歸算法、樸素貝葉斯算法、支持向量機算法等。這些算法往往需要較大的計算資源和較強的計算能力,云計算正好滿足了大數據技術在這個方面的需求。

        2 移動云計算技術

        云計算已經發展成為IT行業的一個熱門技術,目前的主要云計算設備和服務都是針對PC機而言的,但是隨著無線路由的快速普及以及無線終端設備的大量出現,將云計算運用于移動環境是必然的發展趨勢。根據相關的數據統計,全國的移動電話用戶累計達到10億以上,現有的終端計算能力、存儲容量都是非常有限的,已經難以滿足很多用戶的需求,而云計算恰好能給用戶提供服務。云計算是一種新型的應用模式,通過網絡按需實現軟件處理能力、存儲資源等。[4]移動云計算正是基于云計算的概念出現的,它結合了移動網絡和云計算的概念。移動云計算通過移動的終端用戶進行網絡互連,并以按需、易擴展的方式獲得所需的基礎設施、平臺等相關的網絡資源和信息。

        云計算的一個主要優點就是在“云端”提供了大容量的存儲空間和高速的計算能力。即使客戶端的移動設備本身性能不夠,但是只要能進行數據的輸入、輸出,就可以和云端進行交互,讓云端提供計算和處理服務得到客戶想要的結果。移動云計算的特點是終端硬件及系統無關性,這是因為終端不進行真正的大量計算和數據的存儲,而是通過移動網絡把數據和計算任務上傳到云端讓云端來進行計算和處理。移動云計算還消除了計算的地域性限制,普通的云計算由于終端設備的地理位置固定,給很多的實際應用帶來不便,但是移動云計算可以通過移動網絡進行數據傳輸和計算。如果移動網絡有足夠的帶寬,那么移動云計算就能實現實時的數據計算,讓客戶在終端或者手機上看到最及時的處理結果。

        移動云計算中比較成熟的應用有移動云存儲。目前,很多公司推出了自己的移動云存儲服務,在移動云上可以存放照片、文檔、郵件、視頻等相關內容。傳統的存儲方法是客戶在存儲資料時,都是通過U盤或是硬盤等存儲設備。這種存儲方式有明顯的缺c,當U盤或是硬盤丟失、損壞或是忘記隨身攜帶等,都可能造成想要取出存儲資料卻取不出來的狀況。移動云存儲是把資料上傳到網絡上的移動云存儲服務器,只要能上網可以隨時隨地取出存儲資料,不用擔心資料的丟失或損壞。基于移動云計算的移動商務是商業發展的新模式。隨著移動終端設備的大量使用,很多商務都是在網絡上進行操作的,例如購物網站、微信支付等。除此之外移動云計算在醫療、郵件推送、遠程教育等方面都有著非常成功的應用。

        3 大數據與移動云計算

        本地單機的數據處理模式成本越來越高,而且擴展性比較差,并且隨著要處理的數據量不斷增加特別是對于大數據的應用,相應的處理性能會遇到瓶頸,在這種情況下,出現了云計算技術。云計算具備了較好的彈性,在動態調配資源、支持多用戶按需工作等特點正好符合了大數據的應用需求。云計算以其高可靠性、強大的計算能力和海量的存儲空間成為解決大數據問題的重要技術,但是云計算不能在動態系統中進行應用,這使得移動云計算成為云計算新的發展方向,特別是移動終端可以方便地通過無線網絡上網來使用移動云計算提供的各種服務。

        大數據的落腳點在于“數據”,提供了對數據操作的各種方法,包括對數據的采集、分析、挖掘、存儲等。移動云計算更多體現在“計算”,看重的是通過互聯網產生的計算能力,移動云計算中很多的相關技術正是大數據技術的基礎。大數據技術首先要有大量的存儲數據,存儲數據的傳統方法是數據庫技術,但是現在的數據量越來越大,已經超過了傳統數據庫的存儲模式,而移動云計算正好給這些數據的存儲提供了空間。其次是對大量數據的初步操作包括數據的提取、標注、表達等,移動云計算通過互聯網可以把這些任務進行分解,分成許多較小的數據處理任務并分配給網絡中的很多移動終端用戶,讓他們在空閑的時候處理這些任務。最后是對移動云上存儲的大量數據進行分析,分析的手段包括數據過濾、數據分類、數據聚類等,移動云計算同樣可以像上邊那樣把任務進行分解并在網絡中尋找空閑的處理設備輔助完成這些任務。

        基于移釉萍撲慵際豕鉤傻拇笫據系統,能夠提供大數據處理所需要的相關技術。大數據與移動云計算的結合,將是相得益彰,相互都可以更好地發揮作用。移動云計算為大數據提供強大的存儲和計算能力,更加迅速便捷完成大數據的處理任務,而大數據的相關業務能為移動云計算找到更多更好的實際應用。

        大數據和移動云計算在氣象領域的應用,以前的氣象服務信息大多只是將氣象的監測數據提供給用戶,由用戶自己去綜合使用,這顯然僅僅是氣象預報產業中的初級階段。現在,人們通過移動網絡可以及時獲得氣溫、紫外線指數、感冒指數、晨練指數、洗車指數等更精細化的氣象信息,并利用大數據分析軟件可以獲得更多的用戶想知道的數據信息,體現出單一數據無法表達的價值和效益。

        社交網絡是現在人們溝通的主要形式之一,用戶通過移動終端使用社交網絡,伴隨著用戶的社交過程會產生大量的數據,通過大數據的分析技術可以發現一個人和另一個人是怎么樣聯系上的,另外也可以通過兩個人的社交關系,找到讓他們進行聯系的渠道。不管我們在使用微信朋友圈還是微博賬戶,軟件系統經常會提示我們哪個人可能是我們的朋友或者是同學,給你一個加入好友的提示,這就是大數據與移動云計算相結合應用的一個實例。

        地圖導航古已有之,而發展到今天的電子地圖導航更成為人們出行旅游的指南針。用戶使用移動終端比如手機、平板電腦通過移動互聯網把自己的實時地理位置信息傳送到網絡上,由此可以進行打車、聚會、餐飲、購物、汽車導航等應用。大數據技術通過分析可以知道在哪些地方,什么樣的服務是在這個地理位置上的人最需要的,移動云計算把這樣的消息出去后,可以給我們提供最便利的服務。比如在商場附近可能有更多的人需要打車,在人煙稀少的地方可能有更多的人需要方向導航等。

        醫療行業具有數據量大、復雜性高等特點,醫療行業被認為是最能讓大數據分析技術發揚光大的一個傳統領域。移動云計算利用移動終端可以隨時采集病人的相關數據信息,比如脈搏、血壓、照片等,這些數據隨著時間的推移將構成海量的數據。此外,醫生對于病人的診斷結果也會保存在移動云存儲中,當同樣類型的病癥再次出現的時候,移動終端可以根據大數據的分析技術給病人提出最合理的治療建議。這樣既節省了醫生的人力資源,又節省了病人排隊等待的時間,更能在第一時間解決病人的病情。麥肯錫的報告中指出,大數據技術可以幫助美國的醫療行業一年創造3千億美元的附加價值。

        大數據利用了移動云計算的方便性,可以隨時隨地對數據進行處理并提供了及時的服務,移動云計算通過大數據找到了更好的應用方向。沒有大數據對于大量信息的積累,移動云計算的計算能力再強也找不到用武之地,同樣如果沒有移動云計算的強大計算能力,那么大數據積累的大量信息也毫無價值。

        4 總結

        如果說大數據是巨大的寶藏,那么移動云計算是開發這個寶藏的最有利的工具。沒有移動云計算的強大計算能力,那么大數據中的相關數據就是一堆毫無用處的冗余數據。另一方面移動云計算也正是由于大數據的信息量大,本地單機處理能力有限才發展起來的,沒有大數據的信息累積,那么移動云計算也得不到完全的發揮,所以大數據與移動云計算是相輔相成的關系。

        參考文獻:

        [1] 趙華, 王海闊. 移動云計算綜述[J]. 電腦知識與技術, 2012(1).

        [2] 何清. 大數據與云計算[J]. 中國安防, 2014(1).

        [3] 張峰軍. 大數據技術研究綜述[J]. 通信技術, 2014(11).

        篇5

        大數據(bigdata)是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。

        云計算(cloudcomputing)是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。云是網絡、互聯網的一種比喻說法。

        二者:大數據需要云計算,云計算需要大數據

        云計算為大數據處理提供了一個很好的平臺。云計算強調的是計算,而大數據則是計算的對象。如果結合實際的應用,前者強調的是計算能力,后者看重的存儲能力。

        (來源:文章屋網 )

        主站蜘蛛池模板: 亚洲视频一区二区三区| 无码乱人伦一区二区亚洲| 波多野结衣AV无码久久一区| 无码日本电影一区二区网站| 极品少妇伦理一区二区| 无码精品人妻一区二区三区免费看 | www一区二区三区| 日本一区二区三区免费高清| 亚洲av午夜福利精品一区人妖| 一区二区三区免费视频观看| 国产视频福利一区| 国产精品成人免费一区二区| 日韩国产免费一区二区三区| 久久久久人妻一区精品色| 久久人妻内射无码一区三区| 三上悠亚一区二区观看| 中文乱码精品一区二区三区| 乱人伦一区二区三区| 波多野结衣一区在线| 国产一区在线电影| 美女免费视频一区二区三区| 无码精品人妻一区二区三区影院| 国产精品盗摄一区二区在线| 国产在线精品观看一区| 波多野结衣中文字幕一区二区三区| 国产视频一区二区在线观看| 国模精品视频一区二区三区| 国产伦精品一区二区三区免.费| 免费精品一区二区三区在线观看| 日本香蕉一区二区三区| 视频一区视频二区日韩专区| 久久精品一区二区三区中文字幕 | 亚洲视频一区二区在线观看| 久久久精品人妻一区二区三区蜜桃| 消息称老熟妇乱视频一区二区| 精品人妻码一区二区三区| 亚洲综合一区二区三区四区五区| 无码视频一区二区三区| 一区二区三区四区在线播放| 高清一区二区三区免费视频| 精品人妻AV一区二区三区 |