大數(shù)據(jù)服務(wù)對于企業(yè)云來說頗具吸引力,亞馬遜AWS,微軟Azure和谷歌公共云為此在市場中激烈競爭,但哪家公司會脫穎而出呢?
云計算的市場正在迅速發(fā)展,而大數(shù)據(jù)業(yè)務(wù)也在不斷變化。雖然這對于云計算供應(yīng)商來說比較困難,這是值得嘗試的,而這對于全球領(lǐng)先三大云計算供應(yīng)商(亞馬遜網(wǎng)絡(luò)服務(wù),微軟Azure和谷歌公共云)來說也是不平等的。
在云計算和大數(shù)據(jù)具有協(xié)同效應(yīng)的市場區(qū)域,谷歌公司在搜索方面經(jīng)驗非常豐富有但亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)和微軟Azure吸引一些有趣的初創(chuàng)公司增加價值。
而大數(shù)據(jù)服務(wù)這個充滿活力的服務(wù)無論從性能和經(jīng)濟的角度來看越來越有吸引力。云計算用戶將最終從三個云計算巨頭之間的大數(shù)據(jù)競爭中獲益,不過這看起來將要持續(xù)多年。
以下仔細看一下亞馬遜AWS,微軟Azure和谷歌公共云目前提供的大數(shù)據(jù)服務(wù):
亞馬遜網(wǎng)絡(luò)服務(wù)
亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)擁有廣泛的大數(shù)據(jù)服務(wù)。例如亞馬遜彈性MapReduce,運行Hadoop和Spark而KinesisFirehose和KinesisStreams提供了大數(shù)據(jù)集到AWS。用戶可以通過Redshift存儲數(shù)據(jù),Redshift是通過數(shù)據(jù)壓縮以幫助降低成本PB級規(guī)模的數(shù)據(jù)倉庫,開源軟件Elasticsearch是部署在AWS中的分析工具,提供如點擊率和日志監(jiān)控等服務(wù)。并通過Kinesis補充分析數(shù)據(jù)流。
值得一提的是,谷歌提供的大數(shù)據(jù)產(chǎn)品缺乏的就是GPU實例。
與谷歌公司相比,AWS有一個更大的數(shù)據(jù)集的存儲選擇。除了大量的AWS簡單存儲服務(wù)的農(nóng)場以外,還擁有低延遲的NoSQL數(shù)據(jù)庫;為Titan圖形數(shù)據(jù)庫提供存儲服務(wù)的DynamoDBTitan;PB級的NoSQL數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫ApacheHBase。
AWS還具有一個商務(wù)智能(BI)服務(wù),QuickSight可以采用并行的方式,在內(nèi)存中實現(xiàn)高速處理。這是亞馬遜機器學習和物聯(lián)網(wǎng)的AWS聯(lián)網(wǎng)(IoT)平臺,該平臺的設(shè)備連接到云中,并可以擴展到數(shù)十億美元的設(shè)備和萬億條消息。
雖然谷歌公司具有邊緣的搜索和分析引擎,而AWS的服務(wù)范圍更廣,并有雙圖形處理單元(GPU)的實例。
微軟Azure
對于分析,微軟Azure有數(shù)據(jù)分析湖,它采用專有的U-SQL與SQL和C++,以及基于Hadoop的服務(wù)的HDInsight。此外,還有Azure的分析數(shù)據(jù)服務(wù)DataFactory,使用全局元數(shù)據(jù)系統(tǒng)識別數(shù)據(jù)資產(chǎn)和數(shù)據(jù)工廠,其中連鎖內(nèi)部部署和云數(shù)據(jù)源和管理數(shù)據(jù)管道。
數(shù)據(jù)存儲湖是Azure在Hadoop文件系統(tǒng)的大數(shù)據(jù)存儲服務(wù)。云服務(wù)提供商有廣泛的通用存儲產(chǎn)品,包括StorSimple,SQL和NoSQL數(shù)據(jù)庫和存儲塊。
Azure也有PowerBI和機器學習,并設(shè)有一個物聯(lián)網(wǎng)中心。云平臺還包括一個搜索引擎。微軟公司的Cortana套件和認知服務(wù)可以提供更先進的智能功能。
大數(shù)據(jù)的好處
PBS公司在2016年播出了人臉大數(shù)據(jù)的紀錄片,引發(fā)了很多社會媒體關(guān)于大數(shù)據(jù)的討論和對話。這部紀錄片中顯示大數(shù)據(jù)的好處,人們對大數(shù)據(jù)有一種普遍的興趣,并表明大數(shù)據(jù)幾乎對每一個行業(yè)采用重大影響,其中包括零售,制造和營銷等行業(yè)。
谷歌公司
谷歌公司的BigQuery資料服務(wù)使用一個類似SQL的界面,對于大多數(shù)用戶來說很直觀,甚至非技術(shù)的學習。它支持PB級的數(shù)據(jù)庫,并可以執(zhí)行每秒100,000行的數(shù)據(jù)流,以替代從云存儲數(shù)據(jù)的運行。BigQuery同時支持地理復制,并且用戶可以選擇他們自己的存儲數(shù)據(jù)。
BigQuery是一個沒有一個專門的基礎(chǔ)設(shè)施的即收即付的服務(wù),允許谷歌使用了大量的處理器來維持快速查詢次數(shù)。也支持park,Hadoop,Pig和Hive集成。企業(yè)也可以使用谷歌Analytics(分析)和DoubleClick。谷歌云數(shù)據(jù)流允許用戶進行云數(shù)據(jù)服務(wù)排序。
谷歌提供其他的大數(shù)據(jù)服務(wù),其中包括非關(guān)系型數(shù)據(jù)的NoSQL數(shù)據(jù)庫CloudDatastore;可大規(guī)模擴展的NoSQL數(shù)據(jù)庫CloudBigTable;機器學習的云管理平臺CloudMachine;以及一些輔助工具,如翻譯和語音轉(zhuǎn)換器。
值得一提的是,谷歌提供的大數(shù)據(jù)缺乏的是GPU實例。數(shù)據(jù)分析編寫GPU代碼是一個高價值的技能,可以讓GPU獲得令人難以置信的性能提升。谷歌公司缺乏一個GPU實例系列是有點令人費解,尤其是在2011年添加了AWS功能,并在2015年添加Azure。
AWS、Azure、谷歌云:一場勢均力敵的大數(shù)據(jù)競爭
在許多方面,三大云計算供應(yīng)商在大數(shù)據(jù)服務(wù)方面步調(diào)一致,雖然在性能和使用需要一些實際的測試來辨別之間的差異。雖然谷歌可能具有搜索的優(yōu)勢,但落后于BI前端,微軟公司有Cortana優(yōu)勢。谷歌缺乏GPU實例也是一個顯著的差異。
正如任何產(chǎn)品一樣,這些大數(shù)據(jù)服務(wù)仍然處在他們的相對起步階段,將有不同的使用或數(shù)據(jù)依賴的情況。因此,用戶在AWS與Azure和谷歌之間進行選擇是比較困難的。而確定最佳云服務(wù)的一個方法,就是在幾周的時間內(nèi)嘗試這些云服務(wù),以獲得這些云服務(wù)工作的意義。
文章來源:機房專用空調(diào) http://tlww-dancer.cn