国产日产高清影院­_国产精品老女人精品综合­_亚洲性在线看高清h片­_亚洲免费99视频在线观看­_日韩欧美国产高清91

新聞資訊

熱門推薦

咨詢熱線

咨詢熱線 400-8325-007

熱門標(biāo)簽

| 當(dāng)前位置: 首頁 >> 新聞資訊 >> 行業(yè)動(dòng)態(tài)

2023年大數(shù)據(jù)的5達(dá)應(yīng)用場(chǎng)景

發(fā)布時(shí)間:2023-05-02 13:15:37 作者:玨佳寧波獵頭公司 點(diǎn)擊次數(shù):650

大數(shù)據(jù)技術(shù)應(yīng)用的五大應(yīng)用場(chǎng)景:離線處理、實(shí)時(shí)流處理、交互查詢、實(shí)時(shí)檢索和融合數(shù)據(jù)倉庫。

離線數(shù)據(jù)處理和分析:

一、離線處理場(chǎng)景:通常是指對(duì)海量數(shù)據(jù)進(jìn)行分析和處理,形成結(jié)果數(shù)據(jù),供下一步數(shù)據(jù)應(yīng)用使用。離線處理對(duì)處理時(shí)間要求不高,但是所處理數(shù)據(jù)量較大,占用計(jì)算存儲(chǔ)資源較多,通常通過MR或者Spark作業(yè)或者SQL作業(yè)來實(shí)現(xiàn);

二、離線數(shù)據(jù)處理場(chǎng)景的特點(diǎn):處理時(shí)間要求不高、處理數(shù)據(jù)量巨大、處理數(shù)據(jù)格式多樣、多個(gè)作業(yè)調(diào)度復(fù)雜、占用計(jì)算存儲(chǔ)資源多、支持SQL類作業(yè)和自定義作業(yè)、容易產(chǎn)生資源搶占等;

三、離線場(chǎng)景的大數(shù)據(jù)組件架構(gòu):

1、實(shí)時(shí)數(shù)據(jù)采集,用于實(shí)時(shí)采集流式數(shù)據(jù):

a、Flume:用于Socket流或者日志文件等的數(shù)據(jù)采集;

b、第三方采集工具:第三方采集工具采集后,送入KAFKA +Spark Streaming進(jìn)行數(shù)據(jù)預(yù)處理和實(shí)時(shí)加載;

c、ETL工具:第三方ETL工具進(jìn)行數(shù)據(jù)采集、加載、處理等;

2、批量采集系統(tǒng):用于采集批量數(shù)據(jù),主要的組件有Flume、Sqoop、第三方采集工具(數(shù)據(jù)采集、加載、處理的工具);

3、離線批處理引擎:Mapreduce+Hive或者Spark+SparkSQL,Mapreduce和Spark來處理非SQL類作業(yè),Hive和SparkSQL處理SQL類作業(yè);推薦使用Spark+SparkSQL的組合,因?yàn)樾阅芎图嫒菪愿茫挥写媪繎?yīng)用時(shí),可以使用MRS+Hive組合; SparkSQL和Hive之間的數(shù)據(jù)是拉通的,可以訪問相同的一份數(shù)據(jù)庫或者表;

4、資源調(diào)度引擎:Yarn,基于Yarn來做多租戶的隔離、資源的隔離和組件的隔離

5、分布式文件系統(tǒng):HDFS;

交互查詢場(chǎng)景:

一、交互查詢場(chǎng)景:通常是指對(duì)數(shù)據(jù)進(jìn)行交互式的分析和查詢,查詢響應(yīng)要求較高,能夠?qū)崿F(xiàn)人機(jī)之間交互,查詢通常比較復(fù)雜;交互查詢的數(shù)據(jù)通常已經(jīng)預(yù)處理過,按照適合交互查詢的數(shù)據(jù)模型進(jìn)行組織;交互查詢數(shù)據(jù)量巨大,對(duì)CPU和內(nèi)存要求很高,對(duì)于存儲(chǔ)要求也很高。交互查詢以復(fù)雜SQL查詢最為常見,多維Cube分析也比較常見;

二、交互查詢的特點(diǎn):查詢響應(yīng)時(shí)間要求高,3s內(nèi);處理數(shù)量量巨大,百TB級(jí);SQL支持度要求高;支持?jǐn)?shù)據(jù)更新和插入;多種查詢并發(fā),容易搶占資源;支持第三方展現(xiàn)和報(bào)表工具;

三、交互查詢的常用技術(shù)架構(gòu):

1、數(shù)據(jù)源:數(shù)據(jù)源的種類包括流式數(shù)據(jù)、批量文件數(shù)據(jù)和數(shù)據(jù)庫等;

2、數(shù)據(jù)采集系統(tǒng):用于實(shí)時(shí)或者批量采集數(shù)據(jù),主要有Flume、第三方采集+Kafka+SparkStreaming、第三方ETL工具;

3、交互查詢引擎,分布式交互查詢引擎,用于實(shí)現(xiàn)高性能的交互式查詢:

a、SparkSQL+Carbon:通過適合交互式OLAP查詢的數(shù)據(jù)存儲(chǔ)格式CarbonData和交互查詢引擎SparkSQL的組合,實(shí)現(xiàn)交互式查詢;適用于海量數(shù)據(jù)、高并發(fā)、多個(gè)租戶共享查詢引擎的場(chǎng)景;

b、Elk:基于MPPDB數(shù)據(jù)庫引擎技術(shù)的SQL on HDFS交互式查詢引擎,適用于中小量、多租戶的共享查詢場(chǎng)景;性能超過Impala(ORC)和SparkSQL(Parquet);Elk是沒有使用YARN做資源調(diào)度的,有自己的資源調(diào)度引擎;

 c、SparkSQL和Elk兩種方案二選一,不能共用;

d、Impala:是Cloudera公司主導(dǎo)開發(fā)的一種,SQL on Hadoop技術(shù),目前華為公司已經(jīng)不提供這個(gè)組件了;

4、業(yè)務(wù)應(yīng)用:使用SQL接口,查詢并展示應(yīng)用的業(yè)務(wù)程序,由ISV開發(fā);

實(shí)時(shí)流處理場(chǎng)景:

一、簡(jiǎn)介:通常是指對(duì)實(shí)時(shí)數(shù)據(jù)源進(jìn)行快速分析,迅速觸發(fā)下一步動(dòng)作的場(chǎng)景。實(shí)時(shí)數(shù)據(jù)對(duì)分析處理速度要求極高,數(shù)據(jù)處理規(guī)模巨大,對(duì)CPU和內(nèi)存要求很高,但是數(shù)據(jù)通常不落地,對(duì)存儲(chǔ)量要求不高。實(shí)時(shí)處理,通常通過Spark streaming或者Flink任務(wù)實(shí)現(xiàn);

二、實(shí)時(shí)流處理的特點(diǎn):處理時(shí)間要求極高,毫秒級(jí);處理數(shù)量巨大,每秒數(shù)百兆;占用計(jì)算資源多,容易產(chǎn)生計(jì)算資源搶占;數(shù)據(jù)不落地、任務(wù)相對(duì)簡(jiǎn)單、數(shù)據(jù)量不大等;

三、實(shí)時(shí)流處理的整體架構(gòu):

1、數(shù)據(jù)源:主要包括業(yè)務(wù)數(shù)據(jù)庫以及socket數(shù)據(jù)流和實(shí)時(shí)文件等;

2、實(shí)時(shí)數(shù)據(jù)采集:用于實(shí)時(shí)采集數(shù)據(jù)源產(chǎn)生的數(shù)據(jù),并將其寫入分布式消息系統(tǒng),采集的數(shù)據(jù)格式包括文件、數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)流等,比如Flume或者第三方工具;

3、消息中間件:消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布,比如Kafka;

4、分布式流計(jì)算引擎:對(duì)于實(shí)時(shí)數(shù)據(jù)進(jìn)行快速分析,比如SparkStreaming、Storm和Flink;

5、數(shù)據(jù)緩存(可選):將流處理分析的結(jié)果進(jìn)行緩存,滿足流處理應(yīng)用的訪問需求,比如Redis、Kafka;

實(shí)時(shí)檢索場(chǎng)景:

一、簡(jiǎn)介:通常是指數(shù)據(jù)實(shí)時(shí)寫入,對(duì)海量數(shù)據(jù)基于索引主鍵實(shí)時(shí)查詢,查詢響應(yīng)要求較高,查詢條件相對(duì)比較簡(jiǎn)單。查詢條件復(fù)雜的可以根據(jù)關(guān)鍵詞在全域數(shù)據(jù)中通過索引搜索主鍵后,通過主鍵查詢。全域數(shù)據(jù)既包含了結(jié)構(gòu)化數(shù)據(jù)又包含了文本數(shù)據(jù);

二、實(shí)時(shí)檢索的典型特點(diǎn):查詢響應(yīng)時(shí)間要求較高,1s內(nèi);高并發(fā);處理數(shù)據(jù)量巨大,PB級(jí);能夠同時(shí)處理機(jī)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);全文檢索功能;近實(shí)時(shí)檢索;

三、實(shí)時(shí)檢索架構(gòu):

1、數(shù)據(jù)源:數(shù)據(jù)源的種類包括文件數(shù)據(jù)txt、csv等和流式數(shù)據(jù)socket流等;

2、數(shù)據(jù)采集:Flume、第三方采集工具、ETL工具;

3、實(shí)時(shí)檢索引擎,用于實(shí)現(xiàn)高性能的實(shí)時(shí)檢索:

a、Hbase:用于主鍵查詢(key-value)檢索,查詢條件簡(jiǎn)單,主要通過逐漸進(jìn)行查詢,非主鍵的檢索也可以使用二級(jí)索引,二級(jí)索引數(shù)據(jù)量建議小于3個(gè);

b、ElasticeSearch:用于全文檢索或者當(dāng)做Hbase存儲(chǔ)的非主鍵索引,Hbase中非主鍵的又有檢索訴求的字段數(shù)據(jù),存儲(chǔ)在ES中,用來做主鍵檢索。Hbase的非主鍵檢索條件多于3個(gè)時(shí),不建議會(huì)用Hbase的二級(jí)索引,而是使用Elasticsearch用于索引;ES的索引是存儲(chǔ)在本地盤上的;

c、實(shí)時(shí)檢索引擎ES+HBase適合快速檢索,也就是根據(jù)指定條件查詢結(jié)果,不適用于復(fù)雜查詢;

融合數(shù)倉場(chǎng)景:

一、融合數(shù)倉:是指用分布式數(shù)據(jù)倉庫,完成數(shù)據(jù)的預(yù)處理、離線分析、主題查詢等全流程的數(shù)據(jù)分析業(yè)務(wù)。融合數(shù)倉通常以SQL語言為基本數(shù)據(jù)操作手段,同時(shí)支持用戶自定義的數(shù)據(jù)處理函數(shù),既能夠支持海量數(shù)據(jù)離線查詢,又能支持在線交互查詢。融合數(shù)倉是一種跟Hadoop安全獨(dú)立的數(shù)據(jù)分析工具,可以承擔(dān)的業(yè)務(wù)也有很多重疊。相比Hadoop,融合數(shù)倉在成本、數(shù)據(jù)規(guī)模上限、復(fù)雜數(shù)據(jù)挖掘、實(shí)時(shí)流處理方面有劣勢(shì),在SQL支持度、數(shù)據(jù)庫兼容性、性能方面有優(yōu)勢(shì);

二、融合數(shù)倉場(chǎng)景特點(diǎn):SQL支持度要去高;查詢響應(yīng)時(shí)間要求較高,3s內(nèi);支持?jǐn)?shù)據(jù)更新和插入、支持事務(wù);離線作業(yè)和在線查詢并存,容易產(chǎn)生資源搶占;

三、融合數(shù)倉場(chǎng)景架構(gòu):

1、數(shù)據(jù)源:流式數(shù)據(jù)、文件數(shù)據(jù)、數(shù)據(jù)庫、Hadoop等;

2、數(shù)據(jù)采集系統(tǒng):實(shí)時(shí)或批量的數(shù)據(jù)采集,F(xiàn)lume、三方采集工具、ETL工具;

3、融合數(shù)倉:分布式融合數(shù)據(jù)倉庫,用于實(shí)現(xiàn)高性能的離線處理和交互式查詢,MPPDB;

4、業(yè)務(wù)應(yīng)用:查詢并使用融合數(shù)倉的業(yè)務(wù)應(yīng)用,由ISV開發(fā)。

 


本文標(biāo)簽

相關(guān)文章

方城县| 塔城市| 常州市| 台南市| 安新县| 达孜县| 林周县| 泸溪县| 北票市| 毕节市| 平武县| 永新县| 高尔夫| 丰都县| 吕梁市| 武清区| 洞口县| 凤庆县| 桂林市| 永吉县| 嵊州市| 志丹县| 黔江区| 花莲市| 西城区| 哈尔滨市| 延寿县| 周至县| 交城县| 武冈市| 淳化县| 丰原市| 宜丰县| 阿巴嘎旗| 大邑县| 琼中| 隆昌县| 沧源| 大邑县| 崇义县| 香河县|