新聞資訊
熱門推薦
- 2024年半導(dǎo)體行業(yè)人才需求與薪資水平
- 大數(shù)據(jù)分析技術(shù):開啟數(shù)據(jù)驅(qū)動(dòng)的新時(shí)代
- 高端智能制造:引領(lǐng)未來產(chǎn)業(yè)革命
- 國內(nèi)儲(chǔ)能行業(yè):規(guī)模擴(kuò)張與技術(shù)演進(jìn)
- 獵頭公司教你如何選擇人才工具?
- 面試過程中,HR經(jīng)理如何判斷人選的穩(wěn)定性?
- HR 經(jīng)理面試實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié)
- 獵頭行業(yè)細(xì)分垂直領(lǐng)域業(yè)務(wù)如何開拓和發(fā)展?
- 寧波獵頭公司引進(jìn)海外高層次人才的途徑
咨詢熱線 400-8325-007
熱門標(biāo)簽
- 寧波知名獵頭公司 青年人才項(xiàng)目 寧波獵頭公司收費(fèi)標(biāo)準(zhǔn) 寧波靠譜獵頭公司 高級(jí)人才 高端人才 寧波獵頭 啟明計(jì)劃 高層次人才 寧波十大獵頭公司 火炬計(jì)劃 青年人才 創(chuàng)新人才 寧波十大知名獵頭公司 寧波獵頭公司服務(wù) 寧波本地獵頭公司 寧波獵頭公司排名 領(lǐng)軍人才創(chuàng)新 省海外高層次人才 寧波獵頭公司 寧波優(yōu)秀獵頭公司 寧波獵頭公司有哪些 海外人才 寧波的獵頭公司 國家海外高層次人才引進(jìn)計(jì)劃 領(lǐng)軍人才創(chuàng)新項(xiàng)目 寧波獵頭公司收費(fèi) 國家海外高層次人才 寧波獵頭機(jī)構(gòu) 海外高層次人才 寧波有哪些獵頭公司 寧波獵頭公司哪家好 寧波專業(yè)獵頭公司 省海外高層次人才引進(jìn)計(jì)劃
2023年大數(shù)據(jù)的5達(dá)應(yīng)用場(chǎng)景
大數(shù)據(jù)技術(shù)應(yīng)用的五大應(yīng)用場(chǎng)景:離線處理、實(shí)時(shí)流處理、交互查詢、實(shí)時(shí)檢索和融合數(shù)據(jù)倉庫。
離線數(shù)據(jù)處理和分析:
一、離線處理場(chǎng)景:通常是指對(duì)海量數(shù)據(jù)進(jìn)行分析和處理,形成結(jié)果數(shù)據(jù),供下一步數(shù)據(jù)應(yīng)用使用。離線處理對(duì)處理時(shí)間要求不高,但是所處理數(shù)據(jù)量較大,占用計(jì)算存儲(chǔ)資源較多,通常通過MR或者Spark作業(yè)或者SQL作業(yè)來實(shí)現(xiàn);
二、離線數(shù)據(jù)處理場(chǎng)景的特點(diǎn):處理時(shí)間要求不高、處理數(shù)據(jù)量巨大、處理數(shù)據(jù)格式多樣、多個(gè)作業(yè)調(diào)度復(fù)雜、占用計(jì)算存儲(chǔ)資源多、支持SQL類作業(yè)和自定義作業(yè)、容易產(chǎn)生資源搶占等;
三、離線場(chǎng)景的大數(shù)據(jù)組件架構(gòu):
1、實(shí)時(shí)數(shù)據(jù)采集,用于實(shí)時(shí)采集流式數(shù)據(jù):
a、Flume:用于Socket流或者日志文件等的數(shù)據(jù)采集;
b、第三方采集工具:第三方采集工具采集后,送入KAFKA +Spark Streaming進(jìn)行數(shù)據(jù)預(yù)處理和實(shí)時(shí)加載;
c、ETL工具:第三方ETL工具進(jìn)行數(shù)據(jù)采集、加載、處理等;
2、批量采集系統(tǒng):用于采集批量數(shù)據(jù),主要的組件有Flume、Sqoop、第三方采集工具(數(shù)據(jù)采集、加載、處理的工具);
3、離線批處理引擎:Mapreduce+Hive或者Spark+SparkSQL,Mapreduce和Spark來處理非SQL類作業(yè),Hive和SparkSQL處理SQL類作業(yè);推薦使用Spark+SparkSQL的組合,因?yàn)樾阅芎图嫒菪愿茫挥写媪繎?yīng)用時(shí),可以使用MRS+Hive組合; SparkSQL和Hive之間的數(shù)據(jù)是拉通的,可以訪問相同的一份數(shù)據(jù)庫或者表;
4、資源調(diào)度引擎:Yarn,基于Yarn來做多租戶的隔離、資源的隔離和組件的隔離
5、分布式文件系統(tǒng):HDFS;
交互查詢場(chǎng)景:
一、交互查詢場(chǎng)景:通常是指對(duì)數(shù)據(jù)進(jìn)行交互式的分析和查詢,查詢響應(yīng)要求較高,能夠?qū)崿F(xiàn)人機(jī)之間交互,查詢通常比較復(fù)雜;交互查詢的數(shù)據(jù)通常已經(jīng)預(yù)處理過,按照適合交互查詢的數(shù)據(jù)模型進(jìn)行組織;交互查詢數(shù)據(jù)量巨大,對(duì)CPU和內(nèi)存要求很高,對(duì)于存儲(chǔ)要求也很高。交互查詢以復(fù)雜SQL查詢最為常見,多維Cube分析也比較常見;
二、交互查詢的特點(diǎn):查詢響應(yīng)時(shí)間要求高,3s內(nèi);處理數(shù)量量巨大,百TB級(jí);SQL支持度要求高;支持?jǐn)?shù)據(jù)更新和插入;多種查詢并發(fā),容易搶占資源;支持第三方展現(xiàn)和報(bào)表工具;
三、交互查詢的常用技術(shù)架構(gòu):
1、數(shù)據(jù)源:數(shù)據(jù)源的種類包括流式數(shù)據(jù)、批量文件數(shù)據(jù)和數(shù)據(jù)庫等;
2、數(shù)據(jù)采集系統(tǒng):用于實(shí)時(shí)或者批量采集數(shù)據(jù),主要有Flume、第三方采集+Kafka+SparkStreaming、第三方ETL工具;
3、交互查詢引擎,分布式交互查詢引擎,用于實(shí)現(xiàn)高性能的交互式查詢:
a、SparkSQL+Carbon:通過適合交互式OLAP查詢的數(shù)據(jù)存儲(chǔ)格式CarbonData和交互查詢引擎SparkSQL的組合,實(shí)現(xiàn)交互式查詢;適用于海量數(shù)據(jù)、高并發(fā)、多個(gè)租戶共享查詢引擎的場(chǎng)景;
b、Elk:基于MPPDB數(shù)據(jù)庫引擎技術(shù)的SQL on HDFS交互式查詢引擎,適用于中小量、多租戶的共享查詢場(chǎng)景;性能超過Impala(ORC)和SparkSQL(Parquet);Elk是沒有使用YARN做資源調(diào)度的,有自己的資源調(diào)度引擎;
c、SparkSQL和Elk兩種方案二選一,不能共用;
d、Impala:是Cloudera公司主導(dǎo)開發(fā)的一種,SQL on Hadoop技術(shù),目前華為公司已經(jīng)不提供這個(gè)組件了;
4、業(yè)務(wù)應(yīng)用:使用SQL接口,查詢并展示應(yīng)用的業(yè)務(wù)程序,由ISV開發(fā);
實(shí)時(shí)流處理場(chǎng)景:
一、簡(jiǎn)介:通常是指對(duì)實(shí)時(shí)數(shù)據(jù)源進(jìn)行快速分析,迅速觸發(fā)下一步動(dòng)作的場(chǎng)景。實(shí)時(shí)數(shù)據(jù)對(duì)分析處理速度要求極高,數(shù)據(jù)處理規(guī)模巨大,對(duì)CPU和內(nèi)存要求很高,但是數(shù)據(jù)通常不落地,對(duì)存儲(chǔ)量要求不高。實(shí)時(shí)處理,通常通過Spark streaming或者Flink任務(wù)實(shí)現(xiàn);
二、實(shí)時(shí)流處理的特點(diǎn):處理時(shí)間要求極高,毫秒級(jí);處理數(shù)量巨大,每秒數(shù)百兆;占用計(jì)算資源多,容易產(chǎn)生計(jì)算資源搶占;數(shù)據(jù)不落地、任務(wù)相對(duì)簡(jiǎn)單、數(shù)據(jù)量不大等;
三、實(shí)時(shí)流處理的整體架構(gòu):
1、數(shù)據(jù)源:主要包括業(yè)務(wù)數(shù)據(jù)庫以及socket數(shù)據(jù)流和實(shí)時(shí)文件等;
2、實(shí)時(shí)數(shù)據(jù)采集:用于實(shí)時(shí)采集數(shù)據(jù)源產(chǎn)生的數(shù)據(jù),并將其寫入分布式消息系統(tǒng),采集的數(shù)據(jù)格式包括文件、數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)流等,比如Flume或者第三方工具;
3、消息中間件:消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布,比如Kafka;
4、分布式流計(jì)算引擎:對(duì)于實(shí)時(shí)數(shù)據(jù)進(jìn)行快速分析,比如SparkStreaming、Storm和Flink;
5、數(shù)據(jù)緩存(可選):將流處理分析的結(jié)果進(jìn)行緩存,滿足流處理應(yīng)用的訪問需求,比如Redis、Kafka;
實(shí)時(shí)檢索場(chǎng)景:
一、簡(jiǎn)介:通常是指數(shù)據(jù)實(shí)時(shí)寫入,對(duì)海量數(shù)據(jù)基于索引主鍵實(shí)時(shí)查詢,查詢響應(yīng)要求較高,查詢條件相對(duì)比較簡(jiǎn)單。查詢條件復(fù)雜的可以根據(jù)關(guān)鍵詞在全域數(shù)據(jù)中通過索引搜索主鍵后,通過主鍵查詢。全域數(shù)據(jù)既包含了結(jié)構(gòu)化數(shù)據(jù)又包含了文本數(shù)據(jù);
二、實(shí)時(shí)檢索的典型特點(diǎn):查詢響應(yīng)時(shí)間要求較高,1s內(nèi);高并發(fā);處理數(shù)據(jù)量巨大,PB級(jí);能夠同時(shí)處理機(jī)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);全文檢索功能;近實(shí)時(shí)檢索;
三、實(shí)時(shí)檢索架構(gòu):
1、數(shù)據(jù)源:數(shù)據(jù)源的種類包括文件數(shù)據(jù)txt、csv等和流式數(shù)據(jù)socket流等;
2、數(shù)據(jù)采集:Flume、第三方采集工具、ETL工具;
3、實(shí)時(shí)檢索引擎,用于實(shí)現(xiàn)高性能的實(shí)時(shí)檢索:
a、Hbase:用于主鍵查詢(key-value)檢索,查詢條件簡(jiǎn)單,主要通過逐漸進(jìn)行查詢,非主鍵的檢索也可以使用二級(jí)索引,二級(jí)索引數(shù)據(jù)量建議小于3個(gè);
b、ElasticeSearch:用于全文檢索或者當(dāng)做Hbase存儲(chǔ)的非主鍵索引,Hbase中非主鍵的又有檢索訴求的字段數(shù)據(jù),存儲(chǔ)在ES中,用來做主鍵檢索。Hbase的非主鍵檢索條件多于3個(gè)時(shí),不建議會(huì)用Hbase的二級(jí)索引,而是使用Elasticsearch用于索引;ES的索引是存儲(chǔ)在本地盤上的;
c、實(shí)時(shí)檢索引擎ES+HBase適合快速檢索,也就是根據(jù)指定條件查詢結(jié)果,不適用于復(fù)雜查詢;
融合數(shù)倉場(chǎng)景:
一、融合數(shù)倉:是指用分布式數(shù)據(jù)倉庫,完成數(shù)據(jù)的預(yù)處理、離線分析、主題查詢等全流程的數(shù)據(jù)分析業(yè)務(wù)。融合數(shù)倉通常以SQL語言為基本數(shù)據(jù)操作手段,同時(shí)支持用戶自定義的數(shù)據(jù)處理函數(shù),既能夠支持海量數(shù)據(jù)離線查詢,又能支持在線交互查詢。融合數(shù)倉是一種跟Hadoop安全獨(dú)立的數(shù)據(jù)分析工具,可以承擔(dān)的業(yè)務(wù)也有很多重疊。相比Hadoop,融合數(shù)倉在成本、數(shù)據(jù)規(guī)模上限、復(fù)雜數(shù)據(jù)挖掘、實(shí)時(shí)流處理方面有劣勢(shì),在SQL支持度、數(shù)據(jù)庫兼容性、性能方面有優(yōu)勢(shì);
二、融合數(shù)倉場(chǎng)景特點(diǎn):SQL支持度要去高;查詢響應(yīng)時(shí)間要求較高,3s內(nèi);支持?jǐn)?shù)據(jù)更新和插入、支持事務(wù);離線作業(yè)和在線查詢并存,容易產(chǎn)生資源搶占;
三、融合數(shù)倉場(chǎng)景架構(gòu):
1、數(shù)據(jù)源:流式數(shù)據(jù)、文件數(shù)據(jù)、數(shù)據(jù)庫、Hadoop等;
2、數(shù)據(jù)采集系統(tǒng):實(shí)時(shí)或批量的數(shù)據(jù)采集,F(xiàn)lume、三方采集工具、ETL工具;
3、融合數(shù)倉:分布式融合數(shù)據(jù)倉庫,用于實(shí)現(xiàn)高性能的離線處理和交互式查詢,MPPDB;
4、業(yè)務(wù)應(yīng)用:查詢并使用融合數(shù)倉的業(yè)務(wù)應(yīng)用,由ISV開發(fā)。