yangdandan
1 維護(hù)大數(shù)據(jù)平臺(這個應(yīng)該是每個大數(shù)據(jù)工程師都做過的工作,或多或少會承擔(dān)“運維”的工作)2 為集群搭大數(shù)據(jù)環(huán)境(一般公司招大數(shù)據(jù)工程師環(huán)境都已經(jīng)搭好了,公司內(nèi)部會有現(xiàn)成的大數(shù)據(jù)平臺,但我這邊會私下搞一套測試環(huán)境,畢竟公司內(nèi)部的大數(shù)據(jù)系統(tǒng)權(quán)限限制很多,嚴(yán)重影響開發(fā)效率)3 寫 SQL (很多入職一兩年的大數(shù)據(jù)工程師主要的工作就是寫 SQL )4 數(shù)據(jù)遷移(有部分公司需要把數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)庫 Oracle、MySQL 等數(shù)據(jù)遷移到大數(shù)據(jù)集群中,這個是比較繁瑣的工作,吃力不討好)5 應(yīng)用遷移(有部分公司需要把應(yīng)用從傳統(tǒng)的數(shù)據(jù)庫 Oracle、MySQL 等數(shù)據(jù)庫的存儲過程程序或者SQL腳本遷移到大數(shù)據(jù)平臺上,這個過程也是非常繁瑣的工作,無聊,高度重復(fù)且麻煩,吃力不討好)6 數(shù)據(jù)采集(采集日志數(shù)據(jù)、文件數(shù)據(jù)、接口數(shù)據(jù),這個涉及到各種格式的轉(zhuǎn)換,一般用得比較多的是 Flume 和 Logstash)7 數(shù)據(jù)處理 離線數(shù)據(jù)處理(這個一般就是寫寫 SQL 然后扔到 Hive 中跑,其實和第一點有點重復(fù)了) 實時數(shù)據(jù)處理(這個涉及到消息隊列,Kafka,Spark,F(xiàn)link 這些,組件,一般就是 Flume 采集到數(shù)據(jù)發(fā)給 Kafka 然后 Spark 消費 Kafka 的數(shù)據(jù)進(jìn)行處理)8 數(shù)據(jù)可視化(這個我司是用 Spring Boot 連接后臺數(shù)據(jù)與前端,前端用自己魔改的 echarts)9 大數(shù)據(jù)平臺開發(fā)(偏Java方向的,大概就是把開源的組件整合起來整成一個可用的大數(shù)據(jù)平臺這樣,常見的是各種難用的 PaaS 平臺)10 數(shù)據(jù)中臺開發(fā)(中臺需要支持接入各種數(shù)據(jù)源,把各種數(shù)據(jù)源清洗轉(zhuǎn)換為可用的數(shù)據(jù),然后再基于原始數(shù)據(jù)搭建起寬表層,一般為了節(jié)省開發(fā)成本和服務(wù)器資源,都是基于寬表層查詢出業(yè)務(wù)數(shù)據(jù))11 搭建數(shù)據(jù)倉庫(這里的數(shù)據(jù)倉庫的搭建不是指 Hive ,Hive 是搭建數(shù)倉的工具,數(shù)倉搭建一般會分為三層 ODS、DW、DM 層,其中DW是最重要的,它又可以分為DWD,DWM,DWS,這個層級只是邏輯上的概念,類似于把表名按照層級區(qū)分開來的操作,分層的目的是防止開發(fā)數(shù)據(jù)應(yīng)用的時候直接訪問底層數(shù)據(jù),可以減少資源,注意,減少資源開銷是減少 內(nèi)存 和 CPU 的開銷,分層后磁盤占用會大大增加,磁盤不值錢所以沒什么關(guān)系,分層可以使數(shù)據(jù)表的邏輯更加清晰,方便進(jìn)一步的開發(fā)操作,如果分層沒有做好會導(dǎo)致邏輯混亂,新來的員工難以接手業(yè)務(wù),提高公司的運營成本,還有這個建數(shù)倉也分為建離線和實時的)總之就是離不開寫 SQL ...
尼古丁00144
GIS一級證書含金量非常高,GIS是一門綜合性的學(xué)科,結(jié)合地理學(xué)與地圖學(xué)以及遙感和計算機(jī)科學(xué),適用于不同的領(lǐng)域,用于輸入、存儲、查詢、分析和顯示地理數(shù)據(jù)的計算機(jī)系統(tǒng)。從事GIS應(yīng)用人員非常多,而且范圍廣,已經(jīng)成為相關(guān)行業(yè)的基礎(chǔ)應(yīng)用工具。GIS應(yīng)用工程師就是為了各行業(yè)培養(yǎng)專業(yè)的技術(shù)人才而設(shè)立的。該職業(yè)資格共分三級:助理GIS應(yīng)用工程師、GIS應(yīng)用工程師、高級GIS應(yīng)用工程師。
優(yōu)質(zhì)工程師考試問答知識庫