carryme2015
您好,數(shù)據(jù)工程師都做什么?數(shù)據(jù)工程師負(fù)責(zé)創(chuàng)建和維護(hù)分析基礎(chǔ)架構(gòu),該基礎(chǔ)架構(gòu)幾乎可以支持?jǐn)?shù)據(jù)世界中的所有其他功能。他們負(fù)責(zé)大數(shù)據(jù)架構(gòu)的開(kāi)發(fā)、構(gòu)建、維護(hù)和測(cè)試,例如數(shù)據(jù)庫(kù)和大數(shù)據(jù)處理系統(tǒng)。大數(shù)據(jù)工程師還負(fù)責(zé)創(chuàng)建用于建模,挖掘,獲取和驗(yàn)證數(shù)據(jù)集合等流程。數(shù)據(jù)工程師的關(guān)鍵技能下面介紹數(shù)據(jù)工程師所需的幾項(xiàng)關(guān)鍵技能。1.大數(shù)據(jù)架構(gòu)的工具與組件數(shù)據(jù)工程師更關(guān)注分析基礎(chǔ)架構(gòu),因此所需的大部分技能都是以架構(gòu)為中心的。2.深入了解SQL和其它數(shù)據(jù)庫(kù)解決方案數(shù)據(jù)工程師需要熟悉數(shù)據(jù)庫(kù)管理系統(tǒng),深入了解SQL至關(guān)重要。同樣其它數(shù)據(jù)庫(kù)解決方案,例如Cassandra或BigTable也須熟悉,因?yàn)椴皇敲總€(gè)數(shù)據(jù)庫(kù)都是由可識(shí)別的標(biāo)準(zhǔn)來(lái)構(gòu)建。3.數(shù)據(jù)倉(cāng)庫(kù)和ETL工具數(shù)據(jù)倉(cāng)庫(kù)和ETL經(jīng)驗(yàn)對(duì)于數(shù)據(jù)工程師至關(guān)重要。像Redshift或Panoply這樣的數(shù)據(jù)倉(cāng)庫(kù)解決方案,以及ETL工具,比如StitchData或Segment都非常有用。此外,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)檢索經(jīng)驗(yàn)同樣重要,因?yàn)樘幚淼臄?shù)據(jù)量是個(gè)天文數(shù)字。4.基于Hadoop的分析(HBase,Hive,MapReduce等)對(duì)基于Apache Hadoop的分析有深刻理解是這個(gè)領(lǐng)域的一個(gè)非常必要的需求,一般情況下HBase,Hive和MapReduce的知識(shí)存儲(chǔ)是必需的。5.編碼說(shuō)到解決方案,編碼與開(kāi)發(fā)能力是一個(gè)重要的優(yōu)點(diǎn)(這也是許多職位的要求),你要熟悉Python,C/C++,Java,Perl,Golang或其它語(yǔ)言,這會(huì)非常有價(jià)值。6.機(jī)器學(xué)習(xí)雖然數(shù)據(jù)工程師主要關(guān)注的是數(shù)據(jù)科學(xué),但對(duì)數(shù)據(jù)處理技術(shù)的理解會(huì)加分,比如一些統(tǒng)計(jì)分析知識(shí)和基礎(chǔ)數(shù)據(jù)建模。機(jī)器學(xué)習(xí)已經(jīng)成為標(biāo)準(zhǔn)數(shù)據(jù)科學(xué),該領(lǐng)域的知識(shí)可以幫我們構(gòu)建同類產(chǎn)品的解決方案。這種知識(shí)還有一個(gè)好處,就是讓你在這個(gè)領(lǐng)域極具市場(chǎng)價(jià)值,因?yàn)樵谶@種情況下能夠“戴上兩頂帽子”會(huì)讓你成為一個(gè)更強(qiáng)大的工具。7.多種操作系統(tǒng)最后,需要我們對(duì)Unix,Linux和Solaris系統(tǒng)有深入了解,許多數(shù)學(xué)工具基于這些操作系統(tǒng),因?yàn)樗鼈冇蠾indows和Mac系統(tǒng)功能沒(méi)有的訪問(wèn)權(quán)限和特殊硬件需求。
丁鳳1217
1 維護(hù)大數(shù)據(jù)平臺(tái)(這個(gè)應(yīng)該是每個(gè)大數(shù)據(jù)工程師都做過(guò)的工作,或多或少會(huì)承擔(dān)“運(yùn)維”的工作)2 為集群搭大數(shù)據(jù)環(huán)境(一般公司招大數(shù)據(jù)工程師環(huán)境都已經(jīng)搭好了,公司內(nèi)部會(huì)有現(xiàn)成的大數(shù)據(jù)平臺(tái),但我這邊會(huì)私下搞一套測(cè)試環(huán)境,畢竟公司內(nèi)部的大數(shù)據(jù)系統(tǒng)權(quán)限限制很多,嚴(yán)重影響開(kāi)發(fā)效率)3 寫 SQL (很多入職一兩年的大數(shù)據(jù)工程師主要的工作就是寫 SQL )4 數(shù)據(jù)遷移(有部分公司需要把數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)庫(kù) Oracle、MySQL 等數(shù)據(jù)遷移到大數(shù)據(jù)集群中,這個(gè)是比較繁瑣的工作,吃力不討好)5 應(yīng)用遷移(有部分公司需要把應(yīng)用從傳統(tǒng)的數(shù)據(jù)庫(kù) Oracle、MySQL 等數(shù)據(jù)庫(kù)的存儲(chǔ)過(guò)程程序或者SQL腳本遷移到大數(shù)據(jù)平臺(tái)上,這個(gè)過(guò)程也是非常繁瑣的工作,無(wú)聊,高度重復(fù)且麻煩,吃力不討好)6 數(shù)據(jù)采集(采集日志數(shù)據(jù)、文件數(shù)據(jù)、接口數(shù)據(jù),這個(gè)涉及到各種格式的轉(zhuǎn)換,一般用得比較多的是 Flume 和 Logstash)7 數(shù)據(jù)處理 離線數(shù)據(jù)處理(這個(gè)一般就是寫寫 SQL 然后扔到 Hive 中跑,其實(shí)和第一點(diǎn)有點(diǎn)重復(fù)了) 實(shí)時(shí)數(shù)據(jù)處理(這個(gè)涉及到消息隊(duì)列,Kafka,Spark,F(xiàn)link 這些,組件,一般就是 Flume 采集到數(shù)據(jù)發(fā)給 Kafka 然后 Spark 消費(fèi) Kafka 的數(shù)據(jù)進(jìn)行處理)8 數(shù)據(jù)可視化(這個(gè)我司是用 Spring Boot 連接后臺(tái)數(shù)據(jù)與前端,前端用自己魔改的 echarts)9 大數(shù)據(jù)平臺(tái)開(kāi)發(fā)(偏Java方向的,大概就是把開(kāi)源的組件整合起來(lái)整成一個(gè)可用的大數(shù)據(jù)平臺(tái)這樣,常見(jiàn)的是各種難用的 PaaS 平臺(tái))10 數(shù)據(jù)中臺(tái)開(kāi)發(fā)(中臺(tái)需要支持接入各種數(shù)據(jù)源,把各種數(shù)據(jù)源清洗轉(zhuǎn)換為可用的數(shù)據(jù),然后再基于原始數(shù)據(jù)搭建起寬表層,一般為了節(jié)省開(kāi)發(fā)成本和服務(wù)器資源,都是基于寬表層查詢出業(yè)務(wù)數(shù)據(jù))11 搭建數(shù)據(jù)倉(cāng)庫(kù)(這里的數(shù)據(jù)倉(cāng)庫(kù)的搭建不是指 Hive ,Hive 是搭建數(shù)倉(cāng)的工具,數(shù)倉(cāng)搭建一般會(huì)分為三層 ODS、DW、DM 層,其中DW是最重要的,它又可以分為DWD,DWM,DWS,這個(gè)層級(jí)只是邏輯上的概念,類似于把表名按照層級(jí)區(qū)分開(kāi)來(lái)的操作,分層的目的是防止開(kāi)發(fā)數(shù)據(jù)應(yīng)用的時(shí)候直接訪問(wèn)底層數(shù)據(jù),可以減少資源,注意,減少資源開(kāi)銷是減少 內(nèi)存 和 CPU 的開(kāi)銷,分層后磁盤占用會(huì)大大增加,磁盤不值錢所以沒(méi)什么關(guān)系,分層可以使數(shù)據(jù)表的邏輯更加清晰,方便進(jìn)一步的開(kāi)發(fā)操作,如果分層沒(méi)有做好會(huì)導(dǎo)致邏輯混亂,新來(lái)的員工難以接手業(yè)務(wù),提高公司的運(yùn)營(yíng)成本,還有這個(gè)建數(shù)倉(cāng)也分為建離線和實(shí)時(shí)的)總之就是離不開(kāi)寫 SQL ...
沒(méi)腰的麥兜
數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國(guó)內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為“大數(shù)據(jù)工程師”?!按髷?shù)據(jù)工程師”往往是一個(gè)團(tuán)隊(duì),它意味著從數(shù)據(jù)的收集、整理展現(xiàn)、分析和商業(yè)洞察、以至于市場(chǎng)轉(zhuǎn)化的全過(guò)程。
用阿里巴巴集團(tuán)研究員薛貴榮的話來(lái)說(shuō),大數(shù)據(jù)工程師就是一群“玩數(shù)據(jù)”的人,玩出數(shù)據(jù)的商業(yè)價(jià)值,讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于,它是在線的、實(shí)時(shí)的,規(guī)模海量且形式不規(guī)整,無(wú)章法可循,因此“會(huì)玩”這些數(shù)據(jù)的人就很重要。
沈志勇認(rèn)為如果把大數(shù)據(jù)想象成一座不停累積的礦山,那么大數(shù)據(jù)工程師的工作就是,“第一步,定位并抽取信息所在的數(shù)據(jù)集,相當(dāng)于探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當(dāng)于冶煉。最后是應(yīng)用,把數(shù)據(jù)可視化等。”
因此分析歷史、預(yù)測(cè)未來(lái)、優(yōu)化選擇,這是大數(shù)據(jù)工程師在“玩數(shù)據(jù)”時(shí)最重要的三大任務(wù)。通過(guò)這三個(gè)工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。
大數(shù)據(jù)人才需求及現(xiàn)狀分析隨著國(guó)家重視大數(shù)據(jù),政府扶持大數(shù)據(jù),大數(shù)據(jù)在企業(yè)中生根發(fā)芽,開(kāi)花結(jié)果。未來(lái)三至五年,中國(guó)需要180萬(wàn)數(shù)據(jù)人才,但目前只有約30萬(wàn)人。企業(yè)基于大數(shù)據(jù)計(jì)算分析存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,IT行業(yè)需要更多的數(shù)據(jù)人才。
大數(shù)據(jù)工程師因?yàn)橄∪北缓芏嘀髽I(yè)高價(jià)聘請(qǐng),因?yàn)榧夹g(shù)的魅力深受國(guó)家的重視,對(duì)于大數(shù)據(jù)就業(yè)發(fā)展前景是一直被人們看好的。就目前來(lái)看大數(shù)據(jù)工程師的收入待遇可以說(shuō)達(dá)到了同類的頂級(jí),以后的發(fā)展前景更是一片光明。大數(shù)據(jù)目前行業(yè)發(fā)展迅速,人才緊缺。這也是為什么大數(shù)據(jù)工資都如此之高的原因。
大數(shù)據(jù)時(shí)代的到來(lái)很突然,在國(guó)內(nèi)發(fā)展勢(shì)頭迅猛,而人才卻非常有限,現(xiàn)在完全是供不應(yīng)求的狀況。在美國(guó),大數(shù)據(jù)工程師平均每年薪酬高達(dá)萬(wàn)美元,而據(jù)了解,在國(guó)內(nèi)頂尖互聯(lián)網(wǎng)類公司,同一個(gè)級(jí)別大數(shù)據(jù)工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。
優(yōu)質(zhì)工程師考試問(wèn)答知識(shí)庫(kù)