苦瓜老太婆
1.大數(shù)據(jù)工程師工作中會做什么?集群運維:安裝、測試、運維各種大數(shù)據(jù)組件數(shù)據(jù)開發(fā):細分一點的話會有ETL工程師、數(shù)據(jù)倉庫工程師等數(shù)據(jù)系統(tǒng)開發(fā):偏重Web系統(tǒng)開發(fā),比如報表系統(tǒng)、推薦系統(tǒng)等這里面有很多內(nèi)容其實是十分重合的,下面大致聊一下每一塊內(nèi)容大致需要學什么,以及側(cè)重點。2.集群運維數(shù)據(jù)工程師,基本上是離不開集群搭建,比如hadoop、Spark、Kafka,不要指望有專門的運維幫你搞定,新組件的引入一般都要自己來動手的。因此這就要求數(shù)據(jù)工程師了解各種大數(shù)據(jù)的組件。由于要自己的安裝各種開源的組件,就要求數(shù)據(jù)工程師要具備的能力: Linux 。要對Linux比較熟悉,能各種自己折騰著玩。由于現(xiàn)在的大數(shù)據(jù)生態(tài)系統(tǒng)基本上是 JVM系的,因此在語言上,就不要猶豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要學的很深,Scala就看情況了。3. ETLETL在大數(shù)據(jù)領(lǐng)域主要體現(xiàn)在各種數(shù)據(jù)流的處理。這一塊一方面體現(xiàn)在對一些組件的了解上,比如Sqoop、Flume、Kafka、Spark、MapReduce;另一方面就是編程語言的需要,Java、Shell和Sql是基本功。4.系統(tǒng)開發(fā)我們大部分的價值最后都會由系統(tǒng)來體現(xiàn),比如報表系統(tǒng)和推薦系統(tǒng)。因此就要求有一定的系統(tǒng)開發(fā)能力,最常用的就是 Java Web這一套了,當然Python也是挺方便的。需要注意的是,一般數(shù)據(jù)開發(fā)跑不掉的就是各種提數(shù)據(jù)的需求,很多是臨時和定制的需求,這種情況下, Sql就跑不掉了,老老實實學一下Sql很必要。如何入門?前面提到了一些數(shù)據(jù)工程師會用到的技能樹,下面給一個入門的建議,完全個人意見。1.了解行業(yè)情況剛開始一定要了解清楚自己和行業(yè)的情況,很多人根本就分不清招聘信息中的大數(shù)據(jù)和數(shù)據(jù)挖掘的區(qū)別就說自己要轉(zhuǎn)行,其實是很不負責的。不要總是趕熱點,反正我就是經(jīng)常被鄙視做什么大數(shù)據(jù)開發(fā)太Low,做數(shù)據(jù)就要做數(shù)據(jù)挖掘,不然永遠都是水貨。2.選擇學習途徑如果真是清楚自己明確地想轉(zhuǎn)數(shù)據(jù)開發(fā)了,要考慮一下自己的時間和精力,能拿出來多少時間,而且在學習的時候最好有人能多指點下,不然太容易走彎路了。在選擇具體的學習途徑時,要慎重一點,有幾個選擇:自學報班找人指點別的不說了,報班是可以考慮的,不要全指望報個輔導班就能帶你上天,但是可以靠他幫你梳理思路。如果有專業(yè)從事這一行的人多幫幫的話,是最好的。不一定是技術(shù)好,主要是可溝通性強。3.學習路線學習路線,下面是一個大致的建議:第一階段先具備一定的Linux和Java的基礎(chǔ),不一定要特別深,先能玩起來,Linux的話能自己執(zhí)行各種操作,Java能寫點小程序。這些事為搭建Hadoop環(huán)境做準備。學習Hadoop,學會搭建單機版的Hadoop,然后是分布式的Hadoop,寫一些MR的程序。接著學學Hadoop生態(tài)系統(tǒng)的其它大數(shù)據(jù)組件,比如Spark、Hive、Hbase,嘗試去搭建然后跑一些官網(wǎng)的Demo。Linux、Java、各種組件都有一些基礎(chǔ)后,要有一些項目方面的實踐,這時候找一些成功案例,比如搜搜各種視頻教程中如何搞一個推薦系統(tǒng),把自己學到的用起來。第二階段到這里是一個基本的階段了,大致對數(shù)據(jù)開發(fā)有一些了解了。接著要有一些有意思內(nèi)容可以選學。數(shù)據(jù)倉庫體系:如何搞數(shù)據(jù)分層,數(shù)據(jù)倉庫體系該如何建設(shè),可以有一些大致的了解。用戶畫像和特征工程:這一部分越早了解越好。一些系統(tǒng)的實現(xiàn)思路:比如調(diào)度系統(tǒng)、元數(shù)據(jù)系統(tǒng)、推薦系統(tǒng)這些系統(tǒng)如何實現(xiàn)。第三階段下面要有一些細分的領(lǐng)域需要深入進行,看工作和興趣來選擇一些來深入進行分布式理論:比如Gossip、DHT、Paxo這些構(gòu)成了各種分布式系統(tǒng)的底層協(xié)議和算法,還是要學一下的。數(shù)據(jù)挖掘算法:算法是要學的,但是不一定純理論,在分布式環(huán)境中實現(xiàn)算法,本身就是一個大的挑戰(zhàn)。各種系統(tǒng)的源碼學習:比如Hadoop、Spark、Kafka的源碼,想深入搞大數(shù)據(jù),源碼跑不掉。
wisteria1221
在國內(nèi),與大數(shù)據(jù)相關(guān)的崗位主要分為以下幾類:數(shù)據(jù)分析師:運用工具,提取、分析、呈現(xiàn)數(shù)據(jù),實現(xiàn)數(shù)據(jù)的商業(yè)意義,需要業(yè)務(wù)理解和工具應用能力數(shù)據(jù)挖掘師/算法工程師:數(shù)據(jù)建模、機器學習和算法實現(xiàn),需要業(yè)務(wù)理解、熟悉算法和精通計算機編程大數(shù)據(jù)工程師:運用編程語言實現(xiàn)數(shù)據(jù)平臺和數(shù)據(jù)管道開發(fā),需要計算機編程能力數(shù)據(jù)架構(gòu)師:高級算法設(shè)計與優(yōu)化;數(shù)據(jù)相關(guān)系統(tǒng)設(shè)計與優(yōu)化,有垂直行業(yè)經(jīng)驗最佳,需要平臺級開發(fā)和架構(gòu)設(shè)計能力
汀汀20082008
優(yōu)就業(yè)大數(shù)據(jù)內(nèi)容主要講了Java基礎(chǔ)、JavaEE核心、Hadoop生態(tài)體系、Spark生態(tài)體系、機器學習等知識。所以學完后學員可以找的工作主要有:大數(shù)據(jù)運維師、大數(shù)據(jù)開發(fā)師、Hadoop開發(fā)工程師、Spark開發(fā)工程師、大數(shù)據(jù)挖掘師等工作崗位。
馨怡FANG
大數(shù)據(jù)分析偏產(chǎn)品職位,一般不是技術(shù)崗位。技術(shù)崗位叫數(shù)據(jù)挖掘,又分為做模型和用模型的。做模型對數(shù)據(jù)要求非常高,如果自己不是這塊料那就別去做,又痛苦又做不出東西來;絕大多數(shù)數(shù)據(jù)挖掘都是用模型,這個門檻就低多了。另外還有專門做大數(shù)據(jù)平臺的,比如hadoop,spark這些,偏工程。
小貍露寶1234
培訓時間要根據(jù)每位同學的吸收情況來看,能力強的會比較快,一般來說3-6個月。大數(shù)據(jù)挖掘工程師的課程內(nèi)容涉獵很多,包括JavaSE 開發(fā)、JavaEE開發(fā)、并發(fā)編程實戰(zhàn)開發(fā)、Linux精講、Hadoop 生態(tài)體系、Python 實戰(zhàn)開發(fā)、Storm 實時開發(fā)、Spark 生態(tài)體系、ElasticSearc、Docker容器引擎、機器學習、超大集群調(diào)優(yōu)、大數(shù)據(jù)項目實戰(zhàn)等。如果想要全部掌握以上的知識,必須要進行系統(tǒng)的學習,建議報名相關(guān)的專業(yè)機構(gòu)進行線上或者線下課程的學習。同時,學成之后大數(shù)據(jù)工程師的就業(yè)前景還是很明朗的,在薪酬待遇也是很有優(yōu)勢的,因為大數(shù)據(jù)工程師在IT類職業(yè)中比較稀缺的,收入待遇可以說達到了同類的頂級。國內(nèi)IT、通訊、行業(yè)招聘中,有10%都是和大數(shù)據(jù)相關(guān)的,且比例還在上升。想了解數(shù)據(jù)挖掘工程師的相關(guān)內(nèi)容課程,推薦上CDA數(shù)據(jù)分析師的課程。課程培養(yǎng)學員硬性的數(shù)據(jù)挖掘理論與Python數(shù)據(jù)挖掘算法技能的同時,還兼顧培養(yǎng)學員軟性數(shù)據(jù)治理思維、商業(yè)策略優(yōu)化思維、挖掘經(jīng)營思維、算法思維、預測分析思維,全方位提升學員的數(shù)據(jù)洞察力。點擊預約免費試聽課。
優(yōu)質(zhì)工程師考試問答知識庫