久久影视这里只有精品国产,激情五月婷婷在线,久久免费视频二区,最新99国产小视频

        • 回答數(shù)

          4

        • 瀏覽數(shù)

          159

        蟲子不乖
        首頁 > 工程師考試 > 數(shù)據(jù)工程師培訓學什么

        4個回答 默認排序
        • 默認排序
        • 按時間排序

        justjoshua

        已采納

        1.大數(shù)據(jù)工程師工作中會做什么?

        集群運維:安裝、測試、運維各種大數(shù)據(jù)組件

        數(shù)據(jù)開發(fā):細分一點的話會有ETL工程師、數(shù)據(jù)倉庫工程師等

        數(shù)據(jù)系統(tǒng)開發(fā):偏重Web系統(tǒng)開發(fā),比如報表系統(tǒng)、推薦系統(tǒng)等

        這里面有很多內(nèi)容其實是十分重合的,下面大致聊一下每一塊內(nèi)容大致需要學什么,以及側(cè)重點。

        2.集群運維

        數(shù)據(jù)工程師,基本上是離不開集群搭建,比如hadoop、Spark、Kafka,不要指望有專門的運維幫你搞定,新組件的引入一般都要自己來動手的。

        因此這就要求數(shù)據(jù)工程師了解各種大數(shù)據(jù)的組件。

        由于要自己的安裝各種開源的組件,就要求數(shù)據(jù)工程師要具備的能力:Linux。要對Linux比較熟悉,能各種自己折騰著玩。

        由于現(xiàn)在的大數(shù)據(jù)生態(tài)系統(tǒng)基本上是JVM系的,因此在語言上,就不要猶豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要學的很深,Scala就看情況了。

        ETL在大數(shù)據(jù)領域主要體現(xiàn)在各種數(shù)據(jù)流的處理。這一塊一方面體現(xiàn)在對一些組件的了解上,比如Sqoop、Flume、Kafka、Spark、MapRece;另一方面就是編程語言的需要,Java、Shell和Sql是基本功。

        4.系統(tǒng)開發(fā)

        我們大部分的價值最后都會由系統(tǒng)來體現(xiàn),比如報表系統(tǒng)和推薦系統(tǒng)。因此就要求有一定的系統(tǒng)開發(fā)能力,最常用的就是JavaWeb這一套了,當然Python也是挺方便的。

        需要注意的是,一般數(shù)據(jù)開發(fā)跑不掉的就是各種提數(shù)據(jù)的需求,很多是臨時和定制的需求,這種情況下,Sql就跑不掉了,老老實實學一下Sql很必要。

        如何入門?

        前面提到了一些數(shù)據(jù)工程師會用到的技能樹,下面給一個入門的建議,完全個人意見。

        1.了解行業(yè)情況

        剛開始一定要了解清楚自己和行業(yè)的情況,很多人根本就分不清招聘信息中的大數(shù)據(jù)和數(shù)據(jù)挖掘的區(qū)別就說自己要轉(zhuǎn)行,其實是很不負責的。不要總是趕熱點,反正我就是經(jīng)常被鄙視做什么大數(shù)據(jù)開發(fā)太Low,做數(shù)據(jù)就要做數(shù)據(jù)挖掘,不然永遠都是水貨。

        2.選擇學習途徑

        如果真是清楚自己明確地想轉(zhuǎn)數(shù)據(jù)開發(fā)了,要考慮一下自己的時間和精力,能拿出來多少時間,而且在學習的時候最好有人能多指點下,不然太容易走彎路了。

        在選擇具體的學習途徑時,要慎重一點,有幾個選擇:

        自學

        報班

        找人指點

        別的不說了,報班是可以考慮的,不要全指望報個輔導班就能帶你上天,但是可以靠他幫你梳理思路。如果有專業(yè)從事這一行的人多幫幫的話,是最好的。不一定是技術好,主要是可溝通性強。

        3.學習路線

        學習路線,下面是一個大致的建議:

        第一階段

        先具備一定的Linux和Java的基礎,不一定要特別深,先能玩起來,Linux的話能自己執(zhí)行各種操作,Java能寫點小程序。這些事為搭建Hadoop環(huán)境做準備。

        學習Hadoop,學會搭建單機版的Hadoop,然后是分布式的Hadoop,寫一些MR的程序。

        接著學學Hadoop生態(tài)系統(tǒng)的其它大數(shù)據(jù)組件,比如Spark、Hive、Hbase,嘗試去搭建然后跑一些官網(wǎng)的Demo。

        Linux、Java、各種組件都有一些基礎后,要有一些項目方面的實踐,這時候找一些成功案例,比如搜搜各種視頻教程中如何搞一個推薦系統(tǒng),把自己學到的用起來。

        第二階段

        到這里是一個基本的階段了,大致對數(shù)據(jù)開發(fā)有一些了解了。接著要有一些有意思內(nèi)容可以選學。

        數(shù)據(jù)倉庫體系:如何搞數(shù)據(jù)分層,數(shù)據(jù)倉庫體系該如何建設,可以有一些大致的了解。

        用戶畫像和特征工程:這一部分越早了解越好。

        一些系統(tǒng)的實現(xiàn)思路:比如調(diào)度系統(tǒng)、元數(shù)據(jù)系統(tǒng)、推薦系統(tǒng)這些系統(tǒng)如何實現(xiàn)。

        第三階段

        下面要有一些細分的領域需要深入進行,看工作和興趣來選擇一些來深入進行

        分布式理論:比如Gossip、DHT、Paxo這些構(gòu)成了各種分布式系統(tǒng)的底層協(xié)議和算法,還是要學一下的。

        數(shù)據(jù)挖掘算法:算法是要學的,但是不一定純理論,在分布式環(huán)境中實現(xiàn)算法,本身就是一個大的挑戰(zhàn)。

        各種系統(tǒng)的源碼學習:比如Hadoop、Spark、Kafka的源碼,想深入搞大數(shù)據(jù),源碼跑不掉。

        數(shù)據(jù)工程師培訓學什么

        281 評論(10)

        笑之典典

        參加大數(shù)據(jù)開發(fā)培訓需要什么基礎?想進行大數(shù)據(jù)開發(fā)培訓的人會有這樣的困惑,接下來就來為大家介紹一下,一起來看看吧。1、有大數(shù)據(jù)相關的基礎科目大數(shù)據(jù)技術綜合性較強,學習起來有難度。需要有Java、數(shù)學、Linux系統(tǒng)等基礎,如果是計算機相關專業(yè)、數(shù)學專業(yè)以及統(tǒng)計學專業(yè)的背景當然更好,只要經(jīng)過系統(tǒng)的大數(shù)據(jù)培訓課程,必然會成為一名出色的大數(shù)據(jù)工程師。2、需要有邏輯思維能力大數(shù)據(jù)技術需要有很強的邏輯思維能力,如果有邏輯思維能力,可以在大數(shù)據(jù)培訓課程的學習中游刃有余。3、基礎弱可以通過努力增強技術能力如果沒有基礎也可以學習大數(shù)據(jù),那就要付出比別人多一點的努力?;A不好的話,可以參加大數(shù)據(jù)培訓課程,培訓時間一般在學習3-6個月。大數(shù)據(jù)開發(fā)培訓學什么1、Java語言基礎:JAVA作為編程語言,使用是很廣泛的,大數(shù)據(jù)開發(fā)主要是基于JAVA,作為大數(shù)據(jù)應用的開發(fā)語言很合適。Java語言基礎包括Java開發(fā)介紹、Java語言基礎、Eclipse開發(fā)工具等。2、Linux系統(tǒng)和Hadoop生態(tài)體系:大數(shù)據(jù)的開發(fā)的框架是搭建在Linux系統(tǒng)上面的,所以要熟悉Linux開發(fā)環(huán)境。而Hadoop是一個大數(shù)據(jù)的基礎架構(gòu),它能搭建大型數(shù)據(jù)倉庫,PB級別數(shù)據(jù)的存儲、處理、分析、統(tǒng)計等業(yè)務。還需要了解數(shù)據(jù)遷移工具Sqoop、Flume分布式日志框架。以上就是為大家介紹了參加大數(shù)據(jù)開發(fā)培訓需要什么基礎?希望對大家有所幫助。

        167 評論(11)

        datang1201

        1.大數(shù)據(jù)工程師工作中會做什么?集群運維:安裝、測試、運維各種大數(shù)據(jù)組件數(shù)據(jù)開發(fā):細分一點的話會有ETL工程師、數(shù)據(jù)倉庫工程師等數(shù)據(jù)系統(tǒng)開發(fā):偏重Web系統(tǒng)開發(fā),比如報表系統(tǒng)、推薦系統(tǒng)等這里面有很多內(nèi)容其實是十分重合的,下面大致聊一下每一塊內(nèi)容大致需要學什么,以及側(cè)重點。2.集群運維數(shù)據(jù)工程師,基本上是離不開集群搭建,比如hadoop、Spark、Kafka,不要指望有專門的運維幫你搞定,新組件的引入一般都要自己來動手的。因此這就要求數(shù)據(jù)工程師了解各種大數(shù)據(jù)的組件。由于要自己的安裝各種開源的組件,就要求數(shù)據(jù)工程師要具備的能力: Linux 。要對Linux比較熟悉,能各種自己折騰著玩。由于現(xiàn)在的大數(shù)據(jù)生態(tài)系統(tǒng)基本上是 JVM系的,因此在語言上,就不要猶豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要學的很深,Scala就看情況了。3. ETLETL在大數(shù)據(jù)領域主要體現(xiàn)在各種數(shù)據(jù)流的處理。這一塊一方面體現(xiàn)在對一些組件的了解上,比如Sqoop、Flume、Kafka、Spark、MapReduce;另一方面就是編程語言的需要,Java、Shell和Sql是基本功。4.系統(tǒng)開發(fā)我們大部分的價值最后都會由系統(tǒng)來體現(xiàn),比如報表系統(tǒng)和推薦系統(tǒng)。因此就要求有一定的系統(tǒng)開發(fā)能力,最常用的就是 Java Web這一套了,當然Python也是挺方便的。需要注意的是,一般數(shù)據(jù)開發(fā)跑不掉的就是各種提數(shù)據(jù)的需求,很多是臨時和定制的需求,這種情況下, Sql就跑不掉了,老老實實學一下Sql很必要。如何入門?前面提到了一些數(shù)據(jù)工程師會用到的技能樹,下面給一個入門的建議,完全個人意見。1.了解行業(yè)情況剛開始一定要了解清楚自己和行業(yè)的情況,很多人根本就分不清招聘信息中的大數(shù)據(jù)和數(shù)據(jù)挖掘的區(qū)別就說自己要轉(zhuǎn)行,其實是很不負責的。不要總是趕熱點,反正我就是經(jīng)常被鄙視做什么大數(shù)據(jù)開發(fā)太Low,做數(shù)據(jù)就要做數(shù)據(jù)挖掘,不然永遠都是水貨。2.選擇學習途徑如果真是清楚自己明確地想轉(zhuǎn)數(shù)據(jù)開發(fā)了,要考慮一下自己的時間和精力,能拿出來多少時間,而且在學習的時候最好有人能多指點下,不然太容易走彎路了。在選擇具體的學習途徑時,要慎重一點,有幾個選擇:自學報班找人指點別的不說了,報班是可以考慮的,不要全指望報個輔導班就能帶你上天,但是可以靠他幫你梳理思路。如果有專業(yè)從事這一行的人多幫幫的話,是最好的。不一定是技術好,主要是可溝通性強。3.學習路線學習路線,下面是一個大致的建議:第一階段先具備一定的Linux和Java的基礎,不一定要特別深,先能玩起來,Linux的話能自己執(zhí)行各種操作,Java能寫點小程序。這些事為搭建Hadoop環(huán)境做準備。學習Hadoop,學會搭建單機版的Hadoop,然后是分布式的Hadoop,寫一些MR的程序。接著學學Hadoop生態(tài)系統(tǒng)的其它大數(shù)據(jù)組件,比如Spark、Hive、Hbase,嘗試去搭建然后跑一些官網(wǎng)的Demo。Linux、Java、各種組件都有一些基礎后,要有一些項目方面的實踐,這時候找一些成功案例,比如搜搜各種視頻教程中如何搞一個推薦系統(tǒng),把自己學到的用起來。第二階段到這里是一個基本的階段了,大致對數(shù)據(jù)開發(fā)有一些了解了。接著要有一些有意思內(nèi)容可以選學。數(shù)據(jù)倉庫體系:如何搞數(shù)據(jù)分層,數(shù)據(jù)倉庫體系該如何建設,可以有一些大致的了解。用戶畫像和特征工程:這一部分越早了解越好。一些系統(tǒng)的實現(xiàn)思路:比如調(diào)度系統(tǒng)、元數(shù)據(jù)系統(tǒng)、推薦系統(tǒng)這些系統(tǒng)如何實現(xiàn)。第三階段下面要有一些細分的領域需要深入進行,看工作和興趣來選擇一些來深入進行分布式理論:比如Gossip、DHT、Paxo這些構(gòu)成了各種分布式系統(tǒng)的底層協(xié)議和算法,還是要學一下的。數(shù)據(jù)挖掘算法:算法是要學的,但是不一定純理論,在分布式環(huán)境中實現(xiàn)算法,本身就是一個大的挑戰(zhàn)。各種系統(tǒng)的源碼學習:比如Hadoop、Spark、Kafka的源碼,想深入搞大數(shù)據(jù),源碼跑不掉。

        178 評論(13)

        李老根記

        參加大數(shù)據(jù)開發(fā)培訓需要掌握以下幾個方向的內(nèi)容。

        階段一:JavaSE基礎核心

        1、深入理解Java面向?qū)ο笏枷?/p>

        2、掌握開發(fā)中常用基礎API

        3、熟練使用集合框架、IO流、異常

        4、能夠基于JDK8開發(fā)

        階段二:Hadoop生態(tài)體系架構(gòu)

        1、Linux系統(tǒng)的安裝和操作

        2、熟練掌握Shell腳本語法

        3、Idea、Maven等開發(fā)工具的使用

        4、Hadoop組成、安裝、架構(gòu)和源碼深度解析,以及API的熟練使用

        5、Hive的安裝部署、內(nèi)部架構(gòu)、熟練使用其開發(fā)需求以及企業(yè)級調(diào)優(yōu)

        6、Zookeeper的內(nèi)部原理、選舉機制以及大數(shù)據(jù)生態(tài)體系下的應

        階段三:Spark生態(tài)體系架構(gòu)

        1、Spark的入門安裝部署、Spark Core部分的基本API使用熟練、RDD編程進階、累加器和廣播變量的使用和原理掌握、Spark SQL的編程掌握和如何自定義函數(shù)、Spark的內(nèi)核源碼詳解(包括部署、啟動、任務劃分調(diào)度、內(nèi)存管理等)、Spark的企業(yè)級調(diào)優(yōu)策略

        2、DophineScheduler的安裝部署,熟練使用進行工作流的調(diào)度執(zhí)行

        3、了解數(shù)據(jù)倉庫建模理論,充分熟悉電商行業(yè)數(shù)據(jù)分析指標體系,快速掌握多種大數(shù)據(jù)技術框架,了解認識多種數(shù)據(jù)倉庫技術模塊

        4、HBase和Phoenix的部署使用、原理架構(gòu)講解與企業(yè)級優(yōu)化

        5、開發(fā)工具Git&Git Hub的熟練使用

        6、Redis的入門、基本配置講解、jedis的熟練掌握

        7、ElasticSearch的入門安裝部署及調(diào)優(yōu)

        8、充分理解用戶畫像管理平臺的搭建及使用、用戶畫像系統(tǒng)的設計思路,以及標簽的設計流程及應用,初步了解機器學習算法

        9、獨立構(gòu)建功能完全的企業(yè)級離線數(shù)據(jù)倉庫項目,提升實戰(zhàn)開發(fā)能力,加強對離線數(shù)據(jù)倉庫各功能模塊的理解認知,實現(xiàn)多種企業(yè)實戰(zhàn)需求,累積項目性能調(diào)優(yōu)經(jīng)驗

        階段四:Flink生態(tài)體系架構(gòu)

        1、熟練掌握Flink的基本架構(gòu)以及流式數(shù)據(jù)處理思想,熟練使用Flink多種Soure、Sink處理數(shù)據(jù),熟練使用基本API、Window API 、狀態(tài)函數(shù)、Flink SQL、Flink CEP復雜事件處理等

        2、使用Flink搭建實時數(shù)倉項目,熟練使用Flink框架分析計算各種指標

        3、ClickHouse安裝、使用及調(diào)優(yōu)

        4、項目實戰(zhàn)。貼近大數(shù)據(jù)的實際處理場景,多維度設計實戰(zhàn)項目,能夠更廣泛的掌握大數(shù)據(jù)需求解決方案,全流程參與項目打造,短時間提高學生的實戰(zhàn)水平,對各個常用框架加強認知,迅速累積實戰(zhàn)經(jīng)驗

        5、可選掌握推薦和機器學習項目,熟悉并使用系統(tǒng)過濾算法以及基于內(nèi)容的推薦算法等

        6、采用阿里云平臺全套大數(shù)據(jù)產(chǎn)品重構(gòu)電商項目,熟悉離線數(shù)倉、實時指標的阿里云解決方案

        階段五:就業(yè)指導

        1、從技術和項目兩個角度按照企業(yè)面試、

        2、熟悉CDH在生產(chǎn)環(huán)境中的使用

        3、簡歷指導

        以上為大數(shù)據(jù)培訓所要掌握的內(nèi)容,當然也可以嘗試自學的。

        264 評論(12)

        相關問答