鑫寶貝66
1. 第一階段(一般崗位叫數(shù)據(jù)專員)
基本學(xué)會(huì)excel(VBA最好學(xué)會(huì);會(huì)做透視表;熟練用篩選、排序、公式),做好PPT。這樣很多傳統(tǒng)公司的數(shù)據(jù)專員已經(jīng)可以做了
2. 第二階段(數(shù)據(jù)專員~數(shù)據(jù)分析師)
這一階段要會(huì)SQL,懂業(yè)務(wù),加上第一階段的那些東西。大多數(shù)傳統(tǒng)公司和互聯(lián)網(wǎng)小運(yùn)營(yíng)、產(chǎn)品團(tuán)隊(duì)夠用了。
3. 第三階段(數(shù)據(jù)分析師)
統(tǒng)計(jì)學(xué)熟練(回歸、假設(shè)檢驗(yàn)、時(shí)間序列、簡(jiǎn)單蒙特卡羅),可視化,PPT和excel一定要溜。這些技術(shù)就夠了,能應(yīng)付大多數(shù)傳統(tǒng)公司業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)。
4. 第四階段(分裂)
數(shù)據(jù)分析師(數(shù)據(jù)科學(xué)家)、BI等:這部分一般是精進(jìn)統(tǒng)計(jì)學(xué),熟悉業(yè)務(wù),機(jī)器學(xué)習(xí)會(huì)使用(調(diào)參+選模型+優(yōu)化),取數(shù)、ETL、可視化啥的都是基本姿態(tài)。
可視化工程師:這部分國內(nèi)比較少,其實(shí)偏重前端,會(huì)high charts,, 。技術(shù)發(fā)展路線可以獨(dú)立,不在這四階段,可能前端轉(zhuǎn)行更好。
ETL工程師:顧名思義,做ETL的。
大數(shù)據(jù)工程師:熟悉大數(shù)據(jù)技術(shù),hadoop系二代。
數(shù)據(jù)工程師(一部分和數(shù)據(jù)挖掘工程師重合):機(jī)器學(xué)習(xí)精通級(jí)別(往往是幾種,不用擔(dān)心不是全部,和數(shù)據(jù)分析師側(cè)重點(diǎn)不同,更需要了解組合模型,理論基礎(chǔ)),會(huì)組合模型形成數(shù)據(jù)產(chǎn)品;計(jì)算機(jī)基本知識(shí)(包括linux知識(shí)、軟件工程等);各類數(shù)據(jù)庫(RDBMS、NoSQL(4大類))
數(shù)據(jù)挖掘:和上基本相同。
爬蟲工程師:顧名思義,最好http協(xié)議、tcp/ip協(xié)議熟悉。技術(shù)發(fā)展路線可以獨(dú)立,不在這四階段
發(fā)現(xiàn)回答的有點(diǎn)文不對(duì)題額,不過大致是所有從底層數(shù)據(jù)工作者往上發(fā)展的基本路徑。往數(shù)據(jù)發(fā)展的基本學(xué)習(xí)路徑可以概括為以下內(nèi)容:
1. EXCEL、PPT(必須精通)
數(shù)據(jù)工作者的基本姿態(tài),話說本人技術(shù)并不是很好,但是起碼會(huì)操作;要會(huì)大膽秀自己,和業(yè)務(wù)部門交流需求,展示分析結(jié)果。技術(shù)上回VBA和數(shù)據(jù)透視就到頂了。
2. 數(shù)據(jù)庫類(必須學(xué))
初級(jí)只要會(huì)RDBMS就行了,看公司用哪個(gè),用哪個(gè)學(xué)哪個(gè)。沒進(jìn)公司就學(xué)MySQL吧。
NoSQL可以在之后和統(tǒng)計(jì)學(xué)啥的一起學(xué)?;镜腘oSQL血MongoDB和Redis(緩存,嚴(yán)格意義上不算數(shù)據(jù)庫),然后(選學(xué))可以了解各類NoSQL,基于圖的數(shù)據(jù)庫Neo4j,基于Column的數(shù)據(jù)庫BigTable,基于key-value的數(shù)據(jù)庫redis/cassendra,基于collection的數(shù)據(jù)庫MongoDB。
3. 統(tǒng)計(jì)學(xué)(必須學(xué))
如果要學(xué)統(tǒng)計(jì)學(xué),重要概念是會(huì)描述性統(tǒng)計(jì)、假設(shè)檢驗(yàn)、貝葉斯、極大似然法、回歸(特別是廣義線性回歸)、主成分分析。這些個(gè)用的比較多。也有學(xué)時(shí)間序列、bootstrap、非參之類的,這個(gè)看自己的意愿。
其他數(shù)學(xué)知識(shí):線性代數(shù)常用(是很多后面的基礎(chǔ)),微積分不常用,動(dòng)力系統(tǒng)、傅里葉分析看自己想進(jìn)的行業(yè)了。
4. 機(jī)器學(xué)習(xí)(數(shù)據(jù)分析師要求會(huì)選、用、調(diào))
常用的是幾個(gè)線性分類器、聚類、回歸、隨機(jī)森林、貝葉斯;不常用的也稍微了解一下;深度學(xué)習(xí)視情況學(xué)習(xí)。
5. 大數(shù)據(jù)(選學(xué),有公司要求的話會(huì)用即可,不要求會(huì)搭環(huán)境)
hadoop基礎(chǔ),包括hdfs、map-reduce、hive之類;后面接觸spark和storm再說了。
6. 文本類(選學(xué),有公司要求的話會(huì)用即可)
這部分不熟,基本要知道次感化、分詞、情感分析啥的。
7. 工具類
語言:非大數(shù)據(jù)類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大數(shù)據(jù)可能還會(huì)用到scala和java。
喵布拉基
1. 第一階段(一般崗位叫數(shù)據(jù)專員)
基本學(xué)會(huì)excel(VBA最好學(xué)會(huì);會(huì)做透視表;熟練用篩選、排序、公式),做好PPT。這樣很多傳統(tǒng)公司的數(shù)據(jù)專員已經(jīng)可以做了
2. 第二階段(數(shù)據(jù)專員~數(shù)據(jù)分析師)
這一階段要會(huì)SQL,懂業(yè)務(wù),加上第一階段的那些東西。大多數(shù)傳統(tǒng)公司和互聯(lián)網(wǎng)小運(yùn)營(yíng)、產(chǎn)品團(tuán)隊(duì)夠用了。
3. 第三階段(數(shù)據(jù)分析師)
統(tǒng)計(jì)學(xué)熟練(回歸、假設(shè)檢驗(yàn)、時(shí)間序列、簡(jiǎn)單蒙特卡羅),可視化,PPT和excel一定要溜。這些技術(shù)就夠了,能應(yīng)付大多數(shù)傳統(tǒng)公司業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)。
4. 第四階段(分裂)
精品窗簾
像你從零開始來學(xué)習(xí)的話,可能需要下夠足夠的功夫才可以了,如果你想要掌握真正的技能與技巧的話,建議你還是掌握更多的技術(shù),掌握更多的能力,只有這樣才能獲得更多更好。更全面的數(shù)據(jù)分析能力才能更快的找到適合自己的工作。
Nightwish陽光
第三節(jié) 延伸預(yù)測(cè)法 用延伸預(yù)測(cè)法進(jìn)行預(yù)測(cè)須具有以下條件: 一是預(yù)測(cè)變量的過去、現(xiàn)在和將來的客觀條件基本保持不變,歷史數(shù)據(jù)解釋的規(guī)律可以延續(xù)到未來。 二是預(yù)測(cè)變量的發(fā)展過程是漸變的,而不是跳躍式的或大起大落的。 延伸預(yù)測(cè)法包括簡(jiǎn)單移動(dòng)平均法、指數(shù)平滑法、成長(zhǎng)曲線模型、季節(jié)波動(dòng)模型等,其基本方法是時(shí)間序列預(yù)測(cè)。 在市場(chǎng)預(yù)測(cè)中,經(jīng)常遇到按時(shí)間排列的統(tǒng)計(jì)數(shù)據(jù),如按月份、季度和年度統(tǒng)計(jì)的數(shù)據(jù),稱為時(shí)間序列。時(shí)間序列預(yù)測(cè)就是通過對(duì)預(yù)測(cè)目標(biāo)本身時(shí)間序列的處理,研究預(yù)測(cè)目標(biāo)的變化趨勢(shì)。 一、簡(jiǎn)單移動(dòng)平均法 簡(jiǎn)單移動(dòng)平均法是以過去某一段時(shí)期的數(shù)據(jù)平均值作為將來某時(shí)期預(yù)測(cè)值的一種方法。該方法按對(duì)過去若干歷史數(shù)據(jù)求算術(shù)平均數(shù),并把該數(shù)據(jù)作為以后時(shí)期的預(yù)測(cè)值。 (一)簡(jiǎn)單移動(dòng)平均公式 簡(jiǎn)單移動(dòng)平均可以表述為:f=∑x/n 其中:f是預(yù)測(cè)數(shù), n是在計(jì)算移動(dòng)平均值時(shí)所使用的歷史數(shù)據(jù)的數(shù)目,即移動(dòng)時(shí)段的長(zhǎng)度 為了進(jìn)行預(yù)測(cè),需要對(duì)每一個(gè)t計(jì)算出相應(yīng)的Ft+1,所有計(jì)算得出的數(shù)據(jù)形成一個(gè)新的數(shù)據(jù)序列。經(jīng)過兩到三次同樣的處理,歷史數(shù)據(jù)序列的變化模式將會(huì)被揭示出來。這個(gè)變化趨勢(shì)較原始數(shù)據(jù)變化幅度小,因此,移動(dòng)平均法從方法論上分類屬于平滑技術(shù)。 (二)n的選擇 采用移動(dòng)平均法進(jìn)行預(yù)測(cè),實(shí)際工作中平均數(shù)的時(shí)期數(shù) n 的選擇非常重要。這也是移動(dòng)平均的難點(diǎn)。 不同n的選擇對(duì)所計(jì)算的平均數(shù)是有較大影響的。 n值越小,表明對(duì)近期觀測(cè)值預(yù)測(cè)的作用越重視,預(yù)測(cè)值對(duì)數(shù)據(jù)變化的反應(yīng)速度也越快,但預(yù)測(cè)的修勻程度較低,估計(jì)值的精度也可能降低。 n值越大,預(yù)測(cè)值的修勻程度越高,但對(duì)數(shù)據(jù)變化的反映程度較慢。 因此,n值的選擇無法二者兼顧,應(yīng)視具體情況而定。 n一般在3—200之間,視序列ざ群馱げ餑勘昵榭齠???BR>一般對(duì)水平型數(shù)據(jù),n值的選取較為隨意;一般情況下,如果考慮到歷序列中含有大量隨機(jī)成分,或者序列的基本發(fā)展趨勢(shì)變化不大,則n應(yīng)取大一點(diǎn)。對(duì)于具有趨勢(shì)性或階躍型特點(diǎn)的數(shù)據(jù),為提高預(yù)測(cè)值對(duì)數(shù)據(jù)變化的反應(yīng)速度,減少預(yù)測(cè)誤差,n值取較小一些,以使移動(dòng)平均值更能反映目前的發(fā)展變化趨勢(shì)。 (三)簡(jiǎn)單移動(dòng)平均的應(yīng)用范圍 移動(dòng)平均法只適用于短期預(yù)測(cè),在大多數(shù)情況下只用于以月度或周為單位的近期預(yù)測(cè)。簡(jiǎn)單移動(dòng)平均法的另外一個(gè)主要用途是對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,以消除數(shù)據(jù)中的異常因素或除去數(shù)據(jù)中的周期變動(dòng)成分。類似于季節(jié)指數(shù)趨勢(shì)法的前幾步。 二、指數(shù)平滑法 指數(shù)平滑法又稱指數(shù)加權(quán)平均法,實(shí)際是加權(quán)的移動(dòng)平均法,它是選取各時(shí)期權(quán)重?cái)?shù)值為遞減指數(shù)數(shù)列的均值方法。指數(shù)平滑法解決了移動(dòng)平均法需要幾個(gè)觀測(cè)值和不考慮t—n前時(shí)期數(shù)據(jù)的缺點(diǎn),通過某種平均方式,消除歷史統(tǒng)計(jì)序列中的隨機(jī)波動(dòng),找出其中主要的發(fā)展趨勢(shì)。 (一)指數(shù)平滑法公式 對(duì)時(shí)間序列x1、x2、x3、……,xn,一次平滑指數(shù)公式為: F=αx+(1-α )Ft-1 式中 α——是平滑系數(shù),0<α<1; xt——是歷史數(shù)據(jù)序列x在t時(shí)的觀測(cè)值; F,和F是t時(shí)和t—1時(shí)的平滑值。 一次指數(shù)平滑法又稱簡(jiǎn)單指數(shù)平滑,是一種較為靈活的時(shí)間序列預(yù)測(cè)方法,這種方法在計(jì)算預(yù)測(cè)值時(shí)對(duì)于歷史數(shù)據(jù)的觀測(cè)值給予不同的權(quán)重。這種方法與簡(jiǎn)單移動(dòng)平均法相似,兩者之間的區(qū)別在于簡(jiǎn)單指數(shù)平滑法對(duì)先前預(yù)測(cè)結(jié)果的誤差進(jìn)行了修正,因此這種方法和簡(jiǎn)單移動(dòng)平均法一樣,都能夠提供簡(jiǎn)單適時(shí)的預(yù)測(cè)。 一次指數(shù)平滑法適用于市場(chǎng)觀測(cè)呈水平波動(dòng),無明顯上升或下降趨勢(shì)情況下的預(yù)測(cè),它以本期指數(shù)平滑值作為下期的觀測(cè)值,預(yù)測(cè)模型為: x’t+1=Ft 亦即 x’t+1 =αx +(1-α) (二)平滑系數(shù)。 平滑系數(shù)。實(shí)際上是前一觀測(cè)值和當(dāng)前觀測(cè)值之間的權(quán)重。 當(dāng)α接近于1時(shí),新的預(yù)測(cè)值對(duì)前一個(gè)預(yù)測(cè)值的誤差進(jìn)行了較大的修正;當(dāng)α=1時(shí),F(xiàn)t+1=xt,即t期平滑 值就等于t期觀測(cè)值。 當(dāng)α接近于0時(shí),新預(yù)測(cè)值只包含較小的誤差修正因素; 當(dāng)α=0時(shí),F(xiàn)t+1=Ft,即本期預(yù)測(cè)值就等于上期預(yù)測(cè)值。 研究表明大的α值導(dǎo)致較小的 平滑效果,而較小的α值會(huì)產(chǎn)生客觀的平滑效果。因此,在簡(jiǎn)單指數(shù)平滑方法的應(yīng)用 過程中,α值對(duì)預(yù)測(cè)結(jié)果所產(chǎn)生的影響不亞于簡(jiǎn)單移動(dòng)平均法中n的影響。 一般情況下,觀測(cè)值呈較穩(wěn)定的水平發(fā)展,α值取0.1-0.3之間;觀測(cè)值波動(dòng)較 大時(shí),α值取0.3—0.5之間;觀測(cè)值呈波動(dòng)很大時(shí),α值取0.5-0.8之間。 (三)初始值Fo的確定 從指數(shù)平滑法的計(jì)算公式可以看出,指數(shù)平滑法是一個(gè)迭代計(jì)算過程,用該法進(jìn) 行預(yù)測(cè),首先必須確定初始值Fo值,它實(shí)質(zhì)上應(yīng)該是序列起點(diǎn)t=0以前所有歷史數(shù)據(jù) 的加權(quán)平均值。 一般采用這樣的方法處理:當(dāng)時(shí)間序列期數(shù)在20個(gè)以上時(shí),初始值 對(duì)預(yù)測(cè)結(jié)果的影響很小,可用第一期的觀測(cè)值代替,即Fo=x1;當(dāng)時(shí)間序列期數(shù)在20 個(gè)以下時(shí),初始值對(duì)預(yù)測(cè)結(jié)果有一定影響,可取前3-5個(gè)觀測(cè)值的平均值代替,如: Fo= (x1+x 2+X3) /3。 三、成長(zhǎng)曲線模型 產(chǎn)品生命周期理論揭示產(chǎn)品市場(chǎng)的發(fā)展具有一個(gè)成長(zhǎng)的過程,要經(jīng)歷導(dǎo)入期、成長(zhǎng)期、成熟期和衰退期四個(gè)階段。對(duì)產(chǎn)品市場(chǎng)演變趨勢(shì)的預(yù)測(cè),可以運(yùn)用成長(zhǎng)曲線(又稱為增長(zhǎng)曲線)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。 (一)成長(zhǎng)曲線模型 Yt =e(k+abt)(k>0,b>0) 該模型稱為龔泊茲曲線,它反映了時(shí)間序列呈現(xiàn)S型增長(zhǎng)曲線,即初期增長(zhǎng)緩慢,接著以較大幅度增長(zhǎng),隨后趨于穩(wěn)定水平。它與產(chǎn)品生命周期曲線非常相似,可以用來預(yù)測(cè)產(chǎn)品市場(chǎng)的周期變化。 (二)計(jì)算過程(略) 四、季節(jié)變動(dòng)分析 季節(jié)變動(dòng),是指市場(chǎng)需求由于自然條件、消費(fèi)習(xí)慣等因素的作用,隨著季節(jié)的轉(zhuǎn)變而呈現(xiàn)出周期性的變化,它在每年都重復(fù)出現(xiàn),表現(xiàn)為逐年同月(或季)有相同的變化方向和大致相同的變化幅度。 掌握市場(chǎng)需求的季節(jié)變化規(guī)律,是合理預(yù)測(cè)市場(chǎng)需求的前提。季節(jié)變動(dòng)按照數(shù)據(jù)的時(shí)間序列,有升降趨勢(shì)和水平趨勢(shì),季節(jié)變動(dòng)分析包括季節(jié)指數(shù)趨勢(shì)法和季節(jié)指數(shù)水平法兩種。 (一)季節(jié)指數(shù)水平法 預(yù)測(cè)模型: Yt=Yft 式中 Y——為時(shí)序的平均水平,ft為季節(jié)指數(shù)。 Y可以是預(yù)測(cè)前一年的月(季)平均水平,也可以是已知年份所有數(shù)據(jù)月(或季)的平均水平。ft稱為季節(jié)比或季節(jié)指數(shù)、季節(jié)系數(shù),它表示季節(jié)變動(dòng)的數(shù)量狀態(tài)。 季節(jié)指數(shù)水平法適用于無明顯的上升或下降變動(dòng)趨勢(shì),主要受季節(jié)變動(dòng)和不規(guī)則變動(dòng)影響的時(shí)間序列,它一般需要3-5年分月(或季度)的歷史數(shù)據(jù)資料。 季節(jié)指數(shù)水平法預(yù)測(cè)的一般程序?yàn)椋? (1)數(shù)據(jù)分析,形成數(shù)據(jù)序列; (2)計(jì)算各年同月(或季)的平均值yi; (3)計(jì)算所有年所有月(或季)的平均值Y; (4)計(jì)算各月(或季)的季節(jié)比率ft=Yi/Y; (5)計(jì)算預(yù)期趨勢(shì)值,一般采用最近年份的平均值Yt-1; (6)計(jì)算預(yù)測(cè)年各月(季)的預(yù)測(cè)值Yt= Yt-1*ft (二)季節(jié)指數(shù)趨勢(shì)法 市場(chǎng)需求量存在季節(jié)變動(dòng),同時(shí)各年水平或同月(或季)水平呈現(xiàn)上升或下降的趨勢(shì),這時(shí)不能采用指數(shù)水平法,而應(yīng)該采用季節(jié)指數(shù)趨勢(shì)法。 其預(yù)測(cè)模型為: Y=(a+bt)ft 式中(a+bt)為時(shí)間序列的線性趨勢(shì)變動(dòng)部分,ft為季節(jié)指數(shù)。 季節(jié)指數(shù)趨勢(shì)法的基本思路是,先分離出不含季節(jié)周期變動(dòng)的長(zhǎng)期趨勢(shì),再計(jì)算季節(jié)指數(shù),最后建立預(yù)測(cè)模型。其基本步驟是: (1)以一年的季度數(shù)4或月數(shù)12為n,對(duì)觀測(cè)值時(shí)間序列進(jìn)行n項(xiàng)移動(dòng)平均。 (2)由于n為偶數(shù),應(yīng)再對(duì)相鄰兩期的移動(dòng)平均再平均后對(duì)正,形成新的序列Mt,以此為長(zhǎng)期趨勢(shì)。 (3)將各期觀測(cè)值除去同期移動(dòng)均值為季節(jié)比率, ft=Yt/Mt,以消除趨勢(shì)。 (4)將各年同季(或月)的季節(jié)比率平均,季節(jié)平均比率fi消除不規(guī)則變動(dòng),i表示季度或月份。 (5)計(jì)算時(shí)間序列線性趨勢(shì)預(yù)測(cè)值X’t,模型為: X’t=a+bt 式中 b=(Mt末尾項(xiàng)—Mt首項(xiàng))/Mt項(xiàng)數(shù) a=[∑y-b*∑t]/n
優(yōu)質(zhì)工程師考試問答知識(shí)庫