種菜的阿布
大數(shù)據(jù)工程師?= 系統(tǒng)工程 + 大規(guī)模數(shù)據(jù)處理 + 數(shù)據(jù)分析 + 機(jī)器學(xué)習(xí) +?商業(yè)智能
大數(shù)據(jù)工程師首先是一個(gè)系統(tǒng)工程師,也是一個(gè)軟件工程師。同時(shí),他還得有一些特定的技能,會(huì)做大規(guī)模數(shù)據(jù)處理,比如當(dāng)你的數(shù)據(jù)有PB量級(jí)甚至ZD量級(jí)時(shí),你需要會(huì)Leverage云平臺(tái)等,通過(guò)幾千臺(tái)機(jī)器并行處理,解決大規(guī)模數(shù)據(jù)處理的問(wèn)題。
大數(shù)據(jù)工程師還和數(shù)據(jù)科學(xué)家有重疊,二者都要有很強(qiáng)的數(shù)據(jù)分析能力,比如會(huì)用Matlab,R,Python等。僅僅做簡(jiǎn)單的數(shù)據(jù)分析可能也不夠,大數(shù)據(jù)工程師還得做機(jī)器學(xué)習(xí)模型,最終我們希望大數(shù)據(jù)工程師做到的是商業(yè)智能。
大數(shù)據(jù)工程師的最終的目的,是幫助公司提供更好的用戶體驗(yàn),做出最優(yōu)決策,獲取更多的利潤(rùn)。他的工作成果是幫助企業(yè)挖掘出數(shù)據(jù)里的價(jià)值,從而實(shí)現(xiàn)Data-driven decision making。在個(gè)性化、在線廣告領(lǐng)域,大數(shù)據(jù)工程有巨大的商業(yè)價(jià)值,Yahoo,F(xiàn)acebook,Google的80%以上的收入都來(lái)源于廣告。通常,大數(shù)據(jù)工程師要解決的問(wèn)題是,當(dāng)一個(gè)用戶在網(wǎng)站上出現(xiàn)時(shí),如何顯示一個(gè)與該用戶喜好最相關(guān)的廣告,使他最有可能去點(diǎn)擊,從而提高公司的廣告收入,這些都是需要通過(guò)大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)建模,幫助做決策。
如果你是New grad,面試官期望你熟練掌握一門面向?qū)ο蟮耐ㄓ谜Z(yǔ)言 (如Java)。如果你只會(huì)C++,進(jìn)公司后可能還是得去熟悉Java,因?yàn)楹芏鄷r(shí)候編程語(yǔ)言的選擇是與所用框架相關(guān)的, 比如Hadoop就是用Java編寫的,用C++寫Hadoop的應(yīng)用就不是很方便。
另外,熟悉一門腳本語(yǔ)言?,如Python,Go. R和Matlab不認(rèn)為是一個(gè)Decent的腳本語(yǔ)言。
對(duì)候選人更重要的要求是基本的程序設(shè)計(jì)素養(yǎng)。如果程序設(shè)計(jì)功底足夠好,熟悉一個(gè)新語(yǔ)言就是一兩周的事情,面試官可能會(huì)從他平時(shí)工作的項(xiàng)目里提煉一些問(wèn)題,看你能不能找到合適的解決方案。
飛天大圣朱七
我 :Hadoop適合離線分析,是批處理;Spark適合實(shí)時(shí)分析,是近實(shí)時(shí)流,微批處理。
我 :其實(shí)自己在平時(shí)使用的時(shí)候,并沒(méi)有過(guò)度割裂開這兩種,因?yàn)楫吘棺约菏墙Y(jié)果導(dǎo)向所以無(wú)論P(yáng)ython的縮進(jìn)格式還是Java的要加逗號(hào),最后可以實(shí)現(xiàn)我的需求就可以了。 補(bǔ) :如今,再來(lái)審視這個(gè)問(wèn)題,會(huì)發(fā)現(xiàn)其實(shí)在使用過(guò)程中,Python,Java確實(shí)有一些需要你拐個(gè)彎注意下的,比如【Python】list的remove函數(shù)和【Java】list的remove方法,同名異能。以及Python一些輪子如何用Java去實(shí)現(xiàn)也是要注意的。
我 :小于等于A表?xiàng)l數(shù),也就是小于等于3條 補(bǔ) :現(xiàn)在看來(lái),當(dāng)時(shí)陷入了工作中帶來(lái)的一個(gè)誤區(qū),就是面試官可沒(méi)說(shuō)join的字段是主鍵,它可以不唯一哈,不唯一就會(huì)導(dǎo)致大于3條,因?yàn)橛兄貜?fù),而B表記錄不足的地方均為NULL,所以可能小于嗎?不信客官你看: 例1 : A表的記錄數(shù)在B表中全都有且B表id唯一
例2 A表的記錄在C表中有缺失但C表記錄唯一 :
例3 A表的記錄在D表中全都有但D表id不唯一 :
所以正解應(yīng)該是大于等于A表的條數(shù)
優(yōu)質(zhì)工程師考試問(wèn)答知識(shí)庫(kù)