CSYMiracle
我 :Hadoop適合離線分析,是批處理;Spark適合實(shí)時(shí)分析,是近實(shí)時(shí)流,微批處理。
我 :其實(shí)自己在平時(shí)使用的時(shí)候,并沒(méi)有過(guò)度割裂開(kāi)這兩種,因?yàn)楫吘棺约菏墙Y(jié)果導(dǎo)向所以無(wú)論P(yáng)ython的縮進(jìn)格式還是Java的要加逗號(hào),最后可以實(shí)現(xiàn)我的需求就可以了。 補(bǔ) :如今,再來(lái)審視這個(gè)問(wèn)題,會(huì)發(fā)現(xiàn)其實(shí)在使用過(guò)程中,Python,Java確實(shí)有一些需要你拐個(gè)彎注意下的,比如【Python】list的remove函數(shù)和【Java】list的remove方法,同名異能。以及Python一些輪子如何用Java去實(shí)現(xiàn)也是要注意的。
我 :小于等于A表?xiàng)l數(shù),也就是小于等于3條 補(bǔ) :現(xiàn)在看來(lái),當(dāng)時(shí)陷入了工作中帶來(lái)的一個(gè)誤區(qū),就是面試官可沒(méi)說(shuō)join的字段是主鍵,它可以不唯一哈,不唯一就會(huì)導(dǎo)致大于3條,因?yàn)橛兄貜?fù),而B表記錄不足的地方均為NULL,所以可能小于嗎?不信客官你看: 例1 : A表的記錄數(shù)在B表中全都有且B表id唯一
例2 A表的記錄在C表中有缺失但C表記錄唯一 :
例3 A表的記錄在D表中全都有但D表id不唯一 :
所以正解應(yīng)該是大于等于A表的條數(shù)
溫柔一刀半
大數(shù)據(jù)開(kāi)發(fā)的面試題有spark開(kāi)發(fā),hadoop應(yīng)用等內(nèi)容,具體開(kāi)發(fā)崗,分析工程師有不同的內(nèi)容,千鋒網(wǎng)有很多相關(guān)面試題。
優(yōu)質(zhì)工程師考試問(wèn)答知識(shí)庫(kù)