妖精1208
HDFS是如何保證數據可靠性的?
(1)安全模式
① HDFS剛啟動時,NameNode進入安全模式,處于安全模式的NameNode不能做任何的文件操作,甚至內部的副本創(chuàng)建也是不允許的,NameNode這時需要和各個DataNode進行通信,獲得DataNode存儲的數據塊信息,并對數據塊信息進行檢查,只有通過了NameNode的檢查,一個數據塊才被認為是安全的。當認為安全的數據塊所占比例達到了某個閾值,NameNode才會開始啟動;
(2)SecondaryNamenode備份機制
① 在Hadoop中使用SecondaryNameNode來備份NameNode的元數據,以防止在NameNode宕機的時候,能從SecondaryNameNode中恢復出NameNode上的元數據;
② NameNode中保存了整個文件系統的元數據,而SecondaryNameNode的作用就是周期性保存NameNode的元數據。元數據中包括FSImage鏡像文件數據和EditLog編輯日志。FSImage相當于HDFS的檢查點,NameNode啟動時候會讀取FSImage的內容到內存,并將其與EditLog日志中的所有修改信息合并生成新的FSImage。在NameNode運行過程中,所有關于HDFS的修改都將寫入EditLog日志文件中。這樣,如果NameNode宕機,可以通過SecondaryNameNode中保存的FSImage和EditLog數據恢復出NameNode最近的狀態(tài),盡量減少數據的損失;
(3)心跳機制和副本重新創(chuàng)建
① 為了保證NameNode和各個DataNode的聯系,HDFS采用了心跳機制。NameNode周期性的向各個DataNode發(fā)送心跳包,而收到心跳包的DataNode要進行回復。因為心跳包是定時發(fā)送的,所以NameNode就把要執(zhí)行的命令也通過心跳包發(fā)送給DataNode,而DataNode收到心跳包,一方面要回復NameNode,另一方面就要開始應用數據的傳輸;
② 如果檢測到DataNode失效,NameNode之前保存在這個DataNode上的數據就變成不可用數據。如果有的副本存儲在失效的DataNode上,那么需要重新創(chuàng)建這個副本,放到另外可用的地方去;
(4)數據一致性
① 一般來講,DataNode與應用交互的大部分情況都是通過網絡進行的,而網絡數據傳輸帶來的一大問題就是數據是否原樣到達。為了保證數據的一致性,HDFS采用了數據校驗和(checkSum)機制。創(chuàng)建文件時,HDFS會為這個文件生成一個校驗和,校驗和文件和文件本身保存在同一空間中。傳輸數據時會將數據與校驗和數據一起傳輸,應用收到數據后可以進行校驗,如果兩個校驗的結果不同,則文件出錯了,這個數據塊就變成無效的。如果判定為無效,則需要從其他DataNode上讀取副本數據;
(每日1小題,進步1點點)
奇奇怪怪的lemon
大數據工程師做什么?需要具備什么能力?大數據是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大數據處理相關的職業(yè),通過對數據的挖掘分析來影響企業(yè)的商業(yè)決策。這群人在國外被叫做數據科學家(Data Scientist),這個頭銜最早由和Jeff Hammerbacher于2008年提出,他們后來分別成為了領英(LinkedIn)和Facebook數據科學團隊的負責人。而數據科學家這個職位目前也已經在美國傳統的電信、零售、金融、制造、物流、醫(yī)療、教育等行業(yè)里開始創(chuàng)造價值。不過在國內,大數據的應用才剛剛萌芽,人才市場還不那么成熟,“你很難期望有一個全才來完成整個鏈條上的所有環(huán)節(jié)。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才?!鳖I英(LinkedIn)中國商務分析及戰(zhàn)略總監(jiān)王昱堯對《第一財經周刊》說。于是每家公司對大數據工作的要求不盡相同:有的強調數據庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業(yè)務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司里出現的Title,我們將其統稱為“大數據工程師”。王昱堯認為,在一個成熟的數據驅動型公司,“大數據工程師”往往是一個團隊,它意味著從數據的收集、整理展現、分析和商業(yè)洞察、以至于市場轉化的全過程。這個團隊中可能包括數據工程師、分析師、產品專員、市場專員和商業(yè)決策者等角色,共同完成從原始數據到商業(yè)價值的轉換—概括來講,這是一個支持企業(yè)做出商業(yè)決策、發(fā)掘商業(yè)模式的重要群體。由于國內的大數據工作還處在一個有待開發(fā)的階段,因此能從其中挖掘出多少價值完全取決于工程師的個人能力。已經身處這個行業(yè)的專家給出了一些人才需求的大體框架,包括要有計算機編碼能力、數學及統計學相關背景,當然如果能對一些特定領域或行業(yè)有比較深入的了解,對于其快速判斷并抓準關鍵因素則更有幫助。雖然對于一些大公司來說,擁有碩博學歷的公司人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷并不是最主要的因素,能有大規(guī)模處理數據的經驗并且有喜歡在數據海洋中尋寶的好奇心會更適合這個工作。除此之外,一個優(yōu)秀的大數據工程師要具備一定的邏輯分析能力,并能迅速定位某個商業(yè)問題的關鍵屬性和決定因素?!八弥朗裁词窍嚓P的,哪個是重要的,使用什么樣的數據是最有價值的,如何快速找到每個業(yè)務最核心的需求?!甭摵蠂俣却髷祿摵蠈嶒炇覕祿茖W家沈志勇說。學習能力能幫助大數據工程師快速適應不同的項目,并在短時間內成為這個領域的數據專家;溝通能力則能讓他們的工作開展地更順利,因為大數據工程師的工作主要分為兩種方式:由市場部驅動和由數據分析部門驅動,前者需要常常向產品經理了解開發(fā)需求,后者則需要找運營部了解數據模型實際轉化的情況。你可以將以上這些要求看做是成為大數據工程師的努力方向,因為根據萬寶瑞華管理合伙人顏莉萍的觀察,這是一個很大的人才缺口。目前國內的大數據應用多集中在互聯網領域,有超過56%的企業(yè)在籌備發(fā)展大數據研究,“未來5年,94%的公司都會需要數據科學家。”顏莉萍說。因此她也建議一些原本從事與數據工作相關的公司人可以考慮轉型。本期《第一財經周刊》采訪了BAT這3家國內互聯網公司,以及相關領域的人力資源專家,他們從職場角度為我們解讀如何成為大數據工程師以及這類崗位的職場現狀。A 大數據工程師做什么?用阿里巴巴集團研究員薛貴榮的話來說,大數據工程師就是一群“玩數據”的人,玩出數據的商業(yè)價值,讓數據變成生產力。大數據和傳統數據的最大區(qū)別在于,它是在線的、實時的,規(guī)模海量且形式不規(guī)整,無章法可循,因此“會玩”這些數據的人就很重要。沈志勇認為如果把大數據想象成一座不停累積的礦山,那么大數據工程師的工作就是,“第一步,定位并抽取信息所在的數據集,相當于探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當于冶煉。最后是應用,把數據可視化等。”因此分析歷史、預測未來、優(yōu)化選擇,這是大數據工程師在“玩數據”時最重要的三大任務。通過這三個工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。找出過去事件的特征大數據工程師一個很重要的工作,就是通過分析數據來找出過去事件的特征。比如,騰訊的數據團隊正在搭建一個數據倉庫,把公司所有網絡平臺上數量龐大、不規(guī)整的數據信息進行梳理,總結出可供查詢的特征,來支持公司各類業(yè)務對數據的需求,包括廣告投放、游戲開發(fā)、社交網絡等。找出過去事件的特征,最大的作用是可以幫助企業(yè)更好地認識消費者。通過分析用戶以往的行為軌跡,就能夠了解這個人,并預測他的行為。“你可以知道他是什么樣的人、他的年紀、興趣愛好,是不是互聯網付費用戶、喜歡玩什么類型的游戲,平常喜歡在網上做什么事情?!彬v訊云計算有限公司北京研發(fā)中心總經理鄭立峰對《第一財經周刊》說。下一步到了業(yè)務層面,就可以針對各類人群推薦相關服務,比如手游,或是基于不同特征和需求衍生出新的業(yè)務模式,比如微信的電影票業(yè)務。預測未來可能發(fā)生的事情通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。在阿里媽媽的營銷平臺上,工程師正試圖通過引入氣象數據來幫助淘寶賣家做生意。“比如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了空調、電扇,背心、游泳衣等都可能會受其影響。那么我們就會建立氣象數據和銷售數據之間的關系,找到與之相關的品類,提前警示賣家周轉庫存?!毖F榮說。在百度,沈志勇支持“百度預測”部分產品的模型研發(fā),試圖用大數據為更廣泛的人群服務。已經上線的包括世界杯預測、高考預測、景點預測等。以百度景點預測為例,大數據工程師需要收集所有可能影響一段時間內景點人流量的關鍵因素進行預測,并為全國各個景點未來的擁擠度分級—在接下來的若干天時間里,它究竟是暢通、擁擠,還是一般擁擠?找出最優(yōu)化的結果根據不同企業(yè)的業(yè)務性質,大數據工程師可以通過數據分析來達到不同的目的。以騰訊來說,鄭立峰認為能反映大數據工程師工作的最簡單直接的例子就是選項測試(AB Test),即幫助產品經理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據經驗進行判斷,但如今大數據工程師可以通過大范圍地實時測試—比如,在社交網絡產品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統計一段時間內的點擊率和轉化率,以此幫助市場部做出最終選擇。作為電商的阿里巴巴,則希望通過大數據鎖定精準的人群,幫助賣家做更好的營銷?!拔覀兏诖氖悄隳苷业竭@樣一批人,比起現有的用戶,這些人對產品更感興趣?!毖F榮說。一個淘寶的實例是,某人參賣家原來推廣的目標人群是產婦,但工程師通過挖掘數據之間的關聯性后發(fā)現,針對孕婦群體投放的營銷轉化率更高。B 需要具備的能力數學及統計學相關的背景就我們采訪過的BAT三家互聯網大公司來說,對于大數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。沈志勇認為,缺乏理論背景的數據工作者,更容易進入一個技能上的危險區(qū)域(Danger Zone)—一堆數字,按照不同的數據模型和算法總能捯飭出一些結果來,但如果你不知道那代表什么,就并不是真正有意義的結果,并且那樣的結果還容易誤導你?!爸挥芯邆湟欢ǖ睦碚撝R,才能理解模型、復用模型甚至創(chuàng)新模型,來解決實際問題?!鄙蛑居抡f。計算機編碼能力實際開發(fā)能力和大規(guī)模的數據處理能力是作為大數據工程師的一些必備要素。“因為許多數據的價值來自于挖掘的過程,你必須親自動手才能發(fā)現金子的價值?!编嵙⒎逭f。舉例來說,現在人們在社交網絡上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業(yè)分析為主,但也要熟悉計算機處理大數據的方式。對特定應用領域或行業(yè)的知識在顏莉萍看來,大數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業(yè)的經歷能為應聘者積累對行業(yè)的認知,對于之后成為大數據工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項?!八荒苤皇嵌脭祿€要有商業(yè)頭腦,不論對零售、醫(yī)藥、游戲還是旅游等行業(yè),能就其中某些領域有一定的理解,最好還是與公司的業(yè)務方向一致的,”就此薛貴榮還打了個比方,“過去我們說一些奢侈品店員勢利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認為他們是這個行業(yè)的專家。又比如對醫(yī)療行業(yè)了解的人,他在考慮醫(yī)療保險業(yè)務時,不僅會和人們醫(yī)院看病的記錄相關,也會考慮飲食數據,這些都是基于對該領域的了解?!盋 大數據工程師的職業(yè)發(fā)展如何成為大數據工程師由于目前大數據人才匱乏,對于公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規(guī)模數據處理經驗。因此很多企業(yè)會通過內部挖掘。今年8月,阿里巴巴舉辦了一個大數據競賽,把天貓平臺上的數據拿出來,去除敏感問題后,放到云計算平臺上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽?!巴ㄟ^這個方式來激勵內部員工,同時也發(fā)現外部人才,讓各行業(yè)的大數據工程師涌現出來?!鳖伬蚱冀ㄗh,目前長期從事數據庫管理、挖掘、編程工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數據來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用數據,也可以成為大數據工程師。薪酬待遇作為IT類職業(yè)中的“大熊貓”,大數據工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍的觀察,國內IT、通訊、行業(yè)招聘中,有10%都是和大數據相關的,且比例還在上升。顏莉萍表示,“大數據時代的到來很突然,在國內發(fā)展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況?!痹诿绹?,大數據工程師平均每年薪酬高達萬美元,而據了解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。職業(yè)發(fā)展路徑由于大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監(jiān)3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰(zhàn)略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官?!斑@個職位的大部分人會往研究方向發(fā)展,成為重要數據戰(zhàn)略人才。”顏莉萍說。另一方面,大數據工程師對商業(yè)和產品的理解,并不亞于業(yè)務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。
上海大徐
大數據技術專業(yè)屬于計算機專業(yè),通俗講的人工智能。大數據技術與應用專業(yè)旨在培養(yǎng)學生系統掌握數據管理及數據挖掘方法,成為具備大數據分析處理、數據倉庫管理、大數據平臺綜合部署、大數據平臺應用軟件開發(fā)和數據產品的可視化展現與分析能力的高級專業(yè)大數據技術人才。 學完大數據專業(yè)可以干什么工作 1.大數據系統架構師 大數據平臺搭建、系統設計、基礎設施。 技能:計算機體系結構、網絡架構、編程范式、文件系統、分布并行處理等。 2.大數據系統分析師 面向實際行業(yè)領域,利用大數據技術進行數據安全生命周期管理、分析和應用。 技能:人工智能、機器學習、數理統計、矩陣計算、優(yōu)化方法。 開發(fā)工程師 解決大數據存儲問題。 4.數據分析師 不同行業(yè)中,專門從事行業(yè)數據搜集、整理、分析,并依據數據做出行業(yè)研究、評估和預測的專業(yè)人員。在工作中通過運用工具,提取、分析、呈現數據,實現數據的商業(yè)意義。 作為一名數據分析師,至少需要熟練SPSS、STATISTIC、Eviews、SAS、大數據魔鏡等數據分析軟件中的一門,至少能用Acess等進行數據庫開發(fā),至少掌握一門數學軟件如matalab、mathmatics進行新模型的構建,至少掌握一門編程語言??傊粋€優(yōu)秀的數據分析師,應該業(yè)務、管理、分析、工具、設計都不落下。 大數據技術專業(yè)的就業(yè)方向 1、互聯網電商方向 作為當前最熱門的風口,互聯網電商是互聯網領域應用于實踐最多的地方,也是積累技術資源最豐富、資金最雄厚、人才需求量最大的部分。大數據技術與應用專業(yè)畢業(yè)生可以從事互聯網電商運營維護、日常管理、消費大數據分析、金融數據風控管理等相關技術工作。目前大到已經上市的頭部電商平臺小到社區(qū)電商,這些技術人才的缺口都比較大。 2、零售金融方向 零售金融與互聯網電商雖然同屬于消費大范疇領域,但是具體而言,零售電商的范圍要小于互聯網電商,比互聯網電商更需要精準對接消費群體和消費群體的愛好、收入等特征。大數據技術與應用專業(yè)畢業(yè)生可以從事基于計算機、移動互聯網、電子信息、電子商務技術、電子金融等領域的數據分布式程序開發(fā)、大數據集成平臺的應用、開發(fā)等方面的工作。適合在零售金融企業(yè)承擔相關技術服務工作,也可在IT領域從事計算機應用工作。
liuwenwenlesley
hadoop工程師主要是偏開發(fā)層面,指的是圍繞大數據系平臺系統級的研發(fā)人員, 熟練Hadoop大數據平臺的核心框架,能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生態(tài)系統的組件如:Yarn,HBase、Hive、Pig等重要組件,能夠實現對平臺監(jiān)控、輔助運維系統的開發(fā)。不管是國外的著名公司Google、Yahoo!、微軟、亞馬遜、 EBay、FaceBook、Twitter、LinkedIn等和初創(chuàng)公司Cloudera、Hortonworks等,亦或是國內的著名公司中國移動、阿里巴巴、華為、騰訊、百度、網易、京東商城等,都在使用Hadoop及相關技術解決大規(guī)?;瘮祿栴},以滿足公司需求和創(chuàng)造商業(yè)價值。希望可以幫到您,謝謝!
優(yōu)質工程師考試問答知識庫