攝氏三十八度
據(jù)統(tǒng)計(jì),我國電子商務(wù)企業(yè)已達(dá)到1000多萬家,其中大中型企業(yè)就有10萬多家,初步估計(jì),未來我國對電子商務(wù)人才的需求每年約80萬人,而我國目前包括高校和各類培訓(xùn)機(jī)構(gòu)每年輸出的人才數(shù)量不到10萬人。人才缺口巨大已成為制約我國電商行業(yè)發(fā)展的一大瓶頸。 選擇江西新華電腦學(xué)院云電商工程師專業(yè),你將學(xué)習(xí):電子商務(wù)概論與政策法規(guī)、Photoshop圖像處理、電子商務(wù)物流管理、HTML5+CSS3、WEB和移動界面商業(yè)案例、Windows Server2003服務(wù)器操作系統(tǒng)、動態(tài)網(wǎng)頁設(shè)計(jì)PHPMYSQL、網(wǎng)絡(luò)數(shù)據(jù)庫基礎(chǔ)(SQLServer)、JavaScript、電子商務(wù)安全與網(wǎng)上支付、百度SEM、SEO優(yōu)化與推廣、網(wǎng)絡(luò)營銷及綜合實(shí)踐等。
魅力人生
第一階段,運(yùn)營式系統(tǒng)階段。在上世紀(jì)七八十年代,用戶購物時(shí)產(chǎn)生的記錄一條條輸入數(shù)據(jù)庫,當(dāng)時(shí)都是由這些運(yùn)營系統(tǒng)生成這些數(shù)據(jù)的。
第二階段,由用戶原創(chuàng)內(nèi)容階段。2002年的時(shí)候,開始有了博客,后來發(fā)展成微博,到后來出現(xiàn)的微信,這些讓每個網(wǎng)民都成了自媒體,都可以自己隨心所欲地向網(wǎng)絡(luò)發(fā)布相關(guān)的信息,這個時(shí)候數(shù)據(jù)產(chǎn)生的速度要遠(yuǎn)遠(yuǎn)大于之前的僅僅由運(yùn)營系統(tǒng)產(chǎn)生的數(shù)據(jù)。
第三階段,感知式系統(tǒng)階段。真正讓大數(shù)據(jù)時(shí)代由量變到質(zhì)變是因?yàn)閿?shù)據(jù)產(chǎn)生的方式到了第三個階段——感知式系統(tǒng)階段。
感知式系統(tǒng)階段也就是物聯(lián)網(wǎng)的大規(guī)模普及,物聯(lián)網(wǎng)的迅速發(fā)展讓大數(shù)據(jù)時(shí)代最終到來。
大數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)展到一定階段的必然產(chǎn)物:
由于互聯(lián)網(wǎng)在資源整合方面的能力在不斷增強(qiáng),互聯(lián)網(wǎng)本身必須通過數(shù)據(jù)來體現(xiàn)出自身的價(jià)值,所以從這個角度來看,大數(shù)據(jù)正在充當(dāng)互聯(lián)網(wǎng)價(jià)值的體現(xiàn)者。
隨著更多的社會資源進(jìn)行網(wǎng)絡(luò)化和數(shù)據(jù)化改造,大數(shù)據(jù)所能承載的價(jià)值也必將不斷提到提高,大數(shù)據(jù)的應(yīng)用邊界也會不斷得到拓展,所以在未來的網(wǎng)絡(luò)化時(shí)代,大數(shù)據(jù)自身不僅能夠代表價(jià)值,大數(shù)據(jù)自身更是能夠創(chuàng)造價(jià)值。
王生飲啖茶
大數(shù)據(jù)工程師的主要工作是:分析歷史、預(yù)測未來、優(yōu)化選擇。1、分析歷史,找出過去事件的特征:大數(shù)據(jù)工程師一個很重要的工作,就是通過分析數(shù)據(jù)來找出過去事件的特征。找出過去事件的特征,最大的作用是可以幫助企業(yè)更好地認(rèn)識消費(fèi)者。通過分析用戶以往的行為軌跡,就能夠了解這個人,并預(yù)測他的行為。2、預(yù)測未來,預(yù)測未來可能發(fā)生的事情:通過引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測未來的消費(fèi)趨勢。3、優(yōu)化選擇,找出最優(yōu)化的結(jié)果:根據(jù)不同企業(yè)的業(yè)務(wù)性質(zhì),大數(shù)據(jù)工程師可以通過數(shù)據(jù)分析來達(dá)到不同的目的。在工作崗位上,大數(shù)據(jù)工程師需要基于Hadoop,Spark等構(gòu)建數(shù)據(jù)分析平臺,進(jìn)行設(shè)計(jì)、開發(fā)分布式計(jì)算業(yè)務(wù)。負(fù)責(zé)大數(shù)據(jù)平臺(Hadoop,HBase,Spark等)集群環(huán)境的搭建,性能調(diào)優(yōu)和日常維護(hù)。負(fù)責(zé)數(shù)據(jù)倉庫設(shè)計(jì),數(shù)據(jù)ETL的設(shè)計(jì)、開發(fā)和性能優(yōu)化。參與構(gòu)建大數(shù)據(jù)平臺,依托大數(shù)據(jù)技術(shù)建設(shè)用戶畫像。擴(kuò)展資料:大數(shù)據(jù)工程師可以從事對大量數(shù)據(jù)的采集、清洗、分析、治理、挖掘,并對這些數(shù)據(jù)加以利用、管理、維護(hù)和服務(wù)的相關(guān)技術(shù)工作。大數(shù)據(jù)工程師專業(yè)技術(shù)水平等級培訓(xùn)考試分初級、中級、高級三個級別。大數(shù)據(jù)工程師培養(yǎng)人群:有志于從事大數(shù)據(jù)采集、清洗、分析、治理、挖掘等技術(shù)研究,并加以利用、管理、維護(hù)和服務(wù)的工程技術(shù)人員。大數(shù)據(jù)工程師初、中、高三個級別考試均設(shè)《大數(shù)據(jù)理論基礎(chǔ)》、《大數(shù)據(jù)技能實(shí)操》兩個科目。參考資料:百度百科-大數(shù)據(jù)工程師
激動的小胖
大數(shù)據(jù)技術(shù)發(fā)展史:大數(shù)據(jù)的前世今生
今天我們常說的大數(shù)據(jù)技術(shù),其實(shí)起源于Google在2004年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”,分別是分布式文件系統(tǒng)GFS、大數(shù)據(jù)分布式計(jì)算框架MapReduce和NoSQL數(shù)據(jù)庫系統(tǒng)BigTable。
你知道,搜索引擎主要就做兩件事情,一個是網(wǎng)頁抓取,一個是索引構(gòu)建,而在這個過程中,有大量的數(shù)據(jù)需要存儲和計(jì)算。這“三駕馬車”其實(shí)就是用來解決這個問題的,你從介紹中也能看出來,一個文件系統(tǒng)、一個計(jì)算框架、一個數(shù)據(jù)庫系統(tǒng)。
現(xiàn)在你聽到分布式、大數(shù)據(jù)之類的詞,肯定一點(diǎn)兒也不陌生。但你要知道,在2004年那會兒,整個互聯(lián)網(wǎng)還處于懵懂時(shí)代,Google發(fā)布的論文實(shí)在是讓業(yè)界為之一振,大家恍然大悟,原來還可以這么玩。
因?yàn)槟莻€時(shí)間段,大多數(shù)公司的關(guān)注點(diǎn)其實(shí)還是聚焦在單機(jī)上,在思考如何提升單機(jī)的性能,尋找更貴更好的服務(wù)器。而Google的思路是部署一個大規(guī)模的服務(wù)器集群,通過分布式的方式將海量數(shù)據(jù)存儲在這個集群上,然后利用集群上的所有機(jī)器進(jìn)行數(shù)據(jù)計(jì)算。 這樣,Google其實(shí)不需要買很多很貴的服務(wù)器,它只要把這些普通的機(jī)器組織到一起,就非常厲害了。
當(dāng)時(shí)的天才程序員,也是Lucene開源項(xiàng)目的創(chuàng)始人Doug Cutting正在開發(fā)開源搜索引擎Nutch,閱讀了Google的論文后,他非常興奮,緊接著就根據(jù)論文原理初步實(shí)現(xiàn)了類似GFS和MapReduce的功能。
兩年后的2006年,Doug Cutting將這些大數(shù)據(jù)相關(guān)的功能從Nutch中分離了出來,然后啟動了一個獨(dú)立的項(xiàng)目專門開發(fā)維護(hù)大數(shù)據(jù)技術(shù),這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計(jì)算引擎MapReduce。
當(dāng)我們回顧軟件開發(fā)的歷史,包括我們自己開發(fā)的軟件,你會發(fā)現(xiàn),有的軟件在開發(fā)出來以后無人問津或者寥寥數(shù)人使用,這樣的軟件其實(shí)在所有開發(fā)出來的軟件中占大多數(shù)。而有的軟件則可能會開創(chuàng)一個行業(yè),每年創(chuàng)造數(shù)百億美元的價(jià)值,創(chuàng)造百萬計(jì)的就業(yè)崗位,這些軟件曾經(jīng)是Windows、Linux、Java,而現(xiàn)在這個名單要加上Hadoop的名字。
如果有時(shí)間,你可以簡單瀏覽下Hadoop的代碼,這個純用Java編寫的軟件其實(shí)并沒有什么高深的技術(shù)難點(diǎn),使用的也都是一些最基礎(chǔ)的編程技巧,也沒有什么出奇之處,但是它卻給社會帶來巨大的影響,甚至帶動一場深刻的科技革命,推動了人工智能的發(fā)展與進(jìn)步。
我覺得,我們在做軟件開發(fā)的時(shí)候,也可以多思考一下,我們所開發(fā)軟件的價(jià)值點(diǎn)在哪里?真正需要使用軟件實(shí)現(xiàn)價(jià)值的地方在哪里?你應(yīng)該關(guān)注業(yè)務(wù)、理解業(yè)務(wù),有價(jià)值導(dǎo)向,用自己的技術(shù)為公司創(chuàng)造真正的價(jià)值,進(jìn)而實(shí)現(xiàn)自己的人生價(jià)值。而不是整天埋頭在需求說明文檔里,做一個沒有思考的代碼機(jī)器人。
Hadoop發(fā)布之后,Yahoo很快就用了起來。大概又過了一年到了2007年,百度和阿里巴巴也開始使用Hadoop進(jìn)行大數(shù)據(jù)存儲與計(jì)算。
2008年,Hadoop正式成為Apache的頂級項(xiàng)目,后來Doug Cutting本人也成為了Apache基金會的主席。自此,Hadoop作為軟件開發(fā)領(lǐng)域的一顆明星冉冉升起。
同年,專門運(yùn)營Hadoop的商業(yè)公司Cloudera成立,Hadoop得到進(jìn)一步的商業(yè)支持。
這個時(shí)候,Yahoo的一些人覺得用MapReduce進(jìn)行大數(shù)據(jù)編程太麻煩了,于是便開發(fā)了Pig。Pig是一種腳本語言,使用類SQL的語法,開發(fā)者可以用Pig腳本描述要對大數(shù)據(jù)集上進(jìn)行的操作,Pig經(jīng)過編譯后會生成MapReduce程序,然后在Hadoop上運(yùn)行。
編寫Pig腳本雖然比直接MapReduce編程容易,但是依然需要學(xué)習(xí)新的腳本語法。于是Facebook又發(fā)布了Hive。Hive支持使用SQL語法來進(jìn)行大數(shù)據(jù)計(jì)算,比如說你可以寫個Select語句進(jìn)行數(shù)據(jù)查詢,然后Hive會把SQL語句轉(zhuǎn)化成MapReduce的計(jì)算程序。
這樣,熟悉數(shù)據(jù)庫的數(shù)據(jù)分析師和工程師便可以無門檻地使用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理了。Hive出現(xiàn)后極大程度地降低了Hadoop的使用難度,迅速得到開發(fā)者和企業(yè)的追捧。據(jù)說,2011年的時(shí)候,F(xiàn)acebook大數(shù)據(jù)平臺上運(yùn)行的作業(yè)90%都來源于Hive。
隨后,眾多Hadoop周邊產(chǎn)品開始出現(xiàn),大數(shù)據(jù)生態(tài)體系逐漸形成,其中包括:專門將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入導(dǎo)出到Hadoop平臺的Sqoop;針對大規(guī)模日志進(jìn)行分布式收集、聚合和傳輸?shù)腇lume;MapReduce工作流調(diào)度引擎Oozie等。
在Hadoop早期,MapReduce既是一個執(zhí)行引擎,又是一個資源調(diào)度框架,服務(wù)器集群的資源調(diào)度管理由MapReduce自己完成。但是這樣不利于資源復(fù)用,也使得MapReduce非常臃腫。于是一個新項(xiàng)目啟動了,將MapReduce執(zhí)行引擎和資源調(diào)度分離開來,這就是Yarn。2012年,Yarn成為一個獨(dú)立的項(xiàng)目開始運(yùn)營,隨后被各類大數(shù)據(jù)產(chǎn)品支持,成為大數(shù)據(jù)平臺上最主流的資源調(diào)度系統(tǒng)。
同樣是在2012年,UC伯克利AMP實(shí)驗(yàn)室(Algorithms、Machine和People的縮寫)開發(fā)的Spark開始嶄露頭角。當(dāng)時(shí)AMP實(shí)驗(yàn)室的馬鐵博士發(fā)現(xiàn)使用MapReduce進(jìn)行機(jī)器學(xué)習(xí)計(jì)算的時(shí)候性能非常差,因?yàn)闄C(jī)器學(xué)習(xí)算法通常需要進(jìn)行很多次的迭代計(jì)算,而MapReduce每執(zhí)行一次Map和Reduce計(jì)算都需要重新啟動一次作業(yè),帶來大量的無謂消耗。還有一點(diǎn)就是MapReduce主要使用磁盤作為存儲介質(zhì),而2012年的時(shí)候,內(nèi)存已經(jīng)突破容量和成本限制,成為數(shù)據(jù)運(yùn)行過程中主要的存儲介質(zhì)。Spark一經(jīng)推出,立即受到業(yè)界的追捧,并逐步替代MapReduce在企業(yè)應(yīng)用中的地位。
一般說來,像MapReduce、Spark這類計(jì)算框架處理的業(yè)務(wù)場景都被稱作批處理計(jì)算,因?yàn)樗鼈兺ǔa槍σ浴疤臁睘閱挝划a(chǎn)生的數(shù)據(jù)進(jìn)行一次計(jì)算,然后得到需要的結(jié)果,這中間計(jì)算需要花費(fèi)的時(shí)間大概是幾十分鐘甚至更長的時(shí)間。因?yàn)橛?jì)算的數(shù)據(jù)是非在線得到的實(shí)時(shí)數(shù)據(jù),而是歷史數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)離線計(jì)算。
而在大數(shù)據(jù)領(lǐng)域,還有另外一類應(yīng)用場景,它們需要對實(shí)時(shí)產(chǎn)生的大量數(shù)據(jù)進(jìn)行即時(shí)計(jì)算,比如對于遍布城市的監(jiān)控?cái)z像頭進(jìn)行人臉識別和嫌犯追蹤。這類計(jì)算稱為大數(shù)據(jù)流計(jì)算,相應(yīng)地,有Storm、Flink、Spark Streaming等流計(jì)算框架來滿足此類大數(shù)據(jù)應(yīng)用的場景。 流式計(jì)算要處理的數(shù)據(jù)是實(shí)時(shí)在線產(chǎn)生的數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)實(shí)時(shí)計(jì)算。
在典型的大數(shù)據(jù)的業(yè)務(wù)場景下,數(shù)據(jù)業(yè)務(wù)最通用的做法是,采用批處理的技術(shù)處理歷史全量數(shù)據(jù),采用流式計(jì)算處理實(shí)時(shí)新增數(shù)據(jù)。而像Flink這樣的計(jì)算引擎,可以同時(shí)支持流式計(jì)算和批處理計(jì)算。
除了大數(shù)據(jù)批處理和流處理,NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)的存儲與訪問,所以也被歸為大數(shù)據(jù)技術(shù)。 NoSQL曾經(jīng)在2011年左右非?;鸨楷F(xiàn)出HBase、Cassandra等許多優(yōu)秀的產(chǎn)品,其中HBase是從Hadoop中分離出來的、基于HDFS的NoSQL系統(tǒng)。
我們回顧軟件發(fā)展的歷史會發(fā)現(xiàn),差不多類似功能的軟件,它們出現(xiàn)的時(shí)間都非常接近,比如Linux和Windows都是在90年代初出現(xiàn),Java開發(fā)中的各類MVC框架也基本都是同期出現(xiàn),Android和iOS也是前腳后腳問世。2011年前后,各種NoSQL數(shù)據(jù)庫也是層出不群,我也是在那個時(shí)候參與開發(fā)了阿里巴巴自己的NoSQL系統(tǒng)。
事物發(fā)展有自己的潮流和規(guī)律,當(dāng)你身處潮流之中的時(shí)候,要緊緊抓住潮流的機(jī)會,想辦法脫穎而出,即使沒有成功,也會更加洞悉時(shí)代的脈搏,收獲珍貴的知識和經(jīng)驗(yàn)。而如果潮流已經(jīng)退去,這個時(shí)候再去往這個方向上努力,只會收獲迷茫與壓抑,對時(shí)代、對自己都沒有什么幫助。
但是時(shí)代的浪潮猶如海灘上的浪花,總是一浪接著一浪,只要你站在海邊,身處這個行業(yè)之中,下一個浪潮很快又會到來。你需要敏感而又深刻地去觀察,略去那些浮躁的泡沫,抓住真正潮流的機(jī)會,奮力一搏,不管成敗,都不會遺憾。
正所謂在歷史前進(jìn)的邏輯中前進(jìn),在時(shí)代發(fā)展的潮流中發(fā)展。通俗的說,就是要在風(fēng)口中飛翔。
上面我講的這些基本上都可以歸類為大數(shù)據(jù)引擎或者大數(shù)據(jù)框架。而大數(shù)據(jù)處理的主要應(yīng)用場景包括數(shù)據(jù)分析、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。數(shù)據(jù)分析主要使用Hive、Spark SQL等SQL引擎完成;數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)則有專門的機(jī)器學(xué)習(xí)框架TensorFlow、Mahout以及MLlib等,內(nèi)置了主要的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。
此外,大數(shù)據(jù)要存入分布式文件系統(tǒng)(HDFS),要有序調(diào)度MapReduce和Spark作業(yè)執(zhí)行,并能把執(zhí)行結(jié)果寫入到各個應(yīng)用系統(tǒng)的數(shù)據(jù)庫中,還需要有一個大數(shù)據(jù)平臺整合所有這些大數(shù)據(jù)組件和企業(yè)應(yīng)用系統(tǒng)。
圖中的所有這些框架、平臺以及相關(guān)的算法共同構(gòu)成了大數(shù)據(jù)的技術(shù)體系,我將會在專欄后面逐個分析,幫你能夠?qū)Υ髷?shù)據(jù)技術(shù)原理和應(yīng)用算法構(gòu)建起完整的知識體系,進(jìn)可以專職從事大數(shù)據(jù)開發(fā),退可以在自己的應(yīng)用開發(fā)中更好地和大數(shù)據(jù)集成,掌控自己的項(xiàng)目。
希望對您有所幫助!~
曰月無塵
互聯(lián)網(wǎng)時(shí)代的來臨,簡易的說是海量信息同極致數(shù)學(xué)計(jì)算融合的結(jié)果。除此以外是移動互聯(lián)、物聯(lián)網(wǎng)技術(shù)造成了大量的數(shù)據(jù)信息,互聯(lián)網(wǎng)大數(shù)據(jù)建筑科學(xué)極致地解決了海量信息的搜集、儲存、測算、剖析的難題?;ヂ?lián)網(wǎng)時(shí)代打開人類社會運(yùn)用數(shù)據(jù)價(jià)值的另一個時(shí)期?;ヂ?lián)網(wǎng)大數(shù)據(jù)(BigData)又稱之為大量材料,便是數(shù)據(jù)信息大、數(shù)據(jù)來源寬闊(系統(tǒng)日志、視頻、聲頻),大到PB級別,目前的架構(gòu)便是以便處理PB級別的數(shù)據(jù)信息;到目前為止,人們生產(chǎn)制造的全部印刷耗材的信息量也但是200PB;阿里巴巴、京東商城、蘇寧易購基礎(chǔ)都沉定了PB級別;等于一家BAT企業(yè)(百度搜索、阿里巴巴、騰迅)頂過去全部人們時(shí)期生產(chǎn)制造的包裝印刷材料互聯(lián)網(wǎng)大數(shù)據(jù)便是解決海量信息的,工作中便是儲存,清理,查尋,導(dǎo)出來,必須SQL句子和編程工具腳本制作適用互聯(lián)網(wǎng)大數(shù)據(jù)一般用于描述一個企業(yè)造就的很多非結(jié)構(gòu)型和半非結(jié)構(gòu)化數(shù)據(jù),這種數(shù)據(jù)信息在免費(fèi)下載到關(guān)聯(lián)型數(shù)據(jù)庫查詢用以剖析時(shí)候花銷過多時(shí)間和錢財(cái)。數(shù)據(jù)分析常和云計(jì)算技術(shù)聯(lián)絡(luò)到一起,由于即時(shí)的大中型數(shù)據(jù)剖析必須像MapReduce一樣的架構(gòu)來向數(shù)十、百余或乃至千余的電腦上分派工作中。依據(jù)《大數(shù)據(jù)時(shí)代》中常說,互聯(lián)網(wǎng)大數(shù)據(jù)并不是一個準(zhǔn)確的定義,大量的是一種將會的方法?!盎ヂ?lián)網(wǎng)大數(shù)據(jù)是大家在規(guī)模性數(shù)據(jù)信息的基本上能夠保證的事兒,而這種事兒在小規(guī)模納稅人數(shù)據(jù)信息的基本上是沒法進(jìn)行的?;ヂ?lián)網(wǎng)大數(shù)據(jù)是大家得到 新的認(rèn)知能力、造就新的使用價(jià)值的原動力,互聯(lián)網(wǎng)大數(shù)據(jù)還為更改銷售市場“互聯(lián)網(wǎng)大數(shù)據(jù)即一種新式的工作能力:以一種史無前例的方法,根據(jù)對海量信息開展剖析,得到 有極大使用價(jià)值的商品和服務(wù)項(xiàng)目,或刻骨銘心的洞悉。
優(yōu)質(zhì)工程師考試問答知識庫