廣州文仔
主要原因是涉及到序列的東西都不好做。CV那邊搞視頻一樣頭疼結(jié)果上不去。 而且另外一方面,個人理解cv目前做的東西更多的是extraction和generation,understanding的很多好,大量論文集中在前兩點。如果設(shè)計understanding更多的是image caption和inpainting那些。 而且,個人理解understanding得到的東西必須是不能通過邊緣一步一步不全得到的(比如style-transfer在我看來更像step-by-step generation的過程)。 CV的路線好在extraction和generation帶來的是優(yōu)質(zhì)的classification質(zhì)量和快速的應(yīng)用可能性,這就能代理工業(yè)界的重視和資金。而NLP的任務(wù)因為很難通過單純的extraction,而NLP的生成任務(wù)(NLG)本質(zhì)上也是離開understanding基本做不了東西。 順便提一下,國內(nèi)NLP也在迅速發(fā)展,可以關(guān)注一下學術(shù)范這個網(wǎng)站上的學者,和相關(guān)研究方向什么的: Nlp Indi Dharmayanti-學者概述 () 其實,NLP和CV都已經(jīng)是很大的領(lǐng)域了,很難總體上說哪個更難。NLP領(lǐng)域中也很多比較容易的問題,CV領(lǐng)域也有很多很難的問題。 直觀感受上,NLP在工業(yè)界應(yīng)用很少,不成熟。但實際情況也并非如此。比如拼音輸入法,幾乎每個人都在用吧,其背后就是NLP的統(tǒng)計語言模型。每個大廠背后都有很多NLP的技術(shù)支撐。大廠對NLP工程師需求一點都不亞于CV工程師。 補充一下,為什么感覺上NLP不成熟呢?主要有兩個原因: 1 預(yù)期太高。NLP的技術(shù)發(fā)展永遠落后于人們對他的預(yù)期。人們對NLP的預(yù)期等同于對科幻片中對AI的預(yù)期。NLP技術(shù)的難度和人們理想中的NLP水平很不一樣。比如人們會認為實現(xiàn)類似SIRI的日常對話系統(tǒng)的難度低于專業(yè)領(lǐng)域的問答系統(tǒng),但是實現(xiàn)難度可能剛好相反。 2 不能標準化。像語音識別、圖像識別可以是相對比較標準化,輸入和輸出特別明確。這種可以利用大數(shù)據(jù)的優(yōu)勢,通過機器學習算法相對容易。而NLP應(yīng)用的大部分場景都是非標準化的,輸入數(shù)據(jù)十分“dirty”,需要大量的預(yù)處理,輸出也和場景結(jié)合十分緊密,沒有統(tǒng)一標準。比如NLP中就連最底層的分詞,也沒有統(tǒng)一的標準,不同場景對分詞的標準要求都不一樣。這樣就帶來一個問題,NLP的大部分應(yīng)用場景都缺少足夠規(guī)模的標注數(shù)據(jù),并且標注成本也非常高。因此準確率通常也不會很理想。 同樣道理,CV中涉及個性化的應(yīng)用場景其實也都非常難。 另外,感覺上NLP在工業(yè)界的應(yīng)用比較少,是因為大部分NLP的應(yīng)用還都是在后臺,為搜索、推薦等應(yīng)用作為一個技術(shù)支撐,前臺看不見而已。
優(yōu)質(zhì)工程師考試問答知識庫