原標(biāo)題:人工智能產(chǎn)業(yè)中不可忽略的技術(shù)領(lǐng)域之NLP
據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術(shù)分析報告》顯示,截止到2020年10月底,我國自然語言處理技術(shù)領(lǐng)域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術(shù)領(lǐng)域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術(shù)申請量增長速度明顯加快,說明自然語言專利技術(shù)專利布局正處于活躍時期,是創(chuàng)新主體關(guān)注的重點。
“我們可以期待,總有一天機器會同人在一切的智能領(lǐng)域里競爭起來。但是,以哪一點作為競爭的出發(fā)點呢?這是一個很難決定的問題。許多人以為可以把下棋之類的極為抽象的活動作為最好的出發(fā)點,不過,我更傾向于支持另一種主張,這種主張認為,最好的出發(fā)點是制造出一種具有智能的、可用錢買到的機器,然后,教這種機器理解英語并且說英語。這個過程可以仿效小孩子說話的那種辦法來進行。”
- A. M. Turing,Computing Machinery and Illigence,Mind Vol.59.1950.
自然語言處理( Natural Language Processing)作為人工智能三大關(guān)鍵技術(shù)之一,從20世紀(jì)40年代算起,已經(jīng)有70多年的歷史了,隨著信息網(wǎng)絡(luò)時代的到來,已經(jīng)成為現(xiàn)代語言學(xué)中一個頗為引人注目的學(xué)科,并且已經(jīng)廣泛應(yīng)用于情感分析、問答系統(tǒng)、自動摘要、機器翻譯、語音識別、聊天機器人、市場預(yù)測、文本分類、拼寫檢查等領(lǐng)域。
那么,究竟什么是自然語言處理呢?
自然語言處理是以語言為對象,利用計算機技術(shù)來分析、理解和處理自然語言的一門學(xué)科,即把計算機作為語言研究的強大工具,在計算機的支持下對語言信息進行定量化的研究,并提供可供人與計算機之間能共同使用的語言描寫。
自然語言處理為什么重要?
比爾蓋茨曾說“語言理解是人工智能領(lǐng)域皇冠上的明珠”,自然語言處理有助于打破人與機器之間的障礙,改善人機交流的效率和生產(chǎn)力。在人工智能出現(xiàn)之前,機器只能處理結(jié)構(gòu)化的數(shù)據(jù),例如Excel里的數(shù)據(jù);但是網(wǎng)絡(luò)中大部分的數(shù)據(jù)都是非結(jié)構(gòu)化的,例如:文章、圖片、音頻、視頻等,在非結(jié)構(gòu)數(shù)據(jù)中,文本的數(shù)量是最多的,雖然沒有圖片和視頻占用的空間大,但是文本的信息量是最大的,為了能夠分析和利用這些文本信息,我們就需要利用NLP技術(shù),讓機器理解這些文本信息,并加以利用。自然語言處理就是在機器語言和人類語言之間溝通的橋梁,以實現(xiàn)人機交流的目的。
圖1 圖片來源:公眾號:easyai-tech
2020年的自然語言處理技術(shù)專利發(fā)展現(xiàn)狀
據(jù)國家工業(yè)信息安全發(fā)展研究中心知識產(chǎn)權(quán)所(工信部電子知識產(chǎn)權(quán)中心)發(fā)布的《2020人工智能中國專利技術(shù)分析報告》(以下簡稱“報告”)顯示,截止到2020年10月底,我國自然語言處理技術(shù)領(lǐng)域?qū)@灿?8137件,2019年專利申請數(shù)量為11342件,是2000年專利申請量的118倍,占人工智能年度專利總申請量的5.65%。2020年度(截止到2020年10月底)自然語言處理技術(shù)領(lǐng)域?qū)@暾埩繛?910件。自2015年以來,自然語言專利技術(shù)申請量增長速度明顯加快,說明自然語言專利技術(shù)專利布局正處于活躍時期,是創(chuàng)新主體關(guān)注的重點。
圖2我國人工智能自然語言處理領(lǐng)域?qū)@暾埩磕甓茸兓厔?/p>
(受公開滯后影響,2020年專利數(shù)據(jù)公開不完整,統(tǒng)計數(shù)據(jù)截止至2020年10月底)
自然語言處理基礎(chǔ)技術(shù)包括知識圖譜、詞法分析、句法分析、語義分析和語言模型,基于對全球?qū)@暾垜B(tài)勢的檢索,如下圖所示,知識圖譜專利申請量占比最高,為26%,其次為詞法分析、句法分析和語言模型,占比為19%,語義分析的申請量占比最低,為17%。(數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關(guān)鍵技術(shù)(第68冊)》)
圖3 全球自然語言處理基礎(chǔ)技術(shù)各技術(shù)分支占比分析
從全球技術(shù)來源國家或地區(qū)角度分析,如下圖所示,中國在申請總量上較美國存在一定差距,但是高于日本、韓國和歐洲,在知識圖譜方向的申請量與美國已經(jīng)沒有差距,由于中國的句法分析和語義分析起步晚,目前正處于技術(shù)積累時期,因此在句法分析和語義分析方向的申請量與美國的差距還比較明顯。
國家/地區(qū) |
知識圖譜 |
詞法分析 |
句法分析 |
語義分析 |
語言模型 |
中國 |
1487 |
748 |
380 |
450 |
951 |
美國 |
1461 |
1033 |
1018 |
1115 |
1287 |
日本 |
182 |
427 |
824 |
467 |
150 |
韓國 |
205 |
124 |
204 |
91 |
90 |
歐專局 |
85 |
93 |
113 |
73 |
78 |
數(shù)據(jù)來源:《產(chǎn)業(yè)專利分析報告-人工智能關(guān)鍵技術(shù)(第68冊)》
針對知識圖譜技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在知識圖譜技術(shù)領(lǐng)域,北京百度網(wǎng)訊科技有限公司、平安科技(深圳)有限公司、騰訊科技(深圳)有限公司、北京明略軟件系統(tǒng)有限公司以及珠海格力電器股份有限公司分別排名前五。其中,百度網(wǎng)訊以392件專利量排名第一,平安科技以187件專利量排名第二,騰訊科技以151件專利量排名第三,明略科技以83件專利量排名第四,珠海格力以81件專利量排名第五。
圖4
針對詞法分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在詞法分析技術(shù)領(lǐng)域,北京郵電大學(xué)、騰訊科技(深圳)有限公司、北京航空航天大學(xué)、中興通訊股份有限公司、華為技術(shù)有限公司分別排名前五。其中,北京郵電大學(xué)以57件專利量排名第一,騰訊科技以33件專利量排名第二,北京航空航天大學(xué)以21件專利量排名第三,中興通訊股份有限公司、華為技術(shù)有限公司以20件專利量并列第四。
圖5
針對句法分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在句法分析技術(shù)領(lǐng)域,蘇州大學(xué)、北京百度網(wǎng)訊科技有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、昆明理工大學(xué)、阿里巴巴集團控股有限公司、騰訊科技(深圳)有限公司、中國科學(xué)院自動化研究所排名前五。其中,蘇州大學(xué)以37件專利量排名第一,百度網(wǎng)訊以31件專利量排名第二,百度在線、昆明理工大學(xué)以28件專利量并列第三,阿里巴巴集團控股、騰訊科技、中國科學(xué)院自動化研究所以23件專利量并列排名第五。
圖6
針對語義分析技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在語義分析技術(shù)領(lǐng)域,百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、騰訊科技(深圳)有限公司、北京百度網(wǎng)訊科技有限公司、阿里巴巴集團控股有限公司、平安科技(深圳)有限公司分別排名前五。其中,百度在線以198件專利量排名第一,騰訊科技以163件專利量排名第二,百度網(wǎng)訊以127件專利量排名第三,阿里巴巴集團控股以101件專利量排名第四,平安科技以85件專利量排名第五。
圖7
針對語言模型技術(shù),筆者在國家知識產(chǎn)權(quán)局專利檢索及分析網(wǎng)站進行了檢索,如下圖所示的檢索結(jié)果顯示,在語言模型技術(shù)領(lǐng)域,北京百度網(wǎng)訊科技有限公司、騰訊科技(深圳)有限公司、平安科技(深圳)有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 、微軟公司分別排名前五。其中,百度網(wǎng)訊以169件專利量排名第一,騰訊科技以148件專利量排名第二,平安科技以121件專利量排名第三,百度在線以114件專利量排名第四,微軟公司以110件專利量排名第五。
圖8
根據(jù)自然語言處理技術(shù)的專利檢索情況,如下圖所示,人工智能、自然語言處理、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、自然語言等關(guān)鍵詞成為自然語言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云。
圖9 :自然語言處理技術(shù)相關(guān)專利中的創(chuàng)新詞云
使用工具:智慧芽專利數(shù)據(jù)庫,智慧芽英策
從綜合水平來看,專注于自然語言處理的公司相當(dāng)多,根據(jù)2019《互聯(lián)網(wǎng)周刊》&eNet研究院選擇排行,國內(nèi)自然語言處理領(lǐng)域的代表性企業(yè)如下圖所示,包括被稱為人工智能領(lǐng)域“黃埔軍校”的微軟亞洲研究院,專注于輸入法的搜狗,專業(yè)從事語音研究的科大訊飛、云知聲、思必馳、捷通華聲、出門問問等企業(yè),也包括深入大數(shù)據(jù)挖掘的達觀數(shù)據(jù)、明略科技等企業(yè)。
圖10
展望未來
隨著互聯(lián)網(wǎng)的普及和海量數(shù)據(jù)和信息的涌現(xiàn),自然語言處理作為人工智能的核心技術(shù),在人們的工作、學(xué)習(xí)、生活中扮演著越來越重要的角色,并將在社會發(fā)展和科技進步的過程中發(fā)揮越來越重要的作用;一場人機關(guān)系變革正在進行中,自然語言處理已經(jīng)迎來了最好的發(fā)展時代,旨在讓計算機真正理解我們的自然語言處理技術(shù),正在把人工智能推向一個新的高度—能理解、會思考的認知智能,這讓我們能夠?qū)ξ磥碛懈蟮南胂罂臻g。
那么NLP技術(shù)在實際工作中是如何在不同領(lǐng)域發(fā)揮其功用呢?筆者咨詢了明略科技集團信息檢索實驗室主任梁吉光博士,梁吉光博士表示:
關(guān)于NLP的落地,不同于圖像識別、語音認識能感知智能的落地,NLP屬于認知智能,落地門檻稍高。NLP的應(yīng)用主要有兩種:通用型技術(shù)應(yīng)用和領(lǐng)域型技術(shù)應(yīng)用。通用型技術(shù)應(yīng)用主要包括語法分析、信息檢索、文本分類、情感分析、人機對話等任務(wù),領(lǐng)域性技術(shù)應(yīng)用則與應(yīng)用場景緊密相關(guān),如安全領(lǐng)域的輿情監(jiān)控、金融領(lǐng)域的智能風(fēng)控、營銷領(lǐng)域的智能營銷、智能家居領(lǐng)域的智能音箱等。
目前NLP技術(shù)已經(jīng)有了一定發(fā)展,并逐步在安全、金融、互聯(lián)網(wǎng)、智能家居設(shè)備、電子產(chǎn)品等領(lǐng)域開始落地應(yīng)用,那么國內(nèi)NLP領(lǐng)域的發(fā)展情況究竟如何,已經(jīng)具備了哪些優(yōu)勢?未來NLP技術(shù)發(fā)展又會面對哪些技術(shù)挑戰(zhàn)呢?針對這些問題,梁吉光博士回復(fù)說:
國內(nèi)自然語言處理研究一直走在國際前列水平,總體來講位居世界第二,僅次美國。從大環(huán)境角度,國內(nèi)自然語言處理技術(shù)的飛速發(fā)展得益于中國四十年改革開放,為技術(shù)與國際接軌提供了溫床。人工智能落地包括四要素:場景、數(shù)據(jù)、算法、算力。同樣,自然語言處理技術(shù)的發(fā)展也離不開這四大要素。工業(yè)界從不缺場景,缺的是能適用于場景的技術(shù)。在信息爆炸時代,數(shù)據(jù)越來越多,各種訓(xùn)練集測試集涌現(xiàn);算法越來越復(fù)雜、越來越先進,尤其以深度神經(jīng)網(wǎng)絡(luò)為代表的的深度學(xué)習(xí)架構(gòu),預(yù)訓(xùn)練模型更是將自然語言處理推向了新的范式;計算能力也越來越高,提供了大規(guī)模計算的可能性,從這一角度,數(shù)據(jù)“大”、算法“優(yōu)”,算力“快”是推動自然語言處理發(fā)展的直接原因。
自然語言處理,讓人機交互不再遙遠;深度學(xué)習(xí)(DL),讓語言解析不再是智能系統(tǒng)的瓶頸?;谏疃葘W(xué)習(xí)的NLP技術(shù)已經(jīng)成為時下最主流的研究方法,并在在NLP領(lǐng)域的研究中取得一個又一個突破。DL最早突破的是語言模型,解決了傳統(tǒng)語言模型數(shù)據(jù)稀疏的問題。隨后,以CNN、RNN、LSTM為代表的深度神經(jīng)網(wǎng)絡(luò)模型對自然語言詞序列的特征提取發(fā)起了進階。再到當(dāng)下“預(yù)訓(xùn)練+微調(diào)”這一NLP新范式更是橫掃整個領(lǐng)域,尤其以GPT、BERT模型為優(yōu)秀代表頻頻刷新SOTA。這一新范式結(jié)合下游任務(wù),將NLP推向了新的研究豐碑。
對于未來NLP技術(shù)發(fā)展將會面對的技術(shù)挑戰(zhàn)方面,梁博繼續(xù)補充道:
(1)“大力出奇跡”有瓶頸
當(dāng)下基于深度學(xué)習(xí)方法的NLP技術(shù)取得了卓越的效果,但這類方法基于“大”數(shù)據(jù)、“大”模型,數(shù)據(jù)動則TB量級,模型參數(shù)更是達到千億級別,著實卷,沒有最大只有更大。此外,此類算力多不可復(fù)現(xiàn),且局限于財力雄厚玩家。卷到何時算了?卷不動的時候,或者大力已不能解決問題的時候,需要考慮技術(shù)突破方向。
(2)不可解釋性
自深度學(xué)習(xí)模型席卷NLP領(lǐng)域以來,其不可解釋性一直是研究者的關(guān)注點之一。這種不可解釋性也注定無法將模型很好地應(yīng)用到依賴于過程解釋結(jié)果的領(lǐng)域,如法學(xué)、醫(yī)療、金融等領(lǐng)域。
從蒸汽時代到電氣時代,再到21世紀(jì)的信息時代,科技的發(fā)展推動著時代的進步,而人工智能正成為推動人類進入智能時代的決定性力量。當(dāng)今的宇宙中人類是孤獨的,但在不久的未來,我們期待自然語言處理這一關(guān)鍵技術(shù)可以讓冰冷機器變得有溫度,實現(xiàn)人機同行的美好愿景。
中企檢測認證網(wǎng)提供iso體系認證機構(gòu)查詢,檢驗檢測、認證認可、資質(zhì)資格、計量校準(zhǔn)、知識產(chǎn)權(quán)貫標(biāo)一站式行業(yè)企業(yè)服務(wù)平臺。中企檢測認證網(wǎng)為檢測行業(yè)相關(guān)檢驗、檢測、認證、計量、校準(zhǔn)機構(gòu),儀器設(shè)備、耗材、配件、試劑、標(biāo)準(zhǔn)品供應(yīng)商,法規(guī)咨詢、標(biāo)準(zhǔn)服務(wù)、實驗室軟件提供商提供包括品牌宣傳、產(chǎn)品展示、技術(shù)交流、新品推薦等全方位推廣服務(wù)。這個問題就給大家解答到這里了,如還需要了解更多專業(yè)性問題可以撥打中企檢測認證網(wǎng)在線客服13550333441。為您提供全面檢測、認證、商標(biāo)、專利、知識產(chǎn)權(quán)、版權(quán)法律法規(guī)知識資訊,包括商標(biāo)注冊、食品檢測、第三方檢測機構(gòu)、網(wǎng)絡(luò)信息技術(shù)檢測、環(huán)境檢測、管理體系認證、服務(wù)體系認證、產(chǎn)品認證、版權(quán)登記、專利申請、知識產(chǎn)權(quán)、檢測法、認證標(biāo)準(zhǔn)等信息,中企檢測認證網(wǎng)為檢測認證商標(biāo)專利從業(yè)者提供多種檢測、認證、知識產(chǎn)權(quán)、版權(quán)、商標(biāo)、專利的轉(zhuǎn)讓代理查詢法律法規(guī),咨詢輔導(dǎo)等知識。
本文內(nèi)容整合網(wǎng)站:中國政府網(wǎng)、百度百科、搜狗百科、360百科、最高人民法院、知乎、市場監(jiān)督總局 、國家知識產(chǎn)權(quán)局、國家商標(biāo)局
免責(zé)聲明:本文部分內(nèi)容根據(jù)網(wǎng)絡(luò)信息整理,文章版權(quán)歸原作者所有。向原作者致敬!發(fā)布旨在積善利他,如涉及作品內(nèi)容、版權(quán)和其它問題,請跟我們聯(lián)系刪除并致歉!