WIPO的專利分析專家在github上開辟了WIPO Patent Analytics專欄(https://wipo-analytics.github.io/),專門分享專利分析的相關(guān)技術(shù),其中有一本關(guān)于專利分析開源工具的書The WIPO Manual on Open Source Patent Analytics,這本書我們公眾號在幾年前的文章中介紹過(相關(guān)鏈接:)。不過今年,WIPO的專利分析專家對其內(nèi)容進(jìn)行了更新,出了第二版。今天這篇文章就來介紹一下這本書中對專利分析流程的描述。
很多人有著這樣的誤區(qū):專利分析和其他數(shù)據(jù)分析一樣,無外乎就是三個(gè)步驟:在數(shù)據(jù)庫中檢索、下載數(shù)據(jù)、向讀者展示數(shù)據(jù)。但實(shí)際上專利分析的流程可不僅僅是包括上面三個(gè)步驟。下圖是WIPO制作的專利分析流程圖。
圖片來源:The WIPO Manual on Open Source Patent Analytics (2nd edition) Chapter 3 The Patent Analytics Workflow | The WIPO Manual on Open Source Patent Analytics (2nd edition) (wipo-analytics.github.io)
步驟1:范圍檢索(Scoping Search)
范圍檢索的目的在于對分析的技術(shù)主題有一個(gè)基本的把握。以無人機(jī)技術(shù)為例,為了實(shí)施范圍檢索,首先僅以關(guān)鍵詞“無人機(jī)(drone or drones)”進(jìn)行檢索。
通過范圍檢索,檢索人員可以對檢索結(jié)果有一個(gè)初步的了解,并且從檢索到的文獻(xiàn)中獲取一些能夠用于擴(kuò)展檢索的關(guān)鍵詞。例如,對于無人機(jī)技術(shù),除了使用上述的“無人機(jī)(drone or drones)”這個(gè)關(guān)鍵詞以外,有些專利文獻(xiàn)中可能還會(huì)將其描述為“無人駕駛飛行器(Unmanned Aerial Vehicle)”以及其他的一些術(shù)語。
此外,在科學(xué)文獻(xiàn)和專利文獻(xiàn)中,還會(huì)描述“無人機(jī)”的很多用途,如果需要研究某種特定用途的無人機(jī),例如農(nóng)業(yè)植保無人機(jī),我們可以在檢索中對其用途進(jìn)行限定,或者是將某些用途排除在目標(biāo)文獻(xiàn)之外。
步驟2:探索性數(shù)據(jù)可視化(Exploratory data visualization)
數(shù)據(jù)可視化往往被認(rèn)為是數(shù)據(jù)分析流程中的最后環(huán)節(jié)。但其實(shí),在專利分析初期,數(shù)據(jù)可視化可以幫助我們理解數(shù)據(jù)和選擇后續(xù)的分析方向。例如,我們可以利用數(shù)據(jù)可視化來發(fā)現(xiàn)專利申請的趨勢,也可以嘗試?yán)梦谋揪垲惖目梢暬瘉碜R別專利文獻(xiàn)中的技術(shù)分布。
步驟3:確定檢索式(Defined Search)
檢索是一個(gè)不斷迭代的過程?;谖墨I(xiàn)量的多少和該技術(shù)主題的復(fù)雜程度,可能需要進(jìn)行很多次實(shí)驗(yàn)性的檢索。
在探索檢索的過程中,最好是將探索檢索的過程全都記錄下來,以便在以后還能記得當(dāng)時(shí)為什么要這樣檢索,也便于向其他人解釋為什么要構(gòu)建這樣的檢索式。
經(jīng)過不斷迭代的探索性檢索之后,就能夠得到一個(gè)確定的檢索式,通過這個(gè)檢索式進(jìn)行檢索,以獲得數(shù)據(jù)。
步驟4:核心數(shù)據(jù)集(Core Dataset)
當(dāng)使用最終確定的檢索式在數(shù)據(jù)中進(jìn)行檢索后,下載下來的數(shù)據(jù)集,就是核心數(shù)據(jù)集,也就是我們要進(jìn)行數(shù)據(jù)分析的基礎(chǔ)。但這里要記住的是,不要直接對這個(gè)數(shù)據(jù)集進(jìn)行編輯,也就是說,要保留一個(gè)原始版本的數(shù)據(jù)集合,以方便后續(xù)出問題的時(shí)候可以核對和查找。
步驟5:核心數(shù)據(jù)集的數(shù)據(jù)清理(Cleaning the Core Dataset)
專利分析的數(shù)據(jù)往往是存儲(chǔ)為以下三種格式:
逗號分隔(.csv)或制表符分隔(.tsv)的文件,其中分隔符用于區(qū)分列
Excel格式
JSON格式(javascript對象表示法語言)
在大多數(shù)情況下,這些表中包含具有串聯(lián)信息的列。例如在專利申請人的列中,每一個(gè)單元格中可能包含多個(gè)人名,如“Google; Alphabet; Smith, Amy”。
在專利分析的實(shí)踐中,包含這種串聯(lián)信息的數(shù)據(jù)列通常包括:國際專利分類、申請人、發(fā)明人。此外,其他的一些數(shù)據(jù)列,比如日期,也有可能包含串聯(lián)的信息。對于這種包含串聯(lián)信息的單元格,應(yīng)當(dāng)把數(shù)據(jù)信息拆分到不同的單元格中,以便于后續(xù)進(jìn)行數(shù)據(jù)分析。
專利數(shù)據(jù)也可以有其他的數(shù)據(jù)格式,例如XML和JSON。不過,這種數(shù)據(jù)格式并不是設(shè)計(jì)來給我們?nèi)斯ぷx取的,而是給計(jì)算機(jī)讀取的。
步驟5.1 拆分?jǐn)?shù)據(jù)(Splitting Data)
拆分?jǐn)?shù)據(jù)就是將同一個(gè)單元格中包含的串聯(lián)信息拆分到不同的單元格中,例如原始下載下來的數(shù)據(jù)表中的申請人列,每一個(gè)單元格中有好幾個(gè)人名,就需要我們將不同的人名拆分到不同的單元格中,可以使用Excel中的“分列”功能。
在開源數(shù)據(jù)處理工具Open Refine中也可以輕松實(shí)現(xiàn)分列功能。Open Refine是一個(gè)網(wǎng)頁版的程序,該網(wǎng)站的用戶還為R和Python編寫了擴(kuò)展包。
步驟5.2 清理數(shù)據(jù)(Cleaning Data)
清理數(shù)據(jù)包括兩個(gè)方面的內(nèi)容:
第一種情形,清理噪音。例如,在下載的專利數(shù)據(jù)表中,通常會(huì)有申請人列,單元格中會(huì)包含多個(gè)申請人的姓名,例如,該單元格可能會(huì)包含如下信息:
Google Google Inc. Google Inc., Google Inc
這種情況下,雖然申請人都是Google這一家公司,但是由于申請人名稱的變化,例如有無Inc和后面的點(diǎn),都會(huì)被計(jì)算機(jī)認(rèn)為是不同的申請人。此時(shí)需要我們?nèi)斯⑦@種噪音清理。
第二種情形,區(qū)分相同名稱的不同實(shí)體。當(dāng)我們處理發(fā)明人名稱時(shí),往往會(huì)發(fā)現(xiàn)一些相同名稱的發(fā)明人,例如Wang Wei, Smith John。如果不加區(qū)分地將這些名字都認(rèn)為是一個(gè)人,這將導(dǎo)致發(fā)明人的統(tǒng)計(jì)結(jié)果出現(xiàn)錯(cuò)誤,因此,需要結(jié)合其他的信息,例如申請人、共同發(fā)明人、或者發(fā)明所涉及的技術(shù)主題信息,來確定這些叫同一名字的人是一個(gè)人還是多個(gè)人。處理這類問題比較好用的開源工具是Open Refine。
其他類型的數(shù)據(jù)清理還包括將日期轉(zhuǎn)換為可用的格式,例如從2021-12-25中提取年份,或者從IPC分類號中提取大類或者小類,例如從C12Q1/68分類號中提取C12Q,以便于對分類號所代表的技術(shù)分布進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。
此外,專利分析將越來越多地使用機(jī)器學(xué)習(xí)模型從文本中提取信息,例如概念、化學(xué)名稱、物種名稱、國家或地名以及其他術(shù)語。這使得我們將專利數(shù)據(jù)與其他類型數(shù)據(jù)鏈接起來變成可能,從而獲得更豐富的信息。
步驟6:可視化及報(bào)告(Visualize & Report)
專利分析的最后一步即是數(shù)據(jù)可視化和報(bào)告撰寫,以使得專利分析的成果能夠適合于我們的目標(biāo)受眾。
實(shí)現(xiàn)數(shù)據(jù)可視化的方式有很多種,在The WIPO Manual on Open Source Patent Analytics (2nd edition)一書中主要介紹了以下幾種:
使用Tableau Public制作數(shù)據(jù)儀表板(Dashboards)
使用Gephi制作網(wǎng)絡(luò)數(shù)據(jù)可視化(Networks)
使用plotly實(shí)現(xiàn)數(shù)據(jù)可視化
使用infographics實(shí)現(xiàn)數(shù)據(jù)可視化
步驟7:小結(jié)
專利分析是一個(gè)不斷迭代的過程,它包含許多明確具體的步驟,包括最初的范圍檢索(scoping searches)和探索性數(shù)據(jù)分析(exploratory data analysis)、確定的核心數(shù)據(jù)集(core dataset)、將核心數(shù)據(jù)集拆分為不同的子表格、清理數(shù)據(jù)、將專利數(shù)據(jù)和其他數(shù)據(jù)來源進(jìn)行合并,以及最終的數(shù)據(jù)可視化和報(bào)告撰寫。
中企檢測認(rèn)證網(wǎng)提供iso體系認(rèn)證機(jī)構(gòu)查詢,檢驗(yàn)檢測、認(rèn)證認(rèn)可、資質(zhì)資格、計(jì)量校準(zhǔn)、知識產(chǎn)權(quán)貫標(biāo)一站式行業(yè)企業(yè)服務(wù)平臺。中企檢測認(rèn)證網(wǎng)為檢測行業(yè)相關(guān)檢驗(yàn)、檢測、認(rèn)證、計(jì)量、校準(zhǔn)機(jī)構(gòu),儀器設(shè)備、耗材、配件、試劑、標(biāo)準(zhǔn)品供應(yīng)商,法規(guī)咨詢、標(biāo)準(zhǔn)服務(wù)、實(shí)驗(yàn)室軟件提供商提供包括品牌宣傳、產(chǎn)品展示、技術(shù)交流、新品推薦等全方位推廣服務(wù)。這個(gè)問題就給大家解答到這里了,如還需要了解更多專業(yè)性問題可以撥打中企檢測認(rèn)證網(wǎng)在線客服13550333441。為您提供全面檢測、認(rèn)證、商標(biāo)、專利、知識產(chǎn)權(quán)、版權(quán)法律法規(guī)知識資訊,包括商標(biāo)注冊、食品檢測、第三方檢測機(jī)構(gòu)、網(wǎng)絡(luò)信息技術(shù)檢測、環(huán)境檢測、管理體系認(rèn)證、服務(wù)體系認(rèn)證、產(chǎn)品認(rèn)證、版權(quán)登記、專利申請、知識產(chǎn)權(quán)、檢測法、認(rèn)證標(biāo)準(zhǔn)等信息,中企檢測認(rèn)證網(wǎng)為檢測認(rèn)證商標(biāo)專利從業(yè)者提供多種檢測、認(rèn)證、知識產(chǎn)權(quán)、版權(quán)、商標(biāo)、專利的轉(zhuǎn)讓代理查詢法律法規(guī),咨詢輔導(dǎo)等知識。
本文內(nèi)容整合網(wǎng)站:百度百科、搜狗百科、360百科、知乎、市場監(jiān)督總局 、國家知識產(chǎn)權(quán)局
免責(zé)聲明:本文部分內(nèi)容根據(jù)網(wǎng)絡(luò)信息整理,文章版權(quán)歸原作者所有。向原作者致敬!發(fā)布旨在積善利他,如涉及作品內(nèi)容、版權(quán)和其它問題,請跟我們聯(lián)系刪除并致歉!