一個巨大的數(shù)據(jù)庫正在印度悄無聲息地建立,有望讓免費的論文挖掘成為可能——但是,這合法么?
Carl Malamud 身后的數(shù)據(jù)庫儲存了 7300 萬篇論文,他打算讓科學(xué)家用來文本挖掘。
來源:Smita SharmaNature自然科研
撰文:Priyanka Pulla
Carl Malamud 正在發(fā)起一場運動,他要解放被付費墻封鎖住的信息,而且已經(jīng)取得了初步勝利。此前幾十年,他致力于公開那些受版權(quán)保護的法律文件,無論是建筑規(guī)范還是庭審記錄。他認為這些文檔代表了公有領(lǐng)域的法律,理應(yīng)讓所有公眾在線獲取。有些情況下他會勝訴。現(xiàn)在,這位 60 歲的美國技術(shù)專家又將目光轉(zhuǎn)向了另一個目標:以合法途徑解放付費墻背后的科學(xué)文獻。
過去的一年里,Malamud 在沒有告知出版商的情況下,與一些印度的研究者聯(lián)合建立了一個巨大的文本圖片庫,其中包括了從 1847 年至今的 7300 萬篇期刊文章。這一仍在創(chuàng)建的文檔庫將被保存在印度尼赫魯大學(xué)(JNU)一個 576T 的存儲器里。Malamud 說:“我們收集的文章可能不是全部,但絕對不算少。”其規(guī)模與 Web of Science 數(shù)據(jù)庫的核心合集不相上下。Malamud 和他在 JNU 的合作者、生物信息學(xué)家 Andrew Lynn 將他們的存儲器稱為“JNU 數(shù)據(jù)倉庫”。
從文檔庫里閱讀或下載論文是不被允許的,因為這會侵犯出版商的版權(quán)。按照 Malamud 的設(shè)想,研究者可以使用計算機軟件抓取其中文本和數(shù)據(jù),在不閱讀文字的情況下掃描全世界的科學(xué)文獻,提取他們想要的信息。
這一前所未有的項目讓許多人為之激動,因為這是第一次在文獻付費墻上開了一大條口子,讓它們能被用于簡單的程序分析。目前,已經(jīng)有幾十個研究組從事著類似的數(shù)據(jù)挖掘工作,并在此基礎(chǔ)上構(gòu)建了基因和化學(xué)物質(zhì)的數(shù)據(jù)庫、尋找蛋白質(zhì)與疾病之間的關(guān)聯(lián)、生成有意義的科學(xué)假設(shè)。但是,出版商通常會對這類挖掘的速度和范圍加以限制,只允許挖掘摘要部分,而非全文。為此,印度、美國和英國的研究人員正計劃改用 JNU 數(shù)據(jù)倉庫。Malamud 和 Lynn 會去印度各個政府實驗室和大學(xué)舉辦講座,解釋他們的想法。Malamud 說:“我們會請一些教授來聽我們的計劃,他們聽了之后都很激動,說‘天啊,這太贊了’。”
不過,數(shù)據(jù)倉庫的合法性尚待明確。在建造倉庫前,Malamud 聯(lián)系過幾位知識產(chǎn)權(quán)律師,希望能避開不必要的官司。他說:“我們的立場是,這種做法完全合法。”目前,他的每一步都邁得小心翼翼——他為 JNU 數(shù)據(jù)倉庫加了物理網(wǎng)閘,讓數(shù)據(jù)庫無法通過因特網(wǎng)訪問。用戶必須親身前往數(shù)據(jù)倉庫,而且只有進行非商業(yè)數(shù)據(jù)挖掘的研究者才能獲準進入。Malamud 的團隊打算將來支持遠程訪問。“但我們希望能慢慢推進這個項目,而不是立刻對外開放。”
挖掘技術(shù)哪家強
數(shù)據(jù)倉庫的建立可以為研究論文的軟件分析掃清障礙,加州大學(xué)圣克魯茲分校(UCSC)的生物信息學(xué)家 Max H?ussler 說,“如今對學(xué)術(shù)論文進行文本挖掘幾乎不可能。”即使是像他這樣能夠通過學(xué)校獲得付費文章的人也辦不到。
自 2009 年以來,H?ussler 和他的同事們就開始構(gòu)建在線的 UCSC“基因組瀏覽器”,將人類基因組 DNA 序列直接鏈到提及該序列的論文段落。起初,研究者聯(lián)系了超過 40 家出版商,請求允許使用軟件來篩查提到 DNA 的具體論文。但有 15 家出版商不是沒有回應(yīng)就是拒絕了他們的請求。H?ussler 自己也不確定在無授權(quán)情況下的數(shù)據(jù)挖掘是否違法,不敢輕易嘗試。過去,曾有出版商發(fā)現(xiàn)他用軟件爬數(shù)據(jù)庫后封鎖了他的訪問。“我 90% 的時間都在聯(lián)系出版商,或是寫程序來下載論文。”H?ussler 說。
在柏林 QUEST 轉(zhuǎn)化生物醫(yī)學(xué)研究中心兼任職務(wù)的統(tǒng)計學(xué)家 Chris Hartgerink 現(xiàn)在只在允許開放獲取的出版商那里做文本挖掘,因為“和不開放的出版商打交道太麻煩了”。幾年前,當(dāng) Hartgerlink 還在荷蘭讀博時,他試過批量下載論文來做挖掘,隨后被三家出版商取消了訪問權(quán)。
一些國家已經(jīng)修訂了法律,確保非商業(yè)項目的研究人員可以在沒有著作權(quán)人許可的情況下,對他們能合法獲取的任何內(nèi)容進行挖掘。英國在 2014 年就通過了這類法案,歐盟也在今年投票通過了類似條款。但這無助于落后國家的狀況,那里的學(xué)術(shù)人員根本無法以合法的形式獲取論文。即使在英國,出版商依然有權(quán)施加一些“合理”限制,例如以確保服務(wù)器不擁堵為由,讓研究人員使用出版商專用界面并限制搜索和批量下載的速度。曼徹斯特大學(xué)國家文本挖掘中心副主任 John McNaught 認為這種限制是個很大的問題:“每 5 秒下一篇文章,對人來說好像挺快的,但是對機器來說就慢得要命。下載 600 萬篇論文需要一整年的時間,單單下載生物醫(yī)藥的所有已發(fā)表論文就要整整五年。
McNaught 說,不差錢的醫(yī)藥公司通常會多付一筆錢來獲取專門的文本挖掘訪問權(quán)限,因為他們的工作是出于商業(yè)目的。一位來自醫(yī)藥公司的研究員(由于無權(quán)接受媒體采訪,該研究人員拒絕透露身份)說,有些情況下,出版商會允許這些公司批量下載論文,以避開此類速度限制。但是,高校研究人員常常只能從 PubMed 一類的數(shù)據(jù)庫里對文章摘要進行挖掘。摘要確實能提供一些信息,但遠不及全文來得有用。2018 年,丹麥技術(shù)大學(xué)計算生物學(xué)家 Søren Brunak 的團隊指出,搜索全文比搜索摘要能找到更多基因與疾病的聯(lián)系 (D. Westergaard et al. PLoS Comput. Biol. 14, e1005962; 2018)。
Carl Malamud 和 Andrew Lynn 在尼赫魯大學(xué)監(jiān)督一個從 7300 萬研究文獻中提取文字和圖片的項目。來源:Smita Sharma
挖掘論文還有不得不克服的一些技術(shù)壁壘。由于不同出版商使用不同的排版方式,從中提取文字本身就是一項挑戰(zhàn),而 JNU 團隊就遇到了這個問題。例如,從 PDF 轉(zhuǎn)換成純文本的工具常常無法區(qū)分段落、腳注和圖片。不過,只要 JNU 團隊解決了這個難題,后人就可以”乘涼“了。Malamud 說,團隊從 7300 萬篇論文中的首輪提取工作已經(jīng)接近完成,但下一步還要檢查錯誤。他預(yù)計數(shù)據(jù)庫最快也要到今年年底才能建成。
打開無限可能
JNU 數(shù)據(jù)倉庫的擁護者早已迫不及待了,其中包括印度國家植物基因組研究所的計算生物學(xué)家、劍橋大學(xué)的講師 Gitanjali Yadav。2006 年,Yadav 帶領(lǐng)研究所的團隊,為植物分泌的化學(xué)物質(zhì)構(gòu)建了一個數(shù)據(jù)庫——EssOilDB。如今,從藥物開發(fā)團隊到香水制造商都在從這個數(shù)據(jù)庫中尋覓線索。即將建成的”Carl 的百科全書“——用 Yadav 的話講,可以讓她的數(shù)據(jù)庫更上一層樓。
構(gòu)建 EssOilDB 的時候,Yadav 的團隊需要從 PubMed 和谷歌學(xué)術(shù)(Google Scholar)上細篩相關(guān)論文,盡可能從全文中提取數(shù)據(jù)。如果這些還不夠,他們就要實地拜訪圖書館,從罕見的期刊中把圖表摘抄下來。Yadav 認為數(shù)據(jù)倉庫可以快進這項工作,她的團隊正在為將來的數(shù)據(jù)挖掘編寫查詢語句。
印度基因組學(xué)與綜合生物學(xué)研究所的生物信息學(xué)研究員 Srinivasan Ramachandran 對 Malamud 的計劃也很激動。他的團隊有一個 2 型糖尿病相關(guān)基因的數(shù)據(jù)庫,并一直通過爬 PubMed 的摘要來尋找論文。他希望數(shù)據(jù)倉庫可以拓寬他的挖掘網(wǎng)。
麻省理工學(xué)院的”知識未來小組“(Knowledge Futures Group)想藉由挖掘數(shù)據(jù)倉庫,研究學(xué)術(shù)論文的發(fā)表形式隨時間的演變。團隊成員之一、MIT 媒體實驗室的博士生 James Weis 說,團隊希望能預(yù)測即將出現(xiàn)的新研究領(lǐng)域,并找出衡量研究影響力的替代方法。
解鎖版權(quán)的一生
Malamud 不久之前才萌生了將他的解鎖版權(quán)運動擴大到學(xué)術(shù)出版界的想法。Malamud 是加州一個非營利組織”公共資源“(Public Resource)的創(chuàng)始人,該組織會買下政府所有的法律文件并公開發(fā)表,其中包括佐治亞州的注解法典、歐洲的玩具安全標準,以及從建筑、殺蟲劑到手術(shù)設(shè)備在內(nèi)的逾 1.9 萬項印度標準。
由于這些文件常常是政府機構(gòu)的收入來源,一些機構(gòu)因此將 Malamud 告上了法庭。而他的辯護理由是:具有法律效力的文件不應(yīng)受到著作權(quán)的限制。在 2018 年對佐治亞州注解法典的判決中,美國上訴法院認定 Malamud 不存在侵權(quán)行為,但是州政府之后再次向最高法院上訴。與此同時,德國法院于 2017 年判定”公共資源“發(fā)布玩具標準的行為屬于違法,包括一項嬰兒奶嘴標準。
不過,Malamud 也勝訴過。2013 年,他向美國聯(lián)邦法院起訴美國國家稅務(wù)局,要求稅務(wù)局公開稅務(wù)豁免的非營利組織的稅表——這些數(shù)據(jù)可以用來追究這些組織的責(zé)任。這一次,法院判 Malamud 勝訴,并要求美國國稅局將數(shù)千個非營利組織的財務(wù)報表以機器可讀的形式公開。
2017 年初,在倡導(dǎo)開放獲取的倫敦慈善組織阿卡迪亞基金(Arcadia Fund)的協(xié)助下,Malamud 將目光轉(zhuǎn)向了科研論文。根據(jù)美國法律,美國聯(lián)邦政府雇員的研究不受版權(quán)保護,而”公共資源“找到了數(shù)十萬篇由美國政府發(fā)表的學(xué)術(shù)文章都違反了這條規(guī)定。Malamud 要求取消對這些文章的版權(quán)保護,但法院究竟會如何判決仍然未知。他已經(jīng)將初步結(jié)果發(fā)布到了網(wǎng)上,但決定暫緩進一步的宣傳計劃,因為這件事讓他想到了一個更大的使命:開放所有科學(xué)論文的訪問權(quán)。
印度的機遇
這項使命源于 2016 年德里高等法院的一項裁決。那次案件的中心是德里大學(xué)的 Rameshwari 復(fù)印店。多年來,這家復(fù)印店一直在為學(xué)生復(fù)印昂貴的課本作為教材。這些課本的價格從 500 到 19000 盧比(合人民幣 50-1860 元)不等,對很多學(xué)生來說是無法接受的高價。
新德里的 Rameshwari 復(fù)印店由于替學(xué)生復(fù)印課本而被告上法庭,最終勝訴。來源:Sajjad Hussain/AFP/Getty
2012 年,牛津大學(xué)出版社、劍橋大學(xué)出版社和泰勒-弗朗西斯出版集團(Taylor&Francis)聯(lián)合起訴了這所大學(xué),要求它為每份復(fù)制的書籍購買許可。但德里高等法院駁回了訴訟請求。在判決書中,法院援引印度 1957 年《版權(quán)法》第 52 節(jié),其中允許以教育為目的復(fù)制有著作權(quán)的作品,同一節(jié)的另一條款還允許出于研究目的的復(fù)制行為。
Malamud 與印度的淵源很深:他早在 1980 年代就以游客的身份拜訪過印度,并在斯利那加的船屋中寫下了一本關(guān)于數(shù)據(jù)庫設(shè)計的書,是他的早期作品之一。當(dāng)聽說 Rameshwari 復(fù)印店一事時,他剛剛獲得了(他拒絕透露詳情)8 個裝有 Sci-Hub 數(shù)百萬篇期刊文章的硬盤。Sci-Hub 是一個將付費論文免費向所有人開放的盜版網(wǎng)站。Sci-Hub 曾因侵權(quán)問題被出版社告上美國法院,并在兩起訴訟中敗訴;盡管如此,它的一些域名至今依然有效。
于是,Malamud 開始思索是否能以合法的途徑使用這些 Sci-Hub 的硬盤,為印度學(xué)生做些什么。在他 2018 年與印度技術(shù)企業(yè)家 Sam Pitroda 合寫的關(guān)于他工作的《自治法典》(Code Swaraj)一書中,他想象自己駕駛一輛類似美式快餐車的汽車空降印度校園,把論文分發(fā)給需要它們的學(xué)生。
最終,他把想法定格在了 JNU 數(shù)據(jù)倉庫。(Malamud 還在幫助德里的印度理工學(xué)院建立另一個挖掘中心,其中包含了 250T 的數(shù)據(jù),但尚未啟用。)不過,他對數(shù)據(jù)倉庫的論文來源卻諱莫如深。當(dāng)被問及數(shù)據(jù)倉庫中的有些論文是否來自 Sci-Hub 時,他不愿置評,只透露了可供免費下載論文的平臺(如 PubMed Central 和一個叫”Unpaywall“的工具)。但他坦言并未與出版商就數(shù)據(jù)倉庫的論文訪問權(quán)簽訂合同。
合法嗎?
在 Malamud 看來,論文的來源并不重要。他認為這種數(shù)據(jù)挖掘?qū)儆诜窍M型——該術(shù)語意味著研究者不能閱讀或展示他們所分析文章的大部分內(nèi)容。他說:”你是不能用 DOI [論文索引號] 搜索文章的。“Malamud 認為在美國等一些國家,對有著作權(quán)的內(nèi)容進行挖掘是法律許可的。例如,2015年,美國法院判定”谷歌圖書“(Google Books)沒有違反著作權(quán),而谷歌的做法與 JNU 數(shù)據(jù)倉庫類似:在沒有額外購買許可的情況下對上千本有著作權(quán)的書籍進行掃描,并在搜索服務(wù)中提供這些書籍的摘錄,但是不允許用戶全文下載或閱讀。
舊金山律所 Durie Tangri 的知識產(chǎn)權(quán)律師 Joseph Gratz 是谷歌圖書一案的辯護律師,并曾代表公共資源出庭。在他看來,谷歌圖書一案是對非消費型數(shù)據(jù)挖掘的一個試驗。雖然谷歌會提供部分預(yù)覽,但法院判定片段展示的文本過少,不構(gòu)成侵權(quán)。谷歌的確沒有獲得許可,但它掃描的是已獲授權(quán)的圖書(多來自圖書館)。Gratz 說,著作權(quán)人可能會辯稱,如果 JNU 數(shù)據(jù)倉庫是從 Sci-Hub 等未獲授權(quán)的途徑獲得論文,情況就和谷歌不同。但是,美國法院歷史上從未審理過涉及非授權(quán)來源的案件,因此結(jié)果如何很難說。”雖然來源不重要的理由很充足,但推翻這種論證也不是不可能。“又或者,數(shù)據(jù)倉庫在美國是否合法根本無關(guān)緊要,因為這些內(nèi)容全部來自位于印度的數(shù)據(jù)庫——即使可以遠程訪問。美利堅大學(xué)華盛頓法學(xué)院的教授 Michael W. Carroll 因此認為,這個數(shù)據(jù)庫是否合法,可能還得印度法律說了算。
而在印度,法律很有可能對 Malamud 有利——這也是他把數(shù)據(jù)庫設(shè)在新德里的另一個原因。第 52 節(jié)允許的研究豁免讓 JNU 數(shù)據(jù)倉庫不會觸犯印度法律,德里國家法律大學(xué)的助理教授 Arul George Scaria 說。但是,不是所有人都同意這種解讀。第 52 節(jié)允許研究者復(fù)制期刊文章做個人使用,但不一定允許 JNU 數(shù)據(jù)倉庫的大批量復(fù)制,Vidhi 法律政策中心的法學(xué)研究員 T. Prashant Reddy 說。不讓用戶訪問全文確實會讓數(shù)據(jù)庫相對有利,但是通過批量復(fù)制論文來構(gòu)建數(shù)據(jù)庫的做法卻會使其陷入”法律灰色地帶“,Reddy 說。
高風(fēng)險行業(yè)《自然》就 JNU 數(shù)據(jù)倉庫的問題聯(lián)系了 15 家出版商,其中 6 家給出了回應(yīng),并說自己是第一次聽說這個項目,不愿在沒有進一步信息的情況下評論其合法性。但是,這 6 家出版社——愛思唯爾、BMJ、美國化學(xué)學(xué)會、施普林格·自然、美國科學(xué)促進會和美國國家科學(xué)院——都說對他們的論文進行數(shù)據(jù)挖掘需要獲得他們的許可。(施普林格·自然是《自然》的出版商;《自然》新聞團隊與其出版商是編輯獨立的。)Malamud 深知這個項目背后的風(fēng)險,但他認為這么做在”道義上至關(guān)重要“,特別是對印度來說。他說,印度大學(xué)和政府實驗室花費巨資訂閱各種期刊,但仍然無法獲取所有需要的論文。來自 Sci-Hub 的數(shù)據(jù)表明,印度是該網(wǎng)站最大的用戶來源國,這意味著大學(xué)購買的權(quán)限還遠遠不夠。Malamud 說,雖然美國和歐洲的開放獲取運動難能可貴,但印度要在解放科學(xué)知識的道路上先行一步,”我們不能等歐洲和美國來解決這個問題,印度的需求太迫切了。“
免責(zé)聲明:本網(wǎng)站所轉(zhuǎn)載的文字、圖片與視頻資料版權(quán)歸原創(chuàng)作者所有,如果涉及侵權(quán),請第一時間聯(lián)系本網(wǎng)刪除。
-
標簽: 數(shù)據(jù)庫, 論文挖掘, 合法免費

官方微信
《中國腐蝕與防護網(wǎng)電子期刊》征訂啟事
- 投稿聯(lián)系:編輯部
- 電話:010-62313558-806
- 郵箱:fsfhzy666@163.com
- 中國腐蝕與防護網(wǎng)官方QQ群:140808414