無數(shù)據(jù)、不論文,但數(shù)據(jù)要怎么保存?

?
●
○
原文首發(fā)于《數(shù)據(jù)分析與知識發(fā)現(xiàn)》,本文由作者在原文的基礎上進行了修改與擴展。
● ● ●
對于很多學科領域,論文結論建立在數(shù)據(jù)基礎上:無數(shù)據(jù),不論文;不可驗證,則無可信研究。
而支撐論文結論的研究數(shù)據(jù)(Supporting Data,論文支撐數(shù)據(jù)),是論文研究的有機部分,是論文結論的驗證基礎。它的開放共享,是論文結論得到客觀檢驗、重復驗證和可靠應用的保障 [1]。
國務院辦公廳《科學數(shù)據(jù)管理辦法》、中辦國辦《關于進一步弘揚科學家精神加強作風和學風建設的意見》、中國科學院《科學數(shù)據(jù)管理與開放共享辦法》、國家衛(wèi)健委《醫(yī)學科研誠信和相關行為規(guī)范》、中國農(nóng)業(yè)科學院《數(shù)據(jù)管理與開放共享辦法》等,均要求支撐論文結論的數(shù)據(jù)開放共享。眾多期刊要求作者提供數(shù)據(jù)可獲得性聲明 [2],強烈鼓勵或強制規(guī)定作者把支撐數(shù)據(jù)提交到公共平臺共享 [3]。
期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》從 2016年起要求投稿者須在論文評審中提交論文支撐數(shù)據(jù),要求被錄用論文的作者通過公共平臺保存或通過自存儲支持對這些數(shù)據(jù)的公開檢驗、并在論文中提供數(shù)據(jù)可獲得性聲明 [4]。在實踐中,由于種種原因,許多作者選擇自存儲這些數(shù)據(jù),但是,“自存儲” 數(shù)據(jù)的可獲得性差,甚至被遺失、被損壞、被修改。
支撐數(shù)據(jù)的不能公開驗證,直接威脅到論文的可信賴性和科學研究的公信力。
為保障論文支撐數(shù)據(jù)的可靠檢驗,《數(shù)據(jù)分析與知識發(fā)現(xiàn)》從2022年3月20日起,要求所有投稿者除在論文評審中提交論文支撐數(shù)據(jù)外,在論文錄用后將論文支撐數(shù)據(jù)提交到期刊選擇的公共數(shù)據(jù)平臺進行公共保存并按規(guī)范的授權許可開放獲取。
在征詢作者和期刊編委意見的基礎上,該刊在制定本辦法時遵循了以下原則,特分享給致力于推動數(shù)據(jù)公共保存與共享的其他期刊和學者。
1 宏大政策到可靠實踐的死亡之谷
許多宏觀公共政策在實施中高舉輕放、說多做少、缺斤少兩,帶來從宏大政策到可靠實踐的死亡之谷。盡管可能找出多方原因,但夯實實施責任鏈、合理平衡相關者利益、分類精準設計實施機制是保證政策實施的重要突破口。
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》認為,論文支撐數(shù)據(jù)公共保存與共享符合國家、作者和期刊的共同利益。
對于國家,提高科研論文結論的可驗證性,是事關科學研究的質(zhì)量與誠信、科研投入的回報、乃至國家科研聲譽的基本要求。
對于作者,論文支撐數(shù)據(jù)的公共保存與共享,明顯有利于提高論文及其作者的可信賴度,是作者的科研誠信和科研素質(zhì)的基本衡量。
對于期刊,這是學術期刊辦刊質(zhì)量、學術良心和期刊合規(guī)性的基本標桿 [5]。期刊有責任從自己做起,真做、做實,主動解決問題而不是找理由推卸責任。
為此,《數(shù)據(jù)分析與知識發(fā)現(xiàn)》致力于建立可靠的實施管理鏈,知行合一、以終為始:熟悉相關法律法規(guī),保證依法辦事;制定多層實施細則,做到可操作可檢驗可問責;建立全流程保障措施,做到方便、高效和可持續(xù);把已有最佳實踐作為本領底線,保障實施水平和效率;綁定作者、期刊和數(shù)據(jù)平臺,形成可持續(xù)可靠實施的利益共同體。
2 尊重和合理平衡相關者利益
論文支撐數(shù)據(jù)開放共享涉及多元利益相關者:資助者(納稅人)、研究機構、研究者、數(shù)據(jù)工作者、出版者、數(shù)據(jù)平臺、數(shù)據(jù)使用者(科學界、企業(yè)、公眾)等。
根據(jù)新制度經(jīng)濟學 [6],人的行為是有限理性的,人都有為自己謀最大利益的機會主義行為傾向。不同的利益相關者各有自己的利益訴求,這些訴求可能在不同階段還有不同的優(yōu)先度,可能可以在不同條件下讓渡。好的政策就是承認這種自然的和必然的現(xiàn)象,有效建立不同利益相互博弈、調(diào)適和平衡機制。
論文支撐數(shù)據(jù)開放共享政策實施中,尤其需關注研究人員及其機構的利益訴求。英國研究與創(chuàng)新理事會提出 [7],要考慮在數(shù)據(jù)安全、隱私保護、研究競爭、商業(yè)競爭、數(shù)據(jù)方法創(chuàng)造性、數(shù)據(jù)權益、管理成本、共享成本等方面的合理需求。多項調(diào)查也證實 [8-11],科研人員贊成數(shù)據(jù)共享但存在很多合理擔心。
只有當合法利益得到保護、合理顧慮得到消解時,人們才會做出公共政策期待的行為,尤其當這種行為需要付出額外努力或讓渡部分利益時。
因此,需要充分承認多元利益相關者的復雜利益訴求,有意識地合理地在制度上對多元利益進行調(diào)適與平衡,讓各方利益相關者感到道義上應該做、心理上愿意做、有條件方便做、有激勵和獎懲使得做了有好處不做有壞處,從而形成可靠、健壯和可持續(xù)的數(shù)據(jù)共享生態(tài)體系。
科研數(shù)據(jù)管理及其開放共享都是復雜現(xiàn)象,應根據(jù)具體的數(shù)據(jù)類型、共享對象類型、共享使用程度等進行分類管理,針對不同情況精準設計實施措施。
例如,科研數(shù)據(jù)可分為采集或實驗直接獲得的原始裸數(shù)據(jù)(raw data)、經(jīng)過清理和規(guī)范處理后可用以分析、計算、實驗的研究數(shù)據(jù)(research-ready data)、經(jīng)過處理、計算等得到的可分析數(shù)據(jù)(analyzable research data)、直接支撐特定論文結論的數(shù)據(jù)(article supporting data)、以及關于方法、流程、工具、研究材料等的描述數(shù)據(jù)(methodology/instrumentation data)。它們與驗證論文結論的相關度明顯不同,在數(shù)據(jù)保護、研究競爭、長期利用潛力、共享成本等方面區(qū)別很大。而且,一項研究中會產(chǎn)生大量的研究數(shù)據(jù),可能用于整個項目中的多個研究問題及相應的多篇論文。
期刊要充分理解和保護作者及作者機構的合法權益,從目標論文的評審和論文結論的可靠驗證出發(fā)確定論文支撐數(shù)據(jù)*,防止不加區(qū)分地寬泛主張公共權利可能帶來的消極影響。
因此,根據(jù)審慎原則,《數(shù)據(jù)分析與知識發(fā)現(xiàn)》將論文支撐數(shù)據(jù)主要定位于直接支撐論文的結論的數(shù)據(jù)(article supporting data),同時鼓勵和支持作者對研究數(shù)據(jù)進一步管理、保存和共享需要。
又如,權益管理也要區(qū)別不同情景、照顧合理擔心、遵循比例原則。要承認不同類型、體量和成本的數(shù)據(jù)在共享范圍和使用授權上可能不同,認可科研人員希望分享自己數(shù)據(jù)被直接利用后產(chǎn)生的利益的合理性,承認數(shù)據(jù)共享可能有成本,承認科研競爭或誠信不足帶來的新挑戰(zhàn),認可對共享的某些限制的正當性,防止 “好心” 的簡單措施帶來阻斷效應。
要促進各方加強對科研人員共享數(shù)據(jù)的激勵,例如數(shù)據(jù)確權、靈活授權、作者貢獻認可、免責聲明等,通過推拉結合的多措并舉 [12],設計能強化那些支持政策目標的行為的激勵類、能力類、服務類措施,設計能化解那些阻礙政策目標的行為的保護類、盡責管理類、評價類措施。
4 建立可信賴的實施過程
可信賴性是公共政策實施的生命線。期刊和數(shù)據(jù)平臺是實施中的利益相關者,還因其對作者個人的實際 “強勢地位” 而對政策實施的可信賴性承擔主體責任。它們?nèi)绻荒芮诿惚M責、或不能被證明勤勉盡責,將對政策實施帶來嚴重傷害。
可信賴性體現(xiàn)在對一個實體做某件事的誠意、能力、效率、公平性和可靠性的信任??尚刨囆员仨氀C化,這一方面體現(xiàn)在相關制度、方法、規(guī)則、流程等的可操作、可管理、可檢驗、可問責,沒有說不清道不明的 “盲盒”;另一方面體現(xiàn)在這些制度、辦法、規(guī)則、流程及其結果的可公開、可檢驗、可評價、可審計;再一方面體現(xiàn)在健全明確的責任鏈、追責機制、法律和經(jīng)濟責任。
在現(xiàn)實環(huán)境中,可信賴性還體現(xiàn)在,對保護上下游環(huán)節(jié)的相關利益者的合法利益盡到注意義務,承擔在沒有盡到注意義務時的連帶責任。例如,期刊除要求自己及其同行評議專家對論文支撐數(shù)據(jù)盡責保密外,還應盡責選擇能保護作者合法權益和為作者提供優(yōu)良服務的平臺,應主動檢驗平臺在提供相關服務中的可信賴性,應與平臺一道盡責檢驗使用者在數(shù)據(jù)共享中的合法合規(guī)性。
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》經(jīng)過仔細考察和友好協(xié)商,選擇 “科學數(shù)據(jù)銀行” [13](ScienceDB)作為論文支撐數(shù)據(jù)公共保持與共享的服務平臺,在勤勉誠信的共同理念和科研數(shù)據(jù)開放共享的最佳實踐基礎上,共同實施該刊論文支撐數(shù)據(jù)的公共保存和共享。
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》在3月21日邀請了國內(nèi)科學數(shù)據(jù)界、科技期刊界和科技知識服務界多位專家對辦法實施進行咨詢。在充分肯定該刊努力的同時,專家們也提醒該刊注意實施中可能面臨的挑戰(zhàn)。
對論文支撐數(shù)據(jù)的公開可驗證,作者承擔主體責任。本文前面提到的考慮和措施,能支持作者更為方便和可靠地做到這點,這是對作者最根本的 “激勵”。而且,通過公共保存及其共享服務,幫助作者顯著減輕在數(shù)據(jù)長期保存、支持公開驗證上的負擔,也為作者提供數(shù)據(jù)確權、保存證明、數(shù)據(jù)利用統(tǒng)計等的服務。
期刊和平臺將繼續(xù)努力減輕作者不必要的負擔,但作為基于數(shù)據(jù)進行研究的研究者,也應主動了解科學誠信對論文支撐數(shù)據(jù)公開驗證的要求,掌握相應的基礎能力。
我們相信有良知的作者會做出正確選擇。當然,面對 “現(xiàn)實” 環(huán)境,不得不承認 “劣幣驅除良幣” 的可能性。面對這種情況,期刊應該有原則有底線有良心,也應相信大多數(shù)作者們。因此期刊將努力通過高水平服務吸引高水平作者,而不是通過 “不作為” 或 “放一碼” 來容忍可不驗證的虛假成果或吸引 “作者”。如果真出現(xiàn)了大量 “作者” “流失”,這就不僅是一家刊物的悲哀了。
如何避免 “孤軍奮戰(zhàn)”、推進形成良性的生態(tài)環(huán)境?
應該看到,我國在科學數(shù)據(jù)公共共享上已取得長足進步,例如國家科學數(shù)據(jù)中心體系在數(shù)據(jù)匯交、共享上取得了顯著成就,許多機構也在積極建設具有可操作、可檢驗、可追責、可評價、可持續(xù)性的法人機構科學數(shù)據(jù)管理機制,這些為論文支撐數(shù)據(jù)的公共保存與共享提供了良好基礎。
當然,不同研究領域、不同性質(zhì)的研究、甚至同一領域內(nèi)針對不同主題與研究內(nèi)容的論文,論文支撐數(shù)據(jù)的具體含義可能有所不同,其可靠驗證與共享的方法也不盡一樣,需要由各學科各期刊制定出具體辦法。
那種期盼由 “上面” 或別人為自己提供 “直接抄用” 且 “沒有爭議” 的辦法的想法,本身就是不科學和不負責任。而且,我國科技期刊界建設高水平期刊的努力,也離不開各個期刊在保證論文支撐數(shù)據(jù)的可公開檢驗上的達標努力,科技期刊管理部門在這方面也是可以大有作為的。
論文支撐數(shù)據(jù)開放共享是一個持續(xù)努力的過程,需要期刊、作者、評審專家、合作平臺一起,需要科技界、科學數(shù)據(jù)界、科技期刊界一起,勤勉盡責前行。畢竟,“摸著石頭過河”,不是只站在岸上 “研究” 石頭,要下河才能過河,敢于嗆水才過得去河。
原文鏈接:https://manu44.magtech.com.cn/Jwk_infotech_wk3/attached/file/20220323/20220323164520_527.pdf
*論文支撐數(shù)據(jù):
制版編輯 | 姜絲鴨