面向永久学术记录的科学数据开放共享研究

■张 娜 许 洁

武汉大学信息管理学院,湖北省武汉市武昌区珞珈山路16号 430072

当前全球开放科学新趋势和数字技术发展,使得以学术出版商发布的“记录版本”(Version of Record, VoR)为中心的科学交流系统发生巨大变化。传统的以VoR科技论文出版为中心的科技期刊出版模式也迎来了新挑战和新机遇。随着开放共享科学数据在永久学术记录系统中发挥的作用日益凸显,科学数据的开放共享成为当前以及未来相当长一段时间内科技期刊产业发展的新模式、新业态和新领域。

科学数据是指在科技活动(实验、观测、探测、调查等)中或通过其他方式所获取的反映客观世界的本质、特征、变化规律等的基本原始数据,以及根据不同科技活动需要系统加工整理的各类数据集[1]。科学数据开放共享主要是指由政府部门(及其附属机构)资助产出的科学数据能够被无障碍地利用、学习、修改、复制和传播[2-3]。关于科学数据开放共享的研究不断涌现,研究主题包括科学数据开放共享政策、科学数据开放共享的实践进展、科研人员的科学数据共享意愿等。科学数据的潜在价值也逐渐唤醒了出版领域对数据开放与共享的重视[4],数据出版是确保科学数据被当作科研活动的一级科学产出的重要方式[5]。将科学数据的开放共享与科技出版相结合来探讨数据出版模式成为研究热点,如:屈宝强等[6]从开放共享的视角总结科学数据出版的主要特点和国内外数据出版实践;
涂志芳[7]则指出数据标识、数据引用、数据评审等是使数据出版区别于一般数据共享的关键问题。

科学数据开放共享和数据出版的相关研究已有很多,但从永久学术记录的视角探讨科学数据开放共享的研究不多。为此,本研究在界定永久学术记录的内涵及其在学术出版中的重要作用的基础上,探讨科学数据开放共享之于永久学术记录的必要性,并梳理面向永久学术记录的科学数据开放共享实践,以促进相关理论研究与实践发展。科技期刊作为传统模式下永久学术记录的重要作用主体,可借鉴本研究的调查结果在变革环境下进行开放数据出版。

2022年1月11日至1月13日,第十七届欧洲学术出版(Academic Publishing in Europe,APE)会议于线上举行。该会议是全球级别最高、规模最大的国际性学术出版会议,每年元月在德国柏林举办。受全球新冠肺炎疫情影响,2022年该会议第二次于线上举行。2022年APE会议的主题为“永久记录的未来”(The Future of the Permanent Record),会议包含23个分会场,近300人参会。与会的全球学术出版商和图书馆馆员热议变革环境下的永久学术记录的内涵、学术记录的诚信与多样性、科学数据开放共享等问题。与会者认为科学数据出版将成科技期刊出版的下一个增长点,而开放共享无疑是科学数据出版的主流模式甚至是唯一模式,一些走在前面的出版商和创新公司已经开始布局科学数据出版。

本研究系统分析2022年APE会议的视频、音频和文字记录等资料,依据与会专家发言和研讨全面综述永久学术记录的相关研究和科学数据开放共享的必要性。在此基础上,依据网络调查法和文献调查法梳理面向永久学术记录的科学数据开放共享相关实践,并总结科学数据开放共享面临的挑战及其对我国科技期刊数据出版的启示。

一直以来,作为永久学术记录的象征,学术出版商发布的VoR在科学交流系统中占据着重要的位置。在开放科学以及新技术发展背景下,永久学术记录有了更为丰富的内涵,这给以VoR为中心的传统出版模式带来挑战。而开放共享科学数据在变革的学术记录系统中将发挥越来越重要的作用:一方面,科学数据作为反映科学研究过程的有效记录,其开放共享有助于维护学术诚信;
另一方面,科学数据作为一种学术产出,通过开放共享的手段进行发布与长期保存,可以丰富永久学术记录的类型。

2.1 永久学术记录及其在学术出版中的重要作用

2.1.1 作为质量象征的VoR

在科研人员的日常交流中,VoR通常指出版商提供的PDF版本论文,但科学交流系统中的VoR并不具有唯一性,因为在创建VoR的过程中存在多个PDF版本,例如已被期刊录用的文章版本(Accepted Manuscript,AM)、VoR创建过程中的校样版本(Proof)[8]。不同的组织或机构对VoR给出了不同的定义。2008年4月,美国国家信息标准组织(National Information Standards Organization,NISO)和全球学术和专业出版商协会(Association of Learned and Professional Society Publishers,ALPSP)定义了不同的期刊文章版本,并把VoR定义为由任何作为出版者的组织通过正式出版和独家声明的形式发表的“期刊文章的固定版本”,含提前在线发表的版本[8]。在CrossRef的定义中,VoR是“已排版的”(Typeset)、“已复制编辑的”(Copyedited)、“已出版”(Published)的版本[9]。尽管具体的定义不同,但可以总结出VoR定义中的共同特征:VoR的发布者都是出版商,VoR具有一定的固定性和认证作用,且出版商为VoR付出了劳动。

2022年的APE会议中,与会者分别从不同的视角讨论了VoR的内涵和价值。伊利诺伊大学厄巴纳-香槟分校的Lisa Janicke Hinchliffe教授重点介绍了VoR在科学交流体系中的作用。她认为在历史上,学术出版的核心功能(注册、认证、传播、保存)通常与VoR紧密相关,需要通过VoR实现,并进一步指出“VoR被大多数研究者认为是最权威和可信的来源”[10],研究人员对VoR的偏好突出了出版商的附加价值,特别是在公认权威的期刊上发表文章所带来的“信誉印章”。欧洲研究理事会(European Research Council,ERC)的Maria Leptin博士认为学术出版的核心功能之一就是创建永久的学术记录,作为最终记录版本的学术记录要保证是“可信赖的”和“高质量的”,在这个过程中出版商为质量控制作出了重要贡献:从最初的组织编辑评估稿件质量;
到与审稿专家互动,做出是否接收的决定,与作者沟通修订事宜;
最后进行出版前检查,包括检查数据的真实性、对图像进行分析验证、确保源数据正确……每一个环节都需要出版商的组织和投入。更重要的是,在这个可能反复多次的过程中,出版商不仅为每一篇见刊的论文付出了成本,而且为被拒稿的论文付出了更多的且更难以衡量的时间和资源。

2.1.2 变革环境下的永久学术记录

在当前持续巨变的科学交流环境下,注册、认证、传播、存档等学术出版核心功能对VoR的依赖性降低,这主要表现在3个方面:(1)作为学术成果的学术记录不再局限于出版商发布的VoR,学术记录种类更加多元。(2)预印本、绿色开放获取等新的出版模式的出现,扰乱了传统的评议与出版系统。在预印本平台中,论文不经质量审查即可发布,这极大地加速了科学交流进程,对科研成果的首发认证具有重要作用,预印本获得了越来越多的认可。绿色开放获取模式允许作者将稿件的不同版本自行存档至开放获取平台,这改变了以VoR为基础的出版格局。(3)基于VoR的学术评价方式也在发生改变。2012年12月,美国细胞生物学学会年会发布《旧金山科研评价宣言》(The San Francisco Declaration on Research Assessment, DORA),该宣言建议资助机构和科研机构在评价科研成果时应考虑所有科研成果(包括数据集和软件)的价值和影响[11]。DORA从学术评估方面认可了科学数据作为一种学术记录形式的价值,如今超过2500家机构签署了此宣言,DORA在激励科研人员共享科学数据方面作出了贡献。

2022年的APE会议中,与会专家就变革环境下的永久学术记录展开了热烈的讨论。NISO执行主任Todd Carpenter认为在过去的30年里,学术出版已经从一个以印刷品为中心的产业转变为一个数字化产业。因此,数字环境下的学术记录不应简单地将印刷本转为PDF版本,而需要真正适应数字环境,创建一个相互关联的内容网络,这种内容网络具备以下特点:多格式和多媒体(Multi-Format and Multimedia)、可互操作(Interoprable)、机器可读(Machine-Readable Formats)、自适应性 (Adaptive)、可访问(Accessible)、可转换(Transformable)、可原子化(Atomize-Able)、元数据高质量(High Quality Metadata)、可保存(Preservable)、可链接(Linkable)、可追踪(Trackable)。但是在动态且相互关联的学术记录生态系统中,Todd Carpenter强调VoR仍然占据着中心地位,其作为质量与信誉的象征拥有着巨大的价值。泰勒-弗朗西斯出版集团的Liz Marchant博士认为在传统的出版体系中不被出版商认可的学术记录,比如数据集、评审报告、多媒体内容等在未来也将成为学术记录的一部分;
它们相对于VoR,提供了非常有用且不一样的价值。

2.2 面向永久学术记录的科学数据开放共享及其必要性

面向永久学术记录的科学数据开放共享具有2个层面的内涵:第一个层面是将反映科研过程的科学数据开放共享,使其与传统模式下的永久学术记录VoR相连;
第二个层面是作为科研产出的科学数据开放共享,在这种情况下,科学数据本身就可成为永久的学术记录。反映科研过程的科学数据开放共享实质上将开放科学研究过程与出版系统整合在一起,能提高研究过程的透明度,对于建立VoR的质量控制机制具有重要意义。而作为科研产出的科学数据开放共享不一定与VoR相连接。在第一层内涵上,科学数据开放共享的实现更需要自上而下的推动,项目资助方或科技期刊出版商的数据开放共享政策将起到重要作用。在第二层内涵上,科学数据的开放共享则更需要与科学数据的质量认证问题、与科研人员的奖励系统相连。但无论在何种意义上,科学数据的开放共享所要达到的核心目标是一致的,即使共享的科学数据具备可访问、可引用、可评价、可保存等特点。

2.2.1 科学数据开放共享有利于打击学术不端和维护科研诚信

在传统模式下,对科学数据诚信度的审查主要由出版商负责,手段包括同行评议、出版前编辑核查、开发自动化核查工具、撤稿等。对此,国际科学、技术与医学出版商协会(International Association of Scientific,Technical and Medical Publishers)解决方案首席信息官Hylke Koers认为质量、道德和诚信是学术出版行业的关键价值所在,对其进行维护是学术出版机构的关键作用和增值方式。但近年来建立在数据分析基础上的科研论文数量暴涨,数据造假的手段越来越复杂和隐匿,出版商主导的科学数据审查在速度和效果上都难以满足需求,学界亟需新的科学数据诚信维护方式。针对学术不端问题,《细胞生物化学》(JournalofCellularBiochemistry)主编Christian Behl教授指出,近年来虚假数据、数据欺诈等不诚信行为在学术交流系统中不断出现。科学数据(尤其在生物医药领域)对于疾病治疗和决策制定至关重要,因此学术记录中的科学数据必须是可信赖的,科学数据造假不仅污染学术出版体系,还可能对人类健康产生负面影响。以操纵或构建虚假数据和提供大量伪造、“代发”论文为生的“论文工厂”(Paper Mill)的出现加剧了学术不端。围绕“论文工厂”,马格德堡大学医学院Bernhard Sabel教授进一步指出,“论文工厂”为金钱利益所驱动,已经对全球永久的学术记录造成大规模的“知识污染”,这不仅会严重影响公众对学术记录的信任度,而且对全球公共卫生、科学、技术和经济发展及出版领域产生连锁反应。科学数据开放共享有助于提高研究过程的透明性,规范科研人员的研究行为。公众或学术共同体在重用数据、验证或重复科研结果的过程中可能发现已发表研究成果的问题,出版机构可借此减轻审查的负担,提高学术不端被发现的概率和效率,并为学术不端行为的追溯提供证据支持,从而维护科研诚信。

2.2.2 科学数据开放共享有利于丰富永久学术记录的类型

传统的学术出版模式一定程度上导致了一种认知偏差,即认为能作为永久学术记录的只能是最终成果,而不是为最终成果提供确证的阶段性产出。实际上,这2种记录都很重要。在开放科学的背景下,许多不同于VoR论文的阶段性学术产出得以发布,它们在承载科研人员的研究发现、多维度展示科学研究过程方面发挥了重要作用,不仅能够提升研究的可信度,而且具有VoR论文难以具备的价值和优势。PLoS首席出版官Niamh O’Connor博士在会议中指出阶段性产出的重要性,她认为永久学术记录应该由单一的VoR论文转向可以反映研究过程的多种类型的产出,这一过程使研究成果价值认证权力实现了转移,即在传统模式下,作者首先确定VoR论文的价值,然后读者才可以通过引用和下载复证其价值,然而在开放科学生态系统中,价值认证权力转移到读者或共享知识的使用者、重用者手中,比如在阶段性研究产出的提供者看来不是最有价值的成果,对使用或重用这部分知识的人而言可能具有极大的价值。基于此,认为科学数据作为阶段性产出的一种形式,具备极大的潜在使用或重用价值,其既是论文结论的支撑材料,也可成为一种永久的学术记录,而开放共享是使科学数据成为永久学术记录的一种手段。在印刷环境中,科学数据很难被发布和使用,但在目前的技术条件和开放科学背景下,可以通过开放共享的手段对科学数据进行注册、发布、认证、传播、引用与评价,从而实现其永久学术记录的功能。2020年发表于《地球科学期刊数据》(GeoscienceDataJournal)的“爱尔兰1940年以前的日雨量记录”数据集便是来源于Met Éireann档案的降雨记录历史手稿[12]。

开放共享的科学数据需要具备可访问、可引用、可评价、可保存的特点,才可成为具有可信度和权威性的永久学术记录(图1)。近年来,国内外已有不少围绕科学数据的注册、科学数据的引用、科学数据的评估、数据仓储建设的实践,它们可为我国科技期刊数据出版提供参考与借鉴。

图1 面向永久学术记录的科学数据开放共享实践

3.1 科学数据的注册

科学数据的注册是将无序、繁杂的科学数据转变为永久学术记录的最为基础和关键的步骤。在纸本印刷时代,国际标准连续出版物号(International Standard Serial Number,ISSN)与国际标准书号(International Standard Book Number,ISBN)为纸质学术出版物的注册、认证、引用作出了突出贡献。随着学术出版进入数字时代,单一的、固化的身份识别码已经难以适应动态的、细粒度的、可链接的学术成果注册需求,因此,永久标识符(Persistent Identifier,PI或PID)应运而生。永久标识符能对数字对象(例如文章、数据集、图像或数据流)进行持久标识,可使数字资源的定位与访问具有唯一性,以使其得到可持续、精准的发现、引用和重用[13]。如表1所示,主要有五类与科学数据注册有关的永久标识:(1)面向数字对象创建的永久标识符(如DOI),可为科学数据分配全球唯一且可被永久保存的标识符;
(2)为科研人员分配的数字标识符(如ORCID、iAuthor),能将科研人员的身份与科学数据相连,有利于保障数据所有者的科学数据知识产权,加强科学数据的质量控制;
(3)为贡献科学数据的利益相关者创建的永久标识符[如Funder Registry、Research Organization Registry(ROR)],可提高科学数据的显示度,促进科学数据管理;
(4)为研究项目创建的持久性标识符RAiD(Research Activity Identifier),可连接研究项目的各种要素(基金、研究人员、协议、论文、数据集和其他产出),加强科研项目及其产出管理;
(5)面向科学数据仓储的re3data,可对科学数据仓储进行索引与结构化描述,有利于科学数据的存储与传播。值得一提的是,中国的iAuthor旨在帮助中国研究者创建一个永久的、国际通用的科研身份证号ORCID,其与Web of Science、CSCD、北京玛格泰克科技发展有限公司、中国光学期刊网建立了合作关系,这说明我国迅速跟进了科研工作唯一标识符构建。

表1 主要科学数据注册实践

3.2 科学数据的引用

开放共享的科学数据只有先成为可引用、可重用的研究成果,才可确立其在学术记录系统中的合法地位,成为永久的学术记录。引用科学数据也是保护科学数据知识产权的重要手段,基于数据引用指标构建的科研评价体系可激励科研人员共享科学数据。目前国内外已有围绕科学数据引用标准及服务产品的一系列实践(表2)。国际科学和技术信息理事会(International Council for Scientific and Technical Information,ICSTI)与国际科技数据委员会(Committee on Data for Science and Technology,CODATA)联合,率先探索建立引用数据生态系统的方法,并于2013年发布《引证数据的实践、政策和技术现状》(Out of Cite, Out of Mind: The Current State of Practice, Policy, and Technology for the Citation Data),确定了数据引用的10项“第一原则”[14]。2014年,FORCE11数据引用综合小组综合10项“第一原则”和其他关于数据引用的建议,发布了《数据引用共同原则》(Joint Declaration of Citation Principles),提出数据引用的8项原则[15],目前已经得到超过125个组织的认可和支持,这表明学界与出版界在数据引用实践上达成了广泛共识[16]。2018年,中国科学院计算机网络信息中心主持研制的《科学数据引用》作为国家标准发布,标志着科学数据可以像学术论文一样被学术同行标准化引用[17],这极大地促进了我国科学数据开放共享的进程。在服务产品方面,早在2012年汤森路透就推出了数据引文索引数据库(Data Citation Index,DCI),在实践层面推动了科学数据的规范化引用。值得一提的是,国际研究数据联盟(Research Data Alliance,RDA)与世界数据系统(World Data System, WDS)发布的Scholix(Scholarly Link Exchange)框架能为科技出版物和科学数据提供简单、通用的链接机制,可供出版机构使用[18]。

表2 主要科学数据引用实践

3.3 科学数据的评估

永久学术记录是质量的象征。开放共享的科学数据须同VoR论文一样经过严密的评估与质量控制,才能具备权威性和长久保存的价值。不少国际组织与平台都制定了自己的数据质量评估框架,如国际货币基金组织的数据质量评估框架(Data Quality Assessment Framework,DQAF)、经济合作与发展组织的统计活动质量框架、英国国家级综合数据管理机构DCC(Digital Curation Center)的数据质量评估框架等。2016年,FORCE11发布了开放数据的FAIR原则,即可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)、可重用 (Reusable),为科学数据管理提供了通用的原则与指导,也为面向学术记录的开放科学数据确定了基本的要求规范,有助于确保数据的可复制性和可信性。在实践中,数据管理者需要先了解数据对FAIR原则的执行程度,才能进一步改进数据管理模式,这就要求数据管理者建立评估原则或工具[19]。在评估原则方面,国际研究数据联盟(Research Data Alliance,RDA)数据成熟度模型工作组于2020年发布的《FAIR数据成熟度模型:规范和指南》(FAIR Data Maturity Model:Specification and Guidelines)[20]是一个代表性成果。该评估模型将FAIR的4项原则细化为41个评估指标,并进一步把这些评估指标分为“必要”(Essential)、“重要”(Important)、“有用”(Useful)三级,以确定其优先级,还给出评估过程的方法指南。在评估工具开发方面,FAIRsFAIR(Fostering FAIR Data Practices in Europe)以RDA制定的模型和指南为基础,开发了一套评估数据对象对FAIR原则的执行程度的最低标准[21],并且开发了一套支持工具:(1)Fair-Aware——通过设置一系列评估问题和提供示例,帮助研究人员和数据管理人员在将数据集上传到数据库之前自我评估数据集是否符合FAIR原则;
(2)F-UJI——一种实施自动化评估的服务。

3.4 开放共享的科学数据仓储

开放科学数据仓储是促进科学数据开放共享的重要基础设施。目前国内外已有很多数据仓储,其中大型数据仓储在扩大科学数据共享的范围以及提升数据共享效果方面有着明显的优势。首先,国家层面的数据仓储建设可以极大地促进国家公共资金资助下的科学数据开放共享,在科学数据的数量以及显示度上占据优势,如2008年澳大利亚政府资助建设的澳大利亚国家科学数据服务网络(Australian National Data Service,ANDS)目前包含10多万个数据集,提高了澳大利亚科学数据集在搜索引擎中的显示度。与此同时,国际组织也致力于跨机构的科学数据开放共享。EU Open Data Portal作为欧洲的官方数据门户,是2011 年欧盟发起的“开放数据战略”(Open Data Strategy for Europe)的成果,于2013年向公众开放,目前提供多个学科领域的近15万个数据集的访问渠道。此外,跨机构的科学数据共享基础设施可打破机构间的数据藩篱,扩大领域内科学数据开放共享的范围。2009年美国国家科学基金会(National Science Foundation,NSF)资助的DataONE项目将网络基础设施连接在一起,提供分布式框架和技术,实现了对多个成员库的数据访问,使地球和环境领域科学数据的显示度提升,并于2018年推出了数据集指标可视化服务,该服务目前可为用户提供近84万个数据集的引用、下载和浏览量的实时数据。中国也在积极推进科学数据仓储建设,如中国科学院计算机网络信息中心运营维护的科学数据银行(ScienceDB)是中国首个通用性论文关联数据存储平台,致力于科学数据的长期共享与出版,目前可检索超过650万个开放科学数据集。

3.5 科学数据开放共享的挑战及对我国科技期刊数据出版的启示

尽管具备可行性和一定的实践基础,但是面向永久学术记录的科学数据开放共享并不容易实现,目前主要存在3个挑战:(1)尚未形成统一的政策、标准与规范。尽管不少机构或组织已经开始探索制定可通用的科学数据注册、引用以及评估等方面的标准或规范,并已产生一系列相关实践成果,但很多标准或规范尚未在全球层面互通,这对不同机构使用和链接开放共享的科学数据产生影响。(2)围绕科学数据开放共享的奖励系统尚未建立,导致研究人员共享科学数据的意愿不高,阻碍了科学数据开放共享的进程。(3)围绕科学数据开放共享的质量控制体系尚未建立。一方面,现行的各种质量评估标准各不相同;
另一方面,尽管当前可根据FAIR原则对科学数据的开放共享程度进行评估,但尚无完善的可评估科学数据科学质量的标准。对科学数据的内容质量控制还依赖于同行评议机制,但面向期刊论文线性出版流程的同行评议机制又难以被移植到动态的、非线性的科学数据开放共享过程中,目前在科学数据的同行评议方面,尚无统一的参考标准[6]。

科技期刊出版的形态和样式将随着科学交流系统的变化发生巨大变化。在传统模式下,科技期刊通过对VoR进行质量控制,确立了在科学交流系统的中心地位。在如今更加多元开放的学术记录系统中,科学数据开放共享作为独立于期刊论文出版的科技出版模式,将为科技期刊转型升级带来新机遇。科技期刊可从以下3个方面入手,实现向开放数据融合出版转型升级:(1)在出版内容方面,围绕科学数据全生命周期进行数据出版,存储研究过程数据、原始稿件和在科研过程中产生的大量资料,支持数据标注和引用,提高数据质量和实现数据有效重用;
(2)在出版政策和规范方面,推动建设适用于科技期刊出版业的开放数据出版标准,以推动科学数据的有效注册、规范引用、可靠评估与长期保存,加强数据诚信和数据出版伦理建设,从而实现科学数据开放共享的良好生态;
(3)在硬件建设方面,建设集数据获取、存储、分发共享、计算分析、智能服务等功能于一体的融合型云服务系统,为数据出版提供良好的平台。

依托2022年APE会议内容,系统综述了永久学术记录和科学数据开放共享的相关研究,并梳理了面向永久学术记录的科学数据开放共享的实践情况,可为后续研究提供参考,也可为我国科学数据的开放共享实践提供一定的借鉴。

面向永久学术记录的科学数据共享涉及多方利益主体,本研究仅从科学数据的注册、科学数据的引用、科学数据的评估、科学数据仓储4个方面总结实践进展具有一定局限性。未来研究可进一步从我国科技期刊出版的视角出发,结合科技期刊在传统出版模式下的既有优势和资源禀赋,探求其面向科学数据开放共享的融合数据出版模式。

猜你喜欢出版商科技期刊学术科技期刊的分类中国现代医药杂志(2022年11期)2023-01-27学术是公器,不是公地社会科学(2021年5期)2021-10-27科技期刊的分类中国现代医药杂志(2021年8期)2021-10-12科技期刊”西北农林科技大学学报(自然科学版)(2021年3期)2021-03-29科技期刊的分类中国现代医药杂志(2020年10期)2020-01-08如何理解“Curator”:一个由翻译引发的学术思考中国博物馆(2019年2期)2019-12-07对学术造假重拳出击商周刊(2019年2期)2019-02-20各行各业意林(2009年20期)2009-02-112006年国际消费类杂志调查出版参考(2006年36期)2007-04-04创新需要学术争鸣军事历史(2003年5期)2003-08-21

推荐访问:面向 学术 开放