1国内科学数据共享和数据出版研究进展
近年来,期刊出版和科学数据研究领域越来越关注科研成果的数据共享工作,科学数据作为科技发展和科学研究的基础资料,已经成为最重要的新型战略资源。数据是知识创造的重要环节,也是研究成果的重要体现,期刊参与科学数据共享是一种必然。王应宽等认为,在强制性开放获取(OA)政策被西方国家政府、主流研究机构和科研基金等采用后,开放、共享、再利用科研论文和科学数据成为必然趋势,因为科研工作中产生的大量数据已经不能通过论文的形式展现和传播。从期刊角度分析,大数据时代科技期刊出版具有自主知识产权的科学数据对于提高期刊影响力、保护科研工作者的知识产权以及提高科学数据的利用率等具有重要意义,尤其在国内现行学术评价体系导向下,国内优秀的科研成果支撑数据涌向国外期刊,造成数据流失和数据产权外流,国内的期刊更应该尽快着手数据出版工作。早期出于对科学数据保存的考虑,部分期刊要求作者在投稿时提供科学数据以备同行评议。随着网络环境下科研交流模式的演变,期刊作为反映科研成果的重要载体,也开始重视科学数据保存和共享,以适应学科交流的需求。科学数据出版是推动和深化数据共享的有效手段,也是对传统科技出版内容的创新,旨在描述科学数据本身,意在推动科学数据共享。李红星等提出“数据中心联合传统学术期刊的科学数据出版”模式,通过数据中心与传统学术期刊的合作以数据论文的形式实现数据的正式出版,其中通过数据中心实现数据的永久存储与管理,并开展数据挖掘与共享,数据论文则经过严格的同行评议发表于传统期刊。并且,数据出版的开放共享的主要类型中,与学术期刊有关的主要有数据期刊和学术期刊的数据说明文件两种形式,国内已经有相应的实践案例,如《中国科学数据(中英文网络版)》。数据出版不仅仅是共享数据本身,还应当包括出版数据相关信息,目前数据出版的主要障碍在于伦理规范缺失导致数据出版学术“奖惩”功能失效,需要制定数据出版的伦理规范、用稿机制规范、数据引用规范和元数据标准。从科研人员角度分析,科学研究工作除了期刊论文、会议论文、研究报告等形式的科研成果,研究过程中产生的宝贵数据也是科研团队和个人的重要资源。除了部分期刊在投稿时要求必须提供科学数据以供同行评议和重复性检验,多数科学数据都没有实现“可发现、可访问、可理解、可评价、可(再)利用”,十分可惜。通过分析数据共享和引用的关联,发现数据共享在一定程度上可以提高科研成果的被引量,同时能够促进产生高水平的研究成果,推动科学进步与发展。但是处于科研一线的研究人员对于科研成果发表的认知仍停留于传统的学术论文,对发表科学数据这种新型的科研成果发表形式并不了解,需要从新的视角拓展科学数据管理服务的内容。除了创造数据的科研团队或个人,保存、数据的出版方以及其他的相关因素也与科学数据共享密不可分,例如部分国家和组织的科研政策规定源自公共财政支持所产生的数据应当可公开访问并可再利用。当文章发表科学结论时,证据性数据、支持数据再分析的相关元数据,以及用于计算机数据处理的代码,应当同时公开以便检验。另外,科学数据公开和共享可以缩小不同地区之间的数据鸿沟,让不发达国家从中受益。
2科学数据共享意愿研究
保存和获取科学数据是科学研究繁荣与发展的前提,共享科学数据有助于科学数据整合,促进识别和关联相关研究。在整个科学数据共享体系中,科研人员是科学数据的主要生产者和使用者,他们对于科学数据共享的态度很大程度上决定科学数据共享的进程和发展。相对于国外期刊杂志、基金管理委员会等规定共享数据的管理,国内尚没有制定统一的实施规范及共享政策,数据共享还没有普及。现实情况中很多因素影响研究人员共享数据,主要有资助机构政策、期刊政策、企业资助、预期利益、出版专有权、商业化机会、数据误用、数据敏感、个人经验教训和学术界竞争力等。前期实证研究中证实科研人员的数据共享意愿受到态度、主观规范的直接影响,感知行为控制、感知风险、感知有用性为间接影响因素。科研人员的自我价值感知、互惠预期、人际信任、形象是形成共享信念的重要维度,信念对科学数据共享意愿仅存在间接的显著性影响,主观规范对科学数据共享意愿存在直接的显著性影响。对国内医学科研人员的科学数据共享意愿调研表明,四成的被调研对象只愿意在团队内共享数据,愿意将自己的科学数据完全公开的不到两成。期刊作为科研人员发表科研成果的主要载体,在数据保存和共享趋势下,科研人员势必会在期刊投稿过程中遇到共享科学数据的要求,以往的研究并没有详细划分数据共享意愿的具体情境,也没有具体区分共享的程度、范围和类型,如此对期刊出版方制定相应政策并没有直接的借鉴意义,因此了解科学数据共享的主体来源———科研人员在期刊投稿中的共享意愿尤为重要。
3数据共享期刊政策研究
目前国外诸多学术期刊都已经开始介入科学数据管理的过程,将科学数据管理作为期刊可持续发展的重要资源。作为科研成果发表的主要载体,期刊出版方有搜集和共享科学数据的优势条件。目前已经有部分期刊通过数据仓储共享科学数据,但成效不足。作者担心对数据失去控制,担心因为公布科学数据而被后来者超越,担心数据中存在问题等,多数数据共享承诺需要作者在之后兑现,但执行效果并不理想。一般来说,在作者投稿过程中,会遇到两个不同层次的数据共享要求:其一,随论文一同提交的、用于支撑论文审稿的原始数据和资料;其二,后,共享论文撰写过程中产生的相关数据,主要包括详细描述研究方法、直接研究工具、直接研究结果数据、研究方法背景信息、扩展的研究结果数据、扩展的参考文献列表等。诸多学科领域在论文投稿时均要求提交论文支撑数据,要求作者将科学数据存储至专门的数据仓储平台或者在其他人有需求时随时提供,比较具有代表性的是医学学科,一直以来对于实证类型的文章要求提供论文撰写相关的实验设计、过程、方法、数据等作为投稿的支撑数据,用于检验论文写作中的科学性和可重复性。国外数据共享期刊政策的研究成果主要集中于医学类期刊,国际医学期刊编辑委员会2015年开始建议共享临床试验数据,并于2015、2016年在《新英格兰医学杂志》《英国医学期刊》等多本期刊上登载声明,阐明从医学伦理和试验资助者两个方面对医学临床试验数据共享的强烈需求。该数据共享提议中建议共享临床试验的数据,包括无身份识别信息的病人的数据;构成文章中研究结果的表、图和附件或补充材料的数据;用于重复或重现研究的数据,以及必要的元数据等。在研究中产生大量数据的化学、天文学、地球科学、农学、地质学、气象学等其他外文期刊,如NatureCommunications以及美国化学学会(ACS)系列期刊,要求作者在投稿时向编辑和审稿人提供支撑数据以便评估稿件。ACS的47种期刊要求论文作者将数据作为支撑信息提交,对于包含序列数据、结构数据、电子显微镜数据、微阵列数据、转基因生物和突变体五类特定类型数据的论文,要求将该数据存储到推荐的数据仓储中。国外跨学科期刊如PLoSOne建议和鼓励研究人员在时提交相关的附加数据。国内已经在国家层面推动理、工、农、医等学科共享科学数据,例如创建气象科学数据共享网、国家林业科学数据平台、国家地震科学数据共享中心、国家人口与健康科学数据共享平台、国家农业科学数据共享中心等,这些平台提供的数据已经在不少研究论文中被引用。在期刊投稿政策方面,国内学者一直关注国外优秀期刊的典范,以期刊政策为导向的研究和实践已经展开。《现代图书情报技术》(现更名为《数据分析与知识发现》)于2016年起要求“所有投稿论文提交支撑论文结论的科学数据,并且通过适当方式供研究共同体或者社会公共共享”,开始正式实施基于期刊角度的科学数据共享,实施目的在于“保证学术水平,保障客观检验,支持重复验证,提高科学诚信”,在图书馆学情报学界首开先河。《中国科学数据(中英文网络版)》是国内数据出版的创新代表,通过发表多领域的科学数据论文,致力于推动开放共享与规范科学数据引用,促进科学数据的可发现、可访问、可理解和可重复使用。总体而言,在期刊投稿过程中,要求作者向编辑和审稿人提交论文撰写支撑数据是较为常见的政策,近两年来国内外比较注重在论文提交之后进一步的开放共享的效果,并且部分期刊已经开始尝试通过获取作者共享各自的科学数据推动学术研究中的科学数据共享进程。通过调研,以10本影响因子排名靠前的外科杂志为例,仅有2本在作者投稿说明中提到数据共享,其中1本期刊强制要求作者提供数据。对在PLoSMedicine以及PLoSClinicalTrials上发表过文章的10位作者开展调查的结果表明,通过作者提供的邮箱发出请求获取论文科学数据,并未得到作者配合,或作者联系方式不可用,或作者拒绝提供数据,或作者对请求邮件不予回复,仅有1位作者提供了数据集。可见期刊制定的非强制性的科学数据共享政策并未推动作者共享科学数据。期刊是专业领域学术成果的主要载体,也是最便于获取科学数据的途径之一,以往的研究并未深入到期刊论文投稿过程中的数据共享意愿这一具体场景。如果期刊制定强制性的数据共享政策是否影响作者的投稿意愿;不同程度的数据提交和共享规定,如提供给审稿人和编辑或者完全开放允许所有人访问使用,对于作者的共享意愿有何影响;作者提交数据之后是否愿意进一步共享给有需求的其他学者;在期刊投稿这种特殊情境下作者的共享意愿和对数据共享的态度与其他情境下有何区别?上述问题都值得研究。