创建卓越数据管理计划的十项简单规则

日期:2016-09-20 / 人气: / 来源:本站

研究论文和数据产品是科学企业的核心成果。政府、非政府组织,以及科研的私人基金会赞助商正愈加认识到研究数据的价值。其结果是,多数出资人现在要求足够详细的数据管理计划应该作为研究建议提交的一部分。数据管理计划(DMP)是一个文档,描述了在项目期间你将如何进行数据的处理,以及在项目结束后数据将会发生什么变化。这类计划通常涵盖数据全部或部分生命周期——从数据发现、收集和组织(如电子表格,数据库)、通过质量保证/质量控制、文档(例如数据类型,实验室方法),以及数据的使用,到数据保存及其与他人的分享(如数据政策和传播方法)。图1刻画了假设研究和数据生命周期之间的关系,并突出了文件中提出的规则的联系。该DMP经过了同行的审查,其中的一部分用来评价一个项目的价值。该计划还记录与投资项目相关的数据管理活动,并可以在绩效考核阶段重新审核。

创建卓越数据管理计划的十项简单规则

图1.研究生命周期(A)的数据生命周期(B)的关系。突出圆圈指的是与数据生命周期的步骤关联性最密切的规则

作为研究生命周期(A)的一部分,很多科研人员通过采集(2)掺入(3)了各种分析和可视化元素的数据进行想法和假设的测试(1),形成了之后发表(4)在文献上面的诠释研究结果的论文,并通过其它机制传播(例如,会议演讲,博客,微博),而且这常常会导致重新返回(1)新的想法和假设。在数据生命周期(B)中,研究者们一般制定(1)数据在该项目期间和项目后期的管理计划,发现(2)并采集现存的数据资源,收集(3)并组织新的数据资源,确保(4)数据的质量,描述(5)数据,使用(6)分析,模型,可视化等方面的数据,保存(7)数据并于他人(例如,研究人员,学生,决策者)分享(8),这种步骤可能导致新的想法和假设。

1确定研究赞助商的要求

研究机构通常制定自己的标准方法和途径来管理和传播数据。同样,研究赞助商往往对DMP有非常具体的期望。比如说,维康信托基金会、戈登和贝蒂穆尔基金会(GBMF)、美国国立卫生研究院(NIH)以及美国国家科学基金会(NSF)同样都资助了计算生物学的研究,但在他们的DMP要求明显不同。

首先了解该组织规定的要求可以节省大量的时间和精力。科研赞助商通常会把DMP的开发需求写在邀标书(RFP)中,或者发布到网上的标书指南中。

不管之前你是否已将提案提交给特定资助项目,始终重要的是要记得检查最新版的RFP,并研究赞助商的网站,以核实他们的要求最近是否已经改变,以及如何改变。请记住,主要目标应该是建立一个对你的项目非常有用的计划。因此,良好的数据管理计划可以而且常常包含比研究自助者所要求的多得多的信息。

2确定将要收集的数据

每个DMP的组成都取决于你对将要收集的数据了解多少,以及所收集的数据的类型。显然数据量是很重要的,因为管理10TB级的数据量要比管理10兆字节数据量花费更多的基础设施和人员方面的成本。但是,数据的其它特性也影响成本的投入,包括元数、数据的质量保证和保存策略,甚至包括数据的策略。一个好的计划应该包括充分了解所收集数据的信息性质,,包括:

数据类型。一个良好的第一步就是列出你希望收集或创建各种数据的类型。这可以包括文本、电子数据表软件和算、模、图像和电、音频文件以及患者的病历。请注意,许多研究赞助商把数据定义得很广泛,包括实体馆藏、软件和源代码以及课程教材。

数据来源。数据可能来自人类直接观测结果、实验室和现场仪表、实验、模拟,以及其他研究的数据的汇编。评审员和赞助商可能对数据的专用性的理解、从其他研究中编制数据、涉及人类受试者特别感兴趣,他们也感兴趣是否你的数据按照其规定限制了他们的使用或者再发布的权限。

数据量。预期收集的数据总体积和文件总数都会可能会影响其他数据的管理活动。

数据与文件格式。今天我们可以接受的技术变化和格式可能很快就会过时。优质的选择,包括那些被科学界首选并广泛采用的基于开放标准的非专有格式。如果数据未经压缩,也未加密,并使用标准字符编码储存的话,数据可以被长期的读取。精确的类型,来源,体量,以及数据的格式可以不事先知道,这取决于研究的性质和独特性。在这种情况下,该解决方案应该对计划迭代更新。(详见规则9)

3确定组织数据的方式

#p#分页标题#e#

一旦理解了要收集数据的体积和类型,下一个明显步骤就是确定如何组织和管理数据。对于许多项目,会产生少量数据表,这些数据表可以借助商业或开源电子表格程序进行有效的管理。较大的数据量,并具有使用约束性质的,可能需要使用像ORACLE或mySQL这样的关系数据库管理系统(RDBMS)进行管理,或者使用地理信息系统(GIS)进行地理空间数据层的管理。

有关如何组织和管理数据的细节,可以写满好几页的文本,事实上,这些文本应记录为项目的进展细节。那些在项目中所使用的软件工具应该可以满足项目预期的任务要求。根据赞助商的要求和空间限制,指定文件命名、永久唯一标识符以及版本控制的规定非常重要。

4解释数据将的记录方式

数字和字符的每一行每一列具有很少或几乎没有意义,除非它们以某种方式记录。元数据——关于是什么、何地、何时、为何以及如何对数据进行收集,处理和解释的细节——提供一种使数据和文件被发现、使用和正确的引用的信息。元数据包括了数据和文件如何被命名、物理结构以及存储的描述,也包括了关于实验、分析方法、研究场景的细节。创造全面综合的元数据所需要的努力可能会因为数据复杂性,类型和数据量有实际上的不同。

一个健全的文档策略,可以基于三个步骤。首先,应确定被捕获数据信息的类型,以使研究人员发现、获取、解释,使用并引用您的数据。第二,确定是否存在可以被采取以社区为基础的元数据模式或标准(即,元数据元素的优选集)。第三,确定可用于创建和管理元数据内容(例如,Metavist,形态)的软件工具。

最好的做法是指定一个负责人来维护一个包含所有的项目细节的电子实验室笔记本。笔记本最好能定期由其他团队成员审查、修改以及复制。记录在笔记本中的元数据为那些和存储、重复使用并共享的数据产品有关的元数据提供了基础。

5描述如何保证数据质量

质量保证和质量控制(QA/ QC)指的是用于测量,评估和改进产品(例如,数据,软件等)的质量的过程。这可能需要遵循特定的QA / QC准则,取决于研究资助的性质。它是描述您计划在项目聘请QA / QC措施很好的做法。这些措施可以包括训练活动、仪器校准和验证测试,双盲数据输入,以及统计和可视化的方法的错误检测。简单的图形化数据探索的方法(例如,散点图,映射)可宝贵的检测异常和错误的方法。

6提出一个完善的数据存储和保护策略

没有经验的(甚至许多有经验)的研究人员的一个常见的错误是认为他们的个人电脑和网站将永葆青春。在项目进程中他们未能例行日常的数据复制工作,并没有看到将数据归档在安全位置所带来的长期益处。论文丢失、硬盘崩溃、URLs失效以及磁带和其他原因造成的数据丢失无法避免。因此,数据存储和保护是任何良好的数据管理计划的核心。请慎重考虑一下三方面问题:

数据需要多久的访问时间?

在项目进程当中如何储存并保护数据?

怎样才能让数据的保存和读取利于日后的使用?

这三个问题的答案取决于几个因素。首先,确认研究赞助商或者你的母机构是否有任何具体的要求。其次,考虑要数据的内在价值。某些现象的观测结果无法被复制(比如说天文和环境事件),因此这些数据要被永久保存。那些可以通过简单的重复性实验获得的数据可以只保存一段时间。模拟实验中的源代码、初始条件和验证数据需要储存。除了要解释如何选取需要短期储存或者需要长期保护的数据之外,也不要忘记还得强调你的计划对随行的元数据和相关的代码和算法,以便于别人可以解释和使用数据。(参见规则4)

为项目的生命周期开发一个优越的数据储存和保护计划。一个比较好的办法就是将至少三个数据的副本存储在至少两个不同的地域分布位置(比如说原来的位置,如台式计算机、外部硬盘驱动器,以及一个或多个远程站点),并制定一项复制数据的常规计划(比如说备份)。远程站点可能包括异地合作者的实验室、机构资料库,或者由Amazon、Dropbox、Google或者Microsoft提供的商用服务器。备份日程安排也应包括检测,以确保所存储的数据文件可以被检索。

创建、管理、发布和分享高质量的数据就像发表你的成果一样,也是21世纪的研究企业的一部分。数据管理是不是新鲜事物,相反,它已经是所有研究人员已经在做的事情。然而,在开发DMP一个常见的错误是忘记预算活动。数据管理需要一定的时间,并在软件,硬件和人员方面需要成本投入。审查你的计划,并确保预算可以支持管理数据的人员(见第规则9),并可以支付必要的硬件,软件和服务。

#p#分页标题#e#

数据管理计划应该提供您和他人用易于遵循的路线图,指导并解释数据在整个项目生命周期和项目完成后的处理方式。这里介绍的十个简单的规则旨在帮助您写一个合乎逻辑的,全面的好的计划,以复合评审员和研究赞助商的要求。一个DMP为项目提议阶段和项目计划阶段提供了小组之间的信息传输方式并建立项目的期望值。常言道,计划不如变化快。计划只有在使用中才会不断被优化。最好的计划应该是一种“活文件”,可以被定期审查,并根据需求和协议的任何更改(例如,元数据、QA / QC、仓储)、政策、技术、人员和工作人员,以及重复进行必要的修订。公共的、机器可读的、并公开许可的DMP更可能被纳入未来的项目当中,并有较高的影响,比如说不断透明化的研究资金的处理可以帮助科研人员和赞助商发现数据和潜在和合作方,培养数据管理能力并监控政策的执行。

作者:中立达资产评估


现在致电 0531-88888511 OR 查看更多联系方式 →

回顶部