生命科学领域 - FAIR原则和如果使数据FAIR化

2016年,《Scientific Data》发表了《科学数据管理和监督的FAIR指导原则》(FAIR Guiding Principles for scientific data management and stewardship)。文章旨在提供指导方针,以提高数字资产的可发现性、可访问性、互操作性和重用性。这些原则强调机器可操作性(即计算系统在没有或最少人工干预的情况下查找、访问、互操作和重用数据的能力),因为随着数据的数量、复杂性和创建速度的增加,人类越来越依赖计算支持来处理数据。

 

FAIR原则

可发现(Findable)

 F1 数据(元数据)被分配全球唯一且持久的标识符。

 F2 使用丰富的元数据描述数据。

 F3元数据清楚明确地包含所描述的数据的标识符。

 F4数据(元数据)在搜索应用服务中注册或索引。

可访问(Accessible)

 A1 数据(元数据)可以使用标准化通信协议,通过其标识符进行检索。

  •  A1.1 该协议是开放的、免费的,并且可普遍实施;

  •  A1.2 协议允许在必要时进行身份验证和授权过程;

 A2 即使数据不再可用,也可以访问其元数据。

可互操作性(Interoperable)

 I1 数据(元数据)使用正式的、可访问的、可共享和广泛适用的语言表示。

 I2 数据(元数据)使用遵循FAIR原则的词汇表。

 I3 数据(元数据)包括对其他数据(元数据)的合法引用。

可重用(Reusable)

 R1 数据(元数据)用多个准确且相关的属性进行充分描述。

  • R1.1 发布的数据(元数据)包含清晰且可访问的数据使用协议;

  • R1.2 数据(元数据)包含详细的出处信息;

  • R1.3 数据(元数据)符合领域相关标准;

如何使数据FAIR化

数据FAIR化流程可分7

1)确定目标

2)分析数据

3)分析元数据

4)定义语义数据和元数据模型

5)链接数据和元数据

6)托管FAIR数据

7)评估FAIR数据

7个步骤又可分为FAIR化过程前(步骤123),过程中(步骤456)和过程后(步骤7)三个阶段。

步骤确定目标(FAIR化过程前阶段)

FAIR化目标。首先,我们要能获取数据。如果要获取的数据涉及隐私和敏感问题,可使用匿名数据。数据FAIR化的目标可能是需要满足出版方、项目资助方或相关权益方的要求,或者是要增加多源数据的使用效率。我们建议先根据已有资源的条件(比如时间)确定部分数据元素的FAIR化目标。FAIR化目标是否实现依赖于:1)学科领域知识和数据建模知识;2) 可重用的FAIR解决方案;3)具有FAIR化特征、适合处理数据集的工具。


分析数据(FAIR化过程前阶段)

个步骤包括1)调查数据可获取的形式,检查数据表达形式和数据元素(数据的语义)的含义是否清楚且无歧义;2)检查数据是否包含FAIR特征,比如具有永久唯一标识符。

分析元数据(FAIR化过程前阶段)

数据是使数据可发现,可获取和可重用的关键。步骤3的工作包括1)调查是否具备元数据,如果没有元数据要明确需要采集什么元数据(每个学科领域的要求不同);2)检查元数据是否具有FAIR特征,比如元数据是否丰富,是否具有溯源描述信息,以及是否具有提高元数据质量所要考虑的细节,例如使用许可、版权、数据贡献声明以及使用条件和数据获取说明。

步骤定义语义数据和元数据模型(FAIR化过程中阶段)

义模型指的是下一个步骤中把数据和元数据转换成机器可读形式的模板。生成语义模型通常是数据FAIR化过程中最费时的一项工作。需要首先检查下数据是否已有语义模型,元数据是否可重用。新建一个语义模型需要三个步骤:1)创建概念模型;2)搜索本体词汇,3)创建语义模型。这个过程既需要研究领域的知识,也需要数据语义建模的知识。

步骤链接数据和元数据(FAIR化过程中阶段)

接数据和元数据的方法随着数据使用案例不同而不同。关键之处在于对数据和元数据的描述要求是机器可读的。数据的语义模型应该和数据以及元数据关联,这样语义模型将来才可能被重用,具有互操作使用的功能。这个阶段可使用的工具包括the FAIRifier,它可帮助将数据转为机器可读的形式,并且通过追踪中间步骤而使这个转换过程可重用。其他类似的工具还有Karma , Rightfield OntoMaton。将元数据转换为机器可读的形式的工具有the FAIR Metadata Editor , CEDAR , 以及Bioschemas Generator。推荐两种方法利用元数据增加资源被发现的可能性。第一,推荐将数据资源在本领域相关的资源注册中心或索引机构登记和索引,最好是符合FAIR原则的注册中心或索引机构。第二,推荐使用Schema.org 的标记(或者本领域的标记体系例如Bioschemas)使得数据资源将来可以被通用目的的搜索引擎例如Google检索到。

步骤托管FAIR数据(FAIR化过程中阶段

在这个步骤,数据处于可被消费的状态。人或者机器通过不同的界面,例如API, RDF 三元组存储,或者网页应用程序调用数据。在线展示FAIR资源的工具有很多,例如FAIR Data Point (FDP) 软件。该软件针对人类用户的界面提供了包括元数据层链接的简单网页,供机器处理的界面上提供可机读的RDF文件。

步骤评估FAIR数据(FAIR化过程后阶段)

步骤包括的工作:1)检查是否在步骤1中描述的目标已经实现,如果没有实现,要重新检查工作流步骤;2)检查数据和元数据的FAIR状态和步骤23中的FAIR状态进行比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/192889.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第25天|216.组合总和III 17.电话号码的字母组合

JAVA代码编写 216. 组合总和III 找出所有相加之和为 n 的 k 个数的组合,且满足下列条件: 只使用数字1到9每个数字 最多使用一次 返回 所有可能的有效组合的列表 。该列表不能包含相同的组合两次,组合可以以任何顺序返回。 示例 1: 输入: k …

面向未来的自动化:拥抱机器人即服务(RaaS)

01. RaaS是什么? 对于希望实现业务流程自动化的公司来说,机器人通常是一笔巨大的资本支出。由于机器人非常昂贵,公司可能需要等待数年才能看到投资回报。正是由于这一现实,许多较小的组织无法投资机器人。 但一些机器人公司正在采…

【音视频基础】AVI文件格式

AVI文件采用的是RIFF文件结构方式。波形音频wave,MIDI和数字视频AVI都采用这种格式存储。 AVI文件的整体结构如下图所示 构造RIFF文件的基本单元叫做数据块(Chunk),每个数据块包含3个部分 4字节的数据块标记(或者叫…

【C语言数据结构】单链表

目录 分析顺序表和链表实现单链表打印链表动态申请一个节点尾插头插尾删头删查找值函数单链表在pos位置之前插入x单链表在pos位置之后插入x删除pos位置单链表删除pos位置之后的值释放内存空间 分析顺序表和链表 如下图可以看出顺序表的优点 1.尾插尾删足够快 2.下标随机访问和修…

Git安装与常用命令

Git简介: Git是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或大或小的项目。Git是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源代码的版本控制软件。Git与常用的版本控制工具CVS、Subversion等不同,它采用了分布式…

zsh和ohmyzsh安装指南+插件推荐

文章目录 1. 安装指南2. 插件配置指南3. 参考信息 1. 安装指南 1. 安装 zsh sudo apt install zsh2. 安装 Oh My Zsh 国内访问GitHub sh -c "$(curl -fsSL https://raw.githubusercontent.com/ohmyzsh/ohmyzsh/master/tools/install.sh)"这将安装 Oh My Zsh 和所…

验证码案例 —— Kaptcha 插件介绍 后端生成验证码,前端展示并进行session验证(带完整前后端源码)

🧸欢迎来到dream_ready的博客,📜相信你对这篇博客也感兴趣o (ˉ▽ˉ;) 📜表白墙/留言墙 —— 中级SpringBoot项目,MyBatis技术栈MySQL数据库开发,练手项目前后端开发(带完整源码) 全方位全步骤手…

强烈 推荐 13 个 Web前端在线代码IDE

codesandbox.io(国外,提供免费空间) 网址:https://codesandbox.io/ CodeSandbox 专注于构建完整的 Web 应用程序,支持多种流行的前端框架和库,例如 React、Vue 和 Angular。它提供了一系列增强的功能&…

【数据预处理2】数据预处理——数据标准化

数据标准化 1. 什么是标准化?   数据标准化是一个常用的数据预处理操作,目的是将不同规格的数据转换到统一规格或不同分布的数据转换到某个特定范围,以减少规模、特征、分布差异等对模型的影响。这种操作也叫作无量纲化。   除了用作模型…

<MySQL> 如何合理的设计数据库中的表?数据表设计的三种关系

目录 一、表的设计 二、一对一关系 三、一对多关系 四、多对多关系 一、表的设计 数据库设计就是根据需要创建出符合需求的表。 首先根据需求找到体系中的关键实体对象,通常每个实体对象都会有一个表,表中包含了这个实体的相关属性。 再理清楚实体对…

Java Web——JavaScript运算符与流程语句

1. 运算符 1.1. 算数运算符 数字是用来计算的,比如:乘法 * 、除法 / 、加法 、减法 - 等等,所以经常和算术运算符一起。 算术运算符:也叫数学运算符,主要包括加、减、乘、除、取余(求模)等 …

C语言的由来与发展历程

C语言的起源可以追溯到上世纪70年代,由Dennis Ritchie在贝尔实验室开发出来。C语言的设计目标是提供一种简洁、高效、可移植的编程语言,以便于开发底层的系统软件。在那个时代,计算机技术正在迅速发展,出现了多种高级编程语言&…