生物信息学中的可重复性研究

科学就其本质而言,是累积渐进的。无论你是使用基于网络的还是基于命令行的工具,在进行研究时都应保证该研究可被其他研究人员重复。这有利于你的工作的累积与进展。在生物信息学领域,这意味着如下内容。

  • 工作流应该有据可查。这可能包括在电脑中保留文本文档以便复制和粘贴复杂命令、网址或其他形式的数据。许多人选择保留传统的手写的实验笔记本,但是现在越来越需要同时保存某些形式的电子记录。

  • 为了方便你的工作,存储在计算机上的信息应被妥善整理。可参考文献:Noble, W.S. 2009. A quick guide to organizing computational biology projects. PLos Computational Biology

  • 数据应该可被他人使用,特别是存储高通量数据的存储库。 这方面的鸽子包括NCBI的Gene Expression Omnibus (GEO)和Sequence Read Archive (SRA)、ArrayExpress 和 EBI 的European Nucleotide Archive (ENA)。

    如果期刊没有特别要求,现在可以将数据上传到 GSA (Genome Sequence Archive)。如果是敏感的遗传资源数据,可能只能上传到GSA。

  • 元数据和数据一样同等重要。元数据是指数据集相关的信息。对于一个已被测序的细菌基因组而言,元数据可能包括该细菌被分离的位置信息、培养条件,以及它是否致病等信息。在一个关于人类大脑的基因表达的研究中,元数据可能包括死后采样时间 、性别、疾病表型和RNA分离方法等。元数据为统计分析提供关键信息,使研究者可以探索各种参数对结果的影响。

  • 所使用的数据库应做好记录。由于数据库的内容可随时间改变所以记录版本号和获取日期非常重要。

  • 软件应做好记录。对于已被认可的软件包,应提供版本号。进一步记录使用软件的具体步骤,可使他人能够独立重复你所做的分析。为了共享软件,许多研究人员使用如GitHub等软件存储库。

    我一般使用 Git 来管理项目的源代码以及相关文档。可以参考我之前写的一篇 Git 最佳实践的文章。生物信息基础:实用Git命令,掌握这些就够了

c818bf2d8fe59a30a4134eb77113e5bb.png

Galaxy 生信云平台(UseGalaxy.CN)的重要特色就是可重复性研究,它解决了如下问题:

  • 工作流有据可查。分析过程所有步骤都有记录,可重复。

  • Galaxy有非常科学的管理数据生命周期的流程。数据从上传,到分析以及存档,都尽最大可能为用户提供优质的使用体验。

  • 数据分析所使用的软件和数据库版本,以及相关参数,都记录在案,便于重复研究。

  • 数据分析的相关步骤、参数以及数据等,都可以与他人分享。可以设置指定人员可见,或者通过分享链接可见以及所有人可见。

参考资料:《生物信息学与功能基因组学》P11

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

55df01ab8542741ce5991421d120801c.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/336233.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Opencv实验合集——实验九:姿势估计

在上一章节(相机校准),你已经找到了相机矩阵,畸变系数等等参数。给出一个图案图像,我们便可以利用上面的信息用于计算其姿势,或者物体在空间中位于何处,比如如何旋转,如何移动等等问题。对于一个平面物体&a…

Android BUG 之 Error: Activity class {} does not exist

项目场景: 更换包名,运行报错 问题描述 原因分析: 在替换包名的时候要确认,配置文件跟build中的保持一致,在更换后还要将旧包的缓存数据清理掉 解决方案: 1 替换后删除 app 下的build 文件夹 2 Rebuild Pr…

k8s的node亲和性和pod亲和性和反亲和性 污点 cordon drain

node亲和性和pod亲和性和反亲和性 污点 cordon drain 集群调度: schedule的调度算法 预算策略 过滤出合适的节点 优先策略 选择部署的节点 nodeName:硬匹配,不走调度策略,node01 nodeSelector:根据节点的标签选择,会走调度的算法 只…

20、Kubernetes核心技术 - 基于Prometheus和Grafana搭建集群监控平台

目录 一、概述 二、监控平台架构图​编辑 三、部署 Prometheus 3.1、Prometheus简介 3.2、部署守护进程node-exporter 3.3、部署rbac 3.4、ConfigMap 3.5、Deployment 3.6、Service 3.7、验证Prometheus 四、部署Grafana 4.1、Deployment 4.2、Service 4.3、Ing…

Python办公自动化 – 操作NoSQL数据库和自动化图像识别

Python办公自动化 – 操作NoSQL数据库和自动化图像识别 以下是往期的文章目录,需要可以查看哦。 Python办公自动化 – Excel和Word的操作运用 Python办公自动化 – Python发送电子邮件和Outlook的集成 Python办公自动化 – 对PDF文档和PPT文档的处理 Python办公自动…

雍禾植发袁宣心中有“术”,雍禾医疗帮用户重启人生

从公立医院烧伤外科来到雍禾,可以说是袁宣职业生涯里最重要的一个决定。据了解,袁宣医生所在的雍禾植发,是国内最大的毛发医疗机构。截至2022年12月31日,雍禾医疗已组建1341人的专业医疗团队,其中毛发医生294人&#x…

Android 13 移除下拉栏中的设置入口

介绍 因为当前项目的设置已被加密,客户不希望通过下拉窗口的设置图标进入设置,决定去掉该图标。 效果展示 分析 这里首先想到在SystemUI寻找这个图标的资源文件,找到资源文件后寻找对应控件调用的地方,根据id寻找控件代码即可。…

FPGA UDP协议栈:基于88E1111,支持RGMII、GMII、SGMII三种模式,提供3套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐我这里已有的以太网方案本协议栈的 1G-UDP版本本协议栈的 10G-UDP版本本协议栈的 25G-UDP版本1G 千兆网 TCP-->服务器 方案1G 千兆网 TCP-->客户端 方案10G 万兆网 TCP-->服务器客户端 方案 3、该UDP协议栈性能4、详细设计方案设…

什么是HTTP协议以及对HTTP协议的见解

目录 HTTP协议 (1)什么是http协议 (2)http协议的特点: (3)http协议请求头 (4)http协议响应头 HTTP协议 (1)什么是http协议 http&#xff0…

通信用磷酸铁锂电池做YD/T2344.1招标报告

通信用磷酸铁锂电池做YD/T2344.1标准报告 YD/T 2344.1标准范国: YD/T 2344.1规定了通信用磷酸铁鲤电池组的定义、要求、试验方法、检验规则及标志、包装、运输和贮存本部分适用于电池模块与电池管理系统集成为一体的通信用磷酸铁电池组。 YD/T 2344.1测试要求&…

mysql定时备份shell脚本和还原

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言数据库备份分类mysqldump命令备份计划1.每日备份,保留30天备份文件2.每月1号备份,保留12个月备份文件 定时调度还原总结 前言 数据库备…

最优化理论复习--使用导数的最优化方法

文章目录 上一篇最速下降法牛顿法下一篇 上一篇 最优化理论复习–最优性条件(二) 最速下降法 考虑无约束问题 m i n f ( x ) , x ∈ R n min f(x), x\in R^n minf(x),x∈Rn, 其中 f ( x ) f(x) f(x) 具有一阶连续偏导数(梯度下降法&…