生物信息学导论-北大-序列比对基础知识

最近重新捡起coursera上的课了,这次准备好好学,把考试考了。。因此顺便记录一下学习过程。

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home


Sequence Alignment 序列比对

生物学问题

biological question: how to determine the similarity between two sequences?
如何判断两条序列之间的相似度?

why is it important?

  • similar sequence→similar structure→similar function(Sequence-to-Structure-to-Function Paradigm)
  • similar sequence→common ancestor(Homology)

gap:insertion / deletion (indel)造成

gap penalty:open a gap = penalty d, extend a gap = penalty e. for a gap with length n:

G a p P e n a l t y = d + ( n − 1 ) ∗ e GapPenalty = d + (n - 1) * e GapPenalty=d+(n1)e

final score

f i n a l S c o r e = ∑ S u b s t i t u t i o n S c o r e s + ( − 1 ) ∗ ∑ G a p P e n a l t y finalScore=\sum{SubstitutionScores} + (-1) * \sum{GapPenalty} finalScore=SubstitutionScores+(1)GapPenalty

数学描述

给定两个序列S1和S2,和一个打分函数f(已知substitutions和gaps),要求输出最佳比对,使得分最高。

NewBestAlignment=PreviousBest+LocalBest

对于一个残基来说,要么比对另一个残基,要么比对一个gap。

Dynamic Programming

  • big problem → smaller sub-problems
  • solve sub-problems optimally, recursively
  • assemble

比对两条序列x和y,F(i, j)是 x 1... i x_{1...i} x1...i y 1... j y_{1...j} y1...j之间的最佳比对的分数,s(A, B)是用B替换A的打分,d是gap罚分

F ( 0 , 0 ) = 0 F(0,0) = 0 F(0,0)=0

F ( i , j ) = m a x { F ( i − 1 , j − 1 ) + s ( x i , y j ) , m a t c h e d F ( i − 1 , j ) + d , x i → g a p F ( i , j − 1 ) + d , y j → g a p F(i,j)=max\left\{\begin{aligned}F(i-1,j-1)+s(x_i, y_j)&,matched\\F(i-1,j)+d,&x_i →gap\\F(i,j-1)+d,&y_j→gap \end{aligned}\right. F(i,j)=max F(i1,j1)+s(xi,yj)F(i1,j)+dF(i,j1)+d,matchedxigapyjgap

举例:

假设替换矩阵如下,gap penalty=-5,两条序列是AAG和AGC

ACGT
A2-7-5-7
C-72-7-5
G-5-72-7
T-7-5-72

先填入表格,从左上那个0位开始,沿该行向右和向下

AAG
0→-5→-10→-15
A↓-5↘2↘→-3→-8
G↓-10↓-3↘-3↘-1
C↓-15↓-8↓-8↓-6

填完表格之后从右下角回溯到0,就是-6↑-1,然后-3那里有两个方向可以达到,所以斜向和左边都要考虑,因此有这2种配对方式:

AAG-

-AGC

AAG-
A-GC
这就是global alignment(Needleman-Wunsch,O(nm))
这个自己手动写一遍比较好

Local alignment(Smith-Waterman) 在F(i,j)函数中引入了一个0,就是最大值可以取0。填表的话也是从左上的0开始向右向下.

AAG
0000
A0↘2↘20
G000↘4
C0000

回溯要从分数最高的地方开始,直到回到0,此时是最佳匹配,即AG-AG(注意一开始填表的0行和0列并不计入匹配)

然后从第二个最高分开始向上回溯,也是回到0,此时是第二好的匹配,就是A-A

Affine gap penalty的情况:d是open gap的罚分,e是延长一个gap的罚分。参考图片。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/341388.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科技创新领航 ,安川运动控制器为工业自动化赋能助力

迈入工业4.0时代,工业自动化的不断发展,让高精度运动控制成为制造业高质量发展的重要技术手段。北京北成新控伺服技术有限公司作为一家集工业自动化产品销售、系统设计、开发、服务于一体的高新技术企业,其引进推出的运动控制产品一直以卓越的…

libcurl开源库的编译与使用全攻略

libcurl简介 libcurl 是一个广泛使用的、支持多种协议的、开源的客户端URL传输库,提供了许多用于数据传输的API,例如文件传输、FTP、HTTP、HTTPS、SMTP等。libcurl 的主要特点包括 支持多种协议:libcurl 支持多种协议,如 HTTP、F…

thinkphp美容SPA管理系统源码带文字安装教程

thinkphp美容SPA管理系统源码带文字安装教程 运行环境 服务器宝塔面板 PHP 7.0 Mysql 5.5及以上版本 Linux Centos7以上 基于thinkphp3.23B-JUI1.2开发,权限运用了Auth类认证,权限可以细分到每个功能, 增删改查功能一应俱全,整合了…

基于YOLOv5的道路标志识别项目(yolov5界面GUI)

基于YOLOv5的道路标志识别项目(yolov5界面GUI) English | 简体中文 这是一个关于yolov5的道路标志识别项目,使用Pyqt5开发界面,Yolov5训练模型,数据库Mysql,包含五个模块:初始化参数、标志识别…

vim基本操作命令

一、vi简介 vi是“Visual interface”的简称,它在Linux上的地位就仿佛Edit程序在DOS上一样。它可以执行输出、删除、查找、替换、块操作等众多文本操作,而且用户可以根据自己的需要对其进行定制。Vi不是一个排版程序,它不象Word或WPS那样可以…

React18-树形菜单-递归

文章目录 案例分析技巧通信展示效果实现代码技巧点技巧点 Refer to 案例分析 https://github.com/dL-hx/manager-fe/commit/85faf3b1ae9a925513583feb02b9a1c87fb462f7 从接口获取城市数据,渲染出一个树形菜单 要求: 可以展开和收起 技巧 学会递归渲染出一个树形菜单, 并点击后…

21道Java Spring MVC综合面试题详解含答案(值得珍藏)

1.概述 1.1 什么是Spring MVC?简单介绍下你对Spring MVC的理解? Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把模型-视图-控制器分离,将web层进行职责解耦,把复杂的web应用分成…

重定位,进程的创建,线程相关

重定位 进程的重定位指将程序加载到内存中不同的位置执行,在进程换出换入过程中将会发生。通过更新程序中使用的相对地址。 进程的创建——fork() 进程树,在自己的节点下创建进程节点。 使用fork,创建的子进程是父进…

正则表达式、文件访问(Python实现)

一、主要目的: 1.了解正则表达式的基本概念和处理过程。 2.掌握使用正则表达式模块 Re 进行字符串处理的方法。 3.了解文件的基本概念和类型。 4.掌握在 Python 中访问文本文件的方法和步骤。 5.熟悉在 Python 中访问二进制文件的方法和步骤。 二、主要内容和结…

神州数码集团荣获“TiDB 社区最佳贡献企业”

日前,神州数码在 TiDB 开源社区中获得了“TiDB 社区最佳贡献企业”奖。PingCAP 颁发该奖项以认可生态企业在社区中的卓越贡献和积极参与。 神州数码与 PingCAP 最早于 2020 年 12 月 28 日进行战略合作,基于全球领先的开源分布式关系型数据库 TiDB&…

一天一个设计模式---桥接模式

概念 桥接器模式是一种结构型设计模式,旨在将抽象部分与实现部分分离,使它们可以独立变化而不相互影响。桥接器模式通过创建一个桥接接口,连接抽象和实现,从而使两者可以独立演化。 具体内容 桥接器模式通常包括以下几个要素&a…

【软考中级-软件设计师】day7:图

概述 1-2道选择 图的存储 图的遍历 图的最小生成树 prim算法 kruscal算法 2135476 选7不选6是因为4的先删除(vi必须在vj之前)跟4有关的删了以后,入度为0的结点只剩下7,所以选7再6