Rdkit|化学指纹(fingerprint)


github:地址

文章目录

  • Rdkit|化学指纹(fingerprint)
  • 化学指纹(fingerprint)
    • RDKFingerprint
    • Morgan指纹
      • 提供的指纹信息存储在字典中
    • MACCS指纹
    • AtomPair指纹
    • TopologicalTorsion指纹
    • 参考

Rdkit|化学指纹(fingerprint)

化学指纹(fingerprint)

RDKit中还有许多其他类型的分子指纹可供选择,以下是其中几个常见的分子指纹类型:

  • Morgan指纹(Circular fingerprints):基于分子的拓扑结构和半径参数生成的二进制指纹,可以用于描述分子的结构和相似性。
  • MACCS指纹(MACCS keys):基于分子的结构和功能团片段生成的二进制指纹,可以用于进行药物相似性和虚拟筛选。
  • AtomPair指纹(Atom pairs):基于分子中原子对之间的距离和化学性质生成的二进制指纹,可以用于描述分子的空间和化学特征。
  • TopologicalTorsion指纹(Topological torsions):基于分子中四元环的拓扑结构和旋转角度生成的二进制指纹,可以用于描述分子的立体化学和相互作用。

这些分子指纹可以使用RDKit中的不同函数来计算,具体取决于所需的指纹类型和参数

from rdkit import Chem
from rdkit.Chem import AllChem

RDKFingerprint

RDKFingerprint是RDKit中一种常用的分子指纹类型,可以用于进行药物相似性和虚拟筛选

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = Chem.RDKFingerprint(mol)
print(fp.ToBitString())

Morgan指纹

Morgan指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的结构和相似性。它基于分子的拓扑结构和半径参数生成,具有以下特点:

  • 生成的指纹是一个固定长度的二进制向量,每个位表示一个子结构的存在或缺失。
  • 指纹的长度和半径参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
  • 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。

rdkit.Chem.AllChem.GetMorganFingerprint 函数来计算分子的Morgan指纹:

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")# 计算分子的Morgan指纹
fp = AllChem.GetMorganFingerprint(mol, 2)# 输出结果
print('分子的Morgan指纹为:', fp)
# 将Morgan指纹转换为字符串形式
fp_str = fp.ToBinary()# 输出结果
print('分子的Morgan指纹(字符串形式)为:', fp_str)
# Morgan指纹像原子对和拓扑扭转一样,默认情况系按使用计数,但有也可以将他们计算为位向量fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=1024)
print(fp.ToBitString())
## 也可以将常量用于不变式,产生指纹分子比较拓扑
m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncncn1')
fp1 = AllChem.GetMorganFingerprint(m1, 2, invariants=[1]*m1.GetNumAtoms())
fp2 = AllChem.GetMorganFingerprint(m2, 2, invariants=[1]*m2.GetNumAtoms())
print(fp1 == fp2)  # True

提供的指纹信息存储在字典中

通过bitinfo参数获取Morgan指纹中特定位有贡献的原子信息。所提供的指纹信息存储在字典中。
每条信息是一个条目,键是位id,值是(原子索引,半径)元祖列表。

m = Chem.MolFromSmiles('c1cccnc1C')
info = {}
fp = AllChem.GetMorganFingerprint(m, 2, bitInfo=info)
# GetNonzeroElements()返回非零元素的字典
print(len(fp.GetNonzeroElements()))  # 16
print(info)#16
#{98513984: ((1, 1), (2, 1)), 422715066: ((6, 1),), 951226070: ((0, 1),), 1100037548: ((4, 1),), 1207774339: ((2, 2),), 1235524787: ((0, 2),), 1751362425: ((4, 2),), 2041434490: ((4, 0),), 2246728737: ((6, 0),), 2614860224: ((3, 2),), 3217380708: ((5, 0),), 3218693969: ((0, 0), (1, 0), (2, 0), (3, 0)), 3776905034: ((3, 1),), 3999906991: ((1, 2),), 4036277955: ((5, 1),), 4048591891: ((5, 2),)}

由上述输出内容可知:
98513984位设置了两次:一次由原子1设置,一次由原子2设置,每个半径为1。
4048591891位被原子5设置一次,半径为2。

根据第4048591891位的信息,我们可以获取到原子5的2层电荷内的所有子原子

env = Chem.FindAtomEnvironmentOfRadiusN(m, 2, 5)
amap = {}
submol = Chem.PathToSubmol(m, env, atomMap=amap)
submol_num = submol.GetNumAtoms()
print('子原子数', submol_num)  # 子原子数 6
print(amap)  # {0: 0, 1: 1, 3: 2, 4: 3, 5: 4, 6: 5}

或者可以使用下面的方法(由其对于大量分子而言,速度更快)

atoms = set()
for bidx in env:atoms.add(m.GetBondWithIdx(bidx).GetBeginAtomIdx())atoms.add(m.GetBondWithIdx(bidx).GetEndAtomIdx())smi = Chem.MolFragmentToSmiles(m, atomsToUse=list(atoms), bondsToUse=env, rootedAtAtom=5)
print(smi)  # c(C)(cc)nc

MACCS指纹

MACCS (Molecular ACCess System) 分子指纹是一种用于表示分子结构信息的二进制指纹。MACCS分子指纹是基于分子中是否含有特定的亚结构来定义的,共包含166个不同的分子特征。每个特征都对应于一个特定的化学子结构,例如,一个羟基、一个苯环或一个氮原子等。如果分子中存在这个特征,则该特征对应的二进制位上的值为1,否则为0。MACCS分子指纹的长度为166位,它可以用于分子相似性比较、分子分类、分子聚类、分子筛选等许多领域中的化学信息学研究。

rdkit.Chem.MACCSkeys.GenMACCSKeys 函数来计算分子的MACCS指纹:

from rdkit.Chem import MACCSkeys
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = MACCSkeys.GenMACCSKeys(mol)
print(fp)
print(fp.ToBitString())

rdkit.Chem.rdMolDescriptors.GetMACCSKeysFingerprint 函数来计算分子的MACCS指纹:

from rdkit import Chem
from rdkit.Chem import rdMolDescriptors# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')# 计算分子的MACCS指纹
fp = rdMolDescriptors.GetMACCSKeysFingerprint(mol)# 输出结果
print('分子的MACCS指纹为:', fp)

其中,rdMolDescriptors.GetMACCSKeysFingerprint 函数的参数是一个RDKit分子对象。在上面的示例中,将SMILES字符串表示的分子对象转换为RDKit分子对象。

可以使用 ToBitString 方法将MACCS指纹转换为字符串形式:

# 将MACCS指纹转换为字符串形式
fp_str = fp.ToBitString()# 输出结果
print('分子的MACCS指纹(字符串形式)为:', fp_str)

AtomPair指纹

AtomPair指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的空间和化学特征。它基于分子中原子对之间的距离和化学性质生成,具有以下特点:

  • 生成的指纹是一个固定长度的二进制向量,每个位表示一个原子对的存在或缺失。
  • 指纹的长度和参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
  • 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。

以下是一个示例代码,演示如何使用 rdkit.Chem.AtomPairs.Pairs.GetAtomPairFingerprint 函数来计算分子的AtomPair指纹:

from rdkit import Chem
from rdkit.Chem.AtomPairs import Pairs# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')# 计算分子的AtomPair指纹
fp = Pairs.GetAtomPairFingerprint(mol)# 输出结果
print('分子的AtomPair指纹为:', fp)# 由于包含在原子对指纹中的位空间很大,因此他们以稀疏的方式存储为字典形式
d = fp.GetNonzeroElements()
print(d)
## 位描述也可以像如下所示展示
de = Pairs.ExplainPairScore(558113)
print(de)  # (('C', 1, 0), 3, ('C', 2, 0))

TopologicalTorsion指纹

Topological (path-based) fingerprints. 化学拓扑性质来源于化学图,数学上表示为,其中,是节点(原子)集合,为边(化学键)集合。2D分子结构通常基于其拓扑性质表示,例如2D连接表,它是MOL和SDF的化合物格式的基本单元(图2)。化合物的常见拓扑性质包括:(1) 原子类型;(2) 每个非氢原子(邻接矩阵)的连接性(或度);(3) 每对原子的拓扑距离(距离矩阵);(4) 原子离心率(atom eccentricity);(4) 通过特定方法确定的化学键和原子的重量(weights of bonds and atoms by specified custom approaches)。化合物的片段(或子结构)和物理化学性质是分类和预测生物活性的重要基础。

from rdkit.Chem.AtomPairs import Torsions
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')
fp = Torsions.GetTopologicalTorsionFingerprintAsIntVect(mol)
print(fp.ToBinary())

参考

https://www.codenong.com/cs107013965/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/19110.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA中使用.env文件配置信息

一、说明 我们以配置阿里云的 Access Key 的信息为例(配置别的信息当然也可以,我只是举个例子!!!),假设我们的代码中需要用到它。Access Key有两个属性,分别为【ALIBABA_CLOUD_ACCE…

MySQL数据类型

目录 数据类型分类 ​编辑tinyint类型 bit类型 float类型 decimal类型 char类型 varchar类型 char和varchar比较 日期和时间类型 enum和set 数据类型分类 tinyint类型 数值越界测试: mysql> create table tt1(num tinyint); Query OK, 0 rows affec…

simulink 实现51单片机流水灯 及代码形式优化

目录 流水灯 代码形式 流水灯 需求:先左移 再右移 自己的 代码形式 2021a版本

Acwing.860 染色法判定二分图(二分图染色法)

题目 给定一个n个点m条边的无向图,图中可能存在重边和自环。 请你判断这个图是否是二分图。 输入格式 第一行包含两个整数n和m。 接下来m行,每行包含两个整数u和v,表示点u和点v之间存在一条边。 输出格式 如果给定图是二分图&#xff0c…

ES6基本知识点

目录 1.对象优化 1.1 新增API 1.2 object.assign方法的第一个参数是目标对象,后面的参数都是源对象 1.3 声明对象简写 1.4 对象的函数属性简写 1.5 对象拓展运算符 2.map和reduce 2.1 数组中新增的map和reduce方法 3 promise 3.1 promise封装异步操作 4.模…

机械臂的雅克比矩阵推导

1. 线速度和角速度的递推通式推导 p i p i − 1 R i − 1 r i − 1 , i i − 1 \mathbf{p}_{i}\mathbf{p}_{i-1}\mathbf{R}_{i-1} \mathbf{r}_{i-1, i}^{i-1} pi​pi−1​Ri−1​ri−1,ii−1​ p i − 1 \mathbf{p}_{i-1} pi−1​是 { i − 1 } \{i-1\} {i−1}坐标系的原点的…

5.EFLK(ELK+filebeat)+filter过滤

文章目录 EFLK(ELKfilebeat)部署filebeat修改配置文件logstash配置 logstash的filter过滤grok(正则捕获插件)内置正则表达式调用自定义表达式 mutate(数据修改插件)重命名字段添加字段删除字段转换数据类型替换字段内容以"|"为分割符拆分数据成…

服务器数据库中了360后缀勒索病毒怎么办,怎么解决与防范?

随着网络攻击的不断增加,服务器中受到360后缀勒索病毒的威胁也日益严重。360后缀勒索病毒是beijingcrypt勒索家族中的病毒,该病毒采用了复杂的加密程序,一旦被该病毒攻击,它会将会对服务器上的所有文件进行加密,并要求…

残差网络(ResNet) -深度学习(Residual Networks (ResNet) – Deep Learning)

在第一个基于cnn的架构(AlexNet)赢得ImageNet 2012比赛之后,每个随后的获胜架构都在深度神经网络中使用更多的层来降低错误率。这适用于较少的层数,但当我们增加层数时,深度学习中会出现一个常见的问题,称为消失/爆炸梯度。这会导…

开发环境可运行,发包后报错(nginx代理出现了问题)

场景: vue项目首次发包... 后端服务发包完毕,apifox测试接口没问题、前端开发环境连服务也没问题... 前端项目打包,提前配置nginx,前端发包... 打开网页,登录接口正常,登录后其他接口报错... 查看报错信息:…

【LeetCode周赛】2022上半年题目精选集——数学

文章目录 2183. 统计可以被 K 整除的下标对数目⭐⭐⭐⭐⭐思路——数论(一个数乘上另一个数x是k的倍数,x最小是多少?)代码1——统计每个数的因子代码2——统计k的因子 2245. 转角路径的乘积中最多能有几个尾随零思路(因…

【雕爷学编程】Arduino动手做(138)---64位WS2812点阵屏模块2

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…