github:地址
文章目录
- Rdkit|化学指纹(fingerprint)
- 化学指纹(fingerprint)
- RDKFingerprint
- Morgan指纹
- 提供的指纹信息存储在字典中
- MACCS指纹
- AtomPair指纹
- TopologicalTorsion指纹
- 参考
Rdkit|化学指纹(fingerprint)
化学指纹(fingerprint)
RDKit中还有许多其他类型的分子指纹可供选择,以下是其中几个常见的分子指纹类型:
Morgan
指纹(Circular fingerprints):基于分子的拓扑结构和半径参数生成的二进制指纹,可以用于描述分子的结构和相似性。MACCS
指纹(MACCS keys):基于分子的结构和功能团片段生成的二进制指纹,可以用于进行药物相似性和虚拟筛选。AtomPair
指纹(Atom pairs):基于分子中原子对之间的距离和化学性质生成的二进制指纹,可以用于描述分子的空间和化学特征。TopologicalTorsion
指纹(Topological torsions):基于分子中四元环的拓扑结构和旋转角度生成的二进制指纹,可以用于描述分子的立体化学和相互作用。
这些分子指纹可以使用RDKit中的不同函数来计算,具体取决于所需的指纹类型和参数
from rdkit import Chem
from rdkit.Chem import AllChem
RDKFingerprint
RDKFingerprint是RDKit中一种常用的分子指纹类型,可以用于进行药物相似性和虚拟筛选
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = Chem.RDKFingerprint(mol)
print(fp.ToBitString())
Morgan指纹
Morgan指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的结构和相似性。它基于分子的拓扑结构和半径参数生成,具有以下特点:
- 生成的指纹是一个固定长度的二进制向量,每个位表示一个子结构的存在或缺失。
- 指纹的长度和半径参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
- 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。
rdkit.Chem.AllChem.GetMorganFingerprint
函数来计算分子的Morgan指纹:
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")# 计算分子的Morgan指纹
fp = AllChem.GetMorganFingerprint(mol, 2)# 输出结果
print('分子的Morgan指纹为:', fp)
# 将Morgan指纹转换为字符串形式
fp_str = fp.ToBinary()# 输出结果
print('分子的Morgan指纹(字符串形式)为:', fp_str)
# Morgan指纹像原子对和拓扑扭转一样,默认情况系按使用计数,但有也可以将他们计算为位向量fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=1024)
print(fp.ToBitString())
## 也可以将常量用于不变式,产生指纹分子比较拓扑
m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncncn1')
fp1 = AllChem.GetMorganFingerprint(m1, 2, invariants=[1]*m1.GetNumAtoms())
fp2 = AllChem.GetMorganFingerprint(m2, 2, invariants=[1]*m2.GetNumAtoms())
print(fp1 == fp2) # True
提供的指纹信息存储在字典中
通过bitinfo参数获取Morgan指纹中特定位有贡献的原子信息。所提供的指纹信息存储在字典中。
每条信息是一个条目,键是位id,值是(原子索引,半径)元祖列表。
m = Chem.MolFromSmiles('c1cccnc1C')
info = {}
fp = AllChem.GetMorganFingerprint(m, 2, bitInfo=info)
# GetNonzeroElements()返回非零元素的字典
print(len(fp.GetNonzeroElements())) # 16
print(info)#16
#{98513984: ((1, 1), (2, 1)), 422715066: ((6, 1),), 951226070: ((0, 1),), 1100037548: ((4, 1),), 1207774339: ((2, 2),), 1235524787: ((0, 2),), 1751362425: ((4, 2),), 2041434490: ((4, 0),), 2246728737: ((6, 0),), 2614860224: ((3, 2),), 3217380708: ((5, 0),), 3218693969: ((0, 0), (1, 0), (2, 0), (3, 0)), 3776905034: ((3, 1),), 3999906991: ((1, 2),), 4036277955: ((5, 1),), 4048591891: ((5, 2),)}
由上述输出内容可知:
98513984位设置了两次:一次由原子1设置,一次由原子2设置,每个半径为1。
4048591891位被原子5设置一次,半径为2。
根据第4048591891位的信息,我们可以获取到原子5的2层电荷内的所有子原子
env = Chem.FindAtomEnvironmentOfRadiusN(m, 2, 5)
amap = {}
submol = Chem.PathToSubmol(m, env, atomMap=amap)
submol_num = submol.GetNumAtoms()
print('子原子数', submol_num) # 子原子数 6
print(amap) # {0: 0, 1: 1, 3: 2, 4: 3, 5: 4, 6: 5}
或者可以使用下面的方法(由其对于大量分子而言,速度更快)
atoms = set()
for bidx in env:atoms.add(m.GetBondWithIdx(bidx).GetBeginAtomIdx())atoms.add(m.GetBondWithIdx(bidx).GetEndAtomIdx())smi = Chem.MolFragmentToSmiles(m, atomsToUse=list(atoms), bondsToUse=env, rootedAtAtom=5)
print(smi) # c(C)(cc)nc
MACCS指纹
MACCS (Molecular ACCess System) 分子指纹是一种用于表示分子结构信息的二进制指纹。MACCS分子指纹是基于分子中是否含有特定的亚结构来定义的,共包含166个不同的分子特征。每个特征都对应于一个特定的化学子结构,例如,一个羟基、一个苯环或一个氮原子等。如果分子中存在这个特征,则该特征对应的二进制位上的值为1,否则为0。MACCS分子指纹的长度为166位,它可以用于分子相似性比较、分子分类、分子聚类、分子筛选等许多领域中的化学信息学研究。
rdkit.Chem.MACCSkeys.GenMACCSKeys
函数来计算分子的MACCS指纹:
from rdkit.Chem import MACCSkeys
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = MACCSkeys.GenMACCSKeys(mol)
print(fp)
print(fp.ToBitString())
rdkit.Chem.rdMolDescriptors.GetMACCSKeysFingerprint
函数来计算分子的MACCS指纹:
from rdkit import Chem
from rdkit.Chem import rdMolDescriptors# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')# 计算分子的MACCS指纹
fp = rdMolDescriptors.GetMACCSKeysFingerprint(mol)# 输出结果
print('分子的MACCS指纹为:', fp)
其中,rdMolDescriptors.GetMACCSKeysFingerprint
函数的参数是一个RDKit分子对象。在上面的示例中,将SMILES字符串表示的分子对象转换为RDKit分子对象。
可以使用 ToBitString
方法将MACCS指纹转换为字符串形式:
# 将MACCS指纹转换为字符串形式
fp_str = fp.ToBitString()# 输出结果
print('分子的MACCS指纹(字符串形式)为:', fp_str)
AtomPair指纹
AtomPair指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的空间和化学特征。它基于分子中原子对之间的距离和化学性质生成,具有以下特点:
- 生成的指纹是一个固定长度的二进制向量,每个位表示一个原子对的存在或缺失。
- 指纹的长度和参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
- 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。
以下是一个示例代码,演示如何使用 rdkit.Chem.AtomPairs.Pairs.GetAtomPairFingerprint
函数来计算分子的AtomPair
指纹:
from rdkit import Chem
from rdkit.Chem.AtomPairs import Pairs# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')# 计算分子的AtomPair指纹
fp = Pairs.GetAtomPairFingerprint(mol)# 输出结果
print('分子的AtomPair指纹为:', fp)# 由于包含在原子对指纹中的位空间很大,因此他们以稀疏的方式存储为字典形式
d = fp.GetNonzeroElements()
print(d)
## 位描述也可以像如下所示展示
de = Pairs.ExplainPairScore(558113)
print(de) # (('C', 1, 0), 3, ('C', 2, 0))
TopologicalTorsion指纹
Topological (path-based) fingerprints. 化学拓扑性质来源于化学图,数学上表示为,其中,是节点(原子)集合,为边(化学键)集合。2D分子结构通常基于其拓扑性质表示,例如2D连接表,它是MOL和SDF的化合物格式的基本单元(图2)。化合物的常见拓扑性质包括:(1) 原子类型;(2) 每个非氢原子(邻接矩阵)的连接性(或度);(3) 每对原子的拓扑距离(距离矩阵);(4) 原子离心率(atom eccentricity);(4) 通过特定方法确定的化学键和原子的重量(weights of bonds and atoms by specified custom approaches)。化合物的片段(或子结构)和物理化学性质是分类和预测生物活性的重要基础。
from rdkit.Chem.AtomPairs import Torsions
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')
fp = Torsions.GetTopologicalTorsionFingerprintAsIntVect(mol)
print(fp.ToBinary())
参考
https://www.codenong.com/cs107013965/