motif(基序)

1、motif 是什么?

高出现频率的分子片段”,它与fragment的区别可能就是一个是高频出现一个不是高频出现的吧

维基百科:经常出现统计学上非常重要的子图或子结构

下面我们给出例子,分子图通过一些分解手段来构造一些子结构,我们列出了4个例子:

7676f05ed49807402cde84f53e304d0e.png

  1.  第一个子结构包含了绝大多数分子图中的点,也就是说本身这个子结构包含了很多非常有用的信息。但是由于这个结构非常特殊,我们很难在其他图中找到相同的子结构,所以我们就不把它当作motif。
  2. 第二个和第三个例子可以被当作motif,首先是因为他们都经常出现在各种分子图中。另一方面根据化学中的domain knowledge,我们可以知道这两个子结构具有特殊的性质。所以我们认为这两种子结构都可以被当作motif。
  3. 最后一个例子是一个碳氢结构,该结构也经常出现在图中。但是目前还很难知道它有什么特殊的性质,所以不把它作为motif。

2、Why motifs?

 第一个原因就是motif已经在图领域被广泛学习,而且已被证明可以对一些图表示学习起到帮助。第二个原因是motif作为统计学上较重要的子图,学习motif本身也就如同在学习图中的一个重要子结构。自然我们也可以学习到一些有用的信息来帮助分子图的表示学习。

65f14fc4b4e11af54d823a3ecd2e356d.png

 对比NLP和图领域,这两者有非常多的相似之处。我们在图中以node作为基本的单位,在NLP中把字母作为基本的单位;图中的edge这种两个node之间的关系可以看做NLP中两个相邻字母之间的关系;图中的子图在NLP中也可以用连续的字母作为相对应的关系。图中的motif在NLP中也可以被看作word,在NLP中word embedding的学习是非常重要的,无论是对于sentence还是document。类比过来,图中motif的学习对于graph的学习也是非常重要的。

3、Motif Vocabulary

构建motif的字典,我们首先给一个数据集选取一个提取motif的方法,然后遍历数据集中所有的分子图提取出一些子图。

我们也可以进行筛选,选出一些重要的子图。当然也可以不做筛选,全部放在字典之中。这样肯定也不会遗漏信息。

9aa2b5181a053735db95b8bdb5bd5897.png

 需要强调的是,提取motif方法的选择也很重要。我们可以用环来代表非常多的motif,本研究中的提取方法就是选取所有的环结构已经那些不在环结构上的边作为motif放入字典之中。其他一些分子中的成熟的decomposition方法例如RECAP和BRICS提取出来的motif相对较大,很难控制字典的大小,因为当motif过大的时候就不够基础,提取出的motif中数量就很难控制。只提取环和边的另一个好处是其时间复杂度不是很高,只有o(n2)。

干货!通过异构子图神经网络进行分子表示学习_AITIME论道的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/109142.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无涯教程-JavaScript - IFERROR函数

描述 如果公式的计算输出为错误,则IFERROR函数将返回您指定的值。否则,返回公式的输出。使用IFERROR函数可以捕获和处理公式中的错误。 语法 IFERROR (value, value_if_error) 争论 Argument描述Required/OptionalvalueThe argument that is checked for an error.Required…

生成式人工智能在高等教育 IT 中的作用

作者:Jared Pane 通过将你大学的数据与公共 LLMs 和 Elasticsearch 安全集成来找到你需要的答案。 根据 2023 年 4 月 EDUCAUSE 的一项调查,83% 的受访者表示,生成式人工智能将在未来三到五年内深刻改变高等教育。 学术界很快就询问和想象生…

数学实验-圆周率π的计算(Mathematica实现)

一、实验名称:圆周率π的计算 二、实验环境:机房、Mathematica 10.3软件 三、实验目的:通过各种方法在Mathematica中计算圆周率π的值, 四、实验内容及结果 1 数值积分法计算π 计算定积分的数值,就得到了的值&am…

参议员和科技巨头的私人人工智能峰会引发争议

周三,美国参议员查克舒默(D-NY)在参议院办公楼举办了一场关于潜在人工智能监管的“人工智能洞察论坛”。与会者包括亿万富翁和现代行业巨头,如埃隆马斯克、比尔盖茨、马克扎克伯格、OpenAI的萨姆奥特曼和英伟达的黄仁勋。但是这份公司客人名单22个中的14…

报团取暖!

大家好,我是技术UP主小傅哥。 3600人的加入,600多天的运营,其实小傅哥还悄悄的运营了一个免费的帮助大家找工作的星球,现在已经有非常多的伙伴加入,并分享许多公司的实习、校招、内推岗位,也有很多伙伴在线…

基于微信小程序的毕业生招聘信息平台

该款毕业生招聘平台的主要功能有:注册、登录界面,岗位信息的查询和查看,我的。 (1) 登入界面:首次打开软件,会出现账号以及密码的填写页面,当然也可以进行新毕业生和新企业的注册,新毕业生注册需…

常用数据库的 API - 开篇

API API 这个词在大多数人看来可能和 CNS 差不多,前者天天听说就是用不上,后者天天读就是发不了。 不过,通过今天的一个简短介绍,今后 API 这个东西你就用上了,因为在文章最后我将会展示一个最最基础且高频的 API 使…

时序数据库

时序数据库在许多应用领域中得到广泛应用,包括物联网(IoT)监控、应用性能监控(APM)、日志分析、金融数据分析、工业自动化和能源管理等。一些知名的开源和商业时序数据库包括InfluxDB、Prometheus、OpenTSDB、TimescaleDB和Kdb+等。 上图是一个典型的时序数据示意图,由…

备份数据重删

重复数据删除: 在计算中,重复数据删除是一种消除重复数据重复副本的技术。此技术用于提高存储利用率,还可以应用于网络数据传输以减少必须发送的字节数。在重复数据删除过程中,将在分析过程中识别并存储唯一的数据块或字节模式。…

Python基础(一)

>>> print(c)vpython基础知识理解,字符串和数据转换,运算,以及实验 目录 一、认识python 二、python的优缺点 1.优点 2.缺点 三、应用场景 1. 操作系统管理、服务器运维的自动化脚本 2. Web开发 3. 服务器软件(网…

黑马JVM总结(八)

(1)StringTable面试题 1.8 1.6时 (2)StringTable的位置 jvm1.6时StringTable是常量池的一部分,它随着常量池存储在永久代当中,在1.7、1.8中从永久代变成了堆中,为什么做这个更改呢&#xff1f…

晨控CK-FR102系列与汇川AC800系列MODBUSTCP通讯手册

晨控CK-FR102系列与汇川AC800系列MODBUSTCP通讯手册 晨控CK-FR102AN系列是一款基于射频识别技术的高频双通道读写器,读写器工作频率为13.56MHZ,支持对I-CODE 2、I-CODE SLI等符合ISO15693国际标准协议格式标签的读取。高频双通道读写器支持标准工业通讯…