【论文阅读|冷冻电镜】DISCA: High-throughput cryo-ET structural pattern mining

论文题目

High-throughput cryo-ET structural pattern mining by unsupervised deep iterative subtomogram clustering

摘要

  • 现有的结构排序算法的吞吐量低,或者由于依赖于可用模板和手动标签而固有地受到限制。
  • 本文提出了一种高吞吐量的、无需模板和标签的深度学习方法,即 deep iterative subtomogram clustering approach (DISCA)。通过学习和建模三维结构特征及其分布,自动检测同质结构的子集。
  • 在五个实验数据集上的评估表明,基于无监督深度学习的方法能够检测具有广泛分子大小范围的多样结构。

简介

DISCA通过学习由CNN提取的3D结构特征,并统计建模特征分布,自动在大规模冷冻电子断层扫描数据集中检测结构同质的颗粒子集。

给定一个重建的3D断层扫描数据集,在预处理步骤首先使用无模板颗粒拾取方法来检测潜在的结构并提取它们作为子体积。该预处理步骤是自动完成的,不需要手动标记,提取的子体积包含异质结构。

然后,使用DISCA将这些子体积分拣到相对同质的结构子集中。具体来说,作者提出了一个广义的期望最大化(EM)框架,根据提取的CNN特征迭代地对子体积进行聚类,并通过无监督训练优化CNN。最后作为框架之外的后处理步骤,已排序的子集被对齐、平均和重新嵌入到原始断层扫描空间,以可视化恢复的结构及其空间分布。

结果

DISCA 计算框架

DISCA主要受到计算机视觉领域最近提出的无监督图像聚类方法的启发。这些方法将深度神经网络与特征聚类算法和自监督策略相结合,从大规模二维图像数据集中学习图像的判别特征表示,而不需要预先指定的图像标签。同样,我们将特征聚类算法和自监督融入到DISCA中。此外,考虑到cryoET数据的特定属性,例如低信噪比和未知的簇的数量,我们设计了神经网络架构和训练策略来提高cryoET数据的结构排序性能。由于本文方法是无监督训练,因此设计了一种策略来迭代估计结构同质子集的数量和输入自断层图的结构类标签。提出的迭代动态标记策略通过广义期望最大化算法以交替方式更新两个模型。图2说明了用于特征提取的YOPO模型和用于特征空间中结构同质子集统计建模的高斯分布。

在E步骤中,根据当前学习的特征估计结构同质子集的数量和标签。
在M步骤中,YOPO参数通过反向传播训练进行更新,以最小化计算从E步估计的标签的损失函数。
在这里插入图片描述

在这里插入图片描述

具体来说,YOPO被随机初始化来从输入的子断层图中提取特征向量。
然后,通过一组K个候选结构同质子集的混合多元高斯分布在特征空间中拟合特征向量。只保留具有最低贝叶斯信息准则的混合分布。通过继承前一次迭代的参数来稳定统计模型拟合的优化过程。在第一个迭代之后的每次迭代中,高斯混合模型的参数先验,包括每个聚类的先验权重、均值和每个聚类的协方差矩阵,都由前一次迭代的聚类解初始化。

因为在使用前一次迭代结果初始化统计模型拟合时可能会积累误差,为了避免陷入局部最优,每轮迭代还会进行随机初始化参数的全新模型拟合。如果这个模型提高了统计模型的似然函数,这个参数就会被采用。这一设计的基本思想类似于强化学习中的Epsilon-Greedy算法。其中以一定概率选择用新解替换前一次观察的最佳解。

然后,子体积的当前估计标签由与具有最高概率的分量多元高斯分布相对应的硬聚类分配给出。在下一次迭代中,当前估计的标签用于通过最小化分类铰链损失函数训练YOPO,以学习更好的特征表示。经过YOPO训练后,混合分布将根据新提取的特征向量进行更新。这个过程迭代进行,直到满足停止标准——标签的一致性或最大迭代次数。

为了利用CNN的卓越性能,本文设计了一个专门用于子体积数据的CNN,命名为YOPO(SI 附录,图 S2),考虑了子体积数据的独特特点:
1)结构细节对于确定包含在亚体积中的大分子的类别至关重要;
2)包含的大分子具有随机的方向和位移;
3)信噪比(SNR)极低。
由于其强大的架构设计,YOPO具有结构细节保留、变换不变性和对噪声的鲁棒性等特性。这些也是在传统子体积分类方法中的理想特性。
在这里插入图片描述

作为一个特征提取模型,YOPO保留了详细的结构信息,并从子体积数据中提取旋转(通过自监督训练)和平移不变(通过架构设计)的特征。YOPO的平移不变性与输入数据或网络权重无关。这种平移不变性通常无法通过标准的CNN架构设计实现。

在SHREC2020比赛里YOPO的准确度是第三名,超过了模板匹配。重要的是,YOPO只需要目标大分子的位置坐标用来训练,其他有竞争力的算法需要体素级别的分割label。

在DISCA中YOPO的训练完全是无监督的,并且进一步自动化,不受所有外部领域知识的影响,包括现有的结构模板、手动标记或手动选择断层图中的密度。

Validation of the Feature Learning and Modeling Ability.

DISCA的设计能够实现变换不变性(transformation-invariant)的特征提取,自动估计聚类数量,并随着更大的样本量逐步提高性能。为了验证DISCA的这些能力,作者对各种成像参数的真实模拟数据集进行了多次实验。这些模拟数据集具有预先指定的真实标签,可以定量评估DISCA和现有方法的性能。

通过三个标准评估结果:
(1)估计的K (K范围2-20)
(2)同质性得分:根据真实标签衡量每个簇的同质程度。同质性得分不需要和真实值相同数量的聚类。
(3)预测准确度:测量正确标记的子断层图的百分比。只有K估计正确才能计算预测精度。

结果表明,随着信噪比降低和倾斜角度范围变小,同质性得分逐渐下降。所有设置下同质性得分都高于0.8,结果良好,意味着生成的簇通常是同质的。
在这里插入图片描述

在这里插入图片描述

无监督结构模式挖掘

目前有许多流形的子断层图平均软件,将平均值细化到高分辨率。但这些工具需要结构相对均匀的颗粒输入。DISCA的主要目的是有效地将代表性结构分类为大规模数据集中结构相对同质的子集,以补充这些工具。因此DISCA的目标是以高通量的方式识别代表性结构,而不是提高子断层平均分辨率。作者在来自不用细胞类型的五个实验冷冻电子断层扫描数据集上进行了测试。由于ground truth未知,有两种主流的方法来验证检测结果:1. 对每个检测到的结构子集进行对齐平均以恢复结构,并将其与现有的已知结构进行比较。2. 是与结构生物学家的手动注释进行比较。对五个数据集,作者进行了子断层图平均并计算了金标准傅里叶桥相关分辨率。其中三个实验数据集有专家标注,一个数据集由之前的粗表示学习方法自动标注。结果表明,DISCA检测到了多种代表性结构模式。子断层图对齐平均得到分辨率范围为14-38埃,证明了无模板和标记的方法适合原位结构分析。

讨论

局限性:

  1. DISCA的一个主要限制来自于对选定的子断层图的操作。理想情况下应该分析每个体素的子断层图,但是计算复杂度太高。尽管颗粒挑选步骤引入了一些false positives和negatives,但在和效率之间的trade-off是可接受的。
  2. 每个体素的绝大多数颗粒都包含背景噪声或结构,它们在断层图里难以识别。包含这些在内会导致排序过程将使模型偏向于区分结构和背景,而不是结构之间的差异。由于不同的大分子结构尺寸不同,在实验中使用了固定的子断层图尺寸,可以包围大多数大分子结构,为了避免结构被剪切,可以提供更大的子断层图,或者对DISCA使用相同的子断层图大小并提取更大尺寸的子断层图进行后处理平均。
  3. 另一个限制是分析大型连续结构,例如膜。子断层图平均的嵌入将显示为小块。可以通过对子断层图执行膜分割而不是进行平均来解决。从而产生逼真的连续膜结构标注。

无监督方法的一个主要关注点是训练稳定性。DISCA的训练通常是稳定的,这归功于所使用的初始化器:作者为YOPO使用了正交核初始化器和零偏置初始化器。训练的稳定性确保了DISCA的可重复性。在实际应用中,为了获得最佳的排序性能,用户可以运行DISCA多次并保留具有最低DDBI度量的结果,或者保留在现有数据集上成功预训练的DISCA模型,并在新数据集上进行微调。

在方法论的简约性方面,DISCA不需要手动干预或选择现有的结构模板进行匹配,这个特性提供了最大的自动化和客观性。总之,性能表明当缺乏数据集的手动注释或先验知识时,DISCA是冷冻电子断层扫描结构发现的一个合理替代方法,同时也是验证基于模板的结果的强大工具。通过快速检测冷冻电子断层扫描数据集中的代表性同质结构子集,DISCA还可以作为标准模板匹配和子体积平均流程的预处理步骤的补充。虽然DISCA能够自动检测丰富和具有代表性的冷冻电子断层扫描颗粒,但研究人员有时对稀有的大分子或特定类型的目标蛋白质感兴趣。DISCA在检测相对稀有结构方面的能力在表3的TRiC和蛋白酶体结构上已经得到了定量证明。

此外,用户可以
1)结合DISCA和模板匹配来搜索特定的目标蛋白质;
2)将DISCA扩展到多个阶段,首先检测并排除丰富的颗粒,然后再次应用DISCA对剩余的颗粒进行排序。

总之,DISCA展示了用于系统地发现丰富和具有代表性结构的高吞吐量冷冻电子断层扫描结构模式挖掘的潜力。


A u t h o r : C h i e r Author: Chier Author:Chier

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/319282.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apache HTTPD 多后缀解析漏洞详解

Apache HTTPD 多后缀解析漏洞 1.查看python版本 这里python版本很重要,因为版本过低可能会导致后面的结果运行不成功 这里我就遇到了因为版本过低而执行不了docker-compose up -d的情况 查看python版本 cd /usr/bin ls -al python* 当版本过低时安装高版本的 …

AI:106-基于卷积神经网络的遥感图像地物分类

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的关键代码,详细讲解供…

9. C++ GDB调试原理(简洁版)

背景 GDB支持断点、单步执行、打印变量、观察变量、查看寄存器、查看堆栈等调试手段。 断点 断点是我们在调试中经常用的一个功能,我们在指定位置设置断点之后,程序运行到该位置将会暂停,这个时候我们就可以对程序进行更多的操作&#xff…

IM即时通讯聊天社交APP源码+h5群聊+红包转账+朋友圈

支持文字、表情、图片、语音、单聊、群聊、已读未读、消息群发、内嵌外链、签到、等完备的 IM 功能。 单聊:快速实现私信单聊,具备图片、语音、动态表情、小视频、红包、通话等各种通信能力,消息历史记录支持漫游。 群聊:快速实现群组聊天,单人禁言、全员禁言、群红包、…

Kali Linux实现UEFI和传统BIOS(Legacy)引导启动

默认Kali linux安装会根据当前启动的引导模式进行安装 例:以UEFI引导启动安装程序,安装后仅能在UEFI引导模式下进入系统 安装Kali系统 这边基于VirtualBox虚拟机镜像实战操作 首先创建一个Kali虚拟机 这里需要注意,把启动 EFI (只针对某些操…

一起玩儿物联网人工智能小车(ESP32)——25. 利用超声波传感器测量距离

摘要:本文介绍如何利用超声波传感器测量障碍物的距离 测量距离是智能小车经常要用到的功能,今天就来介绍一个最常用的测量距离的传感器——超声波传感器。 超声波传感器的测距原理是利用超声波发射器向某个方向发射超声波,与此同时&#xff…

计算机网络(2)

计算机网络(2) 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 计算机网络和因特网(2)分组交换网中的时延、丢包和吞吐量时延丢包吞吐量总结 协议层次及其服务模型模型类型OSI模型分析TCP/IP模型分析 追溯历史 小程一言 我…

C++线程池的原理(画图)及简单实现+例子(加深理解)

1.为什么线程池会出现,解决什么问题? C线程池(ThreadPool)的出现主要是为了解决以下几个问题: 1.性能:创建和销毁线程都是相对昂贵的操作,特别是在高并发场景下,频繁地创建和销毁线…

当hashCode相同时,equals是否也相同?

在Java中,理解对象的这两个基本方法—hashCode和equals对于编码是至关重要的,尤其是在处理集合类如HashMap和HashSet时。然而,一个常见的误解是,如果两个对象有相同的哈希码(hashCode),那么它们…

数据分析概述

数据分析概述 在当今数字化的时代,数据已经成为我们周围不可忽视的存在。从商业领域到医疗行业,从科学研究到政府治理,数据的涌现为我们提供了前所未有的信息资源。然而,要从这个庞大的信息海洋中获取有意义的见解并做出明智的决策…

虚幻引擎实时音频采集

Part1前言 虚幻引擎其实对实时音频的采集支持得非常好。不过由于对音频概念的学习,还是花了一些时间进行研究。本文主要介绍如何基于虚幻引擎采集实时麦克风的音频数据。 Part2音频采样率 在虚幻引擎中,我没有找到动态修改音频采样率的方法。下面的方法设…

案例253:基于微信小程序的懂球短视频管理系统

文末获取源码 开发语言:Java 框架:SpringBoot JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder …