万字综述｜一文掌握大语言模型在生物信息学中的应用-编程知识

万字综述｜一文掌握大语言模型在生物信息学中的应用

news/2025/3/12 10:04:41/文章来源:https://www.cnblogs.com/shiyanhe/p/18692221

随着大语言模型（LLMs）技术的飞速发展，其在自然语言处理（NLP）领域的成功应用逐渐扩展到了生物信息学领域。生物信息学作为一个跨学科的领域，涉及基因组学、蛋白质组学、药物发现等多个方向，LLMs的引入为这些领域带来了新的研究工具和方法。

2025年1月，佐治亚大学Tianming Liu和德克萨斯大学阿灵顿分校Dajiang Zhu研究团队发表了题为《Large Language Models for Bioinformatics》的综述，全面回顾了LLMs在生物信息学中的应用、挑战及未来发展方向，帮助计算生物学和生物信息学研究人员更好地了解这一前沿领域。

1 大语言模型与生物信息学的结合背景

生物信息学作为生命科学与计算机科学的交叉学科，致力于开发和应用计算工具来管理、分析和解释大量的生物医学数据。随着生物技术的不断进步，生物数据呈现出爆发式增长，传统的计算方法在处理这些复杂数据时逐渐显得力不从心。而大语言模型凭借其强大的文本处理和模式识别能力，为生物信息学提供了一种全新的解决方案。

1.1 大语言模型的基础知识

1.1.1 语言模型的定义与功能

语言模型是一种用于预测文本序列中下一个词或字符的概率分布的模型。在自然语言处理（NLP）领域，语言模型被广泛应用于文本生成、机器翻译、语音识别等任务。其核心功能是理解和生成自然语言文本，通过学习大量的文本数据，捕捉语言的模式和结构，从而实现对文本的预测和生成。

1.1.2 语言模型的类型

语言模型主要分为两类：传统语言模型和基于深度学习的语言模型。传统语言模型，如 n-gram 模型，通过统计词或字符的共现频率来预测下一个词或字符。这类模型简单易实现，但在处理长文本和复杂语义时存在局限性。基于深度学习的语言模型，如循环神经网络（RNN）、长短期记忆网络（LSTM）和变换器（Transformer）模型，通过学习文本数据的高维表示，能够更好地捕捉长文本中的依赖关系和语义信息，从而实现更准确的预测和生成。

1.1.3 基础模型的概念与特点

1.1.3.1 基础模型的定义

基础模型（Foundation Models）是一类预训练的大型语言模型，它们在大规模无标注数据上进行自我监督学习，学习语言的基本规律和模式。这些模型通常具有数十亿甚至数千亿个参数，能够捕捉语言的丰富语义和结构信息。基础模型在自然语言处理领域取得了巨大成功，如 BERT、GPT 等模型，为各种 NLP 任务提供了强大的预训练基础。

1.1.3.2 基础模型的特点

基础模型具有以下显著特点：

大规模预训练：基础模型在海量的无标注文本数据上进行预训练，学习语言的通用特征和模式。这种大规模预训练使得模型能够捕捉语言的丰富语义和结构信息，为后续的微调和应用提供了坚实的基础。
自我监督学习：基础模型采用自我监督学习方法，无需人工标注的数据即可进行训练。这种方法大大降低了数据标注的成本和工作量，同时提高了模型的泛化能力。
强大的迁移能力：经过预训练的基础模型具有强大的迁移能力，可以通过微调（Fine-tuning）适应各种特定的 NLP 任务。微调过程只需在少量标注数据上进行训练，即可使模型在特定任务上取得优异的性能。
多任务学习：基础模型可以同时处理多种不同的 NLP 任务，如文本分类、情感分析、问答系统等。这种多任务学习能力使得模型能够更好地理解和生成自然语言文本，提高模型的综合性能。

1.2 大语言模型的关键技术

1.2.1 预训练与微调

预训练是大语言模型开发的关键阶段，模型通过在大规模无标注数据上进行自我监督学习，学习语言的基本规律和模式。在生物信息学中，预训练通常使用 DNA、RNA 或蛋白质序列数据，以及相关的生物医学文献和数据库。微调则是在预训练模型的基础上，针对特定的生物信息学任务进行进一步训练，以提高模型在特定任务上的性能。例如，在基因表达调控预测任务中，可以使用特定的基因表达数据集对预训练模型进行微调，使其更好地适应该任务。

1.2.2 注意力机制

注意力机制是大语言模型的核心组成部分，它使模型能够关注输入序列中与当前任务最相关的部分，从而提高模型的性能和可解释性。在生物信息学中，注意力机制可以用于识别 DNA 序列中的关键基序、蛋白质序列中的功能域以及基因表达数据中的重要基因。通过分析注意力权重，研究人员可以深入了解模型的决策过程，揭示生物分子之间的相互作用和调控关系。

1.2.3 多模态融合

生物信息学数据具有多模态的特点，包括序列数据、结构数据、图像数据、文本数据等。大语言模型通过多模态融合技术，将不同模态的数据进行整合和分析，以获得更全面、更准确的生物信息。例如，将蛋白质序列数据与蛋白质结构数据相结合，可以提高蛋白质功能预测的准确性；将基因表达数据与病理图像数据相结合，可以更好地理解疾病的发生和发展机制。

1.3 生物信息学数据集的类型

1.3.1 基因组学数据集

基因组学数据集主要包含 DNA 和 RNA 序列信息，这些数据集在基因功能预测、疾病关联研究等方面具有重要价值。例如，人类基因组计划（Human Genome Project）生成的大量 DNA 序列数据，为理解人类基因组的结构和功能提供了基础。此外，转录组学数据集，如 RNA-Seq 数据，能够揭示基因在不同条件下的表达模式，为基因调控网络的研究提供了重要支持。

1.3.2 蛋白质组学数据集

蛋白质组学数据集涵盖了蛋白质的序列、结构和功能信息。这些数据集在蛋白质功能预测、蛋白质 - 蛋白质相互作用（PPI）网络构建等方面发挥着关键作用。例如，UniProt 数据库提供了丰富的蛋白质序列和功能注释，为蛋白质组学研究提供了宝贵的资源。此外，PDB（蛋白质数据银行）数据库存储了大量蛋白质的三维结构信息，为结构生物学研究提供了重要支持。

1.3.3 代谢组学数据集

代谢组学数据集包含了生物体系内小分子代谢物的全面分析结果。这些数据集在疾病诊断、药物研发、个性化医疗等领域具有广泛应用。例如，MetaboLights 数据库提供了多种生物样本的代谢组学数据，涵盖了不同疾病状态下的代谢物变化。此外，Human Metabolome Database（HMDB）提供了人类代谢组的详细信息，为代谢组学研究提供了重要的参考。

1.3.4 临床数据集

临床数据集包含了患者的病历、诊断结果、治疗方案等信息。这些数据集在疾病诊断、治疗效果评估、药物研发等方面具有重要价值。例如，电子健康记录（EHR）数据集提供了大量的临床信息，为医疗人工智能研究提供了丰富的素材。此外，临床试验数据集，如 ClinicalTrials.gov 提供的临床试验结果，为新药研发和医疗实践提供了重要的参考。

1.4 生物信息学数据集的特点

1.4.1 高维度和复杂性

生物信息学数据集通常具有高维度和复杂性，包含大量的特征和变量。例如，基因组学数据集可能包含数百万个基因位点的信息，蛋白质组学数据集可能包含数千种蛋白质的序列和结构信息。这种高维度和复杂性使得数据的处理和分析变得更加困难，但也为发现新的生物标志物和疾病机制提供了更多的机会。

1.4.2 异质性和多样性

生物信息学数据集具有异质性和多样性，数据来源广泛，包括不同的生物样本、实验条件和研究方法。例如，基因表达数据可能来自不同的组织样本，蛋白质结构数据可能来自不同的实验技术。这种异质性和多样性要求研究人员在数据处理和分析时考虑多种因素，以确保结果的准确性和可靠性。

1.4.3 动态性和时效性

生物信息学数据集具有动态性和时效性，数据随着时间的推移不断更新和变化。例如，新的基因组测序技术不断涌现，生成了大量的新数据；新的临床试验结果不断发布，更新了对疾病和治疗的理解。这种动态性和时效性要求研究人员及时更新数据集，以确保研究结果的时效性和实用性。

2 大语言模型在生物信息学中的应用现状

2.1 基因组学

在基因组学领域，大语言模型被用于分析 DNA 和 RNA 序列，预测基因功能、基因表达调控以及疾病相关变异。例如，DNABERT 和 GROVER 等模型通过对 DNA 序列的预训练，能够准确预测基因启动子、增强子等功能区域，为基因组功能注释提供了有力支持。此外，这些模型还可以结合表观遗传学数据，如 DNA 甲基化信息，进一步提高预测的准确性和可靠性。

2.1.1 DNA 分析

在 DNA 分析中，生物序列被编码成结构化的 token，以便模型有效处理。常用的方法是将序列分割成 k-mer，通常长度为 3 到 6 个碱基。这种方法创建了一个类似于自然语言中的词汇表，使预训练模型能够解码这些 k-mer 中的模式。k 的选择直接影响结果库的复杂性和大小，需要在建模效率和准确性之间进行权衡。

DNABERT 是一种开创性方法，它使用重叠的固定长度 k-mer 来标记 DNA 序列数据，而最近开发的 Nucleotide Transformer 也是如此。为了提高模型效率，后续版本如 DNABERT-2 和 GROVER 采用了字节对编码（BPE），这是一种统计压缩技术，通过迭代合并最频繁共现的基因组片段来扩展固定 k-mer 长度，显著提高了模型的效率和泛化能力。HyenaDNA 使用一碱基来标记 DNA 序列，因为它使用 Hyena 作为核心模型，该模型允许比 BERT 更长的输入。

在预训练方法方面，许多模型利用 BERT 架构和掩码学习方法（MLM）进行自我监督训练。为了提高训练效率，DNABERT 结合了 AdamW 优化器和固定权重衰减，并在输出层应用 dropout。DNABERT-2 引入了改进，如带线性偏差的注意力（ALiBi）和闪存注意力。相比之下，MuLan-Methyl 框架整合了五个微调的语言模型（BERT 及其四种变体）用于 DNA 甲基化位点的联合识别，保持了它们原始预训练设置的一致性。DNABERT-S 开发了一种基于对比学习的方法，有助于有效地聚类和分离不同物种。一些方法采用了其他 LLM 模型。例如，DNAGPT 使用基于 GPT 的模型和下一个 token 预测进行预训练，使其能够根据前一个 token 预测后续 token。HyenaDNA 使用 Hyena，这是一种新的 LLM 模型，允许更长的上下文输入，用于研究基因组序列的长程属性。

当将这些模型应用于特定的生物信息学任务时，大多数会整合额外的任务相关数据进行微调。例如，DNABERT 及其衍生产品利用真核启动子数据库（EPDnew）预测基因启动子，利用 ENCODE 数据库识别转录因子结合位点，并利用 dbSNP 进行功能变异检测。MuLan-Methyl 使用来自多个基因组的三种主要 DNA 甲基化类型的数据进行准确预测。Nucleotide Transformer 通过使用不同的数据集对模型进行微调，包括多个下游任务，例如使用组蛋白 ChIP-seq 数据进行表观遗传标记预测，使用人类增强子元素数据进行增强子序列预测，以及使用人类注释的剪接位点数据进行剪接位点预测。DNAGPT 利用 polyA 信号和翻译起始位点的数据进行基因组信号和区域识别。此外，由于 GPT 的生成性质，DNAGPT 还可以无需额外的微调数据生成人工人类基因组。一些方法直接使用模型的嵌入。例如，DNABERT-S 可以用于物种聚类和分类。

2.1.2 RNA 分析

与 DNA 不同，RNA 分析涉及更复杂和多样化的任务，需要定制的预处理策略。RNABERT，类似于 DNABERT 的结构，采用 k-mer 方法对 RNA 序列进行标记。鉴于 RNA 序列通常比 DNA 序列短，其他模型如 SpliceBERT、RNA-MSM 和 RNA-FM 使用单个核苷酸（一碱基）进行标记。除了序列标记外，这些模型通常在预处理期间还整合元数据。例如，RNA-RBP 根据是否存在 RNA 结合蛋白（RBP）区域，将每个序列标记为正或负，而 SpliceBERT 类似地对 RNA 剪接位点进行标记。RNA-MSM 通过包括多个序列比对（MSA）来增强其输入，以保留序列的进化历史。

RNA 的预训练方法主要遵循 DNA 的方法，利用 BERT 架构和掩码语言建模（MLM）进行训练。具体来说，RNA-MSM 采用类似于 AlphaFold2 的结构，利用 MSA-transformer 架构。根据目标应用，模型使用不同的数据集进行预训练：RNABERT 和 RNA-MSM 使用 Rfam 数据库中的序列，RNA-FM 利用 RNAcentral 中的非编码 RNA 序列，SpliceBERT 使用 UCSC 基因组浏览器上可用的 72 种脊椎动物的 RNA 序列进行预训练。BERT-RBP 使用包含 RBP 信息的 eCLIP-seq 数据集进行训练。

一旦训练完成，基于 BERT 的模型处理标记化的序列以产生每个 token 的嵌入。这些嵌入直接用于几个应用；RNABERT 使用它们对不同家族的 RNA 进行分类，而 BERT-RBP 使用它们预测 RBP 结合位点。此外，模型输出中生成的注意力图在应用中起着关键作用：SpliceBERT 使用这些图评估遗传变异对 RNA 剪接的影响，BERT-RBP 分析转录区域类型并预测二级结构，RNA-MSM 用于二级结构和溶剂可及性预测。

对于任务特定的增强，一些模型使用额外的数据集进行微调。例如，SpliceBERT 使用人类分支点数据集预测 BP 位点，并使用 Spliceator 数据集评估跨物种的剪接位点。RNA-FM 使用 PDB 数据集进行 RNA 3D 结构重建的微调。

2.2 单细胞技术与基因表达分析

随着单细胞技术的发展，研究人员能够更深入地了解单个细胞内基因产品的功能角色和调控机制。单细胞 RNA 测序（scRNA-seq）数据记录了各个细胞中不同基因的表达水平，通常以计数矩阵的形式呈现，与序列数据不同，它缺乏自然顺序且包含数值而非字符串。研究人员探索了多种方法，将这种数据适应为与 LLM 兼容的形式，调整 scRNA-seq 数据的表示，以利用 LLM 方法的强大功能。

为了使 scRNA-seq 数据与 LLM 兼容，研究人员设计了多种策略。例如，Cell2Sentence、tGPT 和 Geneformer 等模型采用按表达水平排序的基因符号作为输入。ScGPT 和 scBERT 则对基因表达进行离散化处理，并将其视为 token。此外，scGPT 还结合了元数据用于位置嵌入，而 scBERT 则利用 gene2vec 来捕捉基于一般共表达的语义相似性。

一些方法采用了基于变换器的架构，这种架构能够更灵活地处理非离散输入。CIForm 将每个细胞的基因表达向量分割成等长的子向量或 patch。TOCICA 将基因表达分组为代表特定通路的 patch，而 ScTransSort 则使用 CNN 生成基因嵌入 patch，将表达矩阵转换为多个 2D 方形 patch。TransCluster 利用线性判别分析（LDA）将基因表达计数转换为嵌入向量。

与基因组分析不同，单细胞分析采用了多样化的模型架构进行预训练。例如，Cell2Sentence、tGPT 和 scGPT 使用 GPT 架构，而 scBERT 和 Geneformer 基于 BERT 架构。基于变换器的方法通常在变换器后整合线性分类器，并使用细胞类型进行监督模型训练，如 CIForm、TOCICA、scTransSort 和 TransCluster。

单细胞 LLM 方法的主要目标是实现对各种组织和物种中细胞类型的准确和泛化注释。监督变换器方法直接使用预训练模型进行细胞类型注释。例如，tGPT 支持发育谱系推断，TOCICA 能够实现可解释的动态轨迹分析。经过预训练的 LLM 方法可以进一步微调用于专门任务或数据稀缺场景。例如，ScGPT 可适应于细胞注释、扰动响应预测、批次效应校正和基因调控网络推断等任务。同样，Geneformer 可以微调以预测基因剂量敏感性、染色质动态和基因网络动态。

2.3 表观基因组学

解码非编码基因组部分所包含的信息是基因组学的一个基本挑战。尽管在理解编码区域方面取得了实质性进展，但非编码区域仍然知之甚少，特别是它们在破坏 DNA 调控语法和对基因调控的贡献方面的作用。现有的 LLM，例如 Enformer，以 DNA 序列为输入并执行下游任务，面临两个关键限制：它们无法预测不同细胞环境中序列的功能，也无法整合 3D 染色质相互作用数据。

EpiGePT 是一种新的 LLM，旨在克服这些挑战。它使研究人员能够预测不同细胞环境中的功能，并将 3D 染色质相互作用数据整合到基因组建模中。EpiGePT 的架构包括四个关键组件：一个序列模块，用于分析 DNA 序列；一个转录因子（TF）模块，用于编码细胞环境；一个变换器模块，用于检查 DNA 区域之间的长程相互作用；以及一个预测模块，用于输出特定于上下文的基因调控见解。为了预测新细胞环境中的功能，EpiGePT 使用其 TF 模块，该模块将数百个转录因子的表达和结合活性表示为特定于上下文的向量。然后，该向量与 DNA 序列特征结合，这些特征被标记为基因组 bin——每个 bin 代表 DNA 序列的一个片段。这些标记了序列和特定于上下文的 TF 特征的 token 形成了模型的输入，确保模型能够捕获局部序列信息和细胞上下文。这种方法允许模型将每个基因组 bin 视为具有嵌入的位置和生物学上下文的 token，并利用变换器模块中的自注意力机制学习长程相互作用和特定于上下文的功能。EpiGePT 还解决了整合 3D 染色质相互作用数据的挑战，这对于理解长程基因调控至关重要。它通过使用 HiChIP 或 Hi-C 等真实 3D 相互作用数据来指导变换器模块的自注意力机制。这种对齐是通过余弦相似性损失实现的，该损失调整注意力权重以反映已知的 3D 基因组相互作用。通过这种方式，EpiGePT 能够比现有模型更准确地模拟调控机制，例如增强子 - 启动子相互作用。

2.4 蛋白质组学

蛋白质是生命活动的主要执行者，其结构和功能的预测一直是生物信息学研究的热点和难点。大语言模型在蛋白质组学中的应用主要体现在蛋白质结构预测、功能预测以及蛋白质 - 蛋白质相互作用（PPI）预测等方面。AlphaFold 系列模型的出现，特别是 AlphaFold2 和 AlphaFold3，利用深度学习技术实现了对蛋白质三维结构的高精度预测，极大地推动了结构生物学的发展。这些模型不仅能够预测单个蛋白质的结构，还能模拟蛋白质复合物的组装，为理解生物分子机器的工作原理提供了重要线索。

2.4.1 蛋白质 LLM 模型

仅编码器模型： 如基于 BERT 的模型，主要用于理解蛋白质序列。这些模型在涉及识别序列内模式的任务中表现出色，适用于蛋白质分类、突变效应预测和二级结构分析。例如，ESM 1b、ESM-1v、ProteinBert 和 ProtTrans 等模型利用 BERT 的双向注意力机制来捕获氨基酸序列内的上下文关系。

仅解码器模型： 类似于 NLP 中的 GPT 家族，侧重于基于学习的分布生成新序列。在蛋白质研究中，这些模型可用于生成具有所需属性的合成蛋白质序列或设计新蛋白质。例如，ProGen、ProtGPT2、ZymCTRL、RITA、IgLM、ProGen2 和 PoET 等模型以其生成具有特定生化功能的多样化蛋白质序列的能力而著称。这一类模型在蛋白质工程和合成生物学中至关重要，因为它们能够生成具有特定功能的新蛋白质。

编码器 - 解码器模型： 结合了编码器和解码器架构的优点，使其能够适应各种蛋白质相关任务。它们特别适用于序列到序列的任务，如蛋白质序列比对，其中准确比对氨基酸序列对于理解进化关系至关重要。这些模型还可以微调用于蛋白质结构预测或蛋白质 - 蛋白质相互作用映射，为药物发现和疾病诊断等领域的发展做出贡献。包括 Fold2Seq、MSA2Prot、Sgarbossaetal、Leeetal、LM-Design、MSAAugmenter、ProstT5、xTrimoPGLM、SS-pLM、pAbT5、ESM-GearNetINR-MC 等模型。

多模态蛋白质模型： 整合了传统的蛋白质语言模型与额外的数据类型，如结构和相互作用信息，创建了强大的框架，能够同时分析序列和结构特征。通过整合文本蛋白质序列与结构注释，这些模型增强了对任务如 3D 蛋白质结构预测、结合相互作用分析和功能位点识别的预测能力。例如，多模态蛋白质表示学习（MPRL）框架通过结合序列信息、3D 结构数据和功能注释来捕获蛋白质的复杂特征。MPRL 利用 ESM-2 进行序列分析，变分图自编码器（VGAE）用于残基级图，以及点云自编码器（PAE）用于 3D 点云表示。这种全面的数据整合保留了蛋白质的空间和进化方面，使模型能够有效地泛化到诸如蛋白质 - 配体结合亲和力预测和蛋白质折叠分类等任务。同样，ProtTrans 和 ESM 等模型将蛋白质序列视为文本数据，通过学习丰富的嵌入，当与 3D 结构数据结合时，改善了结构 - 功能关系的预测。这种多模态协同作用对于推进蛋白质工程和药物发现至关重要，将复杂的生物功能映射到蛋白质的计算表示上。

2.4.2 蛋白质 LLM 的下游任务

蛋白质建模，特别是通过深度学习方法，涉及多种关键任务，如蛋白质 - 蛋白质相互作用（PPI）预测，这对于细胞功能至关重要。这种预测有助于理解疾病机制、药物 - 靶标相互作用以及对复杂分子途径做出贡献的蛋白质的结构特征。例如，AlphaFold、AlphaFold 2、AlphaFold 3、Graph-BERT、MARPPI 等模型在预测 PPI 方面表现出色。

大规模模型还在预测蛋白质后翻译修饰（PTMs）方面表现出色，PTMs 在调节蛋白质功能、稳定性和细胞信号传导方面发挥着重要作用。各种机器学习模型，包括基于变换器和神经网络的模型，已被改编为以更高的准确性预测 PTM 位点。例如，通过微调 GPT-2 架构开发的 PTMGPT2 模型，利用基于提示的方法识别对应于各种类型 PTM 位点的微妙序列模式。通过在其提示中使用自定义 token，PTMGPT2 有效地捕获序列上下文并提高预测准确性，使其在识别与疾病相关的突变和潜在药物靶标方面非常有用。

此外，蛋白质结构预测仍然是计算生物学中的一个关键任务。它涉及理解蛋白质如何折叠以及它们的结构如何决定功能。先进的模型，如基于变换器架构的模型，有助于准确预测蛋白质结构，为合成生物学、酶设计和治疗性蛋白质工程提供关键信息。这些方法使科学家能够预测蛋白质折叠模式并设计具有特定功能的新蛋白质，可能会彻底改变药物发现和合成生物学领域。典型的模型包括 AlphaFold、AlphaFold 2、AlphaFold 3、ColabFold、Eigenfold 等。

蛋白质大型语言模型（Prot-LLMs）的开发依赖于能够捕捉蛋白质序列和功能复杂性的多样化数据集。这些数据集通常包括用于无监督预训练的未标记数据，例如来自 UniProt、AlphaFoldDB 等存储库的蛋白质序列，这些存储库涵盖了跨物种的数百万蛋白质序列。对于微调和评估，标记数据集侧重于特定的蛋白质特征，如结构、功能和相互作用。例如，用于二级结构预测、蛋白质 - 蛋白质相互作用网络和特定后翻译修饰（PTM）位点的数据集。这些标记数据集使 Prot-LLMs 能够执行任务，如功能注释、PTM 预测和蛋白质结构建模。

2.5 代谢组学

代谢组学是研究生物体系内小分子代谢物的全面分析，它为细胞生化状态提供了一个快照，是理解基因型与表型动态交互的关键领域。随着技术的发展，代谢组学在疾病诊断、药物研发、个性化医疗等多个领域展现出巨大潜力。LLMs 的引入，也为代谢组学数据的分析和解读带来了新的视角和方法。

2.5.1 数据整合与解读

代谢组学面临的重大挑战之一是如何整合和解读大量的复杂数据集。这些数据集通常包括不同来源的代谢物信息，如血液、尿液、组织样本等。大语言模型能够处理和分析这些多源数据，通过学习数据中的模式和相关性，帮助研究人员识别与特定疾病状态相关的代谢物特征。例如，LLMs 可以被训练来预测特定代谢物谱所关联的生物途径和过程，从而为疾病的分子机制提供见解。

2.5.2 生物标志物发现与验证

在代谢组学中，发现稳健的生物标志物对于疾病的早期诊断、预后评估和治疗监测至关重要。大语言模型可以分析来自临床试验和队列研究的大型数据集，以识别与特定疾病状态相关的潜在生物标志物。通过整合深度学习框架，LLMs 能够解决匹配不确定性、代谢物鉴定等挑战，从而更可靠地发现和验证生物标志物，为临床应用开发更准确、更可靠的生物标志物组合。

2.5.3 代谢途径分析与药物发现

代谢组学数据能够提供疾病状态下代谢途径扰动的宝贵信息。大语言模型在分析生物数据（如基因组序列和蛋白质结构）方面表现出色，使其成为识别可药靶点和新型治疗化合物的重要工具。例如，LLMs 可以被训练来预测基因变异对酶活性和代谢通量的影响，从而帮助识别可药靶点。此外，LLMs 还可用于发现新型治疗化合物，通过预测小分子与代谢酶和途径的结合亲和力。

2.5.4 个性化医疗

代谢组学在个性化医疗中的应用日益受到关注，其潜力在于根据患者的代谢特征定制治疗方案。大语言模型可以在此背景下发挥关键作用，通过分析患者的特定代谢组数据，结合基因组、蛋白质组和临床数据，开发个性化的治疗计划。例如，LLMs 可以预测个体患者对特定疗法的反应，从而帮助选择最有效的治疗方案。

2.5.5 文献挖掘与知识发现

代谢组学领域的大量已发表文献为研究人员提供了丰富的信息，但同时也带来了整理和综合这些信息的挑战。大语言模型可以用于挖掘这些文献，识别新的代谢物、表征代谢途径和发现新的生物标志物，从而指导未来的研究方向。通过处理和分析科学文章中的文本数据，LLMs 可以生成假设并识别趋势。

2.5.6 质量控制与数据标准化

代谢组学数据的可重复性和可比性对于该领域的发展至关重要。工具如 LargeMetabo 包有助于大规模代谢组学数据集的可重复性和标准化，确保研究间的一致性。大语言模型可以用于标准化代谢组学数据，通过识别和纠正数据注释、命名法和报告中的不一致性。此外，LLMs 还可以协助开发代谢组学实验的质量控制指标和标准，从而提高不同研究和平台间代谢组学数据的可靠性和可比性。

2.5.7 预测建模与模拟

LLMs 可以与机器学习模型集成，开发代谢途径和网络的预测模型。先进的多变量模型，包括机器学习技术，已显示出在分析代谢组学数据以揭示代谢途径预测模式方面的有效性。这些模型可用于模拟遗传、环境和药理学扰动对代谢过程的影响，从而为疾病的分子机制和治疗干预的潜在结果提供见解。此外，LLMs 还可用于预测代谢工程策略在合成生物学应用中的结果，例如优化生物燃料、药物和其他有价值的化学品的代谢途径。

3 疾病诊断与治疗中的应用

LLMs 在疾病诊断和治疗方面的应用前景广阔。通过对大量的临床数据、医学文献和患者病历进行学习，模型能够辅助医生进行疾病诊断、制定治疗方案以及预测疾病预后。例如，基于大语言模型的问答系统可以快速准确地回答医生和患者关于疾病诊断和治疗的问题，提供个性化的医疗建议。此外，模型还可以挖掘潜在的疾病标志物和药物靶点，为新药研发和精准医疗提供支持。

准确及时的诊断是有效医疗的基础，特别是在复杂且进展性的疾病如神经退行性疾病中。从文本数据到生物序列和大脑信号，LLMs 擅长识别模式、提取临床相关信息并支持决策制定。此外，它们整合多模态数据的能力已在提高诊断准确性方面显示出希望。本节探讨了 LLMs 如何应用于跨越不同大脑疾病的多种数据类型，突出了它们的独特优势和当前临床诊断中的挑战。

文本数据 - 生物医学文本 LLMs 越来越多地应用于生物医学文本数据的分析，包括文献和电子健康记录（EHRs）。这种形式的生物医学文本数据紧密地反映了大型语言模型的基本结构。LLMs 可以在医疗报告中识别重要见解，增强诊断准确性。在大脑疾病研究中，LLMs 已被利用来诊断癫痫、阿尔茨海默病（AD）、头痛、中风、帕金森病等神经退行性疾病，使用来自临床笔记、MRI 报告和神经病理记录的文本数据。对于 AD，LLMs 提供了一种非侵入性、成本效益高且可扩展的解决方案，通过分析 EHRs 中的非结构化数据。例如，Mao 等人展示了 LLM 可以准确预测从轻度认知障碍（MCI）到 AD 的进展，使用临床笔记作为早期检测手段。Feng 等人利用 LLM 将文本数据与成像数据对齐，通过多模态方法显著增强了 AD 诊断。除了 AD，LLMs 在管理癫痫方面也显示出希望，研究成功地对无癫痫发作患者进行了分类，并从临床笔记中提取癫痫发作频率等关键信息。此外，在梅奥诊所进行的针对神经退行性疾病的诊断准确性研究中，使用 ChatGPT-3.5、ChatGPT-4 和 Google Bard，分别实现了 76%、84% 和 76% 的诊断准确性，突出了 LLMs 在为复杂神经病理病例生成鉴别诊断方面的潜力。EHRs 还包括详细的 MRI 报告，这些报告在神经诊断中至关重要。Bastien Le Guellec 等人评估了 LLMs 在从现实世界的急诊 MRI 报告中提取信息的性能，无需额外训练即可实现高准确性。同样，Kanazawa 等人展示了经过微调的 LLM 可以对 MRI 报告进行分类，如无脑肿瘤、治疗后脑肿瘤和治疗前脑肿瘤，其准确性与人类读者相当。这些结果突出了 LLMs 在处理 MRI 报告方面的日益重要性，这些报告是 EHRs 的重要组成部分，进一步增强了它们在大脑疾病诊断和管理中的实用性。

文本数据 - 转录文本 除了基于文本的数据外，来自语音数据的转录在诊断影响语言能力的大脑疾病方面越来越有价值。例如，AD 患者在描述图像时通常表现出独特的语言模式，包括找词困难、语法错误、重复语言和不连贯的叙述。ADReSS 挑战数据集激发了研究社区开发自动化方法来分析个体的语音、声学和语言模式以检测认知变化，这些研究经常使用该数据集。LLMs 在此背景下超越了传统方法，如支持向量机（SVM）和随机森林。现有工作还表明，结合声学特征与语言特征的多模型可以提高性能，声学特征的最大准确率为 64.5%，BERT 模型在测试数据集上的分类准确率为 79.1%，声学模型与 BERT 模型的融合使分类准确率提高了 6.1%。语言分析在诊断失语症方面也至关重要，失语症通常由左半球中风引起。Chong 等人在一项研究中评估了 LLM 惊讶值的临床疗效，研究中让中风后失语症患者在回顾一本无字图画书后讲述灰姑娘的故事。这种方法揭示了量化缺陷和改善失语症话语评估的巨大潜力。

文本数据 - 文本生成 除了生物医学文本和语音数据外，文本生成的最新进展进一步展示了大型语言模型在临床应用中的潜力。研究表明，LLM 生成的总结通常比人类专家生成的总结更受青睐，涵盖了放射学报告、患者咨询、病历进展和医患对话等多个领域。这表明 LLMs 有效综合复杂临床信息的能力。引入了链式思维（CoT）提示和文本分类等技术，以提高 LLM 输出的信心和准确性。例如，在神经病例中，GPT-4 展示了有希望的结果。通过分析急性中风病例的历史和神经体格检查（H&P）数据，GPT-4 准确地将病变定位到特定的大脑区域，并识别出它们的大小和数量。这是通过零样本链式思维和文本分类提示实现的，突出了模型在高级神经解剖推理方面的潜力。同样，在 AD 诊断中，通过临床链式思维框架提示 LLMs，使它们能够生成详细的诊断理由，展示了它们支持推理意识诊断框架的能力。

生物序列 DNA 转录为 RNA，然后翻译成蛋白质的过程是生命的基础，通常被称为分子生物学的中心法则。许多大脑疾病，包括 AD、帕金森病（PD）、自闭症谱系障碍（ASD）和额颞叶痴呆（FTD），与 DNA、RNA 或蛋白质序列的异常密切相关。为了研究这些疾病背后的遗传和分子机制，广泛使用了全基因组关联研究（GWAS）、转录组分析和蛋白质组学分析等方法。然而，传统方法通常难以解释这些大规模数据集中的复杂模式。LLMs 凭借其处理序列数据的高级能力，为分析生物序列提供了变革性方法，使人们对疾病机制和潜在治疗靶标有了更深入的了解。几种创新的 LLM 已被开发用于生物序列。对于 DNA，像 Enformer、Nucleotide Transformer 和 DNABERT 这样的模型显示出巨大潜力。对于 RNA，RNABERT、RNAFM 和 RNA-MSM 等模型侧重于结构推断和功能预测。对于蛋白质，像 ProteinBERT、ESM-1b 和 ProtST 这样的模型已证明能够理解序列 - 功能关系。尽管取得了这些进展，但 LLMs 揭示生物序列异常与特定大脑疾病之间关系的应用仍然有限。值得注意的例外包括 epiBrainLLM，由 Liu 等人提出，它使用保留的 LLM 框架从个人 DNA 序列中提取基因组特征，并结合这些特征以增强诊断。这种方法为揭示基因型与大脑测量和 AD 相关表型之间的因果路径提供了宝贵的见解。另一项研究利用 LLMs 预测蛋白质相变（PPTs），如淀粉样蛋白聚集，这是与年龄相关的疾病如 AD 的关键病理特征，展示了 LLMs 在推进神经退行性疾病分子层面理解方面的潜力。

大脑信号 大脑信号数据，包括 sMRI、fMRI 和 EEG，对于诊断和理解各种大脑疾病至关重要。这些信号中的异常是癫痫、ADHD 和心理健康障碍等疾病的诊断指标。对于癫痫，EEG 异常，如癫痫发作、尖峰和慢波模式，被广泛用于诊断。经过微调的 LLM，名为 EEG-GPT，被开发用于将 EEG 信号分类为正常或异常，显示出在识别这些模式方面的强大性能。同样，Liu 等人利用 LLM 指导 rs-fMRI 的亲和力学习，实现全面的大脑功能表示和提高大脑疾病诊断的准确性。上述所有 LLM 模型都基于变换器架构。由于大脑信号中的长程依赖性和时间分辨率，基于 Mamba 的 LLM 也在此领域显示出潜力。Behrouz 和 Hashemi 提出了 BrainMamba，这是一种高效的编码器，用于建模多变量大脑信号的时空依赖性。它结合了大脑信号的时间序列编码器和空间关系的图编码器，使其适用于神经成像数据。通过选择性状态空间模型设计，BrainMamba 实现了线性时间复杂度，能够训练大规模数据集。在七个真实数据集上进行的评估，涵盖了 fMRI、MEG、EEG 三种模态和癫痫、ADHD、心理健康状态检测等任务，表明 BrainMamba 在时间和内存需求更低的情况下，优于基线模型。

4 大语言模型在生物信息学中的挑战与未来发展方向

4.1 数据隐私与安全

生物信息学数据通常包含大量的个人隐私信息，如基因序列、疾病诊断结果等。在使用大语言模型进行数据处理和分析时，必须确保数据的隐私和安全，防止数据泄露和滥用。未来需要开发更加安全的数据存储和传输技术，以及更加严格的隐私保护政策和法规，以保障生物信息学数据的安全性。

4.2 模型可解释性

尽管大语言模型在生物信息学中取得了显著的成果，但其决策过程往往缺乏可解释性，这使得研究人员难以理解模型的预测结果和背后的生物学机制。提高模型的可解释性是未来研究的重要方向之一，通过开发新的算法和技术，如注意力机制可视化、特征重要性分析等，使研究人员能够更好地理解模型的决策过程，从而提高模型的可信度和应用价值。

4.3 计算资源与效率

大语言模型通常需要大量的计算资源进行训练和推理，这对于生物信息学领域的研究人员来说可能是一个挑战。未来需要开发更加高效的计算架构和算法，以降低模型的计算成本和提高计算效率。例如，通过模型压缩、分布式计算等技术，使大语言模型能够在普通的计算设备上运行，从而促进其在生物信息学领域的广泛应用。

4.4 跨学科合作

大语言模型在生物信息学中的应用需要计算机科学、生物学、医学等多个学科的紧密合作。未来需要加强跨学科的合作与交流，培养具有多学科背景的人才，以推动大语言模型在生物信息学领域的深入发展。通过跨学科合作，可以更好地结合不同学科的优势，解决生物信息学中的复杂问题，为生命科学研究带来更多的创新和突破。

5 结语

LLMs 为生物信息学的发展带来了新的机遇和挑战。通过预训练、微调、注意力机制和多模态融合等关键技术，大语言模型在基因组学、蛋白质组学、疾病诊断与治疗等领域取得了显著的应用成果。然而，数据隐私与安全、模型可解释性、计算资源与效率等问题仍需进一步解决。未来，随着跨学科合作的不断加强和技术的不断创新，大语言模型将在生物信息学领域发挥越来越重要的作用，为生命科学研究和人类健康事业做出更大的贡献。

6 参考

以上为对综述的要点总结，具体细节请阅读原文：Ruan, Wei, Yanjun Lyu, Jing Zhang, Jiazhang Cai, Peng Shu, Yang Ge, Yao Lu et al. "Large Language Models for Bioinformatics." arXiv preprint arXiv:2501.06271 (2025).