Mol-Instructions:大模型赋能,药物研发新视野

论文标题:Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models

论文链接:

https://arxiv.org/pdf/2306.08018.pdf

Github链接:

https://github.com/zjunlp/Mol-Instructions

模型下载(wisemodel):

https://www.wisemodel.cn/datasets/zjunlp/Mol-Instructions

https://wisemodel.cn/models/zjunlp/llama2-molinst-molecule-7b

https://wisemodel.cn/models/zjunlp/llama2-molinst-biotext-7b

https://wisemodel.cn/models/zjunlp/llama-molinst-protein-7b

数据及模型下载(huggingface):

https://huggingface.co/datasets/zjunlp/Mol-Instructions

https://huggingface.co/zjunlp/llama2-molinst-molecule-7b

https://huggingface.co/zjunlp/llama2-molinst-biotext-7b

https://huggingface.co/zjunlp/llama-molinst-protein-7b

大语言模型(Large Language Model, LLM)在自然语言处理(NLP)领域的各种下游任务中表现出了卓越的性能,具备强大的文本理解和生成能力。随着这些大型模型逐渐突破传统文本处理的边界,它们在生物学、计算化学和药物开发等领域展示了巨大的潜力。然而,生物分子领域面临一系列挑战,如专用数据集的缺乏、数据注释的复杂性、多样的知识需求和缺乏标准化的表示方法等。为此,本文提出了Mol-Instructions,一个专门为生物分子研究中的各项任务定制的指令数据集(图1)。

图1: Mol-Instructions为大模型赋能,解锁生物分子领域的各类挑战

一、构建

图2: Mol-Instructions的构建过程

如图2所示,Mol-Instructions的构建遵循以下过程:

  1. 利用LLM的能力,生成多样化的任务描述,模拟人类需求的多样性。
  2. 通过不同的预处理方式将现有数据库中的数据转换为指令形式。
  3. 将结构化功能注释通过模版转化为文本形式。
  4. 对小分子和蛋白质序列进行质量控制,确保避免化学无效和冗余的序列。

二、概览

Mol-Instructions数据集包含2043K条指令数据,覆盖小分子、蛋白质和生物分子文本三大领域的17个关键任务(图3),包含了不同复杂度和结构的生物分子及丰富的文本描述(图4)。

图3: Mol-Instructions涵盖的任务领域

图4:Mol-Instructions的数据多样性

三、实验分析

为衡量Mol-Instructions对LLMs理解和预测生物分子的帮助,本文对LLaMA-7B模型进行了指令微调,并从多个角度进行了定量实验分析。实验结果如图5、6、7所示,经Mol-Instructions指令微调的LLM在各项任务中的表现均优于其他对照模型,证明了Mol-Instructions在增强LLMs的生物分子理解和生成能力方面的重要性。

图5:小分子与蛋白质理解任务结果

 

图6:分子生成任务结果

图7:自然语言处理任务结果

四、总结

Mol-Instructions可用于评估通用模型在从人类语言到生命语言的跨模态理解能力,显著提升大型模型对生物分子的理解能力,并可作为后续研究更深入探索生物分子设计和处理复杂生物问题的重要数据来源。由于文本与生物分子在表示空间上的差异,以及LoRA训练策略的限制,当前大型模型在掌握生物分子语言方面尚未达到掌握人类语言的熟练度。因此,探索扩展词汇表或将生物分子语言作为另一种模态纳入,可能是提高大型模型在生物分子任务中理解和性能的关键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/193214.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux如何使用Xshell远程连接

简介:本文的一切条件基于redhat的linux操作系统。 1、创建虚拟机: 如有需要,请转至【linux基础】在VMware上安装RHEL9详细教程_融社的博客-CSDN博客 (如若侵权,该篇立删) 2、使用命令查看网段信息 打…

【漏洞复现】浙大恩特CRM文件上传0day

漏洞描述 浙大恩特客户资源管理系统任意文件上传漏洞 免责声明 技术文章仅供参考,任何个人和组织使用网络应当遵守宪法法律,遵守公共秩序,尊重社会公德,不得利用网络从事危害国家安全、荣誉和利益,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用…

Java Swing垃圾分类器

内容要求 1) 本次程序设计是专门针对 Java 课程的,要求使用 Java 语言进行具有一定代码量的程序开发。程序的设计要结合一定的算法,在进行代码编写前要能够设计好自己的算法。 本次程序设计涉及到 Java 的基本语法,即课堂上所介绍的变量、条件语句、循…

【django+vue】项目搭建、解决跨域访问

笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~ 【djangovue】项目搭建、解决跨域访问 djangovue介绍vue环境准备vue框架搭建1.创建vue项目2.配置vue项目3.进入项目目录4.运行项目5.项目文件讲解6.vue的扩展库或者插件 django环境准备django框架搭建1.使用conda…

JSP基本表单和Request对象使用例子

表单的jsp&#xff1b; <%page contentType"text/html;charsetgbk" pageEncoding"UTF-8"%> <!DOCTYPE html> <html><head><meta http-equiv"Content-Type" content"text/html; charsetUTF-8"><titl…

【LLM】基于LLM的agent应用(更新中)

note 在未来&#xff0c;Agent 还会具备更多的可扩展的空间。 就 Observation 而言&#xff0c;Agent 可以从通过文本输入来观察来理解世界到听觉和视觉的集成&#xff1b;就 Action 而言&#xff0c;Agent 在具身智能的应用场景下&#xff0c;对各种器械进行驱动和操作。 Age…

要做好解决方案工程师,这些核心技能是必须要掌握的。

要做好解决方案工程师&#xff0c;以下是一些比较中肯的建议&#xff1a; 1、了解客户需求&#xff1a;解决方案工程师需要深入了解客户的需求和挑战&#xff0c;以便为他们提供定制化的解决方案。通过与客户交流、调研市场趋势等方式&#xff0c;了解客户的业务需求和目标&…

LeetCode - 27. 移除元素 (C语言,快慢指针,配图)

力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 思路一&#xff1a;新开辟一个数组&#xff0c;空间复杂度O(N) 因为本题要求是空间复杂度O(1),所以这里只是列出思路1的思路和配图&#xff0c;并没有具体的实现代码&#xff0c;想必这对大家一定很简单…

深度学习系列53:mmdetection上手

1. 安装 使用openmim安装&#xff1a; pip install -U openmim mim install "mmengine>0.7.0" mim install "mmcv>2.0.0rc4"2. 测试案例 下载代码和模型&#xff1a; git clone https://github.com/open-mmlab/mmdetection.git mkdir ./checkpoi…

网络运维与网络安全 学习笔记2023.11.18

网络运维与网络安全 学习笔记 第十九天 今日目标 冲突域和交换机工作原理、广播域和VLAN原理 VLAN配置、TRUNK原理与配置、HYBRID原理与配置 冲突域和交换机工作原理 冲突域概述 定义 网络设备发送的数据&#xff0c;产生冲突的区域&#xff08;范围&#xff09; 对象 “数…

Nacos注册表解读

基本介绍 在 Nacos 中&#xff0c;注册表是其中一个重要的组件&#xff0c;用于管理服务的注册和发现。 注册表是一个存储服务实例信息的数据库&#xff0c;它记录了所有已注册的服务实例的相关信息&#xff0c;包括服务名称、IP 地址、端口号等。 通过注册表&#xff0c;服…

定时获取公网ip并发送邮件提醒

前一段时间路由器刷的老毛子固件“穿透服务”中定时更新阿里DDNS失败了&#xff0c;用了很久第一次遇到。所以需要做个备用的措施用来实时获取公网ip信息 1、基于python实现 开启邮箱的SMTP功能拿到授权码(不是登录密码) #!/usr/bin/python # -*- coding: UTF-8 -*- import …