知识图谱 多模态学习 2024 最新综述

知识图谱遇见多模态学习:综述

论文题目:Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

论文链接:http://arxiv.org/abs/2402.05391

项目地址:https://github.com/zjukg/KG-MM-Survey

备注:55 pages, 619 citations, 11 Tables, 13 Figures

机构:浙江大学,东南大学,牛津大学,爱丁堡大学,曼彻斯特大学,普渡大学

Task

目录

知识图谱遇见多模态学习:综述

引言

KG驱动的多模态(KG4MM)学习 (KG-driven Multi-modal Learning)

理解与推理任务 (Understanding & Reasoning Tasks)

分类任务 (Classification Tasks)

内容生成任务 (Content Generation Tasks)

检索任务 (Retrieval Tasks)

KG-aware多模态预训练 (KG-aware Multi-modal Pre-training)

多模态知识图谱(MM4KG) (Multi-modal Knowledge Graphs)

MMKG资源 (MMKG Resources)

MMKG资源

MMKG获取 (MMKG Acquisition)

KG 信息抽取

MMKG融合 (MMKG Fusion)

MMKG推理 (MMKG Inference)

MMKG驱动的任务 (MMKG-driven Tasks)

MMKG-driven 任务

挑战与机遇 (Challenges and Opportunities)

MMKG构建与获取 (MMKG Construction & Acquisition)

KG4MM任务 (KG4MM Tasks)

MM4KG任务

大型语言模型 (Large Language Models)


引言

本综述深入分析了2020至2023年间超过300篇文献,聚焦于两个主要方向:一是知识图谱驱动的多模态学习(KG4MM),探讨知识图谱如何支持多模态任务;二是多模态知识图谱(MM4KG),研究如何将知识图谱扩展到多模态知识图谱领域。作者从定义KGs和MMKGs的基本概念入手,继而探讨它们的构建和演化,涵盖KG-aware多模态学习任务(如图像分类、视觉问答)及固有的MMKG任务(如多模态知识图谱补全、实体对齐)。本文还强调了研究重点,提供了任务定义、评估基准,并概述了基本见解。通过讨论当前面临的挑战和评估新兴研究趋势,如大型语言模型和多模态预训练策略的进展,本调研旨在为KG与多模态学习领域的研究人员提供一个全面的参考框架,以及对该领域不断演进的洞察,从而支持未来的工作。

KG驱动的多模态(KG4MM)学习 (KG-driven Multi-modal Learning)

理解与推理任务 (Understanding & Reasoning Tasks)

KG4MMR

视觉问答 (Visual Question Answering)

视觉问答 Benchmark

视觉问题生成 (Visual Question Generation)

视觉对话 (Visual Dialog)

分类任务 (Classification Tasks)

图像分类 (Image Classification)

IMGC

IMGC Benchmark

假新闻检测 (Fake News Detection)

电影类型分类 (Movie Genre Classification)

内容生成任务 (Content Generation Tasks)

SG Generation

图像注释 (Image Captioning) 视觉故事讲述 (Visual Storytelling) 条件文本到图像生成 (Conditional Text-to-Image Generation) 场景图生成 (Scene Graph Generation)

检索任务 (Retrieval Tasks)

跨模态检索

跨模态检索 (Cross-Modal Retrieval) 视觉指代表达与定位 (Visual Referring Expressions & Grounding)

KG-aware多模态预训练 (KG-aware Multi-modal Pre-training)

结构知识感知预训练 (Structure Knowledge aware Pre-training)

知识图谱感知预训练 (Knowledge Graph aware Pre-training)


多模态知识图谱(MM4KG) (Multi-modal Knowledge Graphs)

N-MMKG Ontology

Taxonomy of MMKG tasks

MMKG资源 (MMKG Resources)

公开的MMKGs (Public MMKGs)

MMKG资源

MMKG构建方法 (MMKG Construction Methods)

MMKG获取 (MMKG Acquisition)

KG 信息抽取

多模态命名实体识别 (Multi-modal Named Entity Recognition)

MNER Benchmark

多模态关系抽取 (Multi-modal Relation Extraction)

MMRE Benchmark

多模态事件抽取 (Multi-modal Event Extraction)

MMEE Benchmark

MMKG融合 (MMKG Fusion)

多模态实体对齐 (Multi-modal Entity Alignment)

MMEA Benchmark

多模态实体链接与消歧 (Multi-modal Entity Linking & Disambiguation)

MMEL Benchmark

MMKG推理 (MMKG Inference)

多模态知识图谱补全 (Multi-modal Knowledge Graph Completion)

MKGC Benchmark

多模态知识图谱推理 (Multi-modal Knowledge Graphs Reasoning)

MMKG驱动的任务 (MMKG-driven Tasks)

MMKG-driven 任务

检索 (Retrieval)

预训练 (Pre-training)

科学交叉领域的AI应用(AI for Science)

行业应用 (Industry Application)

挑战与机遇 (Challenges and Opportunities)

MMKG构建与获取 (MMKG Construction & Acquisition)

KG4MM任务 (KG4MM Tasks)

多模态内容生成 (Multi-modal Content Generation)

多模态任务集成 (Multi-modal Task Integration)

扩展MMKG以适应多模态任务的挑战 (Challenges in Scaling MMKG for Multi-modal Tasks)

释放大规模MMKG在多模态任务中的潜力 (Unlocking the Potential of Large-Scale MMKGs for Multi-Modal Tasks)

MM4KG任务

MMKG融合 (MMKG Fusion)

MMKG推理 (MMKG Inference)

将多模态任务转化为MMKG范式 (Transfer Multi-modal Task into MMKG Paradigm)

应用多模态任务进行MMKG内任务增强 (Apply Multi-modal Task for In-MMKG Task Augmentation)

大型语言模型 (Large Language Models)

大模型微调 (Fine-Tuning)

大模型幻觉 (Hallucination)

大模型智能体(Agent)

大模型检索增强生成(Retrieval Augmented Generation (RAG))

大模型编辑 (Editing)

大模型偏好对齐 (Alignment)

MMKG精炼 (MMKG Refinement)

MMKG MoE

详细内容见原文:http://arxiv.org/abs/2402.05391

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/467790.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

读十堂极简人工智能课笔记01_人工智能简史

1. 2400年前 1.1. 希腊罗德岛 1.1.1. 是个神奇的岛屿,以机械发明著称,包括真人大小的、大理石制成的自动机 1.1.2. 早在罗马帝国诞生之前,公元前400多年的希腊就有这样的机器人技术,似乎不可思议 2. 公元前970到前931年 2.1.…

LAXCUS分布式操作系统目标:软件算力入口

英伟达现在的市值相当于整个中国股市!说明了什么? AI 大潮下,算力就是生产力,也是未来 20 年一切产业的基础,英伟达已经把住硬件算力入口,LAXCUS 分布式操作系统瞄准软件算力入口,做好了&#…

网安常用的三个攻击方式

1.渗透测试执行标准(PTES) 渗透测试执行标准由7个部分组成,包括前期交互、情报收集、威胁建模、漏洞分析、渗透利用、后渗透、撰写报告。在中国,渗透测试必须经过授权,否则就违背了网络安全法。前期交互主要指开展渗透…

docker 1:介绍

docker 1:介绍 docker解决哪些问题: 传统APP在安装到不同电脑的时候可能会遇到依赖问题,比如缺少VS 20xx,软件无法运行”的情况。docker使用容器技术将软件 依赖​打包为image包发布,解决了依赖问题。docker有一个官…

腾讯云4核8G服务器性能如何?支持多少用户访问?

腾讯云4核8G服务器支持多少人在线访问?支持25人同时访问。实际上程序效率不同支持人数在线人数不同,公网带宽也是影响4核8G服务器并发数的一大因素,假设公网带宽太小,流量直接卡在入口,4核8G配置的CPU内存也会造成计算…

MySQL简单配置GTID

前期规划 IP地址 角色 系统版本 内核 软件包名称 192.168.2.3 Mysql主服务器 CentOS Stream 9 5.14.0- 381.el9.x86_64 mysql-8.2.0-linux-glibc2.17-x86_64.tar.xz 192.168.2.4 Mysql从服务器 CentOS Stream 9 5.14.0- 381.el9.x86_64 mysql-8.2.0-linux-glibc…

C语言—字符数组(3)

可能不是那么的完整,先凑合看吧,如果我学会如何修改以后,我慢慢回来修改的 1.编写程序实现对两个字符串的连接功能; 法一:不使用strcat函数,写程序直接实现,记得添加结束符,不然程序访问数组时候将变得不…

全国计算机等级考试二级,MySQL数据库考试大纲(2023年版)

基本要求: 1.掌握数据库的基本概念和方法。 2.熟练掌握MySQL的安装与配置。 3.熟练掌握MySQL平台下使用SQL语言实现数据库的交互操作。 4.熟练掌握 MySQL的数据库编程。 5.熟悉 PHP 应用开发语言,初步具备利用该语言进…

“bound drug/molecule”or “unbound drug/molecule”、molecule shape、sketching是什么?

“bound drug/molecule”or “unbound drug/molecule” For clarity, the following terms will be used throughout this study: “bound drug/molecule” (or “unbound drug/molecule”) refers to the drug/molecule that is bound (or unbound) to proteins [48]. 意思就是…

机器学习:ROC曲线笔记

ROC曲线(Receiver Operating Characteristic Curve)是一种用于评估二分类模型性能的图形化工具,主要用于展示在不同阈值(Threshold)下模型的真阳性率(True Positive Rate,TPR)和假阳…

02 动力云客之登陆界面

1. 前端登录界面 需求样式: 1. 自定义登录页面装配到main.js src下新建一个文件夹view, view下新建一个Vue Component , 名为LoginView.vue , 并选择options API Composition API用于复杂页面. 生成的LoginView.vue文件 <script> export default {//组件的名字nam…