知识图谱遇见多模态学习:综述
论文题目:Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey
论文链接:http://arxiv.org/abs/2402.05391
项目地址:https://github.com/zjukg/KG-MM-Survey
备注:55 pages, 619 citations, 11 Tables, 13 Figures
机构:浙江大学,东南大学,牛津大学,爱丁堡大学,曼彻斯特大学,普渡大学
Task
目录
知识图谱遇见多模态学习:综述
引言
KG驱动的多模态(KG4MM)学习 (KG-driven Multi-modal Learning)
理解与推理任务 (Understanding & Reasoning Tasks)
分类任务 (Classification Tasks)
内容生成任务 (Content Generation Tasks)
检索任务 (Retrieval Tasks)
KG-aware多模态预训练 (KG-aware Multi-modal Pre-training)
多模态知识图谱(MM4KG) (Multi-modal Knowledge Graphs)
MMKG资源 (MMKG Resources)
MMKG资源
MMKG获取 (MMKG Acquisition)
KG 信息抽取
MMKG融合 (MMKG Fusion)
MMKG推理 (MMKG Inference)
MMKG驱动的任务 (MMKG-driven Tasks)
MMKG-driven 任务
挑战与机遇 (Challenges and Opportunities)
MMKG构建与获取 (MMKG Construction & Acquisition)
KG4MM任务 (KG4MM Tasks)
MM4KG任务
大型语言模型 (Large Language Models)
引言
本综述深入分析了2020至2023年间超过300篇文献,聚焦于两个主要方向:一是知识图谱驱动的多模态学习(KG4MM),探讨知识图谱如何支持多模态任务;二是多模态知识图谱(MM4KG),研究如何将知识图谱扩展到多模态知识图谱领域。作者从定义KGs和MMKGs的基本概念入手,继而探讨它们的构建和演化,涵盖KG-aware多模态学习任务(如图像分类、视觉问答)及固有的MMKG任务(如多模态知识图谱补全、实体对齐)。本文还强调了研究重点,提供了任务定义、评估基准,并概述了基本见解。通过讨论当前面临的挑战和评估新兴研究趋势,如大型语言模型和多模态预训练策略的进展,本调研旨在为KG与多模态学习领域的研究人员提供一个全面的参考框架,以及对该领域不断演进的洞察,从而支持未来的工作。
KG驱动的多模态(KG4MM)学习 (KG-driven Multi-modal Learning)
理解与推理任务 (Understanding & Reasoning Tasks)
KG4MMR
视觉问答 (Visual Question Answering)
视觉问答 Benchmark
视觉问题生成 (Visual Question Generation)
视觉对话 (Visual Dialog)
分类任务 (Classification Tasks)
图像分类 (Image Classification)
IMGC
IMGC Benchmark
假新闻检测 (Fake News Detection)
电影类型分类 (Movie Genre Classification)
内容生成任务 (Content Generation Tasks)
SG Generation
图像注释 (Image Captioning) 视觉故事讲述 (Visual Storytelling) 条件文本到图像生成 (Conditional Text-to-Image Generation) 场景图生成 (Scene Graph Generation)
检索任务 (Retrieval Tasks)
跨模态检索
跨模态检索 (Cross-Modal Retrieval) 视觉指代表达与定位 (Visual Referring Expressions & Grounding)
KG-aware多模态预训练 (KG-aware Multi-modal Pre-training)
结构知识感知预训练 (Structure Knowledge aware Pre-training)
知识图谱感知预训练 (Knowledge Graph aware Pre-training)
多模态知识图谱(MM4KG) (Multi-modal Knowledge Graphs)
N-MMKG Ontology
Taxonomy of MMKG tasks
MMKG资源 (MMKG Resources)
公开的MMKGs (Public MMKGs)
MMKG资源
MMKG构建方法 (MMKG Construction Methods)
MMKG获取 (MMKG Acquisition)
KG 信息抽取
多模态命名实体识别 (Multi-modal Named Entity Recognition)
MNER Benchmark
多模态关系抽取 (Multi-modal Relation Extraction)
MMRE Benchmark
多模态事件抽取 (Multi-modal Event Extraction)
MMEE Benchmark
MMKG融合 (MMKG Fusion)
多模态实体对齐 (Multi-modal Entity Alignment)
MMEA Benchmark
多模态实体链接与消歧 (Multi-modal Entity Linking & Disambiguation)
MMEL Benchmark
MMKG推理 (MMKG Inference)
多模态知识图谱补全 (Multi-modal Knowledge Graph Completion)
MKGC Benchmark
多模态知识图谱推理 (Multi-modal Knowledge Graphs Reasoning)
MMKG驱动的任务 (MMKG-driven Tasks)
MMKG-driven 任务
检索 (Retrieval)
预训练 (Pre-training)
科学交叉领域的AI应用(AI for Science)
行业应用 (Industry Application)
挑战与机遇 (Challenges and Opportunities)
MMKG构建与获取 (MMKG Construction & Acquisition)
KG4MM任务 (KG4MM Tasks)
多模态内容生成 (Multi-modal Content Generation)
多模态任务集成 (Multi-modal Task Integration)
扩展MMKG以适应多模态任务的挑战 (Challenges in Scaling MMKG for Multi-modal Tasks)
释放大规模MMKG在多模态任务中的潜力 (Unlocking the Potential of Large-Scale MMKGs for Multi-Modal Tasks)
MM4KG任务
MMKG融合 (MMKG Fusion)
MMKG推理 (MMKG Inference)
将多模态任务转化为MMKG范式 (Transfer Multi-modal Task into MMKG Paradigm)
应用多模态任务进行MMKG内任务增强 (Apply Multi-modal Task for In-MMKG Task Augmentation)
大型语言模型 (Large Language Models)
大模型微调 (Fine-Tuning)
大模型幻觉 (Hallucination)
大模型智能体(Agent)
大模型检索增强生成(Retrieval Augmented Generation (RAG))
大模型编辑 (Editing)
大模型偏好对齐 (Alignment)
MMKG精炼 (MMKG Refinement)
MMKG MoE
详细内容见原文:http://arxiv.org/abs/2402.05391