清华AI4DB

news/2025/3/31 3:35:54/文章来源:https://www.cnblogs.com/Slrslr/p/18797199

## 综述类

综述类的文章,主要目的是对数据库目前的一些问题有了一个总结,了解一些名词,综述类的文章总结直接让ai来做了

### Database meets deep learning: Challenges and opportunities

这篇文章说实话有点太老了,然后其中db4ai的部分我也没仔细看,目前不是特别感兴趣

AI4DB的主要应用与机遇

  1. 自然语言查询接口:
    • 深度学习在NLP领域已取得显著进步,特别是RNN模型已被证明能够学习结构化输出。
    • 可将RNN模型应用于解析自然语言查询生成SQL查询,并使用现有数据库方法进行细化。
    • 一个主要挑战是需要大量标记训练样本,可能的解决方案是从小数据集训练基线模型,然后通过用户反馈逐步改进。
  2. 查询计划优化:
    • 传统数据库系统使用复杂的启发式和成本模型生成查询计划,但参数化SQL查询模板的最优计划具有"最优区域"特性。
    • 可以训练能从SQL查询和最优计划对中学习的RNN模型,为新的相似查询生成计划。
    • 可以结合强化学习(类似AlphaGo)通过执行时间和内存使用作为奖励在线训练模型。
    • 纯深度学习方法可能无法覆盖所有查询模式,建议将数据库解决方案与深度学习相结合。
  3. 众包和知识库:
    • 众包和知识库应用涉及实体提取、消歧和融合等概率问题,其中实体可以是数据库行或图中节点。
    • 深度学习在NLP方面的进展可用于这些问题,特别是学习实体表示,然后进行实体关系推理和相似度计算。
  4. 空间和时间数据:
    • 空间数据通常通过将移动对象映射到矩形块处理,可将每个块视为图像像素,利用CNN提取附近块之间的空间局部性。
    • 例如,对实时位置数据使用CNN捕获密度关系,预测未来交通拥堵。
    • 当时间数据建模为时间矩阵上的特征时,RNN可以模拟时间依赖性并预测未来时间点的事件。
    • 一个具体应用是基于历史医疗记录的疾病进展建模,预测已知疾病的严重程度。

 可以看出来很多内容其实都是

这有个中文的总结:https://zhuanlan.zhihu.com/p/39156719

### Database Meets Artificial Intelligence: A Survey

AI4DB主要应用与挑战

  1. 基于学习的数据库配置:
    • 旋钮调优:数据库有数百个可调参数,传统上依赖DBA手动调整。机器学习技术可以根据工作负载自动推荐最优配置。
    • 研究方法包括:(a)基于搜索的调优,如BestConfig;(b)传统ML方法,如OtterTune使用高斯过程;(c)深度强化学习方法,如CDBTune和QTune,可以在不需要大量高质量训练数据的情况下通过试错学习。
    • 缓冲区大小调优专门研究,如iBTune使用深度学习预测调整时机,RelM使用多级调优方法。
    • 挑战:如何保证训练数据的多样性,以及模型如何适应不同的硬件环境和工作负载变化。
  2. 索引/视图优化器:
    • 索引选择:从离线选择(AutoAdmin和DB2 Advisor)发展到半自动在线选择(WFIT)和基于ML的模型(ITLCS和基于强化学习的方法)。
    • 视图优化:从启发式方法(Hybrid-GHCA)到整数线性规划(BIGSUBS),再到深度学习方法(Wide-Deep)。
    • 挑战:如何处理大规模可能的索引/视图组合,以及如何平衡存储空间与查询性能。
  3. 查询优化:
    • 基数估计:从直方图和采样方法发展到深度学习模型,包括混合模型、神经网络、CNN和自回归模型。
    • 连接顺序选择:离线学习方法(LEO, DQ, ReJoin)和在线学习方法(Eddy-RL, SkinnerDB)。
    • 挑战:获取足够训练数据、适应模式变更、模型收敛保证,以及集成到现有优化器架构中。
  4. 学习型数据结构:
    • 学习型B+树:使用神经网络模拟CDF函数,如RMI, Fitting-tree和Alex-index。
    • 学习型哈希表和Bloom过滤器:降低冲突和内存占用。
    • 高维和空间数据索引:如ZM索引将多维空间点映射到一维向量。
    • 挑战:支持数据更新、处理偏斜数据、减少模型大小。
  5. 事务管理:
    • 事务预测:QB5000使用聚类和预测方法分析工作负载。
    • 事务调度:基于机器学习估计冲突概率,平衡并发性和冲突率。
    • 挑战:实时适应工作负载变化和数据分布变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/906946.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux上利用sunshine串流和虚拟显示器实现副屏扩展

场景Linux + Wayland,尝试将空闲的android平板作为扩展显示屏方法根据 https://www.w568w.eu.org/spacedesk-on-linux.html 中的描述,利用 sunshine + moonlight 串流以及虚拟显示器欺骗实现副屏扩展虚拟显示器查看当前系统记录的显示器设备接口的连接情况,使用命令for p in…

Go红队开发—CLI框架(二)

Go红队开发—CLI命令行工具编写基础学习(二)。目录CLI开发框架cobra 集成库目录规范搭建框架根命令参数添加子命令帮助信息爬虫功能(趁热打铁)Goquery处理响应编码处理收集百度热搜榜爬虫功能所有源码 CLI开发框架 师傅们久等了,为了加快进度,这章节添加了一个爬虫功能,也是…

APP性能测试工具-GT

GT(随身调)是腾讯研发的一款可以用来做App性能测试的工具,可以对APP进行快速的性能测试,检测App的CPU、内存、流量、电量、帧率/流畅度等等、还能开启日志的查看、Crash日志查看、网络数据包的抓取、APP内部参数的调试、真机代码耗时统计等。 虽然现在该项目已经停止维护了…

一文速通Python并行计算:04 Python多线程编程-多线程同步(上)—基于条件变量、事件和屏障

本文介绍了Python多线程同步的三种机制:条件变量(Condition)、事件(Event)和屏障(Barrier),条件变量指的是线程等待特定条件满足后执行,适用于生产者-消费者模型;Event指的是线程通过事件标志进行同步,适用于线程间简单通信;Barrier指的是多个线程需同步到同一阶段…

docker desktop windows安装

我的机器windows 11 家庭版 下载docker desktop for windows 就直接安装了。安装后打开,遇到了界面转圈圈加载不出来问题,docker engine也是stopped. 病急乱投医,先是说要启用hyper-v,控制面板=》程序和功能里没有发现有hyper-v,一看是家庭版,网上倒是有一个脚本可以在家…

C语言打卡学习第6天(2025.3.25)(补发)

只做了一些有关循环分支函数求值的题,感觉循环函数其实差不多,只有一些细微差别,可能是做的题还不够多或者看运用场景吧

C语言打卡学习第5天(2025.3.24)(补发)

1、把char,getchar,putchar简单看了一下,求ascii值之类的 之类的简单看了一下 2、交换值那一题很奇怪,结果我输出的跟答案要求是一样的,交过去之后显示答案错误,白天的时候问一下

Vulnstack红日靶场通关(持续更新)

带你速通内网渗透相关知识点!!!Vulnstack通关 来源于《内网渗透实战攻略》实战部分 个人是写下自己的笔记 攻击链:探索发现阶段->入侵和感染阶段->攻击和利用阶段->探索感知阶段->传播阶段->持久化和恢复阶段 Windows权限级别前置知识:权限层级 账户类型 权…

Ubuntu 24.04安装MySQL,并且配置外网访问

安装启动更新软件包列表sudo apt update安装MySQL软件包sudo apt install mysql-server启动MySQL服务sudo systemctl start mysql重启命令:systemctl restart mysql配置外网访问 需要修改一个配置 vim /etc/mysql/mysql.conf.d/mysqld.cnf注释掉 这行 配置 bind-address …

2022CCPC Online Contest G - Name the Puppy

对正串和反串分别建立 Trie 树,定义 \(dp[i][j]\) 表示正串 Trie 树上编号为 \(i\) 的点匹配反串 Trie 树上编号为 \(j\) 的点所能拼出最长 anti-border 的长度。 如此,从根节点开始搜索,直到无法匹配为止都可以搜,搜到底后回到根节点继续匹配,可以证明,拼出来的 anti-bo…

互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(四):结合BotSharp智能体框架开发语音交互

前言 前段时间太忙了博客一直都没来得及更新,但是不代表我已经停止开发了,刚好最近把语音部分给调整了一下,所以就来分享一下具体的内容了。我想说一下,更新晚还是有好处的,社区已经有很多的小伙伴自己实现了一些语音对话功能的案例,比如小智也有.NET客户端了,还有就是一…

【AI News | 20250327】每日AI进展

AI Repos 1、playwright-mcp 使用Playwright提供浏览器自动化功能的MCP服务,核心是让LLM通过结构化的可访问性快照与网页交互,不需要依赖截图或视觉模型。可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等。支持两种模式:快照模式(默认):使用可访问性快照…