随着大模型中数据局限问题的严峻化,向量数据库应运而生

向量数据库与亚马逊大模型

请添加图片描述

什么是向量数据库

请添加图片描述

向量嵌入(vector embedding)已经无处不在。它们构成了许多机器学习和深度学习算法的基础,被广泛运用于各种应用,从搜索引擎到智能助手再到推荐系统等。通常,机器学习和深度学习会将非结构化数据,如文本、图像、音频和视频,转化为向量嵌入的形式进行存储,并通过向量相似性搜索技术进行语义相关性搜索。基于向量的相似性搜索现今已广泛应用于各种人工智能驱动的场景,包括图像检索、视频分析、自然语言理解、推荐系统、定向广告、个性化搜索、智能客服以及欺诈检测等。在这种背景下,对向量数据的管理变得尤为重要,我们需要能够快速地存储、索引和搜索这些向量化的数据。

目前存在的向量数据库大致可分为两类。一类是专门为向量设计的专有向量数据库产品,例如 Pinecone、Weaviate、Qdrant、Chroma、Milvus 等。另一类是在通用的 SQL 或 NoSQL 数据库产品上进行扩展,其中最为人熟知的 SQL 数据库之一 Postgres 通过插件 pgvector 支持了向量索引和搜索;而包括 ClickHouse、Redis、Elasticsearch 和 Cassandra 在内的许多开源数据库最近都增加了对向量索引的原生支持。

一般来说,专有的向量数据库专门为向量检索设计,能够提供更优越的搜索性能。与之相反,支持向量搜索的通用数据库产品则依赖于原有的通用数据库,能够提供更全面的数据管理和结构化数据查询能力,但向量检索性能可能会受到一定损失。

大模型面临的“数据”局限

众所周知,在MaaS时代,数据变得异常重要,市场的火热程度在企业层面体现为大量垂直模型的推出、数据库企业融资数量的增加以及数据库使用量的急剧上升。然而,在企业实际应用中,大模型仍然面临一系列未解决的难题。通过观察,我们可以将数据局限对企业构建大模型产生的影响总结为以下三点:

首先是数据的管理和运维。随着对文本、图片、视频等多模态非结构化数据的需求增加,许多企业产生的非结构化数据量高达80%。如果选择采用预训练的方式将数据传递给模型,将会带来难以承受的高成本。一些创业公司,在模型训练和调试中遇到了与此类似的问题。在未使用向量数据库之前,公司一直采用开源方案,如以向量索引为核心。这相当于在训练时为模型准备了一个库级别或算法级别的知识库,这种方法使用简单,采用分布式系统,但随着规模的增长,分布式存储方式迅速遇到瓶颈。此外,由于缺乏成熟的管理工具,百川智能不得不将数据格式组织、数据更新频率安排、新旧数据更迭等问题额外交给工程师处理,大大增加了人员成本。

其次,尽管大模型支持的标记数量不断增加,具备了"短暂记忆"的能力,但依然无法解决"一本正经地胡说八道"的问题。这可能导致敏感内容的出现,稍有不慎就可能带来严重的影响。因此,支持模型训练的数据不仅需要数量多,质量也必须足够高。例如,在大模型与教育行业结合的情况下,虽然模型可以完成一定的推理和解题,但在实际应用中,好未来发现大模型在面对数学问题时表现仍不够出色。要解决这个问题,必须基于庞大且高质量的数据库,例如教程题库和数学错题集,尝试进行启发式内容生成。

第三点是如何确保企业数据的安全性,因为数据在空间和时间上都存在很大的限制。一方面,企业难以将具有核心竞争力的数据用于大模型训练。一些行业专业人士曾指出,许多应用型公司不愿意将微调后的模型贡献到公有版本中与他人共享,而更倾向于训练自己的大模型,然后在本地进行私有化部署。在这一过程中,企业主要难点在于如何将私有化的业务数据与大模型结合。另一方面,企业的业务数据变化速度快,且实时性强,因此私有化部署后的大模型在数据层面也难以实现秒、天级别的更新。

在企业和大模型落地之间存在的这些问题引起了学术界和工业界的关注,并提出了两种解决方案。一种是通过Fine-tuning的方式进行迭代演进,让大模型学到更多的知识。另一种是通过向量搜索的方法,将最新的私有领域知识存储在向量数据库中,需要时通过基于语义的向量检索在数据库中获取。这两种方法都可以为大模型提供更加精准的答案。然而,从成本的角度来看,业内人士指出,向量数据库的成本仅为Fine-tuning的千分之一。通过将数据向量化,向量数据库在存储和查询方面的应用可以有效解决大模型预训练成本高、缺乏"长期记忆"、知识更新不及时等问题,因此被视为加速大模型在行业场景中落地的关键突破口。

请添加图片描述

亚马逊 OpenSearch Serverless

随着大模型的盛行,曾经在冷清中度过多年的向量数据库再次成为企业和资本市场的焦点。根据公开数据显示,自从2023年4月以来,以向量数据库为代表的人工智能投资领域呈现出明显的增长趋势。多家初创企业,包括Pinecone、Chroma和Weviate等,纷纷获得了上亿美元的融资。

亚马逊云科技在云服务提供商中处于领先地位,为了帮助企业更好地应对数据局限问题,充分释放大模型的潜力,2023 年 8 月 1 日 亚马逊云科技宣布推出Amazon OpenSearch Serverless向量引擎的预览版。这一向量引擎在Amazon OpenSearch Serverless中提供了一种简单、可扩展、高性能的相似性搜索功能,使用户能够轻松构建现代化机器学习(ML)增强的搜索体验和生成式AI应用程序,而无需管理底层向量数据库基础设施。

请添加图片描述

构建于 Amazon OpenSearch Serverless 的向量引擎天然具备鲁棒性。使用向量引擎,用户不必担心后端基础设施的选型、调优和扩展问题。因为大语言模型在处理文本数据时,常常将文本转换为高维向量。这些向量数据规模庞大,传统的数据库系统难以高效存储和查询。向量数据库专为存储和查询向量数据而设计,能够提供高效的数据存储和检索功能。

传统 OpenSearch 集群只有一组执行索引和搜索操作的实例,并且索引存储与计算容量紧密结合。相比之下, OpenSearch Serverless 使用云原生架构,将索引(提取)组件与搜索(查询)组件分开,Amazon S3 作为索引的主要数据存储。

这种分离架构使您可以独立扩展搜索和索引功能,并且独立于 S3 中的索引数据。这种架构还为摄取和查询操作提供了隔离,使它们可以同时运行,而不会发生资源争用。

当您将数据写入集合时, OpenSearch Serverless 会将其分发到索引计算单元。索引计算单位将摄取传入数据,并将索引移至 S3。当您对集合数据执行搜索时, OpenSearch Serverless 会将请求路由到保存所查询数据的搜索计算单元。搜索计算单位直接从 S3 下载索引数据(如果这些数据尚未在本地缓存),运行搜索操作,然后执行聚合。

下图阐明了这种分离架构:

请添加图片描述

在大模型时代的视角中,技术创新仅是第一步。除了大模型技术的创新外,像向量数据库这样的基础设施在数据存储、检索和分析等方面的搭建同样至关重要。亚马逊云科技不仅提供直接的大模型服务,更为关键的是向企业提供了有效、实用的平台工具,就如同提供了适当的“铲子”以应对这一新时代的挑战。

结语

除了上述提到的,亚马逊云科技的向量引擎不仅在大语言模型的“大脑作用”方面发挥重要作用,而且支持相同的OpenSearch开源套件API。通过与LangChain、Amazon Bedrock和Amazon SageMaker的集成,用户能够轻松地将首选的机器学习和人工智能系统与向量引擎整合在一起。

azon SageMaker的集成,用户能够轻松地将首选的机器学习和人工智能系统与向量引擎整合在一起。

上述功能展示了该向量引擎预览版在性能“鲁棒性”方面的强大表现,以及其在大语言模型中的不可或缺作用。亚马逊云科技还在开发一些新功能,在未来几个月,将会帮助用户实现工作负载暂停与恢复,这项新功能对向量引擎十分有用,因为其中许多用例不需要持续索引数据。 在未来几年,预计亚马逊云科技的向量引擎正式版将问世,届时其在优化向量图性能和内存使用方面,包括改进缓存和合并等功能,将展现出更为强大的能力。让我们拭目以待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/189460.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 自动化: eip、cen监控数据对接到 grafana

新钛云服已累计为您分享775篇技术干货 概览 日常运维中,我们有时需要关注阿里云中 EIP 和 CEN 的监控数据,如果每次登录到平台查看,不太方便。 可以通过 API 获取监控数据,并输入到 influxDB,然后再到 Grafana 中展示&…

Django学习日志07

多表查询(跨表查询) 子查询:分步查询 链表查询:把多个有关系的表拼接成一个大表(虚拟表) inner join left join 展示左表所有数据数据,右表展示符合查询条件的数据,查询不到的用null填充 …

ChatGpt3.5已经应用了一段时间,分享一些自己的使用心得.

首先ChatGpt3.5的文本生成功能十分强大,但是chatgpt有一些使用规范大家需要注意,既然chat是一种工具,我们就需要学会它的使用说明,学会chatgpt的引用语句,会极大的方便我们的使用。我们需要做以下的准备。 明确任务和目…

键盘方向键移动当前选中的table单元格,并可以输入内容

有类似于这样的表格&#xff0c;用的<table>标签。原本要在单元格的文本框里面输入内容&#xff0c;需要用鼠标一个一个去点以获取焦点&#xff0c;现在需要不用鼠标选中&#xff0c;直接用键盘的上下左右来移动当前正在输入的单元格文本框。 const currentCell React.u…

Diagrams——制作短小精悍的流程图

今天为大家分享的是一款轻量级的流程图绘制软件——Diagrams。 以特定的图形符号加上说明&#xff0c;表示算法的图&#xff0c;称为流程图或框图。流程图是流经一个系统的信息流、观点流或部件流的图形代表。我们常用流程图来说明某一过程。 流程图使用一些标准符号代表某些类…

Jenkins代码检测和本地静态检查

1&#xff1a;Jenkins简介 Jenkins是一个用Java编写的开源的持续集成工具&#xff1b;Jenkins自动化部署可以解决集成、测试、部署等重复性的工作&#xff0c;工具集成的效率明显高于人工操作&#xff1b;并且持续集成可以更早的获取代码变更的信息&#xff0c;从而更早的进入测…

纯前端模板文件下载如何精确控制下载的文件名字

在写项目的时候&#xff0c;遇到了一个需要把给定的文件放到页面中&#xff0c;然后用户点击下载按钮将这个文件下载下来&#xff0c;我将其存入了云服务之中(这个云服务是不会清空的&#xff0c;内存又不值几个钱)&#xff0c;但是当我下载的时候&#xff0c;下载的文件名是存…

2023_“数维杯”问题B:棉秸秆热解的催化反应-详细解析含代码

题目翻译&#xff1a; 随着全球对可再生能源需求的不断增加&#xff0c;生物质能作为一种成熟的可再生能源得到了广泛的关注。棉花秸秆作为一种农业废弃物&#xff0c;因其丰富的纤维素、木质素等生物质成分而被视为重要的生物质资源。虽然棉花秸秆的热解可以产生各种形式的可…

SpringCloud -Token传递之Feign

目录 方法一 RequestHeader 方法二 使用Feign的Interceptor 步骤一 实现RequestInterceptor接口 步骤二&#xff1a;配置Feign 通常微服务对于用户认证信息解析有两种方案 在 gateway 就解析用户的 token 然后路由的时候把 userId 等相关信息添加到 header 中传递下去。在…

Elasticsearch基础条件查询

条件查询 query&#xff1a;查询 match&#xff1a;匹配 match_all&#xff1a;匹配所有 #第一种 GET /shopping/_search?q名字:张三#第二种 GET /shopping/_search {"query": {"match": {"名字": "张三"}} }#全量查询 match_all G…

Looker Studio | 带来强大的探索、更新鲜的数据和更快的过滤

【信息来源 Google Cloud。Cloud Ace 是 Google Cloud 全球战略合作伙伴。】 Looker Studio 支持对临时数据进行自助分析&#xff0c;并与 Looker 一起为每月访问 Looker 系列产品的超过 1000 万用户做出贡献。今天&#xff0c;谷歌云为分析师推出新方法&#xff0c;为业务用户…

Java进阶笔记(面向对象后, 持续更新)

常用API 游戏打包成exe 考虑的因素 要有图形化界面代码要打包起来游戏用到的图片也要打包JDK也要打包 核心步骤 把所有代码打包成一个压缩包, jar后缀的压缩包把jar包转换成exe安装包把第二部的exe, 图片, JDK整合在一起, 变成最终的exe安装包 1. Math 是一个帮助我们用…