火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力

从互联网发展伊始,搜索技术就绽放出了惊人的社会和经济价值。随着信息社会快速发展,数据呈爆炸式增长,搜索技术通过数据收集与处理,满足信息共享与快速检索的需求。

云搜索服务 ESCloud 是火山引擎提供的完全托管在线分布式搜索服务,兼容 Elasticsearch、Kibana 等软件及常用开源插件。可以提供结构化、非结构化文本的多条件检索、统计、报表,帮助实现一键部署、弹性扩缩、简化运维,快速构建日志分析、信息检索分析等实际业务。

而伴随着 Serverless 的兴起和大势所向,火山引擎云搜索服务升级云原生新架构

云搜索服务云原生版

k-NN,大模型时代下的原生向量搜索和数据库

随着推荐、音视频等新兴领域应用的涌现和对大模型场景的需求,引入多模态搜索来满足更加复杂的搜索需求势在必行。我们在全文检索的基础上增加向量搜索能力来实现对非结构化数据的分析和检索

在向量搜索的场景下,使用机器学习模型生成向量来表示数据对象(文本、图像、音视频等);向量距离来代表对象间的相似性。常用的向量库使用 ANN 算法在极短时间内完成海量向量的检索。

k-NN 可以作为向量数据库来使用,通过引入先进的向量算法库来构建向量索引,还会将构建好的向量索引持久化到磁盘,索引更加稳定。结合 ESCloud 产品的倒排索引,可以将向量检索和全文检索的能力融合,实现更加强大的混合搜索(Hybrid Search)能力。在 ESCloud 的集群基础上,k-NN 向量数据库可以提供大规模分布式能力,为用户带来可扩展数量级的向量搜索。

场景案例

基于 k-NN 的业务场景主要有以下六大类,目前在字节跳动内部复杂的业务场景中均有所运用:

  • 多模态搜索:包括图片搜索,语义搜索,音视频相似性检索等;

  • 智能推荐: 视频推荐,广告投放推荐,关系推荐,商品推荐等;

  • 智能问答:基于 Transformer 的 FAQ,LLM 的领域知识问答,LangChain 集合的生成式QA;

  • 数据消重:视频、音频、图片的审核消重,各类素材版权检测;

  • 安全风控:欺诈检测,扫黑检测,危险评估,异常检测;

  • 其他应用:数据挖掘,数据分析,搜索重排序, 文本搜图。

以文案相似度识别方案为例。

在用户推送文案的场景下,为保证用户体验,需要确保推送文案不会有重复内容,因此对每个推送的内容都会进行相似度识别并消重。每个文案通过 BERT 模型生成 Embedding,在云搜索中检索一次。如果相似度低于阈值,判定为新的文案,会写入 k-NN 向量数据库中,逐渐完善成一个文案库;如果相似度高于阈值,则判定为重复文案,减少推送量。


云搜索服务 ESCloud 兼容 Elasticsearch、Kibana 等软件及常用开源插件,提供结构化、非结构化文本的多条件检索、统计、报表,可以实现一键部署、弹性扩缩、简化运维,快速构建日志分析、信息检索分析等业务能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/21818.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【雕爷学编程】Arduino动手做(160)---HLK-V20离线语音模块

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&#x…

一文详解什么是数据库分片

概要 应用程序正在变得越来越好,它拥有更多的功能、更多的活跃用户,并且每天都会收集更多的数据。但数据库现在导致应用程序的其余部分变慢。数据库分片可能是问题的答案,但许多人不知道它是什么,最重要的是何时使用它。在本文中我…

3ds Max 无插件制作燃烧的火焰动画特效

推荐: NSDT场景编辑器助你快速搭建可二次开发的3D应用场景 在 3ds Max 中对火焰进行动画处理 如果您能找到“大气装置”设置,这很容易做到。基本上,你选择一个“Gizmo”(BoxGizmo,SphereGizmo或CylGizmo)&…

设计模式之工厂方法模式

写在前面 本文看下工厂方法设计模式。 1:介绍 1.1:什么时候用工厂方法 当我们有若干个种类的对象需要创建,且随着业务的发展,要创建的对象的种类还会不断变化,此时可以考虑使用工厂方法设计模式。 1.2&#xff1a…

嵌入式Linux开发实操(五):embedded linux嵌入式Linux开发

前言: embedded linux开发有个好处就是开源的,总的来说涉及五个部分: 1、工具链Toolchain:为目标设备创建代码需要的编译器和其他工具。其他一切都取决于工具链。 2、引导程序Bootloader:它初始化板并加载Linux kernal。 3、内核kernal:这是系统的core核心,管理系统…

macOS 怎么安装redis数据库

1 访问redis数据库下载网址 http://download.redis.io/releases/ 访问上述的redis下载的网址,确定你想要的版本 然后下载即可 (我选则的是6.2.6) 然后下载 下载后 把这个文件解压,放在自己想要放在的位置 2 打开终端 输入对应的…

【C/C++练习】经典的排列组合问题(回溯算法)——电话号码的字母组合

📖题目描述 题目出处:电话号码的字母组合 示例: 📖题解  这是一道典型的排列组合问题,根据输入,我们需要找到所有的组合。下面以输入字符串digits "23"为例来讲解这道题目。 图解&#xff1…

GEE入门学习,遥感云大数据分析、管理与可视化以及在林业应用丨灾害、水体与湿地领域应用丨GPT模型应用

目录 ①海量遥感数据处理与GEE云计算技术实践应用 ②GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例实践应用 ③GEE遥感云大数据林业应用典型案例实践及GPT模型应用 ④遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用 ①海量遥感…

Java利用POI导入Excel数据(多个sheet、模板)

需求:根据excel模板导入数据 sheet1:1-6行为固定格式,且需要取值({xxx});7行开始为数据集合(list) sheet2:都为固定格式,取值地方:{xxx} 1、数据格式(两个Sheet&…

TortoiseGit 入门指南06:解决冲突

上节讲到 拉取 (pull),说到: 拉取不仅将数据下载到你的本地版本库,还会自动合并。 在合并期间,将更新工作区文件以反映合并结果。如果合并文件的同一区域被多方更改,就会产生冲突。Git 不能随机…

[微信小程序] movable-view 可移动视图容器 - 范围问题

movable-view 可移动视图容器 可移动视图容器&#xff0c;在页面中可以拖拽滑动。movable-view必须在 movable-area 组件中&#xff0c;并且必须是直接子节点 <view><movable-area style"width: 750rpx;height: 200rpx;background-color: gainsboro;">&l…

4.postgresql--rollup,grouping sets,cube

PostgreSQL ROLLUP 是group by 的子句&#xff0c;是生成多个分组集合的快捷功能。与Cube子句的差异是&#xff0c;rollup 不生成基于特定列所有可能的分组集合&#xff0c;生成分组集合为其子集。 ROLLUP假设输入列之间存在层次结构&#xff0c;从而生成有意义的所有分组集合…