火山引擎ByteHouse发布高性能全文检索引擎

news/2024/11/15 21:12:26/文章来源:https://www.cnblogs.com/bytedata/p/18305670
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。
 随着数字时代的发展,数据的来源和生成方式越来越广泛,数据形态也愈加丰富。
 
以某电商平台的数据情况举例。该电商平台每日产生大量数据,有些为电商平台的订单数据,包括订单号、商品数量、金额、购买时间等,由于这类数据具有明确的格式和固定的字段,并遵循一定的格式,属于结构化数据;有些如客服与客户的聊天记录、客户对具体商品的反馈等,这类数据没有固定格式和明确结构,包括文本、视频、图片、音频等,则属于非机构化数据。
 
为了能更好支撑该电商平台对数据的使用,底层数据引擎的选型要适应不同数据格式的要求,但采用多套数据引擎也会存在架构复杂、灵活性差、运维压力大等问题。那么,是否能用统一数据架构解决以上问题?
 
火山引擎ByteHouse全文检索引擎为这一问题提出了解决方案。
 
作为一款定位为OLAP的分析型数据库,ByteHouse在支持结构化数据检索方面具备先天优势,而此次发布的全文检索引擎则补齐了对非结构化、半结构化等数据的快速检索能力,让用户可以构建一体化的数据管理、查询服务,降低运维成本和资源成本。据介绍,ByteHouse全文检索引擎,能够支持商品搜索、知识库搜索、日志分析等场景下对文本数据进行关键字检索。
 
不仅仅能帮助用户精简数据架构,ByteHouse相比于行业常见的非结构化数据处理引擎,如ElasticSearch也具备明显优势。
 
在性能层面,相关测试数据显示,当单服务器日志写入量在50MB-200MB/s,每秒写入超过30w记录数的情况下,ByteHouse是ElasticSearch性能的5倍以上。在成本层面,ByteHouse具备更高数据压缩比、消耗更少的CPU资源,在保障高效查询的基础上,还能进一步压缩服务器成本。在稳定性层面,ByteHouse冷热分离机制、负载均衡策略,让数据稳定性更高。
 
除此之外,对于研发人员来说,ElasticSearch上手较难,不支持SQL,数据管理和维护较为麻烦,而ByteHouse采用SQL语法,极大降低学习成本。
 
截至目前,ByteHouse全文检索能力已经在诸多场景落地。比如,仟传网络之前通过自建ElasticSearch来提供舆情相似度检索能力,但从性能、成本角度来看,无法满足需求。从ElasticSearch迁移到ByteHouse之后,ByteHouse在几十亿数据下查询和写入都非常稳定,还让总资源成本整体节省了60%。
ByteHouse全场景分析引擎
 
“一元化数据、多元化引擎”是ByteHouse的产品理念,旨在通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化。除了全文检索引擎,ByteHouse还推出了GIS引擎、Vector引擎,让用户在享受OLAP极致性能的同时,无需引入其他架构,就能使用地理空间分析、向量检索能力,进一步提升使用体验。
 
点击跳转 火山引擎云原生数据仓库ByteHouse 了解更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/745114.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Swift实现自定义Emoji、自定义表情、自定义键盘

实现自定义表情键盘效果如下demo 参考自PPStickerKeyboard

外卖霸王餐系统,霸王餐API接口,美团/饿了么全国200+城市

微客云免费提供外卖霸王餐系统,支持分站、运营商、商家后台、独立域名,自定义品牌,自主收款。 随着科技的快速发展,数字化和网络化已经渗透到我们生活的方方面面。在餐饮行业中,API(应用程序编程接口)接口的广泛应用不仅提升了餐厅的运营效率,也为消费者带来了更加便捷…

2024牛客暑期多校训练营1 I.Mirror Maze(题解)

2024牛客暑期多校训练营1 I.Mirror Maze(题解),大模拟题意 给一个 \(n \times m\) 的二维char数组,由4种镜子组成,\, /, -, |,镜面反射规则就是根据光线的方向和镜面的角度符合直觉的反射,然后有多组询问 \(q \leq 10^6\),每次给定起始位置和光线方向,求该光会经过多少…

基于M3u8的视频加密及播放

准备工作安装ffmpeg mac安装 brew install ffmpeg加密准备生成enc.keyopenssl rand 16 > enc.key ( 生成一个enc.key文件 )生成 ivopenssl rand -hex 16 ( 生成一段字符串,记下来)新建一个文件 enc.keyinfo 内容格式如下:Key URI # enc.key的路径,使用http形式 Pa…

zabbix6.4分离部署笔记

Zabbix 6.4 分离部署实施过程 一、环境准备 三台服务器### 操作系统:RED HAT ENTERPRISE LINUX 8.3 数据库:MYSQL8.0 ip地址以及用途:Zabbix 前端,8C 16G 16G系统盘100G:10.0.13.71 1371zabbixwebZabbix服务后端,8C 16G 100G:10.0.13.63 1363zabbixserverZabbix数据库MySql…

极大值抑制 nms 代码详解

NMS: 非极大值抑制(Non-Maximum Suppression), 功能:从大量的预测结果中筛选出得分最高的结果。 思路:NMS的主要思路是通过计算目标框之间的重叠度(即IOU,交并比)来剔除非最佳结果。NMS介绍 一张图片经过模型的前向推理之后,会输出非常多的检测结果,如下图Prediction所…

终端日志查看工具

tailspin 安装: # macOS brew install tailspin# Cargo cargo install tailspin使用: tspin <file>lnav 安装: # macOS brew install lnav# Ubuntu sudo snap install lnav使用: lnav <file>

Cisco ACI Simulator 6.0(6c)M - ACI 模拟器

Cisco Nexus 9000 Series Switches, NX-OS Standalone 10.4(3)F and ACI Mode 16.0(6c)MCisco ACI Simulator 6.0(6c)M - ACI 模拟器 Application Centric Infrastructure (ACI) Simulator Software 请访问原文链接:https://sysin.org/blog/cisco-acisim-6/,查看最新版。原创…

新文章:“Java 中的 finally 代码块不执行的情况”

新文章:“Java 中的 finally 代码块不执行的情况” - https://www.emanjusaka.top/2024/07/java-finally-non-execution 先抛出一个问题:Java 中的 finally 代码块一定会被执行吗?这是一个比较常见的面试题,在我们的印象中好像 finally 的代码块是一定会被执行的。但真实的…

SublimeText 4.4169 汉化版

SublimeText是编辑器中的一款神级IDE,非常有名,虽然比较轻量,但是呢软件拓展性非常强大,适用于多种编程语言,当然,当一个编辑器,也是非常不错的。 SublimeText支持但不限于 C, C++, C#, CSS, D, Erlang, HTML, Groovy, Haskell, HTML, Java, JavaScript, LaTeX, Lisp, L…

表格集算表高性能原理:揭秘纯前端百万行数据秒级响应的魔法

最新技术资源(建议收藏) https://www.grapecity.com.cn/resources/集算表 (Table Sheet)是一个具备高性能渲染、数据绑定功能、公式计算能力的数据表格,通过全新构建的关系型数据管理器结合结构化公式,在高性能表格的基础上提供排序、筛选、样式、行列冻结、自动更新、单…

eclipse免安装版64位 2018版本

前言Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。虽然大多数用户很乐于将 Eclipse 当作 Jav…