机械图纸文章标题搜索增强实现过程

news/2025/2/28 11:10:59/文章来源:https://www.cnblogs.com/rmb0591/p/18742824

机械图纸文章标题搜索增强实现过程

1. 为什么需要使用搜索增强技术

  • 机械图纸标题搜索的挑战
    • 机械图纸标题通常包含专业术语、缩写和特定格式(如“土豆分拣机 DWG-001 不锈钢”)。
    • 用户查询可能模糊或表述不同(如“马铃薯筛选机”),传统搜索难以匹配语义相似的标题。
    • 标题信息有限,传统搜索容易遗漏相关图纸或返回无关结果。
  • 搜索增强的优势
    • 语义理解:通过大模型生成语义嵌入向量,理解标题和查询的深层含义,支持模糊匹配和语义相关性排序。
      • 示例:用户搜索“土豆分拣机”,传统搜索只能匹配标题中包含“土豆分拣机”的图纸;增强搜索可匹配语义相似的标题,如“马铃薯筛选机”,因为 AI 模型能够理解“土豆”和“马铃薯”是同义词,“分拣”和“筛选”是近义词。
    • 多维度匹配:结合标题中的专业术语和元数据(如材料、尺寸),提升搜索的准确性和全面性。
    • 高效索引:使用向量存储(如 Redis)支持快速的相似度搜索,满足实时性需求。
    • 用户体验提升:返回更相关、更精准的图纸标题结果,减少用户反复调整查询的成本。

1.1 与传统全文检索(Elasticsearch)的对比

维度 传统全文检索(Elasticsearch) 搜索增强(基于语义向量)
技术原理 基于倒排索引和关键词匹配,依赖分词和词频统计(如 BM25)。 基于大模型生成语义嵌入向量,使用向量相似度(如余弦相似度)匹配。
语义理解 仅匹配关键词,缺乏语义理解。 理解标题和查询的语义,支持模糊匹配和同义词匹配。
查询灵活性 用户查询需与标题关键词高度一致,否则结果不准确。 支持模糊查询和不同表述的匹配(如“土豆分拣机”匹配“马铃薯筛选机”)。
专业术语处理 依赖分词器,专业术语可能被错误切分(如“土豆分拣机”被切为“土豆”和“分拣机”)。 通过预训练模型理解专业术语和同义词的语义,减少分词错误。
结果相关性 基于词频和位置排序,可能返回无关结果。 基于语义相似度排序,结果更相关。
实时性与性能 倒排索引查询速度快,但语义匹配需额外插件(如 Elasticsearch KNN)。 向量搜索需高效索引(如 RedisSearch),实时性稍逊但可优化。
适用场景 适合关键词明确、标题格式标准化的场景。 适合标题复杂、查询模糊或需语义理解的场景。
机械图纸标题搜索示例 查询“土豆分拣机”,仅匹配标题中包含“土豆分拣机”的图纸,遗漏“马铃薯筛选机”。 查询“土豆分拣机”,可匹配语义相似的标题,如“马铃薯筛选机”,因为 AI 模型理解“土豆”和“马铃薯”、“分拣”和“筛选”是同义词。
  • 总结
    • 传统全文检索(Elasticsearch)适合关键词明确、标题格式标准化的场景,但对机械图纸标题的语义理解能力有限,容易遗漏相关结果(如“马铃薯筛选机”)。
    • 搜索增强通过语义向量匹配,解决了模糊查询、专业术语处理和同义词匹配的问题,特别适合机械图纸标题搜索的复杂场景。

1.2 搜索增强的含义

  • 搜索增强的定义
    • 搜索增强是指通过引入语义理解、向量嵌入等技术,改进传统搜索的局限性,提升搜索结果的相关性和准确性。
    • 在机械图纸标题搜索中,搜索增强通过大模型(如 Sentence-Transformers)将标题文本转化为语义向量,支持基于语义的相似度匹配,而不仅仅依赖关键词匹配。
  • 核心优势
    • 理解查询和标题的语义,支持模糊匹配、同义词匹配和跨语言匹配。
    • 结合图纸标题的上下文,提供更相关的搜索结果。
    • 提升用户体验,减少因查询表述差异导致的搜索失败。

2. 系统架构设计

2.1 整体架构

  • 前端:微信小程序 极客共享 用户输入机械图纸标题相关的查询(如“有没有土豆分拣机”)。
  • 后端
    • .NET Core 应用程序,负责处理用户请求、调用 Python API 存储和搜索向量。
    • Python API 服务,提供机械图纸标题的语义嵌入功能。
  • 向量存储
    • 使用 Redis 存储机械图纸标题的语义向量,支持快速索引和相似度匹配。
  • 数据流
    1. 机械图纸标题信息 -> .NET Core -> Python API -> 返回向量 -> 存储到 Redis。
    2. 用户查询 -> .NET Core -> Python API -> 生成查询向量 -> Redis 搜索 -> 返回结果。

2. 实现步骤

2.1 机械图纸标题向量生成与存储

2.1.1 准备机械图纸标题数据

2.1.2 .NET Core 调用 Python API 生成向量

  • 目标
    • 将标题文本和元数据发送到 Python API,获取语义嵌入向量。
  • Python API 示例(FastAPI)
    from fastapi import FastAPI
    from sentence_transformers import SentenceTransformer
  • .NET Core 实现
    
    

3.1.3 存储向量到 Redis

  • 目标
    • 将生成的向量存储到 Redis,支持后续的相似度搜索。
  • Redis 存储格式
    • Key:drawing:{drawingId}
    • Value:向量(使用 Redis 的向量存储模块

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/891074.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

煎熬中的二代基因测序

提到基因测序,绝大多数人第一印象就是二代测序。的确,一代Sanger测序弊端太多,三代单分子测序和四代纳米孔测序(生物纳米孔和固态纳米孔)刚刚崭露头角,且有一些问题仍待解决(比如微电流信号精准捕捉、1-3nm原子级纳米孔开孔等)。综合来看,一代Sanger如英雄迟暮、三四代…

智能驾驶辅助系统ADAS

经纬恒润将更高性能的800W像素摄像头、先进的视觉EQ6方案、成熟的控制算法进行了优势组合,推出了全新一代的前视单目摄像头解决方案。经纬恒润智能驾驶辅助系统ADAS新方案旨在更好的应对市场ADAS性能提升与成本压力的博弈,寻找L2+自动驾驶功能升级的最优解。 随着L2+自…

基于 Trae Claude-3.7 从0到1 打造加密货币钱包Dompet-App

从0到1:用Trae Claude-3.7打造加密货币钱包Dompet-App📱 项目介绍 大家好!今天我要分享如何使用强大的AI助手Trae Claude-3.7,从零开始构建一款功能丰富的加密货币钱包应用——Dompet-App。无论你是区块链爱好者还是移动开发新手,这个项目都能让你快速掌握React Native开…

国产化FMC接口通用计算平台设计原理图:2367-基于FMQL45T900 FMC接口通用计算平台

一、板卡概述 板卡由 FMQL45T900I芯片来完成卡主控及数字信号处理, FMQL45T900内部集成了两个ARM Cortex-A9核和一个kintex 7的FPGA,通过PL端FPGA扩展FMC、光纤、IO等接口,PS端ARM扩展网络、USB、RS232等接口。板卡适应于图像处理、震动、通信、雷达等前端信号处理或者手持机…

.NET 10 首个预览版发布,跨平台开发与性能全面提升

前言 2024年2月25日,微软正式推出 .NET 10 预览版 1,标志着这一跨平台开发框架迈入新里程碑。 本次更新聚焦 JIT 编译器优化、运行时性能提升和跨平台开发体验增强,同时引入多项开发者期待的功能改进。 无论是服务端应用、移动开发,还是桌面程序,.NET 10 都展现了强大的技…

uniapp app端弹窗提示 代码块

前提:uniapp的app端,用uni自带的toast,icon会自占一行,很丑 如图: 利用 plus.nativeUI.toast 显示正常大小的iconplus.nativeUI.toast(e,{type: text,duration: short,style: "inline",align: center,verticalAlign: center,icon: "/static/images/icon/su…

极验4

极验4demo aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v 本文章中所有内容仅供学习交流使用,不用于其他任何目的,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 第一个接口逆向参数搜索captcha_id可以找到生成位置,可以看到challenge就是一个uuid继续搜索captcha…

安川焊接机器人维修的重要性

在现代工业制造领域,焊接机器人扮演着极为重要的角色。其中,安川焊接机器人以其高精度、高效率和稳定性而备受青睐。然而,如同任何设备一样,安川机器人也会面临故障,这就凸显了安川机器人维修的重要性。一、安川机器人故障的常见类型1. 机械故障 - 安川焊接机器人的机械…

效率翻倍!必备油猴脚本推荐

如题,介绍一些很厉害的油猴脚本。如题,介绍一些很厉害的油猴脚本。 ‍ 跳广告 广告屏蔽工具和视频网站,是在长期互相斗法的阶段。 道高一尺魔高一丈,很多广告屏蔽工具经常会失效,所以很多屏蔽规则经常要更新。 目前,很多屏蔽视频广告的扩展,都只能拦截广告,但广告时间还…

Mathematica 14.0软件下载与安装教程

标题:Mathematica 14.0软件下载与安装教程 安装包 扫描下方二维码关注「软知社」,后台回复【031】三位数字即可免费获取分享链接,无广告拒绝套路; 2、安装教程解压安装包文件,双击setup.exe安装,弹窗安装对话框默认中文,点击确定选择下一步选择安装路径,尽量不选C盘下…

Lingo 18下载与安装教程

标题:【Lingo 18下载与安装教程】 ‌Lingo 18是一款由LINDO Systems开发的强大的优化建模软件,主要用于求解线性和非线性优化问题‌。它支持多种优化建模类型,包括线性规划(LP)、非线性规划(NLP)、整数规划(IP)和混合整数规划(MIP)等,广泛应用于工程、经济、金融、…

单针探底量化策略最新改进,策略收益:2月份29%,年化43倍

单针探底量化策略最新改进 #最后修改时间 2025-2-7 15:55#作者:泰乐 微信、快手 同号: tailekanpan, QQ: 396068801#图形选股: 红中探底#红中探底,创20天新低,25日和60日均线向上,25日均价大于60日均价。#最新更新: 增加了国九避险。# 导入聚宽函数库 # 更新日志:…