利用人工优化的数据,改善搜索相关性算法

在着手改善搜索算法时,有哪些可用的工具?我们将和来自于 Adobe 和 Etsy 的客户一起就他们每天使用的一些工具和策略,是如何改进他们的搜索算法展开讨论。

为什么需要人工优化的数据?

通过挖掘个人对搜索结果的评估,您将获得明确的相关性判断,这是一个比点击次数更优质的可用于优化的指标例如,Etsy 请求澳鹏帮助他们提升品牌亲和力。他们想确保最符合 Etsy 品牌形象的产品(也可以说是最“Etsy-ness”的产品)出现在搜索结果最前沿。这是一个需要人工判断的问题。

由于 Etsy 平台的性质,典型的点击数据不足。比如,有一个明显的事实可以证明这一点:浏览 Etsy 是一件很有趣的事情。如果用户一页一页地点击搜索结果,这并不代表他们找不到所需的内容,仅表明他们喜欢浏览Etsy网页。

为什么我们要使用人工优化的数据?

Etsy 使用我们的数据服务来创建更好的筛选搜索,从而减轻独立卖家为产品贴标签的负担,他们将这项工作交给了澳鹏的数据服务团队。拥有超过 4000 万产品的生态系统,这可不是一件容易的事。

在着手为人工优化后的数据建立相关性评分系统时,我们建议您让内容标注团队给当前的搜索算法评分,确立一个基准。然后,您可以根据适合您和您的网站的指标进行变更,再重新测试新算法针对旧查询在同一随机查询集上生成的查询结果配对。

通过这种方法,您可以了解新算法是否有所改进,或者您是否应该进一步变更算法。

内容标注员(contributor)可以帮您提升算法的方法:

对查询结果对进行评分:最有效方法是利用内容标注员(contributor)对查询结果对进行评分,以评估相关性。要建立该指标,您必须设计一个数值量表(通常我们的客户会创建一个 2、3 或 5 分数量表),内容标注员(contributor)用来对每个查询结果对进行评分。这样,您就能清晰地了解搜索相关性算法表现如何,并且可以在以后的相关性测试中尝试超过这个分数。

附加标记:元数据项可以大大提高搜索的相关性。可以采用内容标注员(contributor)标注方式,或者结合基于机器学习的自动化标记功能,用新标签快速填充产品数据库。数据清理和产品分类:产品数据库非常混乱。制造商可能使用不同的措辞描述类似的产品;不同的分销商可以用不同的方式描述或命名相同的产品;有时,您可能只是将几个图像与一个产品关联起来,却无法知道哪个图片最好。内容标注员可以轻松调和这些差异

结语: 要实现搜索相关性算法从良好到卓越的跨越,人工优化的数据是关键。想了解澳鹏、Adobe 和 Etsy 数据科学负责人的一些真实的相关性评分示例,请和我们的专家联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/229924.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(git)拉取代码时提示连接失败...SSL certificate problem: self signed certificate

(git)拉取代码时提示连接失败…SSL certificate problem: self signed certificate 解决思路:git 忽略https验证 方法 git config --global http.sslVerify false效果: 解决参考:https://blog.csdn.net/JuleRoch/article/details/10994172…

万户协同办公平台ezoffice SendFileCheckTemplateEdit.jsp接口存在SQL注入漏洞 附POC

@[toc] 万户协同办公平台ezoffice SendFileCheckTemplateEdit.jsp接口存在SQL注入漏洞 附POC 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文…

uniapp 连接斑马PDA调试

1、先把PDA设置成开发者模式 打开设置--》关于手机 --》单击版本号,5次以上 连线单击5次以上 2、后退--》找到系统 --》高级 3、打开 --》开发都模式 4、找到调试 --》 打开USB调试 5、设置USB偏好设置,插入电脑连接PDA就会在通知栏上显示,默…

电巢直播|揭秘FCBGA先进封装基板兴力量ze

随着2022年底ChatGPT的问世,我们不仅见证了从互联网时代到AI应用时代的跨越,也迎来了一个数据流量不断攀升的新纪元。在这个以数据为核心的新时代,算力网络成为支撑巨大数字经济的基石,其背后则是对硬件性能持续提升的迫切需求。 …

聊聊VMware vSphere

VMware vSphere是一种虚拟化平台和云计算基础设施解决方案,由VMware公司开发。它为企业提供了一种强大的虚拟化和云计算管理平台,能够在数据中心中运行、管理和保护应用程序和数据。vSphere平台与VMware ESXi虚拟化操作系统相结合,提供了完整…

dockerfile文件:copy和add 异同

相同点: 复制文件或目录: 无论是 COPY 还是 ADD 都可以将文件或目录从构建上下文复制到容器中。支持源路径和目标路径: 两者都需要指定源路径和目标路径,用于指定要复制的文件或目录在主机上的位置以及在容器中的目标路径。 不同…

Active Directory 帐户锁定问题

Active Directory(AD)帐户可能由于多种原因而被锁定,IT 管理员需要发现帐户被锁定的原因并解锁它们,但是手动执行此操作是一项耗时且复杂的活动。 最重要的是,帐户锁定如此普遍的事实只会使解锁这些帐户更具挑战性&am…

电商盛行的今天,这个平台热度还在持续增高!

我是电商珠珠 电商行业在近几年来,一直处于上风。不少短视频平台开始搞自己的电商平台,在这些平台中,脱颖而出的就是抖音了。 19年开始,抖音发展自己的电商,由此刮起了直播热,直播热的同时,也…

Linux—进程状态

目录 一.前言 1.1.通过系统调用获取进程标示符 1.2.通过系统调用创建进程 二.进程状态 三.Z(zombie)-僵尸进程 四.僵尸进程危害 一.前言 学习进程的状态,我们首先了解一下进程的基本数据 1.1.通过系统调用获取进程标示符 由getpid(&#xff09…

SpringBoot整合MongoDB: 构建高效的数据存储应用

文章目录 1. 引言2. MongoDB简介3. 准备工作4. SpringBoot中配置MongoDB5. 创建MongoDB实体类6. 使用Spring Data MongoDB进行数据操作7. 编写Service层8. 控制器层9. 测试10. 拓展10.1. 复杂查询10.2. 数据分页10.3. 索引优化 11. 总结 🎉SpringBoot整合MongoDB: 构…

对于 ` HttpServletResponse ` , ` HttpServletRequest `我们真的学透彻了吗

对于 **HttpServletResponse , HttpServletRequest**我们真的学透彻了吗 问题引入 PostMapping("/importTemplate") public void importTemplate(HttpServletResponse response) {ExcelUtil<SysUser> util new ExcelUtil<SysUser>(SysUser.class);uti…

第22章 NIO编程

在本章中需要掌握NIO中的缓冲区的作用&#xff0c;并理解缓冲区中的数据处理模型&#xff0c;掌握Channel的作用&#xff0c;并结合缓冲区实现数据I/O操作&#xff0c;理解文件锁的作用&#xff0c;并且掌握字符编码处理支持类的使用&#xff0c;掌握Reactor设计模型&#xff0…