AIGC、LLM 加持下的地图特征笔记内容生产系统架构设计

文章目录

    • 背景
    • 构建自动化内容生产平台
      • 系统架构设计
      • 架构详细设计
      • 流程介绍
        • 笔记来源
          • 笔记抓取干预
        • 笔记 AIGC 赋能
        • 笔记 Rule 改写
        • 笔记特征库构建
    • 附录
      • Bash Cron 定时任务
      • Golang 与 Pyhon AIGC 实践
    • 小结

背景

在大模型的浪潮下,ChatGPT、Sora、Gemini、文言一心 等新技术不断涌现。如何将新技术融合至业务落地,开辟新赛道、提升产品竞争力 是大家比较关心的。因为一旦新融合场景契合可行,对人们生产、生活将是里程碑的创新、跃进。

在这里插入图片描述

本文将介绍基于 LLM[大模型]、利用 AIGC 为笔记生产赋能。

主要场景为地图。可简要概括为,利用人工智能手段生成地图类特征笔记,以便于在地图类场景分发【商业路径这里不做赘述】。

注:地图场景可替换为其他场景,前提是具备其垂类场景的模型。

构建自动化内容生产平台

要实现在地图垂类场景下笔记的分发,需要稳定的、高质的内容不断生成。形成规模化后,用户习惯、心智才会逐渐培养、形成。

就持续性、规模化 而言,自动化是达成目标的之一路径。

首要任务是搭建一个可自动化生产内容的系统。同时,构建内容管理平台,是为了支持:数据量化、手动干预(紧急上/下线)、内容提质 等衍生能力。

系统架构设计

在这里插入图片描述

架构详细设计

在这里插入图片描述

流程介绍

笔记来源

在实际场景中,笔记来源并不能像 “测试” 或者 “Demo” 一样,随便给几个 Prompt ,利用模型生成一篇。这样的笔记也不会被用户人群关注,没有实用、情感、或者其他价值。

就有价值的笔记源来说,实时咨询、财经、文娱、旅游…等垂类信息是较好的来源。

在这里插入图片描述

我们可以通过爬虫,对新闻类、财经类、旅游类…等网站进行内容抓取,作为笔记数据源。

笔记抓取干预

有了稳定的数据源之后,需要对内容进行清洗、过滤,通过 “漏洞策略” ,提出契合 “地图特征“ 的笔记。

这里的策略可以是简单的黑白名单,主要是进行 ”粗筛“ ,精细化的清洗将会交给 LLM 处理。

笔记 AIGC 赋能

经过笔记抓取、粗略干预后的笔记,基本可以保证是覆盖 ”地图特征“ 的,但其中含有杂质,且缺少精细化的挂接。

  • 比如,错误的位置信息、文章和主题的匹配度、水文、软广 等杂质。
  • 再比如,相关位置信息没有对应的 loc 位置坐标,无法构建特征数据等。

在这里插入图片描述

这就需要通过 LLM 基于 位置信息进行训练,进而利用 模型组成系列模组,对内容重新进行赋能。

考虑到笔记文章的质量、后续的特征建库、及分发,这里主要进行下列模型处理:

  1. Extract-model:Extrac city\loc\desc by title and content
  2. Hitch-model:Hitch pois list info by extrac res and title\content
  3. Filter-model:Calculate the degree of match between the POI information and the extracted information, and mark those with a
    match degree lower than 0.7.
  4. Embedding-model:Embedding Extract the vector features of the image and title.

在这里插入图片描述

经过这些模型处理后,剩下的笔记基本上就符合后续的分发,且质量完全可以得到保证。

笔记 Rule 改写

AIGC 赋能后,在实际生产中发现,人工智能并不能解决全部问题。

像文本换行、特殊字符处理、文本提示/引导词/敏感词过滤,还是需要辅助以规则,进行外层兜底策略处理,对笔记进行改写。

笔记特征库构建

TODO

附录

Bash Cron 定时任务

* 具体脚本代码可私信。
* * * * * cd /home/map/work/cron && sh import.sh >/dev/null 2>&1
*/10 * * * * cd /home/map/work/cron && sh consumer.sh >/dev/null 2>&1

Golang 与 Pyhon AIGC 实践

    output, err := exec.Command("python3", rootDir+"/scripts/handler.py", url, fileName, env.RootDir()+"/imgfile/").CombinedOutput()
#!usr/bin/env python
# -*- coding:utf-8 _*-
import re
import sys
import json
# 检查文件是否存在,如果不存在则创建
if not os.path.exists(LOCKFILE):with open(LOCKFILE, 'w') as f:f.write('0')  # 写入初始并发计数
# 最大并发数
MAX_CONCURRENT = 4
......

小结

在实际生产中,已经证明 “ 通过 大模型 和 AIGC 加持, 与垂类业务相结合 ” 的道路是完全行的通的。并且生产力、产品质量 都有惊人的提升,具备很高的发展潜能及空间。

由于篇幅有限,具体特征库构建及内容分发在后续博文介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/691652.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

具有CMOS输出,高速响应特点的新型汽车级晶振SG2520CAA

爱普生推出的汽车级晶振SG2520CAA。SG2520CAA是一款CMOS输出的,具有高响应速度的2520封装汽车级晶振,具有低电流消耗,1.6 V至3.63 V的宽工作电压,以及-40C至85C的宽工作温度范围,此外还可提供高达125C的工作温度。符合…

实现红黑树

目录 红黑树的概念 红黑树的节点结构定义 红黑树的插入 红黑树的验证 实现红黑树完整代码 红黑树的概念 红黑树 ,是一种 二叉搜索树 ,但 在每个结点上增加一个存储位表示结点的颜色,可以是 Red 或 Black 。 通过对 任何一条从根到叶子的…

[BJDCTF2020]ZJCTF,不过如此 1

涉及&#xff1a;php的伪协议、preg_replace函数的漏洞和正则表达式的运用。 解题步骤 <?phperror_reporting(0); $text $_GET["text"]; $file $_GET["file"]; if(isset($text)&&(file_get_contents($text,r)"I have a dream"))…

7.STL_string(详细)

1. 什么是STL STL(standard template libaray-标准模板库)&#xff1a;是C标准库的重要组成部分&#xff0c;不仅是一个可复用的组件库&#xff0c;而且 是一个包罗数据结构与算法的软件框架。 2. STL的版本 原始版本 Alexander Stepanov、Meng Lee 在惠普实验室完成的原始版…

FANUC机器人基本保养概述

对于工业机器人来说&#xff0c;定期保养机器人可以延长机器人的使用寿命。对于FANUC机器人来说&#xff0c;FANUC机器人的常规保养周期可以分为日常、三个月、六个月、一年、两年、三年。以下是FANUC机器人的基本保养周期概览&#xff1a; 在实际生产应用中&#xff0c;可以参…

【ORACLE战报】2024.4月最新OCP考试喜报.

课程介绍 DBA数据库管理必备认证&#xff1a;ORACLE OCP 19C 教材下载 ORACLE OCP 19C 官方电子教材 ORACLE OCP 12C官方电子教材 题库下载 ORACLE 19C题库 &#xff08;083384题、082362题&#xff09;-2024答案修正版.rar 所有的收获都是默默耕耘的成果 2024.4月【最新考试成…

加密与CA证书

文章目录 加密与CA证书http协议是不安全的使用对称秘钥进行数据加密非对称秘钥加密CA证书应用补充 加密与CA证书 CA 证书是什么&#xff0c;证书的目的是什么 首先明确一点&#xff0c;CA证书是数字时代中确保身份和数据安全的重要工具&#xff0c;为用户提供了安心、便捷和可…

向量数据库:Chroma

目录 一、Chroma 介绍 二、安装 Chroma 2.1 创建虚拟 python 环境 2.2 安装 Chroma 2.3 运行 Chroma 三、Backend API 一、Chroma 介绍 Chroma是一个开源的嵌入式数据库。Chroma通过使知识(knowledge)、事实(facts)和技能(skills)可插拔&#xff0c;从而简化了大型语言模…

设计模式之组合模式:探索对象组合的动态管理与操作技巧

​ 一、什么是组合模式 组合模式&#xff08;Composite Pattern&#xff09;是一种结构型模式&#xff08;Structural Pattern&#xff09;&#xff0c;它主要解决的是如何将对象组合成树状以表示“部分-整体”的层次结构&#xff0c;并且可以对整个树进行统一的操作&#xff0…

Redis过期删除策略和内存淘汰策略有什么区别?

Redis过期删除策略和内存淘汰策略有什么区别&#xff1f; 前言过期删除策略如何设置过期时间&#xff1f;如何判定 key 已过期了&#xff1f;过期删除策略有哪些&#xff1f;Redis 过期删除策略是什么&#xff1f; 内存淘汰策略如何设置 Redis 最大运行内存&#xff1f;Redis 内…

住宅IP代理和数据中心/机房IP代理之间的区别

一、什么是数据中心/机房IP代理&#xff1f; 数据中心/机房IP代理是使用数据中心拥有并进行分配和管理的IP的代理&#xff0c;俗称机房IP代理。 二、数据中心/机房IP代理的特点 与住宅代理通过使用ISP拥有和分配的IP地址的设备路由请求的情况不同&#xff0c;数据中心代理利…

【Cesium】Cesium核心类、坐标系与着色器简介

核心类&#xff1a; Viewer: Viewer 是 Cesium 中最基本的视图容器&#xff0c;用于显示地球、地图、三维场景等。它提供了创建和管理场景的功能&#xff0c;可以配置视图的各种属性和行为。 Scene: Scene 是 Cesium 中的核心类之一&#xff0c;代表了一个三维场景&#xff0c…