CSDN-AI小组2023-半年-研发总结

目录

    • 1.丐版「大模型」,Proof of concept
    • 2. LLM和AIGC的各种综述
    • 3. 基于Embedding的应用,问答,AI编程
    • 4. 评论区的AI助手
    • 5. 结合AIGC的各种数据自动计算
    • 6. 个性化推荐的系统重构
    • 7. 基于AIGC的个性化博客创作鼓励
    • 8. 博客质量分V5: 可解释性计算服务
    • 9. CSDN统一标签的持续改进
    • 小结

在这里插入图片描述

时隔6个月,做为一个技术站点的AI团队,我们能做些什么?大模型和AIGC如火如荼,这就是所有做技术的人等待的技术浪潮。不过这个技术浪潮对于一个小团队来说意味着什么,则是需要冷静的思考。我们看下我们做了哪些动作,解决了哪些问题。

1.丐版「大模型」,Proof of concept

我们很快意识到,生成式AI已经彻底崛起。作为AI团队,整个技术栈上需要扭转过来,只有掌握技术的原理,才能更好的使用技术。大模型从一开始就是大厂的战场,但是所有做AI研发的,都应该在原理上对其有深刻的一手理解才能立于不败之地。

我们用非常小的成本,挑选了RWKV模型做为基模型,验证了构建垂直大模型的主要技术栈并开源。

ChatCSDN基于RWKV1.5B基模型: https://gitcode.net/csdn/ai/chatcsdn

  • 主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。
  • 原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
  • 微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN

在这个基础上,团队有对应的原理和工程实践的博客介绍:

  • 介绍博客地址:https://blog.csdn.net/zxm2015/article/details/130227450
  • 人类反馈强化学习 (RLHF) 博客:https://blog.csdn.net/u010280923/article/details/130283628

从应用的角度。在实际验证了主要技术栈之后,我们就打破了对大模型的迷思。当有新的开源模型的时候,我们也能第一时间对其做评估和验证。符合条件的模型,则可以在被动式AI应用里做集成使用。

2. LLM和AIGC的各种综述

在这里插入图片描述

以应用为目标是AI团队的目标。但是在这个基础上,技术平台本身就应该能提供最前沿的技术博客。我们针对性的做了一组综述,包含这些博客:

  • 10分钟了解向量数据库
    • 事实上,我们在应用里已经有很多该技术的实战应用。
  • 关于 ChatGPT 必看的 10 篇论文
  • 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
  • NLP 中语言表示 (向量化) 的基本原理和历史演变综述
  • LLaMA及其子孙模型概述
  • 用LangChain实现一个ChatBlog

3. 基于Embedding的应用,问答,AI编程

实际做AIGC的应用,有两个典型的用途:

  • 回答技术问题
  • AI编程

其中,基于Embedding的技术是其中的一个重要的模式。大概的示意图如下

在这里插入图片描述

其中,在CSDN问答上,我们做了许多不断改进的迭代,问答机器人在问答周采纳榜单上稳定进入前3.

这里有问答机器人研发介绍

而,AI编程,则在 https://inscode.csdn.net 上有很系统的集成。AI编程事实上已经改变了未来编程的基本粒度。机器做的更多,人的精力会被更多地解放出来。

4. 评论区的AI助手

如何做基于AIGC的产品功能,则是一个重要的课题。经过思考后的一个设计是:在离用户需求最近的地方支持AI,包含:

  • CSDN 社区(bbs.csdn.net) 评论区支持 @ada 的会员权益功能。
  • CSDN 问答(ask.csdn.net) 回答区支持 @ada 的会员权益功能。

对于@ada 机器人的能力是经过仔细思考的:

  1. 你自己可能不知道哪里是关键「问题」例如你仔细观察 https://bbs.csdn.net/topics/615834933,提问者自己是不知道「问题在哪」,而我「懒得打字」(GPT帮我打即可,但是我知道「问题在哪」),我的价值在于,我知道「问题在哪」。从前,答者重“答”,未来,答者重“另一个问”.

  2. 解决问题需要「多人」讨论,包括human1, human2, 中间可以夹杂ai1, ai2,AI的加持,人与人的讨论更能聊的下去。

  3. 好的问题,公开解决,可以帮助更多人。

有了这个功能,如果你希望在私密的地方使用生成式AI学习,也可以在个人的私密社区的评论区里使用。希望这个功能你会喜欢。

5. 结合AIGC的各种数据自动计算

技术站点可以做各种榜单。但是在AIGC时代,可以做的更好。我们在结合传统自动化大数据处理+部分AIGC的能力,不断迭代各种推送榜单。

  1. AI前沿社区
  2. 博客之星2023社区
  3. 用户的认可页面
  4. 将社区里,是“问题类型”的帖子,通过分类器识别后,分类出来并同步到问答。同时社区也支持一个「有问题」列表:
    在这里插入图片描述

6. 个性化推荐的系统重构

个性化推荐对于内容社区起着举足轻重的作用。对此我们有一系列的研发博客介绍:

  • [1] 《如何支持研发对CSDN个性化推荐系统重构》
  • [2] 《CSDN个性化推荐系统的设计和演化
  • [3] 《CSDN 个性化推荐的数据治理
  • [4] 《CSDN个性化推荐系统-负反馈测试

在这里插入图片描述

正确反馈的系统,才能有真实的数据,才能解决繁杂的用户和平台需求。

7. 基于AIGC的个性化博客创作鼓励

AIGC时代,我们可以为每个人做个性化的写作鼓励。每个用户写博客,无论是写笔记(学),还是写专栏(教)。都希望获得正向反馈。为此,我们通过一些列的实验为所有的技术写作者服务,这确实体现了成就一亿技术人的理念

  • 工作3年内博主写作的红包评论鼓励,结合AIGC自动摘要和写作建议。
  • 新人博客前10-20篇博客的AIGC鼓励评论和建议。
  • 资深老博主的AIGC鼓励和建议。

让所有人都自动地获得AIGC的服务,为技术写作者服务,你的技术写作再也不孤单。AIGC评论只是一个催化剂,让博主们更流畅的互相交流,通过写作获得成长是其核心目标。

8. 博客质量分V5: 可解释性计算服务

我们对博客质量分做了一系列的内部分析和实验,包含了:

  • 影响博客质量分的因子的消融指标矩阵分析
  • 影响博客质量分区间分布迁移的小规模和大规模试验分析

通过这些分析,我们改进了博客质量分的计算,近期推出了博客质量分V5,V5版本在解决博客质量可计算方面的能力基础上,进一步增加了可解释性,让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升,这也是平台生态长期良性发展的基石。

我们的同事对此会有独立博客介绍: 博客质量分计算——发布 version 5

在这里插入图片描述

9. CSDN统一标签的持续改进

当然,我们在技术内容分类器上的传统强项也在持续改进。CSDN的技术分类:

  • 能保持最新
  • 准确性靠谱

作为一个技术站点,全的新的技术分类体系和准确性,是打底的能力。

小结

实际做的工作远不止这些,有重大技术突破的时代,是一个最好的时代,希望大家都能走的更远,创造更多好的技术和产品。Be greater than average! 希望能有这个勋章!

在这里插入图片描述

–end–

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/3987.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows 下后台启动 jar 包,UTF-8 启动 jar 包

目录 1. Windows 下启动 jar 包2. 设置 cmd 编码3. UTF-8 编码启动 jar 包 1. Windows 下启动 jar 包 小贴士:打包的时候把 application.yml 所有内容都注释掉,然后打包,再把 application.yml 与打好的 jar 包放在同级目录下,如图…

Redis概述及安装、使用和管理

文章目录 一、NoSQL非关系型数据库1.NoSQL概述2.关系型数据库和非关系型数据库区别(1)数据存储方式不同(2)扩展方式不同(3)对事务性的支持不同 3.非关系型数据库使用场景 二、Redis概述1.简介2.优点3.Redis…

go读写文件总结

别人的经验: 如今任何计算机系统每天都会产生大量的日志或数据。随着系统的增长,将调试数据存储到数据库中是不可行的,因为它们是不可变的,主要用于分析和解决故障的目的。因此,企业倾向于将其存储在文件中&#xff0…

使用conda虚拟环境,Jupyter Notebook 链接不上 kernel

1,检查 ipykernel 和 ipython 是否一致 输入pip list 或者conda list检查一下相应库的版本是不一致 不一致的话,可以更新这两个库的版本:pip install --upgrade 库名 2,看控制台的报错,如果是报404,内核找不…

【Linux】软硬链接与动静态库

系列文章 收录于【Linux】文件系统 专栏 关于文件描述符与文件重定向的相关内容可以移步 文件描述符与重定向操作。 可以到 浅谈文件原理与操作 了解文件操作的系统接口。 想进一步理解文件系统还可以看看文件缓冲区和文件系统。 目录 系列文章 软硬链接 软链接 硬链接…

vue(脚手架创建)代理解决跨域问题

目录 为什么会出现跨域问题 什么是跨域 Vue CLI Vue2解决跨域问题 不重写路径 重写路径 vue.config.js代码 Vue3解决跨域问题 ViteVue解决跨域问题 vite.config.ts代码 总结 为什么会出现跨域问题 出于浏览器的同源策略的限制。同源策略是一种约定,它是…

Linux网络环境配置

第一种方式(自动获取): 说明:登陆后,通过界面的来设置自动获取IP 特点:Linux启动后会自动获取IP 缺点:是每次自动获取的IP地址可能不一样 第二种方法(指定IP): 1、说明…

科技资讯|2023Q1中国电动汽车销量增长 29%,充电桩市场持续增长

根据市场调查机构公布的 2023 年第 1 季度中国国内电动汽车市场报告,比亚迪继续引领竞争日益激烈的电动汽车市场。 报告称 2023 年第 1 季度中国乘用电动汽车销量同比增长 29%,其中纯电动汽车(BEV)占销售额的近 70%、插电式混合…

Java——《面试题——网络篇》

前文 java——《面试题——基础篇》 Java——《面试题——JVM篇》 Java——《面试题——多线程&并发篇》 Java——《面试题——Spring篇》 Java——《面试题——SpringBoot篇》 Java——《面试题——MySQL篇》​​​​​​ Java——《面试题——SpringCloud》 Java…

Python笔记-1

Python安装问题 1.python是一门解释性的计算机程序语言。 2.IDLE就是我们写Python程序的地方(小型的集成开发环境,编辑器)。 3.Pycharm是一个大型的集成开发环境(IDLE的扩展,不仅可以写,还能管理、调试&am…

基于PyQt5的桌面图像调试仿真平台开发(1)环境搭建

系列文章目录 基于PyQt5的桌面图像调试仿真平台开发(1)环境搭建 基于PyQt5的桌面图像调试仿真平台开发(2)UI设计和控件绑定 基于PyQt5的桌面图像调试仿真平台开发(3)黑电平处理 基于PyQt5的桌面图像调试仿真平台开发(4)白平衡处理 基于PyQt5的桌面图像调试仿真平台开发(5)…

HCIP(HCIA回顾)

OSI/RM 七层 应用层 表示层 会话层 传输层 区分不同的流量,定义传输方式。 端口号由16位二进制构成,范围为0~65535(其中0不作为传输层的端口使用),所以真实取值范围为1~65535;其中,1~1023称为知名端口号。 1、可靠…