论文笔记:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD

iclr 2024 spotlight reviewer 评分 5668

1 intro

  • 由大型语言模型驱动的对话代理(ChatGPT,Claude 2Bard,Bing Chat)
    • 他们的开发流程通常包括三个主要阶段
      • 预训练语言模型
      • 在被称为“指令调优”数据集上进行微调,以使模型的行为与人类偏好保持一致
      • 可选地应用基于人类反馈的强化学习(RLHF),以进一步优化模型的响应
    • 虽然基础模型训练数据丰富且容易获得,但关键的指令调优数据集往往是专有的,这导致希望推进该领域的研究人员在可访问性上存在差距
  • 现有的用户-聊天机器人互动数据集主要有两种类型
    • 自然使用案例
      • 包括实际用户互动,大多是专有的
    • 专家策划的集合
      • 研究人员通常不得不依赖专家策划的数据集
      • 这些数据集在分布上通常与现实世界的互动不同,而且通常限于单轮对话
  • 为了弥补这一差距,本文介绍了(INTHE)WILDCHAT数据集
    • 一个全面的多轮、多语种数据集
    • 包括通过ChatGPT和GPT-4 API支持的聊天机器人服务收集的570,000次完整对话,涵盖超过150万次互动轮次
  • WILDCHAT服务于多个研究目的
    • 提供了比现有聊天机器人数据集更接近现实世界的多轮、多语种用户-聊天机器人互动的近似,填补了研究社区可用资源的重要空白
    • 分析表明,WILDCHAT在语言和语义方面比现有数据集更具多样性
    • 在这个数据集中发现了令人惊讶的高水平的毒性——超过10%的互动
    • 展示了该数据集用于指令调优聊天机器人的有效性——仅在原始数据集上进行微调的语言模型就超过了最先进的开源聊天机器人

2 数据收集

2.1 收集方法

  • 为了收集WILDCHAT数据集,论文部署了两个聊天机器人服务,一个基于GPT-3.5-turbo API,另一个基于GPT-4 API
  • 这两个服务都托管在Hugging Face Spaces上,并向公众开放

2.2 用户同意机制

2.3 数据预处理

  • 上述数据收集步骤产生了1,543,271条对话日志,其中包括部分对话和完整对话。
  • 为了识别并移除部分对话,论文检查一个对话日志是否是任何其他对话日志的前缀;
    • 这一处理步骤产生了586,031条完整对话。
  • 然后论文尽最大努力移除对话中的个人身份信息(PII)。
  • 论文还过滤掉了13,638条对话,这些对话中要么是用户连续发言,要么是助手连续发言,以保持一致的用户-助手轮换格式。
  • ——>这些预处理步骤共留下了572,393条对话。

3 数据分析

4  毒性分析

5 使用WILDCHAT进行instruction tuning

在WILDCHAT上训练了一个Llama-2 7B模型,从而产生了一个称为WILDLLAMA的新模型

第6章 局限性

6.1 用户人口统计学

鉴于聊天机器人服务托管在Hugging Face Spaces上,与之交互的大多数用户可能是开发者或与IT社区密切相关的人士。这一人群可能并不反映一般人口,并且可能也解释了数据集中出现的特定类型的对话,如编程问题。

6.2 毒性选择偏见

用户使用论文提供的聊天机器人服务的一个潜在原因是它提供匿名性。论文怀疑,这些用户可能更倾向于产生他们在需要账户注册的平台上不会分享的内容。作为一个典型的例子,如Hacker News中的讨论所示,匿名平台有时可能吸引更多毒性质的内容。然而,我们服务的匿名性使得更详细地分析我们用户群的人口统计学变得具有挑战性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/625051.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

竞赛 基于GRU的 电影评论情感分析 - python 深度学习 情感分类

文章目录 1 前言1.1 项目介绍 2 情感分类介绍3 数据集4 实现4.1 数据预处理4.2 构建网络4.3 训练模型4.4 模型评估4.5 模型预测 5 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于GRU的 电影评论情感分析 该项目较为新颖,适合作为竞…

贵阳市人民政府副市长刘岚调研珈和科技

4月9日,贵阳市人民政府副市长、党组成员刘岚一行到珈和科技走访调研,珈和科技总经理冷伟热情接待了考察团,就企业算力需求与合作,特色产业园区建设,科技成果转化落地等方面进行深入交流。 贵阳市教育局局长李波&#…

Web3D智慧医院平台(HTML5+Threejs)

智慧医院的建设将借助物联网、云计算、大数据、数字孪生等技术,以轻量化渲染、极简架构、三维可视化“一张屏”的形式,让医院各大子系统管理既独立又链接,数据相互融合及联动。 建设医院物联网应用的目标对象(人、物)都…

CSS基础之伪元素选择器(如果想知道CSS的伪元素选择器知识点,那么只看这一篇就足够了!)

前言:我们已经知道了在CSS中,选择器有基本选择器、复合选择器、伪类选择器、那么选择器学习完了吗?显然是没有的,这篇文章讲解最后一种选择器——伪元素选择器。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我…

4G/5G布控球/移动执法仪/智能单兵电力巡检远程视频智能监控方案

一、背景与需求 随着科技的不断进步,视频监控技术已成为电力行业不可或缺的一环。电力行业的巡检及建设工作,因施工现场在人迹罕见的野外或山区,地形复杂多变,安全更是重中之重,现场工作的视频图像需实时传回监管中心…

数图智慧零售解决方案,赋能零售行业空间资源价值最大化

数图智慧零售解决方案 赋能零售行业空间资源价值最大 在激烈的市场竞争中,如何更好地提升空间资源价值,提高销售额,成为行业关注的焦点。近日,NIQ发布的《2024年中国饮料行业趋势与展望》称,“在传统零售业态店内&…

Keepalived+LVS+nginx搭建nginx高可用集群

一、简介 nginx是一款非常优秀的反向代理工具,支持请求分发,负载均衡,以及缓存等等非常实用的功能。在请求处理上,nginx采用的是epoll模型,这是一种基于事件监听的模型,因而其具备非常高效的请求处理效率…

一个文生视频MoneyPrinterTurbo项目解析

最近抖音剪映发布了图文生成视频功能,同时百家号也有这个功能,这个可以看做是一个开源的实现,一起看看它的原理吧~ 一句话提示词 大模型生成文案 百家号生成视频效果 MoneyPrinterTurbo生成视频效果 天空为什么是蓝色的? 天空之所以呈现蓝色,是因为大气中的分子和小粒子会…

Elasticsearch:下载、启动和账号密码登录

因为我的电脑是 window,以下都是以 window 环境举例。 一、下载 Elasticsearch 是使用 java 开发的,且 7.8 版本的 ES 需要 JDK 版本 1.8 以上,安装前注意java环境的准备。 官网地址:https://www.elastic.co/cn/ 下载地址&#xf…

使用FastDDS编译IDL文件

1.安装FastDDS环境 Ubuntu22.04 1.1安装依赖的软件 sudo apt-get update //基础工具安装 sudo apt install cmake g python3-pip wget git //Asio 是一个用于网络和低级 I/O 编程的跨平台C库,它提供了一致的 异步模型。 TinyXML2是一个简单,小巧&…

weblogic JSP action的配置

action(如xxx.do)可以在Java文件中通过注解的方式配置,也可以在web.xml中进行配置 在java文件中配置的场合 WebServlet(xxxx.do) 并实现支持的方法:doGet或doPost等 或者 WebServlet(xxxx.do) 并实现service方法 所有method的处理方法都会…

基于afx透明视频的视觉增强前端方案

作者 | 青玉 导读 本文介绍了增长前端团队自研的Webview框架下透明视频视觉增强方案,该方案在保证对视觉进行高度还原的同时可投入更少的开发成本,还能获得更优的前端性能表现。文章首先分析了市面上动画方案的优缺点,然后详细介绍了透明视频…