玩转ChatGPT:Code interpreter (vol. 1)

一、写在前面

喜大普奔,GPT-4传说中的Code interpreter插件已经可以用了!!!

二、什么是Code interpreter

代码解释器(Code Interpreter)是一个工具,它能够读取和执行编程代码。这里有几个主要的功能和用法:

(1)执行代码:您可以在会话中提供任何有效的Python代码,代码解释器会执行这段代码并返回结果。例如,如果您输入print("Hello, world!"),代码解释器会输出"Hello, world!"。

(2)状态维持:代码解释器能够保持一定的状态,这意味着在一段时间内,之前的变量和函数定义都会被保存。例如,如果您先定义了一个变量x = 10,然后在稍后的会话中使用这个变量(比如计算x * 2),代码解释器会正确地返回结果20。

(3)文件操作:代码解释器能够读取和写入文件。例如,您可以上传一个.csv文件,并使用pandas库来处理数据。同样,您也可以将数据保存为文件,然后下载到您的设备上。

(4)数学公式渲染:代码解释器支持LaTeX渲染,这意味着您可以输入数学公式,并看到美观的渲染结果。请注意,应使用\(...\)来包围行内公式,使用\[...\]来包围块级公式。

需要注意的是,代码解释器不具有网络访问权限,因此不能执行需要网络的操作,例如从互联网上下载文件或数据。此外,代码解释器的知识库只更新到2021年9月,因此可能无法识别在这之后新出现的库或API。

有人说像是不带有pip功能的python,但那也是让人兴奋的GPT-4插件。

话不多说,开始尝鲜!!!

二、开始对线

随意拿一个案例数据做机器学习分类模型试一试,数据格式如下:

(1)数据上传和概况描述

点击聊天输入框最左边的“+”按钮,选中你的数据集,上传。

 

输入咒语:请描述这个数据集的大致情况。

GPT-4输出:

这个数据集包含1927行和14列。每一行代表一个观察值,每一列代表一个特征。

这些特征的类型主要有两种:整数(int64)和浮点数(float64)。列'A'到'F'是整数类型,列'G'到'M'以及最后一列'Unnamed: 13'是浮点数类型。

需要注意的是,这个数据集存在缺失值。例如,列'G'只有1727个非空值,列'H'有1822个非空值,列'I'有1337个非空值,等等。最后一列'Unnamed: 13'全是空值,可能这一列是在数据收集或处理过程中误导入的,我们可能需要删除这一列。

在进行进一步的分析之前,我们需要对这些缺失值进行处理,方法可以有很多种,比如删除含有缺失值的行,或者使用某种策略(如平均值、中位数、最常见的值等)来填补缺失值

评论:可以看到,GPT-4对整个数据集进行了描述,还指出了数据存在缺失值。此外,由于我的失误,多了一列空列(也就是他说的'Unnamed: 13')。

(2)数据清洗

咒语:删除最后一列,对整个数据集进行缺失值处理(采用中位数填充),并输出处理后的数据集为“jet-01.csv”。

GPT回复:

我已经删除了数据集中的最后一列,并使用每列的中位数填充了缺失值。处理后的数据集已经保存为"jet-01.csv"文件。

您可以通过这个链接下载处理后的数据集。

评论:点击下载文件,如下:

 处理得很好啊~

(3)初步统计分析

咒语:请对每一列数据都进行简单的统计分析,用表格的形式展示。注意:分类变量和连续变量的数据集请分开描述;分类变量要展示出各个赋值的频数的数值。

GPT回复:

 评论:突然觉得SPSS不香了啊!

(4)特征可视化

咒语:请用合适的图可视化每一列特征,要求能直观地展示数据分布。

GPT回复:

 评论:这数据分析的效率,有点可怕。

(5)单因素分析

咒语:本例数据中,A列为应变量(分为两组0和1),其余列为自变量。请对每一列的自变量进行单因素分析,判断两组之间的自变量是否存在统计学差异。

GPT回复:

 评论:看来SPSS可以卸载了。

(6)建立随机森林分类模型

咒语:本例数据中,A列为应变量(分为两组0和1),其余列为自变量。请以A为应变量,其余为自变量建立随机森林模型(你自己自行进行特征工程)。并以表格的形式展示训练集和验证集的灵敏度、特异度和AUC值。

GPT回复:

 咒语:画出训练集和验证集的混淆矩阵、ROC曲线和PR曲线。

 评论:跪了。

(7)优化随机森林分类模型

咒语:改善模型,优化验证集的过拟合,并以表格的形式展示训练集和验证集的灵敏度、特异度和AUC值。同时给出优化方案。

GPT回复:

我通过网格搜索方法优化了随机森林模型的参数,以改善模型在验证集上的过拟合问题。优化后的模型参数如下:

最大深度(max_depth): 10

最小样本分割(min_samples_split): 10

最小样本叶片(min_samples_leaf): 4

树的数量(n_estimators): 100

优化后的模型在训练集和验证集上的灵敏度、特异度和AUC值如下:

 可以看出,优化后的模型在验证集上的性能有所提升,过拟合现象得到一定程度的缓解。然而,由于数据的不平衡性和模型的复杂性,模型的灵敏度仍然不高。在这种情况下,我们可以尝试其他的方法来进一步优化模型,例如使用更复杂的模型(如梯度提升树或神经网络)、进行更多的特征工程(如创建新的特征或进行特征选择)、使用过采样或欠采样等方法来处理数据的不平衡性,或者调整模型的决策阈值来改变模型的灵敏度和特异度。

(8)优化随机森林分类模型

咒语:请帮我更换其他模型进行测试,并以表格的形式展示训练集和验证集的灵敏度、特异度和AUC值。同时给出优化方案。

GPT回复:

我已经使用了逻辑回归、支持向量机、K近邻和决策树四种模型对数据进行了训练,并计算了训练集和验证集的灵敏度、特异度和AUC值。结果如下:

可以看出,逻辑回归和支持向量机在验证集上的表现比随机森林模型稍好一些。K近邻模型的表现相似,但略低一些。决策树模型在训练集上的表现完美,但在验证集上的表现明显下降,这是典型的过拟合现象。

四、写在最后

也不要惊慌,还是有缺陷的

(1)不能联网很多新的算法不能用,例如Xgboost;

(2)专业性强首先你得知道怎么数据分析,才能驾驭TA。因此,本底知识还得学习。

(3)对咒语要求较高老生常谈了,得说清楚你的需求和目的;

(4)结果需要核对:毕竟是在后台算的,正确率有多高,需要谨慎对待。

然而,还是惊艳到了很多人啊。这个还是测试版,被限制了太多,谁知道给与TA足够多的权限,会发生什么哦,细思极恐。

初步尝鲜到此为止,后续我还会慢慢测试。。。。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/13867.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 配置文件

目录 1、配置文件作用 2、配置文件的格式 1、application.properties 配置文件 - 效果演示 2、application.yml 配置文件 - 效果演示 为配置⽂件安装提示插件 - 社区版 idea application.properties 配置文件说明 properties 基本语法 查看更多系统配置项 - properties …

C# MVC 多图片上传预览

一.效果图: 开发框架:MVC,Layui 列表主界面这里就不展示了,可以去看看这篇文章:Layui项目实战,这里讲的是“上传Banner”界面功能: 其中包括,多文件上传,预览&#xff0c…

机器学习|了解数据处理

数据处理是将数据从给定形式转换为更有用和更期望的形式的任务,即使其更有意义和信息。使用机器学习算法,数学建模和统计知识,整个过程可以自动化。这个完整过程的输出可以是任何所需的形式,如图形,视频,图…

【标准】国家标准GB7713-87(科学论文编写格式)

目 录 1 引言 2 定义 2.1 科学技术报告 2.2 学位论文 2.3 学术论文 3 编写要求 4 编写格式 5 前置部分 5.1 封面 5.2 封二 5.3 题名页 5.4 变异本 5.5 题名 5.6 序或前言 5.7 摘要 5.8 关键词 5.9 目次页 6 主体部分 6.1 格式 6.2 序号 6.3 引言(或绪论)…

Linux--Linux的应用市场:yum

先问大家一个问题: 你下载的软件,是从手机上下载的吗? 当然不是了,我手机上要是有这个软件,直接就可以打开使用了,我还下它干嘛。 那既然不是从手机下载的,那是从哪儿下的? 应用…

Rainbond开源

Rainbond的 Gateway API 插件制作实践 Gateway API 作为新一代的流量管理标准,对原有 Ingress 的扩展不规范、移植性差等问题做出了改进。从兼容K8s生态和优化网关体验出发,Rainbond 支持以插件的形式扩展平台网关能力,目前已经有多家社区提供…

Zookeeper

一、概念 它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 zookeeper文件系统监听通知机…

SpringBoot教学资料5-SpringBoot一对多查询(带简单前端)

项目展示: 项目结构: SQL: CREATE TABLE t_article (id int(20) NOT NULL AUTO_INCREMENT COMMENT 文章id,title varchar(200) DEFAULT NULL COMMENT 文章标题,content longtext COMMENT 文章内容,PRIMARY KEY (id) ) ENGINEInnoDB AUTO_INCR…

抖音seo源码保姆式服务搭建|定制产品开发分享

抖音seo霸屏,是一种专为抖音视频创作者和传播者打造的视频批量剪辑,批量分发产品。使用抖音seo霸屏软件,可以帮助用户快速高效的制作出高质量的优质视频。 使用方法:1. 了解用户的行为习惯 2. 充分利用自身资源进行开发 3. 不…

OpenCV对图片进行缩放处理

在下面的代码中,我会为你优化和解释这段程序: #include <opencv2/opencv.hpp>using namespace cv;int main() {// 读取源图片Mat srcImage = imread("../51_resize.jpg"

电脑提示找不到应用程序怎么办?

无论个人电脑还是办公电脑&#xff0c;无一例外的都会安装一些应用程序来帮助我们使用。而在电脑的使用过程中总会出现一些大大小小的问题&#xff0c;其中双击桌面快捷方式显示找不到应用程序是一个比较常见的故障。那么&#xff0c;电脑找不到应用程序怎么解决呢? 电脑找不到…

路由的介绍

目录 路由器的转发原理&#xff1a;路由表 路由——指示路由器去往未知网段的方法 路由器的转发原理&#xff1a;路由表 当一个数据包来到路由器&#xff0c;路由器将基于数据包中的目标IP地址查询自身的路由表&#xff0c;如果路由表中有相应的记录&#xff0c;则无条件根据…