0 前言
本专栏目标:
- 能做什么?
- 要怎么做?
- 效果如何?
本质: 多Agent实现从数据采集到可视化全流程
AIGC数据应用:
数据采集
通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采集社交媒体数据、数据库内容、文本数据、接口数据等。
数据处理
通过数据清洗、数据集成、数据变换、特征工程等方式,实现数据结构、数据融合、格式转换、特征提取等。
数据分析
对数据进行诊断、预测、关联、聚类分析,常用于问题定位、需求预测、推荐系统、异常检测等。
数据挖掘
对数据进行分类、社交网络分析或时序模式挖掘,常用于客户细分、信用评分、社交媒体营销、股价预测等。
数据可视化
将数据转化为统计图、热力图、网络关系图、词云、树形图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。
模型特点
DeepSeek R1:
- 高效推理:专注于低延迟和高吞吐量,适合实时应用
- 轻量化设计:模型结构优化,资源占用少,适合边缘设备和移动端
- 多任务支持:支持多种任务,如文本生成、分类和问答
Open AI o3 mini:
- 小型化设计:轻量级模型,适合资源有限的环境。
- 快速响应:优化推理速度,适合实时交互场景。
- 通用性强:适用于多种自然语言处理任务,如对话生成和文本理解
Claude 3.5 sonnet:
- 平衡性能:在模型大小和性能之间取得平衡,适合中等规模任务。
- 多模态支持:支持文本和图像处理,扩展应用场景。
- 可解释性:注重模型输出可解释性和透明性
Kimi k1.5:
- 垂直领域优化:针对特定领域(如医疗、法律)进行优化,提供高精度结果
- 低成本推理:擅长处理长文本和复杂查询,适合专业场景。
- 定制化能力:支持用户自定义训练和微调,适应特定需求
1 爬虫数据采集
任务
- 阅读网页源代码,提取特定网页内容
- 撰写 python 脚本
- 提取并合并网址
- 提取网址内容
- 写入文件
提示词
你需要完成以下两个任务:
- 阅读网页【网址】源代码【对应网页源代码】,提取所有包含“春运 2025 | X 月 X 日,全社会跨区域人员流动量完成 X 万人次”的网址进行去重、筛选、合并成网址列表
- 撰写 python 脚本,基于步骤 1 输出的网址列表,提取所有网址内容“截至目前 2025 年春运(2025 年 1 月 14 日到 2 月 8 日)相关数据(如日期、全社会跨区域人员流动量、铁路客运量、公路人员流动量、水路客运量、民航客运量等)”完成数据提取并写入文件“2025 春运数据.txt”
如:
帮我写python爬虫,爬取https://news.buaa.edu.cn/zhxw.html网站中的标题和链接帮我写python爬虫,爬取https://news.buaa.edu.cn/xxgg_new.html网站中class="listlefttop auto"下面的所有标题和链接(如果乱码?UTF-8)
在桌面新建一个excel文档,并把结果放在这个文档中
对于每一个链接,请爬取每一个链接的内容,并保存到excel的新列'text'中
对于每一个链接,请爬取每一个链接中class="v_news_content"的内容,并保存到excel的新列'text'中
DeepSeek R1
能提取所有网址并进行筛选、去重,所撰写代码运行后完成数据爬虫任务,所获取数据准确,少量数据有所遗漏。
Open AI o3mini:
响应速度快,能高效提取所有需求链接,输出完整可运行 python 脚本,代码运行后生成文件,但数据采集结果为空。
测试结果受到数据样本、测试环境、AI 抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。
Claude 3.5 sonnet
可提取所有网址,调整后可输出正确代码,运行代码能生成本地文件,但提取数据结果为空。
Kimi k1.5
能够提取所有网址,代码运行后生成本地文件,但提取数据结果为空。
结论:
- 目前DeepSeek R1、Open AI o3mini、Kimi k1.5支持联网查询网址,Claude 3.5 sonnet暂不支持
- 四个模型均能根据上传的网页代码,对多个网址链接进行筛选、去重,完全提取出符合指令要求的所有网址链接并形成列表
- 在复杂爬虫任务上,DeepSeek R1与Open AI o3mini生成的代码均能正常执行数据采集任务,o3响应速度更快,R1数据采集结果更加完整准确;其他2个模型都存在多次调试但代码仍然运行不成功的问题,如代码中罗列URL不全、输出文本中提取数据为空等。
2 文件数据读取
任务
- 读取文件;
- 根据指定内容整理成表格。
提示词
所上传的“2025春运数据(1月14-2月8日).txt”包含了从2025年1月14日至2025年2月8日每天各种交通方式的春运客运量信息,请从中读取每一天的信息,并整理成一张表格,要求包括以下几项信息:
1.当天日期;
2.当天的铁路客运量、比2024年同期多或者少的百分比、环比的百分比。
3.当天的公路客运量、比2024年同期多或者少的百分比、环比的百分比。
4.当天的民航客运量、比2024年同期多或者少的百分比、环比的百分比。
DeepSeek R1能详细全面地提取文件中的数据,并整理成可视化数据表格,逻辑性强、指标清晰。
Open AI o3 mini暂不支持附件上传,响应速度快,能够快速读取粘贴数据,输出结果格式工整、简洁。
Claude 3.5 sonnet
很好地完成了数据读取及提取任务 ,没有漏数据指标,数据逻辑性很好
Kimi k1.5
能够快速读取文件数据,并整理成可视化数据表格,但填入数据有所缺失。
结论:
- DeepSeek R1与Claude 3.5 sonnet均能很好的完成文件数据读取任务,生成的表格逻辑性强、数据指标清晰,Claude 3.5 sonnet-次性完成表格生成后支持直接复制和表格文件下载
- Open Al o3mini能够更加高效地完成数据提取任务,输出表格准确,但暂不支持附件上传,文件读取依靠粘贴稍显不便
- Kimi k1.5文件数据提取有明显空缺
3 文本数据集成
任务
- 分别阅读约7000token和15000token的文本内容,测试模型对中、长文本处理效果
- 整理集成可视化的数据表格
- 按照日期规范排序
提示词
【所需阅读文本】请根据以上文本完成以下三个任务:
1、阅读文本内容;
2、整理集成可视化的数据表格;
3、按照日期规范排序(直接分析并输出结果,不使用python)
DeepSeek R1
一般文本(7000token):能详细全面地提取文本数据,并集成可视化表格,但受大样本或模型稳定性影响,输出表格末尾缺失,需要重复尝试生成。
长文本(15000token):暂时无法给出答复。
Open AI o3mini
一般文本(7000token):能够高效提取文本中的数据,并整理成可视化数据表格,格式工整、简洁,数据准确但数据维度有所缺失。
长文本(15000token):反应迅速,高效提取文本中数据,输出格式规范的数据表格,但集成数据维度仍然缺失。
Claude 3.5 sonnet
一般文本(7000token):能够准确提取文本数据,并整理成可视化图表,表格文字简洁,没有提及文本中的环比和同比数据。
长文本(15000token):长文本粘贴后会自动形成文件,能够准确集成文本数据表格,但数据维度有限。
Kimi k1.5
一般文本(7000token):能快速提取文本数据,并整理成可视化数据表格,数据准确,所提取数据维度不够全面。
长文本(15000token):同样能够高效准确地提取文本中数据,较一般长度文本所集成数据维度反而更加全面。
小结:
- 一般文本处理任务中,DeepSeek R1所提取的文本数据维度最全面,但易受文本长度或模型稳定性影响出现失误;其他三个模型在文本数据提取过程中,都存在对部分数据的忽略问题,没有完整集成到可视化表格中
- 长文本处理仟务中,Kimik1.5相较短文本处理表现更加突出,提取准确的同时教据维度更加全面;由于文本过长Deenseek R1无法完成任务
- 综合来看,Open Al o3mini响应最快效率最高,但在数据集成维度上稍显不足,同时与Claude 3.5 sonnet所输出的表格更为工整、简洁
4 数据分析
任务
-
读取泰坦尼克号遇难者名单 excel
-
找出其中规律
提示词
请读取所上传的泰坦尼克号遇难者名单数据文件,并分析找出其中规律。
DeepSeek R1:
- 详细展示长思维链,精准提取关键指标“幸存率
- 分析多个因素特征对幸存率的影响
- 结合历史背景对数据及规律进行验证
- 敏锐察觉数据异常,提出了异常处理建议
OpenAI o3mini:
- 响应速度快,高效输出数据分析结果
- 分析各因素对关键指标生存率的影响
- 语言表达自然,重点突出结合历史背景对数据规律进行验证
- 但没有察觉数据异常
Claude 3.7 sonnet
提供数据分析程序代码,能够提取大部分特征并对其与生存率的关联进行分析 ,并形成明确的结论。
Kimi k1.5
能够精准分析关键指标生存率,但对特征提取不完整 ,仅能识别较为浅层的数据关联,分析能力相对较弱。
小结:
- DeepSeek R1与Open AI o3mini的数据分析能力相当,且领先其他两个模型 ,均能够精准抓取数据核心指标并做统计,找到各特征与核心指标的关联,其中R1分析逻辑更加清晰严谨 ,而o3推理更加高效
- Kimi k1.5推理逻辑清晰但分析能力相对较弱, Claude 3.5 sonnet能够提供分析思路也有一些明确结论
5 数据挖掘
任务
1、读取即将上映的2025年电影数据集
2、对数据集进行深入分析和数据挖掘
提示词
第一轮对话:请帮我分析这一份数据文件
第二轮对话:
(基于初步分析结果,选择其中一部分或某个方向进行深入的数据挖掘)
基于所上传数据,对致据的潜在用途进行深入地数据挖据和分析
请对其中中文电影进行详细且深入的数据分析
DeepSeek R1
能够准确对数据进行分类,从多个维度进行梳理和分析,借助可视化图表进行数据挖掘,基于分析结果提供可行建议,但整体数据挖掘深度较浅,缺少对不同类型数据直接关联性的探究。
Claude 3.5 sonnet
基于数据集 ,在整体数据概括后提供多个深入数据挖掘方向 ,根据需求输入研究倾向,高效生成多个维度的数据分析,语言简洁,挖掘深度较浅。
Kimi k1.5
提供数据的潜在用途方向 ,深入分析过程中,从多个维度(如时间 、语言 、地区)深入挖掘数据意义和关联性,进一步总结趋势结论并提出相关建议。
小结:
- Kimi k1.5该任务中表现最为出色,对特征进行精准分类,从多维度深入挖掘指定数据的深层内涵和关联性
- DeepSeek R1与Claude 3.5 sonnet同样能准确完成数据的分类任务,但数据之间的关联挖掘程度相对较浅
- Open AI o3mini受附件上传限制影响,由于数据集较大 ,暂不能完成该任务
6 数据可视化
任务
基于titanic遇难者数据分析结果绘制可
视化图表
Open AI o3mini
能够直接调用DALLE,根据分析结果和任务需求高效绘制各类可视化图表,部分较为复杂的图表可能出现数据错误或无法生成的情况。
DeepSeek R1
能够结合数据样本和分析结果,提供多种可视化图表绘制方案,但暂时不能直接绘制出可视图表 ,需要将对应的绘图代码复制到本地运行制作图表。
Kimi k1.5
结合数据样本和分析结果 ,提供多种可视化图表绘制方案及对应代码,需采用Python代码完成绘图任务 。大样本会省略数据;小样本不省略数据。
Claude 3.5 sonnet
暂时不能直接绘制出可视图表, 需要将绘图代码复制到本地运行。
7 数据应用情况总结
DeepSeek R1
- 文件数据读取完整无缺失
- 数据分析全面、逻辑清晰严谨
- 网络爬虫任务数据爬取完整、准确
- 数据挖掘能够准确分类并提供建议
- 数据可视化任务能力有待完善
OpenAI o3 mini
- 数据分析高效、全面、准确
- 数据可视化能力突出、直接生成
- 网络爬虫任务爬取数据结果为空
- 暂不支持上传数据附件
- 数据挖掘深度较浅
Claude 3.5 sonnet
- 数据读取输出逻辑性强、指标清晰
- 数据分析任务完成得较为简单
- 爬虫数据采集未形成明确结论
- 数据挖掘深度较浅
- 暂不能直接绘制出可视图标
Kimi k1.5
- 数据挖掘能力出色
- 快速读取文件数据,提取网址链接
- 长文本数据处理能力突出
- 爬虫数据采集存在代码错误问题
- 数据分析能力相对较弱
8 实践新思路
8.1 优势互补,协同应用
8.2 DeepSeek R1的数据应用
中文数据处理优势
- 智能中文古籍修复与注释:利用 DeepSeek R1 强大的中文理解能力,自动识别并修复古籍中的破损文字,同时生成准确的注释和解释,帮助修复难以辨认的古籍内容
- 中文法律文本分析与生成:基于 DeepSeek R1 的中文数据处理能力,快速分析法律文本,提取关键信息,自动生成合同草案、法律意见书等,提高律师工作效率
低成本高性能优势
- 中小企业 AI 定制化服务:为中小企业提供定制化的 AI 解决方案,如智能客服、营销和办公工具,提升企业竞争力
- 开源 AI 教育平台:借助 DeepSeek R1 的低成本特性,创建开源 AI 教育平台,提供免费课程和实验资源,促进 AI 教育普及
数据读取分析能力
- 智能医疗数据分析与诊断:构建智能医疗平台,分析病历、检查报告和基因数据,帮助医生提供更准确的诊断与治疗方案
- 金融风险预测与管理:开发金融风险分析工具,收集并分析市场数据,预测风险并为金融机构提供管理建议
编程代码生成能力
- 智能编程教育助手:为编程学生提供实时编程指导,自动生成代码示例,帮助解决编程难题
- 自动化代码审查工具:自动审查代码,发现潜在问题并提供优化建议,提升开发效率与代码质量
创意写作生成能力
- 智能文学创作辅助:为作家提供创作灵感和文本构思,生成符合中文文学传统的故事情节和诗句,助力突破创作瓶颈
- 智能广告创意生成:根据产品特点和目标受众自动生成创意广告文案和宣传语,提高广告创作效率
8.3 Open AI o3mini的数据应用
推理响应速度快
- 实时数据流处理与决策: 利用o3mini在物联网和工业自动化领域, 快速处理来自传感器和设备的实时数据, 进行即时分析和决策, 减少停机时间, 提高生产效率
- 高频交易数据分析: 利用o3mini快速处理高频交易数据, 识别市场趋势和交易模式, 为交易者提供实时决策支持
数据分析效率高
- 复杂数据模式识别: 借助o3mini高效分析复杂数据, 帮助科学研究和工程领域发现模式和规律, 如天文学中的星系演化或地质学中的地震数据分析
- 多源数据融合分析: 在智能交通和城市规划中, o3mini有助于将不同来源的数据(如交通流量、气象数据等)进行融合分析, 预测交通拥堵, 为城市规划提供决策支持
格式化输出能力
- 数据报告自动化生成:基于o3mini自动生成格式化的数据报告, 包括图表、表格和文字说明, 帮助管理者快速理解分析结果
- 数据接口标准化: 根据标准格式输出数据, 利用o3mini方便不同系统和平台之间的数据共享, 提升跨机构协作效率
数据可视化优势
- 交互式数据可视化: 在商业智能和数据分析领域, o3mini可以将多维数据以可视化的方式呈现, 并支持用户进行交互式分析
- 实时数据可视化与预警: 在实时监控和数据分析中, o3mini可以实时将数据以可视化的方式展示, 并支持用户与数据进行交互
写作情感表达能力
- 情感分析与数据解读:利用o3mini结合情感分析, 对数据进行深入解读, 帮助市场调研等领域理解消费者情感, 优化产品和策略
- 故事化数据呈现:借助o3mini将数据以故事的形式呈现, 增强数据的可读性和吸引力, 帮助公众理解复杂的科学和技术知识
本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!
- 🚀 魔都架构师 | 全网30W+技术追随者
- 🔧 大厂分布式系统/数据中台实战专家
- 🏆 主导交易系统亿级流量调优 & 车联网平台架构
- 🧠 AIGC应用开发先行者 | 区块链落地实践者
- 🌍 以技术驱动创新,我们的征途是改变世界!
- 👉 实战干货:编程严选网
本文由博客一文多发平台 OpenWrite 发布!