AI科研到底能做什么?看完你就懂了!

news/2025/3/5 15:40:19/文章来源:https://www.cnblogs.com/JavaEdge/p/18752808

0 前言

本专栏目标:

  • 能做什么?
  • 要怎么做?
  • 效果如何?

本质: 多Agent实现从数据采集到可视化全流程

AIGC数据应用:

数据采集

通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采集社交媒体数据、数据库内容、文本数据、接口数据等。

数据处理

通过数据清洗、数据集成、数据变换、特征工程等方式,实现数据结构、数据融合、格式转换、特征提取等。

数据分析

对数据进行诊断、预测、关联、聚类分析,常用于问题定位、需求预测、推荐系统、异常检测等。

数据挖掘

对数据进行分类、社交网络分析或时序模式挖掘,常用于客户细分、信用评分、社交媒体营销、股价预测等。

数据可视化

将数据转化为统计图、热力图、网络关系图、词云、树形图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。

模型特点

DeepSeek R1:

  • 高效推理:专注于低延迟和高吞吐量,适合实时应用
  • 轻量化设计:模型结构优化,资源占用少,适合边缘设备和移动端
  • 多任务支持:支持多种任务,如文本生成、分类和问答

Open AI o3 mini:

  • 小型化设计:轻量级模型,适合资源有限的环境。
  • 快速响应:优化推理速度,适合实时交互场景。
  • 通用性强:适用于多种自然语言处理任务,如对话生成和文本理解

Claude 3.5 sonnet:

  • 平衡性能:在模型大小和性能之间取得平衡,适合中等规模任务。
  • 多模态支持:支持文本和图像处理,扩展应用场景。
  • 可解释性:注重模型输出可解释性和透明性

Kimi k1.5:

  • 垂直领域优化:针对特定领域(如医疗、法律)进行优化,提供高精度结果
  • 低成本推理:擅长处理长文本和复杂查询,适合专业场景。
  • 定制化能力:支持用户自定义训练和微调,适应特定需求

1 爬虫数据采集

任务

  1. 阅读网页源代码,提取特定网页内容
  2. 撰写 python 脚本
  3. 提取并合并网址
  4. 提取网址内容
  5. 写入文件

提示词

你需要完成以下两个任务:

  1. 阅读网页【网址】源代码【对应网页源代码】,提取所有包含“春运 2025 | X 月 X 日,全社会跨区域人员流动量完成 X 万人次”的网址进行去重、筛选、合并成网址列表
  2. 撰写 python 脚本,基于步骤 1 输出的网址列表,提取所有网址内容“截至目前 2025 年春运(2025 年 1 月 14 日到 2 月 8 日)相关数据(如日期、全社会跨区域人员流动量、铁路客运量、公路人员流动量、水路客运量、民航客运量等)”完成数据提取并写入文件“2025 春运数据.txt”

如:

帮我写python爬虫,爬取https://news.buaa.edu.cn/zhxw.html网站中的标题和链接帮我写python爬虫,爬取https://news.buaa.edu.cn/xxgg_new.html网站中class="listlefttop auto"下面的所有标题和链接(如果乱码?UTF-8)
在桌面新建一个excel文档,并把结果放在这个文档中
对于每一个链接,请爬取每一个链接的内容,并保存到excel的新列'text'中
对于每一个链接,请爬取每一个链接中class="v_news_content"的内容,并保存到excel的新列'text'中

DeepSeek R1

能提取所有网址并进行筛选、去重,所撰写代码运行后完成数据爬虫任务,所获取数据准确,少量数据有所遗漏。

Open AI o3mini:

响应速度快,能高效提取所有需求链接,输出完整可运行 python 脚本,代码运行后生成文件,但数据采集结果为空。

测试结果受到数据样本、测试环境、AI 抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。

Claude 3.5 sonnet

可提取所有网址,调整后可输出正确代码,运行代码能生成本地文件,但提取数据结果为空。

Kimi k1.5

能够提取所有网址,代码运行后生成本地文件,但提取数据结果为空。

结论:

  • 目前DeepSeek R1、Open AI o3mini、Kimi k1.5支持联网查询网址,Claude 3.5 sonnet暂不支持
  • 四个模型均能根据上传的网页代码,对多个网址链接进行筛选、去重,完全提取出符合指令要求的所有网址链接并形成列表
  • 在复杂爬虫任务上,DeepSeek R1与Open AI o3mini生成的代码均能正常执行数据采集任务,o3响应速度更快,R1数据采集结果更加完整准确;其他2个模型都存在多次调试但代码仍然运行不成功的问题,如代码中罗列URL不全、输出文本中提取数据为空等。

2 文件数据读取

任务

  1. 读取文件;
  2. 根据指定内容整理成表格。

提示词

所上传的“2025春运数据(1月14-2月8日).txt”包含了从2025年1月14日至2025年2月8日每天各种交通方式的春运客运量信息,请从中读取每一天的信息,并整理成一张表格,要求包括以下几项信息:

1.当天日期;

2.当天的铁路客运量、比2024年同期多或者少的百分比、环比的百分比。

3.当天的公路客运量、比2024年同期多或者少的百分比、环比的百分比。

4.当天的民航客运量、比2024年同期多或者少的百分比、环比的百分比。

DeepSeek R1能详细全面地提取文件中的数据,并整理成可视化数据表格,逻辑性强、指标清晰。

Open AI o3 mini暂不支持附件上传,响应速度快,能够快速读取粘贴数据,输出结果格式工整、简洁。

Claude 3.5 sonnet
很好地完成了数据读取及提取任务 ,没有漏数据指标,数据逻辑性很好

Kimi k1.5
能够快速读取文件数据,并整理成可视化数据表格,但填入数据有所缺失。

结论:

  • DeepSeek R1与Claude 3.5 sonnet均能很好的完成文件数据读取任务,生成的表格逻辑性强、数据指标清晰,Claude 3.5 sonnet-次性完成表格生成后支持直接复制和表格文件下载
  • Open Al o3mini能够更加高效地完成数据提取任务,输出表格准确,但暂不支持附件上传,文件读取依靠粘贴稍显不便
  • Kimi k1.5文件数据提取有明显空缺

3 文本数据集成

任务

  1. 分别阅读约7000token和15000token的文本内容,测试模型对中、长文本处理效果
  2. 整理集成可视化的数据表格
  3. 按照日期规范排序

提示词

【所需阅读文本】请根据以上文本完成以下三个任务:

1、阅读文本内容;

2、整理集成可视化的数据表格;

3、按照日期规范排序(直接分析并输出结果,不使用python)

DeepSeek R1

一般文本(7000token):能详细全面地提取文本数据,并集成可视化表格,但受大样本或模型稳定性影响,输出表格末尾缺失,需要重复尝试生成。

长文本(15000token):暂时无法给出答复。

Open AI o3mini

一般文本(7000token):能够高效提取文本中的数据,并整理成可视化数据表格,格式工整、简洁,数据准确但数据维度有所缺失。

长文本(15000token):反应迅速,高效提取文本中数据,输出格式规范的数据表格,但集成数据维度仍然缺失。

Claude 3.5 sonnet
一般文本(7000token):能够准确提取文本数据,并整理成可视化图表,表格文字简洁,没有提及文本中的环比和同比数据。
长文本(15000token):长文本粘贴后会自动形成文件,能够准确集成文本数据表格,但数据维度有限。

Kimi k1.5
一般文本(7000token):能快速提取文本数据,并整理成可视化数据表格,数据准确,所提取数据维度不够全面。
长文本(15000token):同样能够高效准确地提取文本中数据,较一般长度文本所集成数据维度反而更加全面。

小结:

  • 一般文本处理任务中,DeepSeek R1所提取的文本数据维度最全面,但易受文本长度或模型稳定性影响出现失误;其他三个模型在文本数据提取过程中,都存在对部分数据的忽略问题,没有完整集成到可视化表格中
  • 长文本处理仟务中,Kimik1.5相较短文本处理表现更加突出,提取准确的同时教据维度更加全面;由于文本过长Deenseek R1无法完成任务
  • 综合来看,Open Al o3mini响应最快效率最高,但在数据集成维度上稍显不足,同时与Claude 3.5 sonnet所输出的表格更为工整、简洁

4 数据分析

任务

  • 读取泰坦尼克号遇难者名单 excel

  • 找出其中规律

提示词

请读取所上传的泰坦尼克号遇难者名单数据文件,并分析找出其中规律。

DeepSeek R1:

  • 详细展示长思维链,精准提取关键指标“幸存率
  • 分析多个因素特征对幸存率的影响
  • 结合历史背景对数据及规律进行验证
  • 敏锐察觉数据异常,提出了异常处理建议

OpenAI o3mini:

  • 响应速度快,高效输出数据分析结果
  • 分析各因素对关键指标生存率的影响
  • 语言表达自然,重点突出结合历史背景对数据规律进行验证
  • 但没有察觉数据异常

Claude 3.7 sonnet
提供数据分析程序代码,能够提取大部分特征并对其与生存率的关联进行分析 ,并形成明确的结论。

Kimi k1.5

能够精准分析关键指标生存率,但对特征提取不完整 ,仅能识别较为浅层的数据关联,分析能力相对较弱。

小结:

  • DeepSeek R1与Open AI o3mini的数据分析能力相当,且领先其他两个模型 ,均能够精准抓取数据核心指标并做统计,找到各特征与核心指标的关联,其中R1分析逻辑更加清晰严谨 ,而o3推理更加高效
  • Kimi k1.5推理逻辑清晰但分析能力相对较弱, Claude 3.5 sonnet能够提供分析思路也有一些明确结论

5 数据挖掘

任务

1、读取即将上映的2025年电影数据集

2、对数据集进行深入分析和数据挖掘

提示词

第一轮对话:请帮我分析这一份数据文件

第二轮对话:

(基于初步分析结果,选择其中一部分或某个方向进行深入的数据挖掘)

基于所上传数据,对致据的潜在用途进行深入地数据挖据和分析

请对其中中文电影进行详细且深入的数据分析

DeepSeek R1

能够准确对数据进行分类,从多个维度进行梳理和分析,借助可视化图表进行数据挖掘,基于分析结果提供可行建议,但整体数据挖掘深度较浅,缺少对不同类型数据直接关联性的探究。

Claude 3.5 sonnet

基于数据集 ,在整体数据概括后提供多个深入数据挖掘方向 ,根据需求输入研究倾向,高效生成多个维度的数据分析,语言简洁,挖掘深度较浅。

Kimi k1.5

提供数据的潜在用途方向 ,深入分析过程中,从多个维度(如时间 、语言 、地区)深入挖掘数据意义和关联性,进一步总结趋势结论并提出相关建议。

小结:

  • Kimi k1.5该任务中表现最为出色,对特征进行精准分类,从多维度深入挖掘指定数据的深层内涵和关联性
  • DeepSeek R1与Claude 3.5 sonnet同样能准确完成数据的分类任务,但数据之间的关联挖掘程度相对较浅
  • Open AI o3mini受附件上传限制影响,由于数据集较大 ,暂不能完成该任务

6 数据可视化

任务

基于titanic遇难者数据分析结果绘制可

视化图表

Open AI o3mini

能够直接调用DALLE,根据分析结果和任务需求高效绘制各类可视化图表,部分较为复杂的图表可能出现数据错误或无法生成的情况。

DeepSeek R1

能够结合数据样本和分析结果,提供多种可视化图表绘制方案,但暂时不能直接绘制出可视图表 ,需要将对应的绘图代码复制到本地运行制作图表。

Kimi k1.5

结合数据样本和分析结果 ,提供多种可视化图表绘制方案及对应代码,需采用Python代码完成绘图任务 。大样本会省略数据;小样本不省略数据。

Claude 3.5 sonnet

暂时不能直接绘制出可视图表, 需要将绘图代码复制到本地运行。

7 数据应用情况总结

DeepSeek R1

  • 文件数据读取完整无缺失
  • 数据分析全面、逻辑清晰严谨
  • 网络爬虫任务数据爬取完整、准确
  • 数据挖掘能够准确分类并提供建议
  • 数据可视化任务能力有待完善

OpenAI o3 mini

  • 数据分析高效、全面、准确
  • 数据可视化能力突出、直接生成
  • 网络爬虫任务爬取数据结果为空
  • 暂不支持上传数据附件
  • 数据挖掘深度较浅

Claude 3.5 sonnet

  • 数据读取输出逻辑性强、指标清晰
  • 数据分析任务完成得较为简单
  • 爬虫数据采集未形成明确结论
  • 数据挖掘深度较浅
  • 暂不能直接绘制出可视图标

Kimi k1.5

  • 数据挖掘能力出色
  • 快速读取文件数据,提取网址链接
  • 长文本数据处理能力突出
  • 爬虫数据采集存在代码错误问题
  • 数据分析能力相对较弱

8 实践新思路

8.1 优势互补,协同应用

8.2 DeepSeek R1的数据应用

中文数据处理优势

  • 智能中文古籍修复与注释:利用 DeepSeek R1 强大的中文理解能力,自动识别并修复古籍中的破损文字,同时生成准确的注释和解释,帮助修复难以辨认的古籍内容
  • 中文法律文本分析与生成:基于 DeepSeek R1 的中文数据处理能力,快速分析法律文本,提取关键信息,自动生成合同草案、法律意见书等,提高律师工作效率

低成本高性能优势

  • 中小企业 AI 定制化服务:为中小企业提供定制化的 AI 解决方案,如智能客服、营销和办公工具,提升企业竞争力
  • 开源 AI 教育平台:借助 DeepSeek R1 的低成本特性,创建开源 AI 教育平台,提供免费课程和实验资源,促进 AI 教育普及

数据读取分析能力

  • 智能医疗数据分析与诊断:构建智能医疗平台,分析病历、检查报告和基因数据,帮助医生提供更准确的诊断与治疗方案
  • 金融风险预测与管理:开发金融风险分析工具,收集并分析市场数据,预测风险并为金融机构提供管理建议

编程代码生成能力

  • 智能编程教育助手:为编程学生提供实时编程指导,自动生成代码示例,帮助解决编程难题
  • 自动化代码审查工具:自动审查代码,发现潜在问题并提供优化建议,提升开发效率与代码质量

创意写作生成能力

  • 智能文学创作辅助:为作家提供创作灵感和文本构思,生成符合中文文学传统的故事情节和诗句,助力突破创作瓶颈
  • 智能广告创意生成:根据产品特点和目标受众自动生成创意广告文案和宣传语,提高广告创作效率

8.3 Open AI o3mini的数据应用

推理响应速度快

  • 实时数据流处理与决策: 利用o3mini在物联网和工业自动化领域, 快速处理来自传感器和设备的实时数据, 进行即时分析和决策, 减少停机时间, 提高生产效率
  • 高频交易数据分析: 利用o3mini快速处理高频交易数据, 识别市场趋势和交易模式, 为交易者提供实时决策支持

数据分析效率高

  • 复杂数据模式识别: 借助o3mini高效分析复杂数据, 帮助科学研究和工程领域发现模式和规律, 如天文学中的星系演化或地质学中的地震数据分析
  • 多源数据融合分析: 在智能交通和城市规划中, o3mini有助于将不同来源的数据(如交通流量、气象数据等)进行融合分析, 预测交通拥堵, 为城市规划提供决策支持

格式化输出能力

  • 数据报告自动化生成:基于o3mini自动生成格式化的数据报告, 包括图表、表格和文字说明, 帮助管理者快速理解分析结果
  • 数据接口标准化: 根据标准格式输出数据, 利用o3mini方便不同系统和平台之间的数据共享, 提升跨机构协作效率

数据可视化优势

  • 交互式数据可视化: 在商业智能和数据分析领域, o3mini可以将多维数据以可视化的方式呈现, 并支持用户进行交互式分析
  • 实时数据可视化与预警: 在实时监控和数据分析中, o3mini可以实时将数据以可视化的方式展示, 并支持用户与数据进行交互

写作情感表达能力

  • 情感分析与数据解读:利用o3mini结合情感分析, 对数据进行深入解读, 帮助市场调研等领域理解消费者情感, 优化产品和策略
  • 故事化数据呈现:借助o3mini将数据以故事的形式呈现, 增强数据的可读性和吸引力, 帮助公众理解复杂的科学和技术知识

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W+技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统亿级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/894037.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gitlab+jenkins+harbor+k8s安装操作流程之gitlab

GitLab的安装及使用教程GitLab简介GitLab,是一个利用 Ruby on Rails 开发的开源应用程序,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目安装。 它拥有与GitHub类似的功能,能够浏览源代码,管理缺陷和注释。可以管理团队对仓库的访问,它非常易于浏…

fastadmin视图文件调用common.php的公共函数

╰︶﹉⋛⋋⊱⋋๑๑⋌⊰⋌⋚﹉︶╯

linux内核编译输出文件:vmlinux/Image/zImage/uImage区别

当前目录 ./ 为linux kernel编译输出根目录: ./vmlinux是编译输出的原始elf文件,可用于调试; ./arch/arm/boot/Image是二进制文件,可用于烧录,文件较大,使用工具链objcopy从./vmlinux生成; ./arch/arm/boot/compressed/vmlinux是elf文件,先将./arch/arm/boot/Image用gz…

AI 造游戏,3 小时开发、9 天狂赚 12 万,这波风口你跟不跟?

​故事要从这个上海程序员说起​ 有个叫Pieter Levels的码农,之前在全球最大的远程办公平台Remote OK工作过。去年某天,他突然想做个能在线玩、还能赚钱的小游戏。结果他和AI搭档,只用了三个小时就捣鼓出了一个能手机玩的飞机大战游戏,上线十天狂揽28万人民币,连马斯克都发…

通义灵码上新推理模型,快来体验数学和编程双冠王 Qwen2.5-Max

近期,通义灵码上新了模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外, Qwen2.5-Max 也正式上线,它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。近期,通义灵码上新了模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外, Qwen2.5-Max 也正式上…

绝了!k3s (k8s) 安装 ollama 运行 deepseek 全流程揭秘,yaml全公开

🎯k3s (k8s) 环境搭建与 ollama 相关 yaml 文件部署 在容器编排的世界中,k3s (k8s) 无疑是备受瞩目的存在。此次聚焦在 k3s (k8s) 环境下安装 ollama,并实现运行 deepseek。首先映入眼帘的是一个关键的 yaml 文件 ——ollama.yaml 。这个文件犹如整个部署流程的指挥棒,规定…

如何在Windows下离线部署DeepSeek并以WebApi形式调用

最近这一块的话题有点火,这里也找资料学习了解了一下,分享出来。 目前应该有很多公司已经通过官方的WebApi接口接入了DeepSeek。 本文可以帮助你离线使用DeepSeek的WebApi,并集成到自己的程序里。 文末会有示例程序。Ollama是什么 Ollama 是一个开源的 AI 模型服务平台,旨在…

基于 MySQL 8.0 细粒度授权:单独授予 KILL 权限的优雅解决方案

基于 MySQL 8.0 细粒度授权:单独授予 KILL 权限的优雅解决方案一、引言 作为一名数据库从业者,我在日常工作中经常会遇到一个棘手的问题:如何在保证安全的前提下,让业务团队拥有足够的权限去管理数据库执行的 SQL,尤其是终止那些失控的慢查询或异常线程?这个问题看似简单…

对比Jira/禅道后,我们为什么选择Leangoo做敏捷项目管理?

Leangoo团队为开发者提供敏捷开发支持:免费获取《敏捷开发指南》;支持企业私有化部署,提供专属API文档及金融、电商行业落地案例,助力研发流程自动化升级。一、敏捷团队的3大隐形痛点 我曾带领过一个6人的Scrum团队,迭代经常遇到: 需求变更黑洞:客户口头需求未及时同步,…

中央计算平台CCP

汽车电子产品正从分布式向中央计算及物理区域控制方向发展,中央计算平台是车身域以及动力域的核心计算单元。 汽车电子产品正从分布式向中央计算及物理区域控制方向发展,中央计算平台是车身域以及动力域的核心计算单元。经纬恒润中央计算平台CCP(Central Compute Pla…

GPO 配置的 4 种常见安全错误及安全优化策略

组策略对象(GPO)是微软 Active Directory(AD)的核心功能,使管理员能够管理和保护AD环境。即使是一个被攻陷的账户也可能导致整个组织的安全受损,影响多个用户和系统。因此,解决GPO的安全威胁和漏洞对于维护AD环境的完整性至关重要。 一、常见的GPO安全错误 以下是管理员…

从薪酬管理到组织效能跃升:锦江易路共创实践——头部HR SaaS厂商如何实现中大型客户全链路覆盖

未来,HR的‘人’味或许会越来越淡,随着数字化进程和共享服务建设,你会成为IT运维者,会成为懂代码、懂业务语言的咨询顾问,成为流程专家,成为调动资源的项目管理者,这是对我们所有新的人力资源工作者的挑战“这三年,我们撞了很多墙、踩了很多坑,把这些伤痛和成就展示给…