很多人神化了AI的能力

news/2025/3/19 15:55:44/文章来源:https://www.cnblogs.com/imyalost/p/18781177

昨晚和几位测试同学交流AI在日常工作中落地的话题,听了好几种不同的落地案例,以及落地过程遇到的问题和当前的进度。这些案例给了我不少启发,今天就来聊聊我对于AI在测试工作场景中落地的思考。

在上述案例中,有同学说他们在推AI生成测试用例,但进展很慢,过程中遇到了很多问题。也有大厂同学说,调研之后直接放弃了利用AI生成测试用例的想法。当然也有同学想尝试在UI自动化测试场景中落地AI,但目前停留在调研阶段。

看到这里,是不是觉得和网上看到的各种资料所说的不一样?老实说,DeepSeek刚出来的时候,我也想过借助它的能力直接在工作中落地应用,但真正深入了解AI大模型的技术原理和特性后,我立马放弃了之前的天真想法。

如果AI真的具备如网上各种自媒体所描述的那种能力,那确实能很快提升个人和团队的工作效率。但不幸的是,当前阶段的各种AI大模型和工具,并不具备开箱即用深度使用的能力。

换个角度来说,不是AI不具备这种能力,而是要达成如大家所想的效果,需要满足一定的前置条件。但这些前置条件是什么,该如何达成,目前并没有很详细的介绍和可参考的落地路径。

很可怕的一点在于,目前很多公司就是很迷信AI的能力,畅想AI能降本增效,大幅增加公司的效率,甚至带来新的营收。

只能说AI大模型出圈的这三年不到的时间,群体认知的泡沫还没挤破。

 

从原理来说,大模型会根据用户输入不断预测下一个Token,且每个已经生成的Token都会影响下一个Token的生成

从本质来说,大模型就是一个概率预测机器。同样的Prompt(提示词)会产生不同的答案,这就是所谓的信息幻觉问题

什么是信息幻觉?简单来说就是:同样的提示词,重复多次后大模型的输出结果是不一样的,即不具备幂等性。甚至为了迎合用户的诉求,大模型甚至会虚构一些不存在的数据给你。

要缓解信息幻觉,当前最通用的方法就是RAG,即结合向量数据库中与用户问题相关的信息,以及Prompt一起投喂给大模型,再生成结果。

这也是为什么很多公司要训练自己的私有大模型的原因。

以目前阶段AI大模型的能力来说,它更擅长解决的是标准的、富有逻辑和清晰边界的问题,而实际的工作场景大多都是不确定性的因素

在IT互联网行业研发工作为例,我们面临的实际工作场景是什么?一句话需求,技术设计做的很烂,数据结构勉强能看,这种情况下,你又怎么能指望AI帮你解决呢?

AI解决不了人的不专业和沟通成本高昂的问题,这是人的问题,不是技术的问题。

 

回到本文开篇的问题:AI能生成可用的测试用例吗?答案是可以

但这个答案的前提在于:标准化的流程、清晰详细的需求文档描述、良好的技术和数据结构设计,只有满足这几点前置要求,才能借助AI的能力生成基本可用的测试用例

这里的基本可用并不是说可以直接拿来无缝插入日常研发测试环节,而是技术人员需要根据自己的经验和使用场景进行微调之后,才能真正用起来。

当然,以当下的测试工作场景来说,API自动化和单元自动化,AI倒是有很大的可供想象的落地场景。定义好数据结构,设计好API,然后利用AI帮你生成测试数据,或者应用层的自动化测试代码,落地难度并不高

但这样做可能会出现新的问题,即无法满足领导的大脑自嗨,毕竟领导要的是创新和降本增效。对于这个问题,还有一个更适合向上管理PPT汇报的方式,那就是智能体和工作流。

将日常可以自动化执行的部分,切换为工作流(和自动化本质没区别),替代人工执行。比如代码自动提交、自动化部署流水线等结构化可重复的场景。

将线上监控、容灾自愈、配置热更新等非结构化的复杂场景,进行抽象设计然后整合为Agent。

二者结合使用,智能体可以增强工作流的灵活性(动态调整步骤),工作流可以协调多个智能体完成更复杂的问题。

如此一来,既有落地案例,又有技术创新和汇报材料,何乐而不为。

AI是工具,是锤子,问题是钉子。不能拿着锤子四处敲钉子,而是找到钉子该钉住的位置,然后再敲锤子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/901565.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

referrerpolicy-以最小的成本实现系统的图片上传

背景 系统上传图片一般有以下三种方案:购买云存储(比如 AWS S3、阿里云 OSS、腾讯云 COS),获取图片URL 直接将图片上传到服务器,存储在本地作为静态资源 使用第三方的图片服务(比如有道、博客园),借用对方资源结合本系统需求:自建博客尽可能减少预算,方案1放弃;方案…

grafana创建下拉框

grafana如何创建下拉框: 1.在dashabord中进行配置: 1.1进入你想要添加下拉框的dashboard中,点击Edit1.2 点击Settings 1.3 选择Variables-》Add New variable 1.4 选择variable type,输入变量的name,label 选择数据源data source 写入sql,点击Run query可以立马查看到查询出…

一次100W+数据级别的渲染优化

组织架构的列表页有关于公司人员架构的树形结构展示,某大客户有10万员工,造成组织架构的列表渲染卡顿,用户点击经常造成页面崩溃。 需求背景:左边是树形目录,多层级展示,层级结构未作限制。点击左边目录会展示对应的列表,点击右边对应用户的组织属性,也会联动左边的目录…

小程序 反编译

背景 小程序测试难点,数据包加密?有签名存在?导致测试受阻 工具 wedecode wedecode https://github.com/biggerstar/wedecode1.首次使用,源码安装方式 git clone https://github.com/biggerstar/wedecode npm install # 如果 npm 安装很慢, 可以使用右侧命令换国内的淘宝…

日志文件必须输出到控制台才香对吗

在实际工作中发现很多人喜欢将日志输出到控制台,有的甚至直接只是输出到控制台,都不输出到日志文件中。 这种操作看似人畜无害,实际上直接影响着系统的性能,很多时候还难以排查,这里我从实际举例都背后原因来分析为什么这么做并不香。通常的日志配置 这里我们使用经常使用…

C#通过FTP获取服务端文件

一、简介实际需求是在前端修改了配置文件后,由上位机统一分发给所有设备,因为下位机支持FTP协议,因此选用FTP来实现文件传输功能。 二、准备工作 1、FTP服务搭建FTP服务端选用FileZilla Server,免费开源,简单好用,可以下载中文版的。下载地址:下载 - FileZilla中文网,也…

20242942 2024-2025-2 《网络攻防实践》实验三

1.实验内容 (1)动手实践tcpdump 使用tcpdump开源软件对在本机上访问www.tianya.cn网站过程进行嗅探,回答问题:你在访问www.tianya.cn网站首页时,浏览器将访问多少个Web服务器?他们的IP地址都是什么? (2)动手实践Wireshark 使用Wireshark开源软件对在本机上以TELNET方式…

Oracle OCP认证没落了吗?

Oracle OCP认证没落了吗? Oracle的OCP认证是数据库领域必考的一个认证,但随着国产化的发展,国内很多企业开发了自己的数据库产品,这种情况对很多人造成了错误的认识:OCP被淘汰了吗?不然,从行业需求、技术趋势、认证体系变化等角度综合分析,Oracle OCP证书并未完全“没…

查看dll文件的publicKeyToken

输入: SN -T "C:\Program Files (x86)\Kingdee\K3Cloud\WebSite\bin\log4net.dll"

把 DeepSeek 接入电话系统后,不知疲倦的智能客服向我们走来了

我们基于deepseek和Freeswitch做了一个智能电话客服。 它会基于给定的FAQ知识库来回答问题,自动进行语音识别和语音合成。 语音识别我们采用的是开源的FunAsr,语音合成采用的是第三方商用的API接口。我们接下来介绍下它的内部组成部分。【 第一阶段】当电话拨通电话后,电话服…

Seata的工作模式

Seata的分布式模型中各个角色的作用: 1.TM(事务管理器)是分布式事务的发起方,负责定义全局事务的边界(开始,提交,回滚),并于TC交互协调事务状态。 核心职责: ​ 通过@GlobalTransctional注解标记全局事务的起点。 ​ 向TC注册全局事务 ​ 根据业务逻辑决定全局事务的提交或回滚…

dify升级

一、需求 从0.14.2升级到0.15.3,要求模型供应商,创建的应用数据等等,不能丢失。二、安装0.14.2 下载dify代码cd /optgit clone https://github.com/langgenius/dify.gitcd dify/切换到tag 0.14.2git checkout 0.14.2git pull origin 0.14.2运行difycd dockercp .env.example…