奥赛满分金牌得主出品,硅谷诞生超级AI码农

file

又是让程序员们兴奋而焦绿🍌的一刻,昨天业界又发布了一款 AI 编程产品 Devin。号称是业界第一个 AI 软件工程师。

file

作者 Scott Wu 曾是国际信息奥赛 (IOI) 连续三届的金牌得主,其中还有一届是满分。

file

Devin 背后的公司名字叫 Cognition。中文翻译就是认知,很契合。发布了不到 24 小时,推上就有了 4 万多粉丝。官号关注的 10 个人,看上去应该都是公司的员工,MIT,Stanford,Harvard,Google Brain。时代最优秀的大脑们,终于不再去思考如何让人们点击广告了。

file

Devin 官网也放出了和其他 LLM 大模型在 SWE-bench 下的表现对比。SWE-bench 收录的是 GitHub 上真实的问题。之前在没有辅助的情况下,表现最好的 Claude 2 也只有 1.96% 的完成度。即使在有辅助的情况下,表现最好的 Claude 2 也只有 4.8 %。

file

而 Devin 在没有辅助的情况下,一下子就把完成度提高到了 13.86%。从 1.96% 到 13.86%,从相对提升来说惊人,但从绝对值来说,仍然略显寒酸。虽然 Devin 是随机取样了 25% 的数据进行测试,但作为一款专门针对编程场景的 AI,想必是针对 GitHub 数据进行了训练,那是否会有过拟合 overfitting 的问题,使得在基于 GitHub 数据的测试集上表现优秀?网友们也纷纷表达观点:

file

质疑派。又来一个画饼的!就在昨天,我想尝试从一个简单的网页里提取选择器,我试了 GPT-4-turbo,我试了 Claude,我试了 Groq,我试了本地的 LLama2,结果没一个能用的!我自己干 10 秒钟就搞定了!我已经被你们这些编程 AI 伤够了!(是不是还是氪金不够?说不定用 GPT-4 或者 Claude 2 就行了呢,甚至 Claude 3?)

file

实践保守派。又是一个被 VC 过早催熟的例子。我在这个领域干过一段时间,目前还处在实验室研究阶段,远未达到可以在日常环境使用的地步。

file

当然乐观派也很多,包括笔者在内,都已经习惯了每天和 GPT 对话写程序了。在写一些像 GitHub Action 这样的配置类文件时,GPT-4 的表现让我刮目相看。笔者也已经加入了 Devin 的 waitlist,想迫不及待地测试一下他的能力,先看看 Devin 能否优化我手上一批上百行的祖传 SQL 脚本吧。

file

不同于之前像 Copilot 这样的产品形态,Devin 确实更像是一个真正的软件工程师。Demo 里展示的 Devin 产品界面就是一个 IDE (Integrated Development Environment 集成开发环境),不过这是专门为 AI 打造的。Devin 在这个 IDE 里完成各种编程任务,就像人类软件工程师在 VSCode 这样的 IDE 里干活一样。
之前我们讨论 LUI (Language UI) 或者 CUI (Chat UI),是从人的角度去思考怎么更好地和 AI 交互。那如果从 AI 的角度去看呢?未来的 AI 软件工程师,是不是就应该有像 Devin 这样专门为 AI 们打造的工作环境?

file

Devin 提出的 AI 软件工程师概念确实足够吸引眼球。不过看着这 AI 日新月异的发展,这一天恐怕是迟早要来了。其实这在不算长的计算机历史上,也已经发生过了一回。

file

最早 Computer 计算机这个词,一开始指的就是做计算的人,是后来才被机器取代的。或许将来 Engineer 工程师这个词也会被机器取代吧,那人类最后的阵地就只剩下👇

file

但至少人人都是产品经理的夙愿,就一,定,要,实现现现~~~。


💡 更多资讯,请关注 Bytebase 公号:Bytebase

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/537364.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity WebGL服务器标头的问题

目录 现象: 报错文本: 原因: 解决方案: 现象: 打包前,ProjectSetting 压缩选项设置为Brotli, 将打包的WebGL部署到阿里云OSS环境后,运行弹框提示错误. 报错文本: Unable to parse Build/WebGL.framework.js.br! This canha…

Python:函数的形参与实参

注意:本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 ([www.aideeplearning.cn]) 函数基本概念 在Python中,函数是一种将代码封装以进行重复使用的机制。它们允许你定义一段代码,以便在程序的多个位置调…

C语言实战项目---贪吃蛇(上)

项⽬实践-贪吃蛇 1. 游戏背景 贪吃蛇是久负盛名的游戏,它也和俄罗斯⽅块,扫雷等游戏位列经典游戏的⾏列。 在编程语⾔的教学中,我们以贪吃蛇为例,从设计到代码实现来提升学⽣的编程能⼒和逻辑能⼒。 2. 游戏效果演⽰ 3. 课程⽬…

罐头鱼AI视频矩阵剪辑系统|短视频批量混剪获客

《罐头鱼AI视频矩阵剪辑系统》—— 为您打造智能视频管理新体验 随着短视频时代的到来,视频营销成为了企业宣传和推广的重要手段。为了满足用户对视频管理、发布和编辑的需求,《罐头鱼AI视频矩阵剪辑系统》应运而生。Q:290615413这款智能化系统集成了多…

常用的ABD命令介绍

常用的ABD命令介绍 ADB基础命令显示系统中全部设备开启ADB服务关闭ADB服务断开连接设备无线连接设备 ADB安装软件包安装 获取软件包名列出手机装的所有app的包名列出系统应用的所有包名列出系统应用的第三方所有包名显示当前打开的软件包名(如下图) 清除…

AI短视频矩阵获客系统|罐头鱼AI视频批量混剪

AI短视频矩阵获客系统:智能管理,助力您的视频营销 如今,短视频已经成为企业宣传和推广的重要手段。为了满足用户对视频管理、发布和编辑的需求,《AI短视频矩阵获客系统》应运而生。Q:290615413这款智能化系统集成了多种功能&#…

《手把手教你》系列技巧篇(三十四)-java+ selenium自动化测试-单选和多选按钮操作-中篇(详解教程)

1.简介 今天这一篇宏哥主要是讲解一下,如何使用list容器来遍历单选按钮。大致两部分内容:一部分是宏哥在本地弄的一个小demo,另一部分,宏哥是利用JQueryUI网站里的单选按钮进行实战。 2.demo准备 2.1demo页面的HTML代码 1.这里…

WinRAR功能之【加密文件名】

很多人知道,WinRAR解压缩软件可以给压缩包设置密码,这样就可以保护压缩包里的文件,不被随意打开。 设置密码后,双击压缩包还是可以打开的,但要打开里面的文件时,就需要输入原本设置的密码才能打开。 虽然…

ThingsBoard 开源物联网平台

文章目录 1.ThingsBoard 介绍2.ThingsBoard 架构2.1.单体架构2.2.微服务架构 3.物联网网关4.边缘计算 ThingsBoard # ThingsBoardhttps://iothub.org.cn/docs/iot/ https://iothub.org.cn/docs/iot/thingsboard-ce/1.ThingsBoard 介绍 ThingsBoard 是一个开源物联网平台&…

使用Java自带的VisualVM监控远程服务器部署在Docker容器中的Java项目并使用Mat在线工具排查服务器内存泄露或内存溢出的原因

事情是这样的,我们项目最近应业主的要求迁移到了新的服务器,起初一切正常,部署、上线、测试都没有问题,项目大概运行了一周的工作日时间都没出现问题,直到周六那天,项目经理打电话过来说服务器崩了&#xf…

什么是芯片底部填充胶,它有什么特点?

什么是芯片底部填充胶,它有什么特点? 芯片底部填充胶是一种用于电子封装的胶水,主要用于底部填充bga芯片电子组件,以增强组件的可靠性和稳定性。它通常是一种环氧树脂,具有良好的粘接性和耐热性。 底部填充胶的特点主要…

锐科达高速公路智慧隧道应急通讯网络广播解决方案

锐科达高速公路智慧隧道应急通讯网络广播解决方案 我国已是世界上公路隧道里程最长、规模最大、发展最快的国家。面对数量庞大的公路隧道,如何严防在隧道内发生重特大交通安全事故以及保障发生紧急情况下的应急通讯,是各地交通运输主管部门、各级指挥中心…