又是让程序员们兴奋而焦绿🍌的一刻,昨天业界又发布了一款 AI 编程产品 Devin。号称是业界第一个 AI 软件工程师。
作者 Scott Wu 曾是国际信息奥赛 (IOI) 连续三届的金牌得主,其中还有一届是满分。
Devin 背后的公司名字叫 Cognition。中文翻译就是认知,很契合。发布了不到 24 小时,推上就有了 4 万多粉丝。官号关注的 10 个人,看上去应该都是公司的员工,MIT,Stanford,Harvard,Google Brain。时代最优秀的大脑们,终于不再去思考如何让人们点击广告了。
Devin 官网也放出了和其他 LLM 大模型在 SWE-bench 下的表现对比。SWE-bench 收录的是 GitHub 上真实的问题。之前在没有辅助的情况下,表现最好的 Claude 2 也只有 1.96% 的完成度。即使在有辅助的情况下,表现最好的 Claude 2 也只有 4.8 %。
而 Devin 在没有辅助的情况下,一下子就把完成度提高到了 13.86%。从 1.96% 到 13.86%,从相对提升来说惊人,但从绝对值来说,仍然略显寒酸。虽然 Devin 是随机取样了 25% 的数据进行测试,但作为一款专门针对编程场景的 AI,想必是针对 GitHub 数据进行了训练,那是否会有过拟合 overfitting 的问题,使得在基于 GitHub 数据的测试集上表现优秀?网友们也纷纷表达观点:
质疑派。又来一个画饼的!就在昨天,我想尝试从一个简单的网页里提取选择器,我试了 GPT-4-turbo,我试了 Claude,我试了 Groq,我试了本地的 LLama2,结果没一个能用的!我自己干 10 秒钟就搞定了!我已经被你们这些编程 AI 伤够了!(是不是还是氪金不够?说不定用 GPT-4 或者 Claude 2 就行了呢,甚至 Claude 3?)
实践保守派。又是一个被 VC 过早催熟的例子。我在这个领域干过一段时间,目前还处在实验室研究阶段,远未达到可以在日常环境使用的地步。
当然乐观派也很多,包括笔者在内,都已经习惯了每天和 GPT 对话写程序了。在写一些像 GitHub Action 这样的配置类文件时,GPT-4 的表现让我刮目相看。笔者也已经加入了 Devin 的 waitlist,想迫不及待地测试一下他的能力,先看看 Devin 能否优化我手上一批上百行的祖传 SQL 脚本吧。
不同于之前像 Copilot 这样的产品形态,Devin 确实更像是一个真正的软件工程师。Demo 里展示的 Devin 产品界面就是一个 IDE (Integrated Development Environment 集成开发环境),不过这是专门为 AI 打造的。Devin 在这个 IDE 里完成各种编程任务,就像人类软件工程师在 VSCode 这样的 IDE 里干活一样。
之前我们讨论 LUI (Language UI) 或者 CUI (Chat UI),是从人的角度去思考怎么更好地和 AI 交互。那如果从 AI 的角度去看呢?未来的 AI 软件工程师,是不是就应该有像 Devin 这样专门为 AI 们打造的工作环境?
Devin 提出的 AI 软件工程师概念确实足够吸引眼球。不过看着这 AI 日新月异的发展,这一天恐怕是迟早要来了。其实这在不算长的计算机历史上,也已经发生过了一回。
最早 Computer 计算机这个词,一开始指的就是做计算的人,是后来才被机器取代的。或许将来 Engineer 工程师这个词也会被机器取代吧,那人类最后的阵地就只剩下👇
但至少人人都是产品经理的夙愿,就一,定,要,实现现现~~~。
💡 更多资讯,请关注 Bytebase 公号:Bytebase