AI 程序员 Devin 诞生 能够独立从 0 构建网站并 Debug

13次阅读

共计 1743 个字符,预计需要花费 5 分钟才能阅读完成。

3 月 13 日,人工智能初创公司 Cognition AI 发布首个 AI 工具「Devin」。该 AI 号称掌握编程工作的全栈技能,可以独立完成整个项目的软件开发。相比曾经辅助程序员编码的 AI 工具「Copilot」,Devin 具有独立驾驭整个编程项目的能力,更接近一个人类程序员。

Perplexity CEO 评价 Devin,称它所展示的 Demo 意味着业内第一个真正的 Agent 诞生。言下之意是这个产品开始具备推理和规划能力。Devin 目前只提供私人预览版,尚未向公众开放。

如何使用 Devin 以及它表现如何?

作为一个软件开发工具,Devin 号称能够在接收到具体任务指令后,自主完成整个项目的开发。目前,Devin 不仅会构建和部署端到端的应用程序、自行查找并修复代码库错误,还可以训练和微调 AI 模型,并修复开源代码库中的错误。

与人类软件开发者的工作方式相似,用户只需要通过聊天对话框提出需求,Devin 便能够基于需求规划出解决方案,并运用其集成的开发工具,编写代码、定位并修复漏洞、执行测试,同时实时向用户报告项目进展。例如,在收到建立一个展示某区域全部餐馆的网站任务时,Devin 可以自动搜索和收集数据,随后构建并上线该网站。

f46f483d6f504deaa79849038780023a_1080x57
在 SWE 基准测试中,Devin 能够端到端地正确解决 13.86% 的案例,相比之下,Claude 2 和 GPT-4 分别只能处理 4.80% 和 1.74% 的问题。SWE 测试使用来自现实世界开源项目的 GitHub 问题来挑战人工智能助手。

其他 AI 工具只能辅助编码,Devi 的突破在于可以自动完成整个项目

AI 技术在软件开发行业已非初见,多种工具如 GitHub Copilot、StarCoder 以及在 Hugging Face 上拥有若干小型 AI 编码模型的 Replit,以及最近获得 6500 万美元 B 轮融资的 Codeium 等早已广泛应用。这些工具主要侧重于 AI 辅助编码,它们的功能局限于提供编码建议、生成基本代码或帮助解决特定编程问题。

Devin 则更类似一个 AI 软件工程师,可以独立承担和完成整个软件开发项目。不过,同样依赖于训练数据来学习的 Devin 在理解和解决特别复杂或非标准化问题上能力有限,比如对于一些少见的问题,它可能无法找到最优解决方案,也无法完全模拟人类软件工程师的创造性思维。

Cognition AI 由 Scott Wu、Steven Hao、WaldenYan 联合创立,都是 IOI 金牌得主

Scott Wu:联合创始人兼 CEO(首席执行官),毕业于哈佛大学,曾获得过美国三届奥赛金牌,并曾是 Lunchclub 的联合创始人兼 CTO,为 2012 年至 2014 年连续 3 年的 IOI(International Olympiad in Informatics,国际信息学奥林匹克竞赛)金奖得主,IOI 是面向中学生的信息学科竞赛,一年举行一次。

Steven Hao:联合创始人兼 CTO(首席技术官),毕业于 MIT 计算机专业,之前曾在 Scale AI、Jane Street、DE Shaw、Quora 工作,为 2014 年第 32 届 IOI 金牌得主;

WaldenYan:联合创始人兼 CPO(首席产品官),毕业于哈佛大学计算机科学和经济学相关专业,曾从事 MIT PRIMES 密码学和机器学习方向的计算机科学研究,为 2020 年第 32 届 IOI 金牌得主。

Cognition AI 成立时间不足两个月,专注解决人工智能的推理问题

Cognition AI 没有透露产品细节,也没有透露 Devin 构建在什么样的模型上,是自研还是基于 GPT 之类的第三方模型。不过,Cognition 称这项工作是其「长期推理和规划方面的进步」的结果。基于推理和规划能力,Cognition 表示「编码只是开始」,未来,该公司还将在其他垂直行业开发类似的 AI 工具。

Cognition AI 公司总共 10 人,目前没有固定办公室——他们散落在硅谷和纽约之间的 Airbnb 以及家庭办公室中工作。虽然成立时间不长,但该公司已获得 2100 万美元 A 轮融资,投资者包括 Founders Fund 和 Twitter(现「X」)前高管 Elad Gil 等。

参考链接:

https://www.cognition-labs.com/blog

正文完
 0