新闻中心

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

2024-04-03
浏览次数:
返回列表

想了解更多AIGC的内容,请访问:

51cto ai.x社区

https://www.51cto.com/aigc/

最近,有很多人在为 AI 代替自己的工作而担忧。

上个月火遍AI圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。

Devin展示的工具能力非常惊艳,特别是这款自走闭源路线的创业公司。目前只有少数人才能使用这种内测名额的人才能够拥有。

本周二,来自普林斯顿大学NLP组的研究人员发布了SWE-agent——一个开源版AI程序员,不到一天就获得了上千的GitHub Star数量。这个SWE-agent是基于深度学习的技术,能够自动编写高效且可靠的代码。他的发布引起了广泛的关注,许多开发者对他的技术和性能表示了高度的认可。这些成就也证明了NLP领域在AI研

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

SWE-agent 是一款用于自主解决 GitHub 存储库中问题的新系统。它在 SWE-bench 上获得了与 Devin 相似的准确度,平均耗时为 93 秒。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

  • 项目网站:https://swe-agent.com/
  • GitHub:https://github.com/princeton-nlp/SWE-agent

该项目的作者 John Yang 表示,相关论文的预印版也将在 4 月 10 号上传。

从原理上看,SWE-agent 通过将大模型(例如 GPT-4)转变为软件工程智能体,可以修复真实 GitHub 存储库中的错误和问题。

在完整的 SWE-bench 测试集上,SWE-agent 解决了 12.29% 的问题,实现了 SOTA 性能。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

为了提供开发过程中的自动化,SWE-agent 通过与专用终端交互来工作,它可以打开、搜索文件内容,使用自动语法检查、编辑特定行,也可以编写并执行测试。

该项目的开发者精心设计了 UI 界面,并在 GitHub 上进行了介绍。

智能体 - 计算机接口 (ACI)

研究团队设计了简单的以大模型(LM)为中心的命令和反馈格式,使大模型能够更方便地浏览存储库、查看、编辑和执行代码文件,这被称为智能体 - 计算机接口 (ACI)。研究团队还构建了 SWE 智能体存储库,以便轻松迭代存储库级编码智能体的 ACI 设计。

就像语言模型需要良好的提示工程(prompt engineering)一样,良好的 ACI 设计在使用智能体时会带来更好的结果。没有经过良好调整的 ACI 的基线智能体的表现比 SWE-agent 差得多。

SWE-agent 包含研究团队在智能体 - 计算机接口设计过程中发现的非常有用的功能,包括:

1. 添加一个在发出编辑命令时运行的 linter,如果代码语法不正确,则不会让编辑命令通过。

2. 为智能体提供一个专门构建的文件查看器。研究团队发现此文件查看器在每轮仅显示 100 行时效果最佳,并且该文件编辑器具有上下滚动以及在文件中执行搜索的命令。

3. 为智能体提供专门构建的全目录字符串搜索命令。研究团队发现该工具简洁地列出匹配项非常重要 —— 只需列出至少有一个匹配项的每个文件。该研究表明,向模型显示有关每个匹配的更多上下文对于模型来说太混乱了。

4. 当命令的输出为空时,返回一条消息:「您的命令已成功运行,但未产生任何输出」。

未来发布的论文将详述更多信息。

安装与使用

要使用 SWE-agent,首先要设置好如下条件:

1. 安装 Docker,并在本地启动 Docker;

2. 安装 Miniconda,并使用 conda env create -fenvironment.yml 创建 swe-agent 环境;

3. 使用 conda activate swe-agent 激活;

4. 运行 ./setup.sh 创建 swe-agent docker 镜像;

5. 在此存储库的根目录下创建一个 keys.cfg 文件并填写以下内容:

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含两个步骤:

  • 第一步:SWE-agent 接收输入的 GitHub 问题,并返回尝试修复它的拉取请求(pull request);
  • 第二步:评估拉取请求以验证它确实解决了问题(目前仅适用于 SWE-bench 基准测试中的问题)。

如果想在整个 SWE-bench 上运行和评估,最简单的方法是使用 x86 机器。

python run.py --model_name gpt4 \--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml
python run.py --model_name gpt4 \--per_instance_cost_limit 2.00 \--config_file ./config/default.yaml

如果想运行 SWE-bench 中的单个问题,可以使用 --instance_filter:

python run.py --model_name gpt4 \--instance_filter marshmallow-code__marshmallow-1359

想了解更多AIGC的内容,请访问:

51cto ai.x社区

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

https://www.51cto.com/aigc/

以上就是开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star的详细内容,更多请关注其它相关文章!


# ai  # 训练  # 上犹整合营销推广  # 传媒网站建设图片  # 加工网站推广哪里好  # 企业做网站推广怎么做好  # 龙岩营销推广价格  # 南宁网站平台建设  # 从化区网站建设价格  # 盐城市seo优化价格  # 辽宁会计网站建设管理  # 该项  # 普林斯顿  # 想了  # 并在  # 进阶  # 软件工程  # 省电  # 加持  # 来了  # 开源  # fig  # devin  # docker  # python  # 自建站与seo 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何安装笔记本固态硬盘  显卡上面TYPE-C是什么接口  typescript怎么写react  净水器上的power是什么意思  typescript如何定义常量  python和typescript学哪个  typescript多久能学会  单片机程序负数怎么表示  如何用固态硬盘做缓存  对应市盈率是30X是什么意思  如何区别固态硬盘  如何测试固态硬盘速度  typescript入门要多久  linux如何合并分区命令  春运辅助抢票怎么抢  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  市盈率292是什么意思  一天多少分钟  进口超级维特拉三门版power是什么意思  docs命令如何进入d  交管12123协议头不完整是啥意思  j*a map数组怎么用  单片机for循环怎么用  单片机怎么计算0xf0  阿里云盘的会员怎么用  如何修改cad命令  如何用adb命令停用系统软件  反向春运抢票方式  typescript如何做项目  冰柜power是什么意思这个黄灯怎么不亮  摩托车上power是什么意思  硬件如何执行命令  为什么要出折叠屏手机  如何找出命令行  楔子是什么意思  oracle中datediff函数怎么用 Oracle中DATEDIFF函数详解  春运高速高铁抢票攻略  液位传感器power是什么意思  华为交换机如何复制命令行  市盈率底下 18A 19E 是什么意思  萝卜快跑的收费标准是什么  春运抢票还用取票吗  闪光灯power闪烁是什么意思  如何激活固态硬盘  unix时间戳转换公式  多少毫安的充电宝可以带上飞机  华为的type-c接口是什么接口  系统如何装进固态硬盘  什么叫typescript  苹果16都有哪些型号 

搜索