2025 年 AI 工具对开发者效率影响研究：AI写代码导致开发者效率下降19%

作者：METR 研究团队翻译与整理：编程狮（w3cschool.cn）

一、研究背景：为什么关注AI对开发者效率的影响？

随着AI工具在软件开发领域的广泛应用，理解其对开发者效率的实际影响变得至关重要。此前的编码/代理基准测试虽然有助于了解AI能力，但往往牺牲了现实性以换取规模和效率。这些基准测试通常任务自包含，无需先前上下文即可理解，并且使用算法评估，未能捕捉许多重要能力。这可能导致基准测试高估AI能力。另一方面，由于基准测试没有实时人类交互，模型可能因小型瓶颈而无法完成任务，尽管在实际使用中人类会修复这些问题，这可能导致我们低估模型能力。

我们对评估AI在现实场景中的影响感兴趣，特别是AI对AI研发本身的影响，这可能带来显著风险。例如，极快的AI进步可能导致监督或安全措施的崩溃。测量AI对软件开发者效率的影响，为基准测试提供了补充证据，有助于全面了解AI对AI研发加速的总体影响。

二、研究方法：如何测量AI工具对开发效率的影响？

为直接测量AI工具对软件开发的现实影响，我们招募了16位经验丰富的开发者，他们来自大型开源仓库（平均拥有22k+星和1M+代码行），并已贡献多年。开发者提供了246个真实问题列表，这些问题对仓库有价值——包括bug修复、功能添加和重构，通常属于他们的常规工作。然后，我们将每个问题随机分配为允许或不允许使用AI工具。当允许使用AI时，开发者可使用他们选择的任何工具（主要是Cursor Pro与Claude 3.5/3.7 Sonnet——研究时的前沿模型）；当不允许使用AI时，开发者在没有生成式AI辅助的情况下工作。开发者完成这些任务（平均耗时两小时）时录制屏幕，并自我报告所需的总实现时间。我们以每小时150美元的报酬补偿开发者参与研究。

三、核心发现：AI工具为何反而拖慢了开发速度？

研究结果显示，当开发者被允许使用AI工具时，他们完成问题所需的时间比不使用AI工具时长19%——这是一个显著的减速，与开发者信念和专家预测相悖。这一感知与现实之间的差距引人注目：开发者预期AI能将其速度提升24%，即使在经历了减速后，他们仍相信AI使其速度提升了20%。

开发者预期AI提速	24%
实际使用AI后感知提速	20%
实际观察到的减速	19%

四、关键因素分析：哪些原因导致了减速？

我们研究了20个可能解释减速的潜在因素，发现以下5个因素可能起主要作用：

因素分类	具体描述
任务切换成本	开发者在使用AI工具时频繁切换任务，导致效率下降
AI输出审核	开发者需要花费额外时间审核和修正AI生成的代码
过度依赖AI	开发者可能因过度依赖AI而忽视自身技能的应用
工具学习曲线	掌握AI工具的有效使用需要时间，短期内可能降低效率
隐性要求处理	高质量代码要求（如文档、测试覆盖率）AI工具可能无法完全满足

五、研究结论：如何看待AI工具的实际效用？

研究结果表明，在特定条件下，AI工具可能并未显著提升开发者效率，反而导致减速。这并不意味着AI工具在所有场景下都无效。可能的解释包括：

观点	解释
AI工具的潜力未充分挖掘	开发者可能未充分利用AI工具的所有功能，或缺乏优化提示/脚手架
任务类型差异	AI在处理基准测试中的任务表现良好，但在现实复杂任务中可能面临挑战
人类因素影响	开发者可能因享受使用AI的过程或预期未来收益而高估其效率提升

六、未来展望：如何持续评估AI对开发效率的影响？

我们计划在未来运行类似研究，以跟踪AI带来的提速（或减速）趋势，特别是在这种评估方法可能比基准测试更难被操纵的情况下。如果AI系统能够显著加速我们设定中的开发者效率，这可能预示着AI研发进程的快速加速，进而可能导致风险扩散、监督和安全措施的崩溃或权力过度集中。

七、常见问题解答

问题	回答
开发者为何在使用AI时反而变慢？	开发者可能因频繁审核AI输出、处理AI工具未满足的隐性代码要求以及任务切换成本而变慢
研究结果是否适用于所有开发者？	本研究仅针对经验丰富的开源开发者，结果可能不适用于初学者或不熟悉的代码库
AI工具是否完全无用？	不是。AI工具可能在其他场景（如处理原型或研究代码）中非常有用，具体取决于任务类型和开发者经验

八、总结

本研究表明，尽管AI工具在特定基准测试中表现出色，但在现实复杂任务中，其对开发者效率的影响可能不如预期。理解这些差异对于合理评估AI工具的实际效用至关重要。我们鼓励开发者根据具体任务需求，结合自身经验，审慎选择和使用AI工具。