
AI 코딩 도구가 개발자 생산성을 높인다는 건 이제 상식처럼 됐다. 근데 최근 Anthropic, UC Berkeley, METR 등에서 나온 연구들을 보면 이야기가 좀 다르다. AI를 쓰면 오히려 느려지고, 학습이 안 되고, 일만 더 늘어난다는 결과들이 나오고 있다.
AI 코딩 도구 생산성, "빨라졌어요"는 착각이었다

올해 초 AI 안전 연구 기관 METR에서 꽤 충격적인 실험 결과를 발표했다.
오픈소스 프로젝트에 오래 기여해온 경험 많은 개발자 16명에게, 본인이 잘 아는 코드베이스에서 실제 작업을 시키면서 AI 도구(Cursor Pro + Claude 3.5/3.7 Sonnet)를 쓰는 경우와 안 쓰는 경우를 비교했다.
결과가 재밌다.
- 개발자들은 AI가 24% 빨라지게 해줄 거라고 기대했고
- 작업 끝나고 나서도 20% 빨라졌다고 느꼈는데
- 실제로는 19% 느려져 있었다
왜? AI가 제안한 코드가 "방향은 맞는데 정확하지는 않은" 경우가 많아서, 리뷰하고 수정하는 데 시간을 더 쓴 거다. 본인이 잘 아는 코드베이스일수록 직접 치는 게 더 빨랐다는 얘기다.
물론 이건 경험 많은 개발자 + 익숙한 코드베이스라는 특수 조건이다. 하지만 "AI = 무조건 빠르다"라는 전제에 의문을 던지기엔 충분하다.
AI로 배우면 17% 덜 배운다 — Anthropic의 자기반성

더 불편한 건 Anthropic(Claude 만든 회사)이 스스로 낸 연구다.
주니어 Python 개발자 52명에게 처음 접하는 라이브러리(Trio)를 학습하게 했다. 절반은 GPT-4o 기반 AI 어시스턴트를 쓰게 하고, 나머지 절반은 문서와 검색만으로 학습하게 했다.
AI를 쓴 그룹이 지식 테스트에서 17% 낮은 점수를 받았다. 대략 학점 2등급 차이다. 특히 디버깅 문제에서 격차가 컸다.
시간 절약은? 거의 없었다. AI 그룹이 평균 2분 정도 빠른 수준이었고, 통계적으로 유의미하지 않았다. 어떤 참가자는 AI한테 질문 만드는 데만 11분을 썼다.
어떻게 쓰느냐가 전부다
재밌는 건, AI 사용 패턴에 따라 결과가 극단적으로 갈렸다는 거다.
안 좋은 패턴 (퀴즈 점수 24~39%)
- 코딩을 통째로 AI에 맡기기 → 가장 빨리 끝냈지만 39점
- 처음엔 직접 하다가 점점 AI에 의존 → 비슷하게 낮음
- 에러가 나면 이해 없이 AI한테 디버깅만 반복 시키기
좋은 패턴 (퀴즈 점수 65~86%)
- AI가 코드를 생성하면, "왜 이렇게 짰어?" 라고 후속 질문
- 코드 생성 시 설명도 함께 요청
- 개념적인 질문에만 AI 사용
한마디로, AI를 "대신 해주는 도구"로 쓰면 학습이 안 되고, "설명해주는 선배"로 쓰면 오히려 효과적이었다.
AI 도입 후 업무량, 줄었나? 오히려 늘었다

UC Berkeley 연구팀이 미국 테크 기업 직원 200명을 8개월간 추적했더니, AI 도입 후 업무가 줄어든 게 아니라 강화됐다.
- PM이 코드를 짜기 시작하고
- 디자이너가 엔지니어링 업무까지 건드리고
- 개발자는 AI가 작성한 코드 리뷰하느라 시간을 더 쓰고
AI가 빠르게 처리해주니까, "그러면 이것도 할 수 있겠네?" 하면서 일의 범위가 넓어진 거다. 점심시간이나 퇴근 후에도 AI로 작업하면서 자연스러운 휴식이 사라지는 현상도 관찰됐다.
HBR(하버드 비즈니스 리뷰)에 실린 이 연구의 제목이 명확하다: "AI Doesn't Reduce Work — It Intensifies It" (AI는 일을 줄이지 않는다, 강화한다)
이건 역사적으로 반복되는 패턴이기도 하다. 기술이 노력의 비용을 줄이면, 사람들은 덜 하는 게 아니라 더 많이 한다.
AI 코딩 도구, 시니어와 주니어 개발자의 차이
솔직히 이 연구들을 보면서 내 상황이 계속 떠올랐다. 우리 팀도 AI 도구를 적극 도입하려고 하는데, 막상 해보니 방향 잡기가 쉽지 않다.
경험 많은 개발자 쪽
15년차 개발자 입장에서, AI 코딩 도구는 확실히 도움이 된다. 근데 그건 내가 뭘 만들어야 하는지 이미 아는 상태에서 반복 작업을 줄여주는 측면이다. 보일러플레이트 코드, 테스트 케이스 작성, 문서화 같은 것들.
METR 연구처럼, 잘 아는 코드베이스에서는 오히려 직접 치는 게 빠를 수 있다. AI가 만들어준 코드를 검증하는 데 드는 인지적 비용이 꽤 크다. 그래도 새로운 언어나 프레임워크를 빠르게 훑을 때, 아이디어를 프로토타이핑할 때는 체감이 확 다르다.
입문하는 개발자 쪽
문제는 여기다. Anthropic 연구가 정확히 이 지점을 찌른다.
AI에 통째로 맡기는 습관이 들면, "왜 이 코드가 동작하는지"를 이해하지 못한 채 결과물만 받게 된다. 디버깅 능력이 안 쌓이고, 에러를 만났을 때 스스로 해결하는 경험이 부족해진다.
Anthropic 연구자들이 한 말이 핵심이다:
"회사들이 AI가 코드를 쓰고 사람이 감독하는 방향으로 전환할 때, 그 감독하는 사람들이 AI 때문에 스킬이 형성되지 않았다면, AI 코드를 검증하고 디버깅할 능력이 부족할 수 있다."
이건 단순히 "주니어가 AI 의존하면 안 된다"는 수준이 아니라, 조직 전체의 코드 품질과 안전성 문제로 이어진다.
국내 연구에서도 비슷한 결론
국가미래연구원 보고서에서도 비슷한 분석이 나왔다. 초급 개발자는 AI를 프로그래밍 언어 학습에 활용하면 빠르게 수준이 올라가지만, 중급 이상의 개발자가 AI의 환각(할루시네이션)을 더 빠르게 판단할 수 있어 실제 생산성 향상 폭이 더 크다고 한다.
결국 기초가 있는 사람이 AI를 더 잘 쓴다는 거다.
회사에서 AI 코딩 도구 도입할 때 고려할 4가지

이 연구들을 종합하면, 무작정 "다들 AI 써라" 하는 게 답이 아니다.
1. 경험 수준별 가이드라인이 달라야 한다
- 시니어: 자유롭게 쓰되, 리뷰·프로토타이핑·반복 작업에 집중
- 주니어: 학습 단계에서는 제한적으로 사용하되, "왜?"를 묻는 방식으로 유도
2. "AI에 맡기기" vs "AI한테 배우기"를 구분해야 한다
- "이 코드 짜줘" → 학습 안 됨
- "이 코드가 왜 이렇게 동작해?" / "이 에러 원인이 뭐야?" → 학습됨
- Anthropic 연구가 이걸 정량적으로 증명했다
3. 일이 줄어든다는 환상을 버려야 한다
- AI는 업무를 줄이는 게 아니라 범위를 넓힌다
- 도입 초기에 의도적으로 "AI로 아낀 시간"의 용도를 정해야 한다
- 안 그러면 번아웃만 앞당긴다
4. 측정 기준을 다시 생각해야 한다
- "AI 써서 몇 % 빨라졌나"보다 "코드 품질이 유지되는가", "팀원 학습이 되고 있는가"가 더 중요하다
AI 코딩 도구, 결국 어떻게 써야 하나

AI 코딩 도구를 쓰면 분명 생산적인 부분이 있다. 나도 매일 쓴다. 근데 그건 15년 동안 쌓아온 기반 위에서 쓰니까 효과가 있는 거다.
입사한 지 얼마 안 된 개발자한테 "AI 잘 활용해라"라고만 하면, 겉으로는 결과물이 빨리 나오는데 속에서는 실력이 쌓이지 않는 상황이 올 수 있다. 그리고 그건 몇 년 뒤에야 드러난다.
결국 핵심은 간단하다. AI는 "대신 해주는 도구"가 아니라 "같이 생각하는 도구"로 써야 한다. 이 차이를 팀 안에서 어떻게 문화로 만드느냐가, 지금 AI 도입의 진짜 과제인 것 같다.
실제 도구 비교 관점이 궁금하다면 백엔드 개발자의 Cursor vs Claude Code vs IntelliJ 비교를 함께 보면 좋다. AI 생산성 논란을 실제 사용 경험과 대조해 볼 수 있다.
자주 묻는 질문 (FAQ)
Q. 이 연구들이 말하는 "AI가 생산성을 낮춘다"는 결론을 그대로 믿어야 하나요?
A. 연구 조건을 함께 봐야 한다. METR 연구는 "경험 많은 개발자 + 익숙한 코드베이스"라는 특수 상황이었다. 새로운 기술을 빠르게 배우거나, 반복 작업을 줄이거나, 프로토타이핑을 빠르게 할 때 AI는 분명히 효과적이다. "무조건 빠르다"는 기대가 착각일 수 있다는 것이지, AI 도구가 무용하다는 얘기는 아니다.
Q. 주니어 개발자에게 AI 코딩 도구를 쓰지 말라고 해야 하나요?
A. 완전히 차단하는 것보다는 "어떻게 쓰느냐"를 교육하는 게 더 현실적이다. "코드 짜줘"가 아니라 "왜 이렇게 짰어?" "이 에러 원인이 뭐야?"처럼 이해를 위한 방향으로 활용하도록 유도하는 것이 Anthropic 연구에서 검증된 방법이다.
Q. AI 코딩 도구를 도입한 뒤 성과를 어떻게 측정하나요?
A. "속도"보다는 "코드 품질"과 "팀 역량 유지"가 더 중요한 지표다. PR 리뷰 통과율, 버그 발생률, 주니어 온보딩 속도 같은 간접 지표를 병행해서 보는 것이 좋다. AI 도입 전후 6개월 이상의 데이터를 비교해야 의미 있는 패턴이 나온다.
출처
- Anthropic, "The Impact of AI Assistance on Coding Skill Formation" (2026.01) — The Decoder / 원문
- UC Berkeley, "AI Doesn't Reduce Work—It Intensifies It" (2026.02) — HBR / Fortune
- METR, "Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity" (2025.07) — METR / Reuters
- 국가미래연구원, "생성형 AI에 의한 소프트웨어 개발자 업무 영향 분석" — 보고서
- AI매터스, "AI로 코딩하면 빨라질까? 앤트로픽 실험 결과는 '충격'" — 기사
'Mechanic: IT 인터넷 > Mechanic , M-Trend' 카테고리의 다른 글
| 제미나이 3.1 Pro - 음악 생성까지, Claude·GPT·Grok 비교 (0) | 2026.02.20 |
|---|---|
| AI 코딩 모델 전쟁 - Claude Opus 4.6이 앞서는 이유 (0) | 2026.02.14 |
| iOS 개발자들이 Cursor를 못 쓰는 진짜 이유, 그리고 Apple의 대답 (0) | 2026.02.08 |
| 클로드봇 24시간 돌리려고 맥미니 산 이유 - 조립PC는 왜 포기했나 (0) | 2026.02.07 |
| 맥 200만원 망설이다가 뉴스 보고 바로 지른 이유 (0) | 2026.02.07 |