[논문리뷰] Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized TestsCoding Agent의 성능 평가가 실제 실무 능력과 괴리되는 현상은 모델이 벤치마크 데이터를 암기하거나 유출된 테스트 케이스를 미리 확인하는 Cheating 문제에서 기인합니다.#Review#Coding Agents#Cheating Detection#Capped Evaluation#Randomized Tests#Benchmark Overfitting#Code Generation2026년 6월 9일댓글 수 로딩 중
[논문리뷰] SWE-Explore: Benchmarking How Coding Agents Explore Repositories본 논문은 기존의 SWE-bench와 같은 벤치마크가 이슈 해결 여부를 이분법적(성공/실패)으로만 판단하여, 에이전트의 내부적인 탐색, 위치 파악, 맥락 추출 능력을 측정하지 못하는 문제를 해결하고자 합니다 .#Review#Repository-level Coding#Coding Agents#Repository Exploration#Line-level Benchmark#Context Retrieval#Software Engineering2026년 6월 8일댓글 수 로딩 중
[논문리뷰] SWE-chat: Coding Agent Interactions From Real Users in the Wild저자들은 GitHub 저장소에서 코딩 에이전트 세션을 자동으로 기록하는 오픈소스 도구인 Entire.io를 활용하여 데이터셋을 구축하였다. 수집된 데이터는 인간과 에이전트 간의 상세한 상호작용 추적(Interaction traces)과 라인별 코드 기여도 정보를 포함한다 .#Review#Coding Agents#Software Engineering#Human-Agent Interaction#In-the-wild Dataset#Code Attribution2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents본 논문은 기존의 메모리 기반 self-evolving agent들이 단일 도메인(Single-domain) 내의 메모리 활용에 국한되어, 다양한 도메인을 아우르는 공유 인프라와 프로그래밍 원칙을 충분히 활용하지 못하는 문제를 해결하고자 한다.#Review#Coding Agents#Self-evolving Agents#Memory Transfer Learning#Cross-domain#Meta-knowledge#Abstraction#Transferability2026년 4월 15일댓글 수 로딩 중
[논문리뷰] Terminal Agents Suffice for Enterprise Automation저자들은 터미널과 파일시스템을 통해 플랫폼 API와 직접 통신하는 최소한의 코딩 에이전트인 StarShell을 제안합니다 . StarShell은 사전 정의된 도구 레지스트리에 의존하지 않고, 문서나 API 응답을 통해 능동적으로 기능을 발견하고 작업을 구성합니다.#Review#Enterprise Automation#Agentic Systems#Terminal-based Agents#API Interaction#Model Context Protocol (MCP)#Coding Agents2026년 4월 1일댓글 수 로딩 중
[논문리뷰] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks기존 Coding Agent Benchmark 들은 압도적으로 Single-shot Solutions 을 Complete Specification에 대해 평가하고 있으며, 이는 Agent가 현재 Specification 에 대한 Correct Code 를 생성할 수 있는지 여부만을 측정한다.#Review#SlopCodeBench#Coding Agents#Iterative Development#Code Quality#Structural Erosion#Verbosity#Benchmarking#Long-Horizon Tasks2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Qwen3-Coder-Next Technical Report본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.#Review#Coding Agents#Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training#Software Engineering#Reinforcement Learning#Code Generation#Tool Usage2026년 3월 3일댓글 수 로딩 중
[논문리뷰] SERA: Soft-Verified Efficient Repository Agents본 논문은 폐쇄형 시스템 대비 오픈 소스 코딩 에이전트의 강점인 사설 코드베이스 특화 능력 을 저비용으로 실현하는 것을 목표로 합니다. 기존 훈련 방식의 높은 비용과 복잡성으로 인해 이론에 머물렀던 이점을 극복하고, 효율적인 데이터 생성 및 학습 방법론 을 제시하여 실질적인 적용 가능성을 입증하고자 합니다.#Review#Coding Agents#Synthetic Data Generation#Repository Specialization#Supervised Finetuning#Soft Verification#Cost-Efficiency#SWE-bench2026년 1월 28일댓글 수 로딩 중
[논문리뷰] SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents본 논문은 소프트웨어 개발을 위한 LLM 에이전트가 긴 컨텍스트로 인해 발생하는 높은 API 비용과 지연 시간 문제를 해결하고자 합니다.#Review#Context Pruning#Coding Agents#Large Language Models (LLMs)#Software Development#Code Comprehension#Efficiency Optimization#Task-Aware Pruning#CRF2026년 1월 25일댓글 수 로딩 중
[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Coding Agents#Software Evolution#Benchmarking#Long-Horizon Tasks#Large Language Models (LLMs)#Software Engineering#Code Generation2025년 12월 24일댓글 수 로딩 중
[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.#Review#Coding Agents#LLMs#Software Engineering#Repository Generation#Long-Horizon Reasoning#Benchmark#Python Development#Autonomous Systems2025년 12월 15일댓글 수 로딩 중
[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding Agents본 논문은 기존 시각화 코드 생성 연구의 한계, 즉 단일 언어 및 단일 라운드 생성에 대한 편향을 해결하고, 다국어 환경에서 신뢰성 있는 시각화 코드를 생성하며 스스로 오류를 수정 할 수 있는 AI 에이전트 구축을 목표로 합니다.#Review#Multi-Language Visualization#Code Generation#Self-Debugging#Instruction Tuning#Large Language Models#Visualization Benchmark#Coding Agents#Code-Feedback2025년 10월 29일댓글 수 로딩 중
[논문리뷰] A Survey of Vibe Coding with Large Language Models본 논문은 대규모 언어 모델(LLM)의 발전에 따라 등장한 '바이브 코딩(Vibe Coding)' 이라는 새로운 개발 방법론을 심층적으로 탐구합니다.#Review#Vibe Coding#Large Language Models#Coding Agents#Human-AI Collaboration#Software Engineering#Development Models#Context Engineering2025년 10월 15일댓글 수 로딩 중