#Software Engineering

52개의 포스트

[논문리뷰] From Human-Centric to Agentic Code Review: The Impact of Different Generations of Generative AI Technology on Review Quality

본 논문은 Generative AI 기술이 소프트웨어 개발 생태계에 깊숙이 침투함에 따라, 기존의 Human-Centric 코드 리뷰가 LLM 및 AI Agent가 결합된 형태로 변화하면서 발생하는 리뷰 품질 및 효율성 변화를 규명하고자 합니다 .

#Review #Generative AI #Code Review #LLM #AI Agents #Review Quality #Human-AI Collaboration #Software Engineering

2026년 7월 19일

[논문리뷰] Harness Handbook: Making Evolving Agent Harnesses Readable,Navigable, and Editable

본 논문은 대규모 Agent Harness의 구조적 복잡성으로 인해 발생하는 Behavior Localization의 어려움을 해결하는 것을 목표로 합니다.

#Review #Agent Harness #Behavior Localization #Static Program Analysis #LLM-assisted Behavioral Structuring #Behavior-Guided Progressive Disclosure #Software Engineering

2026년 7월 15일

[loki] Grafana Loki LogQL 최적화: `max_query_series` 한도 내에서 효율적인 시리즈 누적

Loki LogQL 쿼리 엔진에서 `max_query_series` 한도를 효율적으로 적용하여 메모리 사용량을 최적화하는 방법.

#Grafana Loki #LogQL #성능 최적화 #Go #메모리 관리 #Software Engineering

2026년 7월 9일

[논문리뷰] Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification

본 논문은 기존의 LLM 에이전트 안전성 평가 방식이 고정된 규칙과 전문가의 수동 설계에 의존하여, 에이전트의 급격한 진화와 도구 생태계의 복잡성을 따라가지 못하는 한계를 해결하고자 합니다 .

#Review #LLM Agents #Safety Testing #Evidence-Grounded Verification #Automated Red-Teaming #Software Engineering #Sandboxed Execution

2026년 7월 6일

[논문리뷰] AutoTrainess: Teaching Language Models to Improve Language Models Autonomously

본 논문은 최신 LLM이 복잡한 소프트웨어 엔지니어링 작업에 능숙함에도 불구하고, 정작 모델 자체의 성능을 개선하는 과정은 여전히 인간의 높은 노동력과 전문 지식에 의존하고 있다는 점을 해결하고자 합니다.

#Review #Autonomous Post-Training #LM Agent #Agent-Computer Interface (ACI)#PostTrainBench #LLM Self-Improvement #Software Engineering

2026년 7월 1일

[논문리뷰] JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

본 논문은 프로페셔널 게임 엔진 환경에서 프로젝트 레벨의 코드 프레임워크를 생성하고 평가하는 AI 기술의 부재를 해결하고자 한다 . 기존 연구들은 주로 단일 파일 생성이나 간단한 게임 로직에 국한되어 있으며, 게임의 복잡한 런타임 행동을 정량적으로 평가할 수 있는 방법론이 부족하였다.

#Review #Game Engine #Code Framework #Software Engineering #Benchmark #Dataset #Godot #Deterministic Evaluation

2026년 6월 18일

[논문리뷰] LLM Agents Can See Code Repositories

본 논문은 현대적인 코딩 에이전트가 텍스트 기반의 인터페이스에 지나치게 의존함으로써 저장소의 복잡한 구조적 관계를 파악하는 데 한계를 겪고 있다는 점을 해결하고자 합니다 .

#Review #Multimodal Large Language Models #Software Engineering #Code Repository Understanding #Issue Resolution #Visual Representation #Agentic Frameworks

2026년 6월 14일

[논문리뷰] SWE-Explore: Benchmarking How Coding Agents Explore Repositories

본 논문은 기존의 SWE-bench와 같은 벤치마크가 이슈 해결 여부를 이분법적(성공/실패)으로만 판단하여, 에이전트의 내부적인 탐색, 위치 파악, 맥락 추출 능력을 측정하지 못하는 문제를 해결하고자 합니다 .

#Review #Repository-level Coding #Coding Agents #Repository Exploration #Line-level Benchmark #Context Retrieval #Software Engineering

2026년 6월 8일

[논문리뷰] Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

본 연구는 LLM 기반 소프트웨어 엔지니어링 에이전트가 고품질 태스크 데이터 부족으로 인해 학습 및 일반화 성능이 제한되는 문제를 해결하고자 합니다. 기존 합성 데이터 생성 방식은 고정된 규칙이나 무작위 버그 주입에 의존하여 에이전트의 실제 취약점이나 학습 진행 상황을 반영하지 못한다는 한계가 있습니다.

#Review #Software Engineering #Large Language Models #Reinforcement Learning #Self-Evolution #Agent Skills #Trace-Driven Learning #Code Repair

2026년 6월 7일

[논문리뷰] Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

본 논문은 기존의 LLM 에이전트 평가 방식이 정적이고 단기적인 작업에 치중되어 있어, 실제 프로덕션 환경에서 요구되는 복잡한 장기 워크플로우를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Agentic Models #Runtime Assessment #Software Engineering #Long-horizon Workloads #Compiler Construction #Resurrection Protocol #Production Systems

2026년 6월 3일

[논문리뷰] SWE-chat: Coding Agent Interactions From Real Users in the Wild

저자들은 GitHub 저장소에서 코딩 에이전트 세션을 자동으로 기록하는 오픈소스 도구인 Entire.io를 활용하여 데이터셋을 구축하였다. 수집된 데이터는 인간과 에이전트 간의 상세한 상호작용 추적(Interaction traces)과 라인별 코드 기여도 정보를 포함한다 .

#Review #Coding Agents #Software Engineering #Human-Agent Interaction #In-the-wild Dataset #Code Attribution

2026년 4월 22일

[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.

#Review #Autonomous Bug Discovery #Large Language Models #Game Benchmark #Quality Assurance #Multi-agent System #Software Engineering

2026년 4월 7일

[논문리뷰] Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

본 논문은 현대의 LLM 기반 코딩 에이전트들이 실제 소프트웨어 공학 환경의 모호한 요구사항(Underspecified instructions)을 마주했을 때, 이를 능동적으로 해결하지 못하고 맹목적으로 실행(Autonomous execution)하는 문제를 해결하고자 한다.

#Review #LLM Agents #Software Engineering #Underspecification #Uncertainty-Aware #Multi-Agent #Collaborative AI

2026년 4월 2일

[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Software Engineering #Code Maintenance #Continuous Integration #Benchmark #Code Generation #Long-term Evaluation #Technical Debt

2026년 3월 4일

[논문리뷰] Qwen3-Coder-Next Technical Report

본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.

#Review #Coding Agents #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training #Software Engineering #Reinforcement Learning #Code Generation #Tool Usage

2026년 3월 3일

[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Programming #CLI #Benchmark #Long-horizon Tasks #Code Generation #LLM Evaluation #Human-Agent Collaboration #Software Engineering

2026년 2월 24일

[논문리뷰] GLM-5: from Vibe Coding to Agentic Engineering

본 논문은 AI 모델이 인간의 지시(vibe coding)에 의존하는 것을 넘어 자율적인 계획, 구현 및 반복 이 가능한 Agentic Engineering 패러다임으로 전환하는 것을 목표로 합니다.

#Review #Foundation Model #Agentic AI #Reinforcement Learning #Sparse Attention #Software Engineering #Long-Context Models #GPU Optimization

2026년 2월 17일

[논문리뷰] AIDev: Studying AI Coding Agents on GitHub

AI 코딩 에이전트가 실제 소프트웨어 프로젝트에서 어떻게 활용되는지에 대한 포괄적인 데이터셋의 부재를 해결하는 것이 이 연구의 핵심 목표입니다. AIDev 라는 대규모 데이터셋을 구축하여 AI 도입, 개발자 생산성, 그리고 인간-AI 협업이라는 새로운 소프트웨어 엔지니어링 시대의 연구를 위한 기반을 마련하고자 합니다.

#Review #AI Coding Agents #GitHub Data #Software Engineering #Pull Request Analysis #Human-AI Collaboration #Developer Productivity #Large Language Models

2026년 2월 16일

[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Coding #Benchmarking #LLMs #Feature Development #Software Engineering #Test-Driven Development #Scalability

2026년 2월 11일

[논문리뷰] CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

본 논문은 실세계 소프트웨어 개발에 필수적인 CLI(명령줄 인터페이스) 환경과의 상호작용 을 포함하는 환경 집약적 에이전트 작업 의 확장 가능한 데이터 생성 파이프라인 부재 문제를 해결하고자 합니다.

#Review #Agentic Coding #CLI Automation #Environment Inversion #Task Generation #Large Language Models (LLMs)#Software Engineering #Dockerfile #Terminal-Bench

2026년 2월 11일

[논문리뷰] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

본 논문은 텍스트 기반 LLM의 선형적인 컨텍스트 길이 증가와 그에 따른 계산 비용 문제로 인한 코드 이해의 비효율성을 해결하고자 합니다.

#Review #Vision Language Models #Code Understanding #Visual Code Representation #Code Compression #Computational Efficiency #Multimodal LLMs #Software Engineering

2026년 2월 3일

[논문리뷰] Kimi K2.5: Visual Agentic Intelligence

본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.

#Review #Multimodal AI #Agentic Intelligence #Vision-Language Models #Parallel Agent Orchestration #Reinforcement Learning #Joint Optimization #Visual Reasoning #Software Engineering

2026년 2월 2일

[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.

#Review #LLM #Unit Test Maintenance #Software Engineering #Code Generation #Test Repair #Test Updating #Benchmark #Mutation Testing #Code Coverage

2026년 2월 1일

[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.

#Review #Large Language Models #Code Generation #Prompt Engineering #Prompt Optimization #Empirical Study #Software Engineering #Guidelines

2026년 1월 25일

[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.

#Review #AI Agents #LLM Evaluation #Benchmarking #Command Line Interface #Software Engineering #Realistic Tasks #Error Analysis

2026년 1월 22일

[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.

#Review #LLM-based Issue Resolution #Software Engineering #Autonomous Agents #Code Generation #Benchmarking #Reinforcement Learning #Supervised Fine-tuning #Multimodal LLMs

2026년 1월 20일

[논문리뷰] MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

자율 소프트웨어 엔지니어링(SWE) 에이전트가 GitHub와 같은 플랫폼에 축적된 방대한 인간 경험을 효과적으로 활용하지 못하는 '닫힌 세계' 한계를 해결하는 것이 목표입니다.

#Review #Code Agents #Software Engineering #Experiential Memory #GitHub Data #Experience Governance #Agentic Search #LLM Applications #Bug Fixing

2026년 1월 13일

[논문리뷰] AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

본 논문은 LLM 에이전트의 자기 개선 방식이 종종 불안정하고 감사하기 어렵다는 문제점을 지적합니다.

#Review #LLM Agents #Release Engineering #Self-Improvement #Regression Testing #Continuous Integration #Flip-Centered Gating #Auditable Development #Software Engineering

2026년 1월 8일

[논문리뷰] SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

본 논문은 소프트웨어 엔지니어링(SWE) 문제 해결 분야에서 SFT (Supervised Fine-tuning) 전용 경량 접근 방식 의 한계를 확장하여 최첨단 성능을 달성하는 것을 목표로 합니다. 복잡한 훈련 패러다임(예: 중간 훈련, 강화 학습) 없이도 SFT만으로 높은 성능을 낼 수 있음을 보여주고자 합니다.

#Review #Software Engineering #Issue Resolution #Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Hybrid Dataset #Error Masking #Curriculum Learning #Test-Time Scaling (TTS)#Generative Verifiers

2026년 1월 5일

[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization

본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.

#Review #Issue Localization #Causal Reasoning #Graph-guided #Large Language Models #Software Engineering #Defect Analysis #Repository Mining

2025년 12월 30일

[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Coding Agents #Software Evolution #Benchmarking #Long-Horizon Tasks #Large Language Models (LLMs)#Software Engineering #Code Generation

2025년 12월 24일

[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Coding Agents #LLMs #Software Engineering #Repository Generation #Long-Horizon Reasoning #Benchmark #Python Development #Autonomous Systems

2025년 12월 15일

[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

본 논문은 산업 규모의 저장소에서 작동할 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent (CCA) 를 제시하여, 기존 오픈소스 에이전트의 확장성 및 장기 컨텍스트/메모리 한계를 극복하고, 독점 에이전트의 투명성, 확장성, 제어 가능성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #AI Agent #Software Engineering #Open-Source #LLM #Orchestrator #Context Management #Long-term Memory #Meta-agent

2025년 12월 11일

[논문리뷰] Agent READMEs: An Empirical Study of Context Files for Agentic Coding

본 연구는 AI 코딩 에이전트의 작동 방식을 정의하고 안내하는 에이전트 컨텍스트 파일(Agent Context Files) 에 대한 체계적인 이해가 부족한 문제를 해결하고자 합니다.

#Review #Agentic Coding #Context Files #READMEs for Agents #Empirical Study #Software Engineering #Documentation Maintenance #Non-functional Requirements #LLMs

2025년 11월 18일

[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.

#Review #LLM Agents #Software Engineering #Long-Context #Interactive Benchmark #Tool Usage #Memory Management #Bias-Free Evaluation #Multi-Turn

2025년 11월 17일

[논문리뷰] Agentic Refactoring: An Empirical Study of AI Coding Agents

이 연구는 AI 코딩 에이전트가 소프트웨어 개발에서 리팩토링 활동을 어떻게 수행하고, 그 유형과 목적은 무엇이며, 코드 품질에 어떤 영향을 미치는지에 대한 실증적 이해 부족 문제를 해결하고자 합니다.

#Review #AI Agents #Code Refactoring #Software Engineering #Empirical Study #Large Language Models #Code Quality #Agentic Software Development #Maintainability

2025년 11월 12일

[논문리뷰] Walking the Tightrope of LLMs for Software Development: A Practitioners' Perspective

본 연구는 대규모 언어 모델(LLMs)이 소프트웨어 개발에 미치는 영향에 대해 실무자 관점에서 심층적으로 탐구하고, LLMs 사용에 따른 긍정적(전진) 및 부정적(후퇴) 효과를 균형 있게 관리하는 방안을 모색하는 것을 목표로 합니다.

#Review #Large Language Models #Software Engineering #Developer Productivity #Socio-Technical Grounded Theory #Practitioner Insights #AI Adoption #Benefits and Risks #Balanced Use

2025년 11월 11일

[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language Models

본 연구는 코드 대규모 언어 모델(Code LLM)의 알고리즘 문제 해결 능력과 실제 게임 개발의 포괄적인 요구사항 간의 격차를 해소하고자 합니다.

#Review #Code Large Language Models #Visual Game Generation #Benchmark #Pygame #Multimodal Evaluation #Software Engineering #AI-assisted Game Development

2025년 9월 26일

[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.

#Review #Agentic Coding #AI Agents #Large Language Models #GitHub Pull Requests #Software Engineering #Empirical Study #Code Generation #Software Development

2025년 9월 25일

[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.

#Review #AI Agents #Software Engineering #LLMs #Code Generation #Benchmark #Contamination Resistance #Long-Horizon Tasks #Enterprise Software

2025년 9월 23일

[논문리뷰] CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

기존 LLM 기반 코드 리뷰(CR) 벤치마크가 겪는 '현실성 격차'(reality gap) 문제를 해결하고자 합니다.

#Review #Code Review #LLMs #Benchmark #Python Projects #End-to-End Evaluation #Context-Awareness #Software Engineering #LLM-as-a-Judge

2025년 9월 23일

[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.

#Review #Code Generation #LLMs #Repository Planning #Graph-based Representation #Software Engineering #Agent Frameworks #Scalable Codebase

2025년 9월 22일

[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Long-Context LLMs #Software Engineering #Code Evaluation #Benchmark #Multi-file Reasoning #Architectural Understanding #Context Length #Software Development Lifecycle #Metrics

2025년 9월 12일

[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Software Engineering #Multi-Turn Interaction #Long Context #DAPO #Autonomous Agents #SWE-BENCH

2025년 8월 7일

[논문리뷰] Tool-integrated Reinforcement Learning for Repo Deep Search

소프트웨어 이슈 설명과 실제 결함 코드 사이의 의미론적 간극 및 다중 홉 추론 으로 인해 발생하는 이슈 로컬라이제이션(결함 코드 위치 식별)의 어려움을 해결하는 것이 목표입니다. 특히, LLM 기반 에이전트가 저장소 검색 도구를 효과적으로 활용하여 이슈 로컬라이제이션 을 수행하는 능력을 강화하고자 합니다.

#Review #Issue Localization #Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Tool-integrated Agents #Software Engineering #Code Search

2025년 8월 6일

[논문리뷰] SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution

본 논문은 대규모 언어 모델(LLM) 기반 소프트웨어 이슈 해결 시스템의 '제한된 관찰 범위(limited observation scope)' 문제를 해결하고자 합니다.

#Review #Multi-Agent System #Software Engineering #Fault Localization #Issue Resolution #Large Language Models #Competitive Debate #Graph Traversal

2025년 8월 4일

[논문리뷰] Diff-XYZ: A Benchmark for Evaluating Diff Understanding

본 논문은 대규모 언어 모델(LLM)이 코드 diff를 얼마나 효과적으로 이해하고 처리하는지 평가하기 위한 Diff-XYZ 벤치마크를 제안합니다.

#Review #Diff Understanding #Code Diff #Benchmark #LLMs #Code Editing #Software Engineering #Unified Diff Format #Search-Replace

2025년 10월 24일

[논문리뷰] A Survey of Vibe Coding with Large Language Models

본 논문은 대규모 언어 모델(LLM)의 발전에 따라 등장한 '바이브 코딩(Vibe Coding)' 이라는 새로운 개발 방법론을 심층적으로 탐구합니다.

#Review #Vibe Coding #Large Language Models #Coding Agents #Human-AI Collaboration #Software Engineering #Development Models #Context Engineering

2025년 10월 15일

[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.

#Review #Code Generation #Human Preference #LLM Evaluation #Execution Feedback #Benchmarking #Crowdsourcing #Software Engineering #Large Language Models

2025년 10월 13일

[논문리뷰] Code4MeV2: a Research-oriented Code-completion Platform

AI 기반 코드 완성 도구의 사용자 상호작용 데이터가 독점적으로 관리되는 문제를 해결하여, 연구자들이 재현 가능한 대규모 데이터 분석을 수행할 수 있도록 연구 지향적인 오픈 소스 코드 완성 플랫폼인 Code4Me V2 를 개발하는 것을 목표로 합니다.

#Review #Code Completion #Research Platform #Human-AI Interaction #Software Engineering #Open Science #JetBrains IDE Plugin #Telemetry #AI4SE

2025년 10월 7일

[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning

소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.

#Review #Environment Setup #LLMs #Reinforcement Learning #Supervised Fine-tuning #On-device AI #Software Engineering #Verifiable Rewards

2025년 10월 2일

[논문리뷰] BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

본 논문은 오픈소스 소프트웨어(OSS) 프로젝트의 자동 컴파일이라는 복잡하고 노동 집약적인 문제를 해결하기 위해 LLM 에이전트 의 성능을 평가하고 개선하는 것을 목표로 합니다.

#Review #LLM Agents #Open-Source Software #Compilation #Benchmarking #Software Engineering #Error Resolution #Retrieval-Augmented Generation

2025년 10월 1일