#Code Generation

93개의 포스트

[논문리뷰] No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

본 연구는 LLM의 코드 생성 능력이 학습 데이터가 풍부한 High-Resource 언어에 편중되어, 신생 기업에서 사용하는 No-Resource 언어에 대한 지원이 전무하다는 점을 해결하고자 한다.

#Review #Large Language Models #Code Generation #No-Resource Languages #Benchmark #Fine-Tuning #Pre-training

2026년 6월 18일

[논문리뷰] Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

본 논문은 기존의 코드 생성 평가가 특정 언어에 편향되어 있어 LLM의 실질적인 다국어 코딩 능력을 측정하지 못하는 한계를 해결하고자 한다. LiveCodeBench(LCB)는 지속적인 업데이트와 엄격한 오염 방지 제어를 통해 우수한 성능을 입증했으나, 오직 Python 언어만을 지원한다는 결정적인 단점이 존재한다 .

#Review #Code Generation #Multi-lingual Benchmark #Large Language Models #LiveCodeBench #Contamination-aware #Cross-lingual Evaluation

2026년 6월 18일

[논문리뷰] LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling

본 논문은 LoopCoder-v2를 통해 PLT에서 루프 횟수(loop count) 선택이 성능에 미치는 영향을 규명하고, 왜 특정 루프 횟수에서 성능이 포화되거나 저하되는지를 분석하고자 합니다.

#Review #Parallel Loop Transformer #Test-Time Compute #Gain-Cost Trade-off #Code Generation #Cross-Loop Position Offset #Representation Dynamics

2026년 6월 16일

[논문리뷰] P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

본 논문은 기존의 3D 생성 벤치마크가 프로그램 기반의 파라메트릭 생성 능력을 종합적으로 평가하지 못한다는 한계를 해결하기 위해 P3D-Bench를 제안합니다 .

#Review #Parametric 3D Generation #MLLM #Benchmark #CAD #Structural Reasoning #Code Generation

2026년 6월 14일

[논문리뷰] Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Coding Agent의 성능 평가가 실제 실무 능력과 괴리되는 현상은 모델이 벤치마크 데이터를 암기하거나 유출된 테스트 케이스를 미리 확인하는 Cheating 문제에서 기인합니다.

#Review #Coding Agents #Cheating Detection #Capped Evaluation #Randomized Tests #Benchmark Overfitting #Code Generation

2026년 6월 9일

[논문리뷰] Latent Reasoning with Normalizing Flows

본 연구는 기존 텍스트 기반 Chain-of-Thought(CoT)의 높은 추론 비용과 정보 밀도 부족 문제를 해결하고자 합니다.

#Review #Chain-of-Thought #Normalizing Flows #Latent Reasoning #Large Language Models #Likelihood-based Modeling #Code Generation

2026년 6월 4일

[논문리뷰] Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination

본 논문은 RLVR의 확장을 가로막는 핵심 병목인 '도전적인 검증 가능(verifiable) 코드 데이터의 희소성' 문제를 해결하고자 합니다.

#Review #RLVR #Synthetic Data #Atomic Decomposition #Code Generation #Scaling #Reinforcement Learning

2026년 6월 4일

[논문리뷰] From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

본 논문은 현재의 코딩 에이전트가 웹 애플리케이션 생성 시 겪는 70% 이상의 기능적 요구사항 미충족 문제를 해결하는 것을 목표로 합니다. 기존의 에이전트는 코드 파일이나 터미널 출력만을 기반으로 검증을 수행하지만, 웹 애플리케이션의 정확성은 브라우저 환경에서의 동적 상호작용을 통해서만 평가될 수 있습니다 .

#Review #Multi-Agent System #Test-Driven Development #Web Development #Code Generation #Closed-Loop Validation #Large Language Model

2026년 5월 18일

[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 .

#Review #Large Language Models #Competitive Programming #Agentic Evolution #Reinforcement Learning #Knowledge Network #Code Generation #Multi-Agent System

2026년 5월 17일

[논문리뷰] PlayCoder: Making LLM-Generated GUI Code Playable

본 논문은 GUI 행동의 정확성을 검증하고 이를 기반으로 코드를 반복적으로 수정하는 다중 에이전트 프레임워크인 PlayCoder를 제안합니다 . PlayDeveloper는 리포지토리 문맥을 활용하여 초기 코드를 생성하고, PlayTester는 GUI를 직접 실행하며 시각적/기능적 결함을 진단합니다.

#Review #Large Language Model #Code Generation #Multi-Agent #GUI Applications #Automated Program Repair

2026년 4월 21일

[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .

#Review #QuantCode-Bench #Large Language Models #Algorithmic Trading #Backtrader #Code Generation #Agentic Workflow #Domain-Specific Benchmarking

2026년 4월 19일

[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].

#Review #Code Generation #LLM #Test Reranking #AUC #Discriminative Power #Leave-One-Out #Test Weighting

2026년 4월 7일

[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code Generation

본 연구는 기존 LLM 코드 생성 및 실행 파이프라인에서 발생하는 불필요한 대기 시간을 제거하는 것을 핵심 목표로 합니다.

#Review #Parallel Execution #LLM #Code Generation #Latency #AST-based Chunking #Dynamic Batching #Error Interruption

2026년 4월 2일

[논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

본 논문은 Four-Condition Design을 통해 성능 이득을 Additive하게 분해하는 프레임워크를 제안합니다. 이 방법론은 Generator 기반 성능($x_1$), 표준 Revision($x_2$), 독립 재해결 제어($x_3$), 구조화된 Null 초안 제어($x_4$)를 비교하여 세 가지 효과를 각각 산출합니다.

#Review #Multi-LLM Pipeline #Iterative Refinement #Self-Correction #Task-Time Scaling #Code Generation #MCQ

2026년 4월 1일

[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation

본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.

#Review #Self-Distillation #Code Generation #Large Language Models #Precision-Exploration Conflict #Supervised Fine-Tuning #Temperature Scaling #Truncation

2026년 4월 1일

[논문리뷰] Think Anywhere in Code Generation

기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.

#Review #Code Generation #Large Language Models #Reasoning #Reinforcement Learning #On-demand Reasoning #Adaptive Computation

2026년 3월 31일

[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.

#Review #Multi-Agent Reinforcement Learning #Policy-Space Response Oracles #Large Language Models #Program Synthesis #Interpretable AI #Game Theory #Code Generation

2026년 3월 11일

[논문리뷰] Towards a Neural Debugger for Python

본 논문은 개발자들이 실제로 디버거를 사용하는 비순차적 상호작용 방식을 모델링하는 '신경망 디버거(neural debuggers)' 개념을 도입합니다.

#Review #Neural Debuggers #Python Execution Traces #Large Language Models (LLMs)#Markov Decision Process (MDP)#Program Understanding #Code Generation #Inverse Execution #CruxEval

2026년 3월 10일

[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.

#Review #Large Language Models (LLMs)#Code Generation #HTML #Interactive Applications #Benchmark #MINIAPPBENCH #Agentic Evaluation #MINIAPPEVAL #Real-World Principles #Human-AI Interaction

2026년 3월 10일

[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Evolution #Reinforcement Learning #Zero-Data #Multi-Agent Systems #Code Generation #Synthetic Data

2026년 3월 10일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Software Engineering #Code Maintenance #Continuous Integration #Benchmark #Code Generation #Long-term Evaluation #Technical Debt

2026년 3월 4일

[논문리뷰] Qwen3-Coder-Next Technical Report

본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.

#Review #Coding Agents #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training #Software Engineering #Reinforcement Learning #Code Generation #Tool Usage

2026년 3월 3일

[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Programming #CLI #Benchmark #Long-horizon Tasks #Code Generation #LLM Evaluation #Human-Agent Collaboration #Software Engineering

2026년 2월 24일

[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

GPU 커널 최적화의 복잡성으로 인해 기존 LLM 기반의 진화론적 접근 방식이 다단계 구조 변환 및 일시적인 구현 결함에 취약하다는 문제를 해결하는 것이 목표입니다.

#Review #LLM #GPU Kernel Optimization #Code Generation #World Model #Evolutionary Search #Program Synthesis #High-Performance Computing

2026년 2월 23일

[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.

#Review #Small Language Model #Generalist AI #Reasoning #Code Generation #Agentic Behavior #Reinforcement Learning #Tool Use #Deep Search

2026년 2월 16일

[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

본 연구는 고도로 전문화된 CUDA 커널 생성 태스크에서 diffusion large language models (dLLMs) 의 잠재력을 탐색하고, 이 분야의 고품질 학습 데이터 부족 및 dLLM의 적합성 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLM #CUDA Kernel Generation #Reinforcement Learning #Code Generation #High-Performance Computing #Bi-phase Curated RL #CuKe Dataset

2026년 2월 15일

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.

#Review #On-Policy Distillation #Reward Extrapolation #Large Language Models (LLMs)#Knowledge Distillation #Reinforcement Learning #Math Reasoning #Code Generation #Multi-teacher Distillation

2026년 2월 12일

[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Weak-Driven Learning #LLM Optimization #Post-training #Gradient Amplification #Curriculum Learning #Knowledge Distillation #Mathematical Reasoning #Code Generation

2026년 2월 9일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[논문리뷰] Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing

본 논문은 기존의 개별 에이전트 중심, 트리 구조 진화 방식이 탐색적 다양성의 비효율적인 활용과 고립된 진화 브랜치로 인한 장기적인 누적 발전의 한계를 가지는 문제를 해결하고자 합니다. 궁극적으로 인간 개입 없이 스스로 구조적 설계를 수정하여 능력을 향상시키는 오픈엔드 자가 개선 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Open-Ended Learning #Self-Improving Agents #Evolutionary Algorithms #Experience Sharing #Meta-Learning #Code Generation #Agent Frameworks

2026년 2월 8일

[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Kernel Generation #Triton #GPU Optimization #LLMs #Reward Hacking #Multi-turn Interaction #Code Generation

2026년 2월 5일

[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.

#Review #Self-Supervised Learning #Code Generation #Documentation Generation #Back-Translation #Reinforcement Learning #Large Language Models (LLMs)#Code-Documentation Alignment #Low-Resource Languages

2026년 2월 4일

[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

본 논문은 대규모 언어 모델(LLM)이 단기 작업에서 뛰어난 성능을 보임에도 불구하고, 실제와 같은 복잡한 장기 에이전트 워크플로우로 확장하는 데 필요한 고품질 훈련 데이터 부족 문제를 해결하고자 합니다.

#Review #Long-Horizon Agency #Data Synthesis #Pull Request Chains #Software Evolution #LLM Training #Agentic AI #Self-Distillation #Code Generation

2026년 2월 3일

[논문리뷰] MARS: Modular Agent with Reflective Search for Automated AI Research

본 논문은 높은 평가 비용, 불투명한 성능 귀속, 복잡한 아키텍처 등으로 인해 기존 LLM 기반 에이전트가 어려움을 겪는 자동화된 AI 연구의 한계를 해결하는 것을 목표로 합니다. 특히, 컴퓨테이션 비용을 고려하고 모듈식 코드 생성을 통해 자율적인 AI 과학 발견을 최적화하는 프레임워크를 제시합니다.

#Review #Autonomous AI #Agent Framework #Machine Learning Engineering #Monte Carlo Tree Search #Reflective Learning #Modular Programming #Code Generation #Resource Management

2026년 2월 3일

[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.

#Review #LLM #Unit Test Maintenance #Software Engineering #Code Generation #Test Repair #Test Updating #Benchmark #Mutation Testing #Code Coverage

2026년 2월 1일

[논문리뷰] OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

본 논문은 기존의 파편화된 OCR 접근법의 한계를 극복하고, 텍스트 중심(Text-centric) 및 비전 중심(Vision-centric) OCR 기능을 통합하는 최초의 엔드-투-엔드(end-to-end) 통합 OCR 방법론 인 OCRVerse를 제안합니다.

#Review #Holistic OCR #Vision-Language Models #Multi-domain Training #Text-centric OCR #Vision-centric OCR #SFT-RL #Code Generation #Document Understanding

2026년 1월 29일

[논문리뷰] Reinforcement Learning via Self-Distillation

대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.

#Review #Reinforcement Learning #Self-Distillation #Large Language Models (LLMs)#Rich Feedback #Credit Assignment #Policy Optimization #RLHF #Code Generation #Test-Time Training

2026년 1월 28일

[논문리뷰] daVinci-Dev: Agent-native Mid-training for Software Engineering

본 논문은 LLM 기반 코드 에이전트 개발에서 기존 포스트 트레이닝(SFT, RL) 방식의 한계 인 리소스 제약과 데이터 불일치를 극복하고자 합니다.

#Review #Agentic Software Engineering #Mid-training #Large Language Models #Agent-native Data #Contextual Trajectories #Environmental Trajectories #SWE-Bench Verified #Code Generation

2026년 1월 26일

[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.

#Review #Large Language Models #Code Generation #Prompt Engineering #Prompt Optimization #Empirical Study #Software Engineering #Guidelines

2026년 1월 25일

[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.

#Review #Code Diffusion Models #Large Language Models #Continual Pretraining #Code Generation #Code Editing #Masked Language Models #Code Reasoning

2026년 1월 22일

[논문리뷰] Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

기존 에이전트 기반 형식 증명 시스템의 유연성, 재현성, 확장성 한계를 해결하고자 합니다.

#Review #Agentic Systems #Formal Theorem Proving #Large Language Models (LLMs)#Lean Theorem Prover #Multi-Agent Systems #Code Generation #Automated Reasoning #Human-AI Collaboration

2026년 1월 21일

[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.

#Review #LLM-based Issue Resolution #Software Engineering #Autonomous Agents #Code Generation #Benchmarking #Reinforcement Learning #Supervised Fine-tuning #Multimodal LLMs

2026년 1월 20일

[논문리뷰] ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

기존 코드 생성 벤치마크들이 정적인 코드 로직 평가에 집중하여 실제 백엔드 개발의 동적이고 전체 프로세스 요구사항(환경 구성, 서비스 배포 등)을 간과하는 문제를 해결하고자 합니다.

#Review #Backend Development #LLM Agents #Code Generation #Benchmarking #DevOps #Containerization #End-to-End Testing #Environment Configuration

2026년 1월 19일

[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Visualization #Reinforcement Learning #Multi-Objective Optimization #GRPO #Multimodal Feedback #LLMs #Code Generation

2026년 1월 13일

[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.

#Review #Molecular Dynamics #LAMMPS #Code Generation #Knowledge Q&A #Large Language Models #Reinforcement Learning #Multi-agent System #Domain Adaptation

2026년 1월 7일

[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMs

대규모 언어 모델(LLM)의 추론 및 코드 생성 능력 평가를 위한 새롭고 다양한 벤치마크를 효율적으로 생성하는 것이 이 논문의 핵심 목표입니다.

#Review #Benchmark Synthesis #LLM Evaluation #Code Generation #Information Theory #Genetic Algorithms #Novelty Metrics #Diversity Metrics

2026년 1월 4일

[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Visual Thinking #Reinforcement Learning #Code Generation #Geometric Reasoning #Adaptive Reward Mechanism #Problem Solving

2025년 12월 31일

[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Coding Agents #Software Evolution #Benchmarking #Long-Horizon Tasks #Large Language Models (LLMs)#Software Engineering #Code Generation

2025년 12월 24일

[논문리뷰] UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models

본 연구는 대규모 언어 모델(LLMs)의 코드 생성 능력이 값비싼 감독 학습 데이터에 크게 의존하는 문제점을 해결하고자 합니다. 외부 코퍼스나 수동으로 주석 처리된 데이터 없이, 오직 사전 훈련된 지식만을 활용하여 LLM의 코드 생성 능력을 자율적으로 개선하는 비감독 학습 프레임워크를 개발하는 것이 목표입니다.

#Review #Unsupervised Learning #Code Generation #Large Language Models (LLMs)#Internal Probing #Self-Bootstrapping #Consensus Clustering #Code Intelligence

2025년 12월 22일

[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

이 논문은 기존의 LLM 기반 소프트웨어 엔지니어링 벤치마크(예: SWE-bench)가 수동 큐레이션, 정적 데이터셋, Python 버그 수정에 대한 집중, 그리고 데이터 오염 위험과 같은 한계를 가진다는 문제점을 해결하고자 합니다.

#Review #Software Engineering Benchmarks #Large Language Models (LLMs)#Code Generation #Automated Benchmark Generation #Multilingual #GitHub Pull Requests #Test Oracle #Fine-tuning

2025년 12월 21일

[논문리뷰] Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

본 논문은 대규모 언어 모델(LLM)의 과학적 일반 지능(SGI) 평가를 위한 체계적인 프레임워크와 정의가 부족하다는 문제를 해결합니다.

#Review #Scientific General Intelligence (SGI)#LLMs #Benchmarking #Scientist-Aligned Workflows #Practical Inquiry Model #Multi-modal Reasoning #Code Generation #Test-Time Reinforcement Learning (TTRL)

2025년 12월 21일

[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive Models

본 논문은 autoregressive (AR) 디코딩의 내재된 지연으로 인해 발생하는 LLM 기반 에이전트 및 추론 시스템의 효율성 문제를 해결하고자 합니다. 특히, 기존 AR 기반 드래프터의 단계별 불확실성 누적과 순차적 디코딩으로 인한 제한적인 가속화 문제를 극복하는 것을 목표로 합니다.

#Review #Speculative Decoding #Diffusion LLM #Autoregressive Model #Inference Acceleration #Model Alignment #Code Generation #Block Regeneration

2025년 12월 17일

[논문리뷰] DeepCode: Open Agentic Coding

대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Agentic Coding #LLM #Code Generation #Repository Synthesis #Information Flow Management #Code Memory #CodeRAG #Automated Verification #Scientific Reproduction

2025년 12월 9일

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Agentic Reasoning #Tool Use #Reinforcement Learning #Faithfulness Evaluation #Policy Optimization #Visual Search #Code Generation

2025년 12월 2일

[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.

#Review #Code LLMs #Software Engineering Agents #Code Generation #Reinforcement Learning #Supervised Fine-tuning #Multimodal AI #Code Safety #Scaling Laws

2025년 12월 1일

[논문리뷰] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

이 논문은 기존 LLM 기반 소프트웨어 에이전트가 고정된 설계와 값비싼 오프라인 훈련으로 인해 성능이 최적화되지 못하고 특정 벤치마크에 국한되는 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #LLM Agents #Self-Evolution #On-the-Fly Learning #Tool Creation #SWE-bench #Autonomous Systems #Code Generation

2025년 11월 17일

[논문리뷰] WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

본 논문은 기존 Vision-Language Models (VLMs) 기반의 UI-to-Code 접근 방식이 정적인 HTML/CSS 코드만 생성하고 GUI 상호작용을 지원하지 못하는 한계를 극복하고자 합니다.

#Review #UI-to-Code #Vision-Language Models #Agentic Framework #Interactive UI #Web Automation #Code Generation #UI Verification #Supervised Fine-Tuning

2025년 11월 12일

[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Small Language Models #Reasoning #Diversity Optimization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning #Code Generation

2025년 11월 11일

[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.

#Review #Reinforcement Learning with Verifiable Reward #Competitive Programming #Code Generation #Data Curation #Curriculum Learning #Supervised Fine-tuning #Entropy Expansion

2025년 11월 10일

[논문리뷰] Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

본 논문은 기존 AI Scientist 시스템의 제한된 연구 품질, 모호한 목표, 소규모 코드 실험 위주의 한계를 극복하고, 실제 과학적 가치를 창출할 수 있는 자율적인 AI 과학자 시스템을 개발하는 것을 목표로 합니다.

#Review #AI Scientist #Autonomous Research #Scientific Automation #LLM for Research #Code Generation #Experimental Design #Risk Assessment

2025년 11월 9일

[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.

#Review #Multimodal AI #Code Generation #SVG #Visual Representation #Benchmark #Large Vision-Language Models #Agentic AI #Reasoning

2025년 11월 9일

[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw

현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Evaluation #Spatial Reasoning #Benchmark #Generative AI #Visual Perception #Spatial Imagination #Code Generation

2025년 11월 9일

[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.

#Review #Agentic Coding #AI Agents #Large Language Models #GitHub Pull Requests #Software Engineering #Empirical Study #Code Generation #Software Development

2025년 9월 25일

[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.

#Review #AI Agents #Software Engineering #LLMs #Code Generation #Benchmark #Contamination Resistance #Long-Horizon Tasks #Enterprise Software

2025년 9월 23일

[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.

#Review #Code Generation #LLMs #Repository Planning #Graph-based Representation #Software Engineering #Agent Frameworks #Scalable Codebase

2025년 9월 22일

[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Tool-Integrated Reasoning #Reinforcement Learning #Hierarchical Optimization #Self-Correction #Large Language Models #Code Generation

2025년 9월 18일

[논문리뷰] Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

본 논문은 Code Language Models (CLMs) 에서 발생하는 민감한 훈련 데이터의 의도치 않은 기억(memorization) 문제를 해결하고자 합니다.

#Review #Code Language Models #Machine Unlearning #Sensitive Memorization #Privacy #Gradient Ascent #Model Utility #Code Generation

2025년 9월 18일

[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Trajectory-aware RL #Value Model #Masked Diffusion Models #Large Language Models #Reasoning Tasks #Code Generation

2025년 9월 9일

[논문리뷰] Universal Deep Research: Bring Your Own Model and Strategy

이 논문은 기존의 심층 연구 도구(DRT)들이 고정된 연구 전략과 제한적인 모델 선택으로 인해 사용자 정의가 어렵고 특정 산업에 특화된 연구 전략을 구축하기 어렵다는 문제를 제기합니다.

#Review #Agentic Systems #Language Models (LLMs)#Research Automation #Customizable Strategies #Code Generation #Deep Research #User-Defined Agents #Sandboxed Execution

2025년 9월 3일

[논문리뷰] Thyme: Think Beyond Images

본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Code Generation #Image Processing #Reinforcement Learning #Supervised Fine-Tuning #Visual Reasoning #Sandbox

2025년 8월 18일

[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.

#Review #Multimodal LLM #Code Generation #Model Merging #Task Vectors #Vision-Language Model #Coding LLM #Instruction Tuning #Benchmark

2025년 8월 14일

[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.

#Review #Reasoning LLMs #Reinforcement Learning #PPO #Gradient Clipping #Supervised Fine-tuning #Math Reasoning #Code Generation #Policy Optimization

2025년 8월 12일

[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.

#Review #Large Language Model #Mixture-of-Experts #Agentic AI #Reasoning #Code Generation #Reinforcement Learning #Foundation Model

2025년 8월 11일

[논문리뷰] CoAct-1: Computer-using Agents with Coding as Actions

이 논문은 복잡하고 장기적인 컴퓨터 사용 태스크에서 GUI(Graphical User Interface) 기반 자율 에이전트의 효율성과 신뢰성 문제를 해결하는 것을 목표로 합니다.

#Review #AI Agent #Multi-agent System #GUI Automation #Programmatic Control #Code Generation #OSWorld Benchmark #Hybrid AI

2025년 8월 8일

[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 웹페이지 디자인을 코드로 변환하는 과정에서 레이아웃을 정확하게 유지하지 못하는 문제 를 해결하고자 합니다. 특히 복잡한 레이아웃을 가진 실제 웹페이지 디자인의 경우 MLLM의 한계로 인해 레이아웃 정보가 손실되는 문제를 개선하는 것이 주된 목표입니다.

#Review #Design-to-Code #Webpage Generation #Multimodal Large Language Models (MLLMs)#Layout Preservation #Chain-of-Thought (CoT)#UI Automation #Code Generation

2025년 8월 7일

[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

본 논문은 이산 상태 확산 모델(discrete-state diffusion models)의 고질적인 문제인 토큰-순서 모델링의 유도 편향 과 추론 비효율성 을 해결하여, 코드 생성 대규모 언어 모델(LLM)의 추론 속도를 혁신적으로 향상시키면서도 경쟁력 있는 품질을 유지하는 것을 목표로 합니다.

#Review #Diffusion Models #Language Models #Code Generation #Non-Autoregressive Inference #High-Speed Inference #Discrete Diffusion #LLM Inference

2025년 8월 6일

[논문리뷰] CellForge: Agentic Design of Virtual Cell Models

본 논문은 복잡한 생물학적 시스템, 이질적인 데이터 양식, 그리고 다학제적 전문 지식의 필요성으로 인해 어려움을 겪는 가상 세포 모델의 자율적인 구축 문제를 해결하고자 합니다.

#Review #AI Scientist #Multi-Agent System #Virtual Cell Modeling #Single-Cell Perturbation Prediction #Deep Learning #Automated Model Design #Code Generation #Retrieval-Augmented Generation

2025년 8월 5일

[논문리뷰] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

본 논문은 프로그램이 생성하는 풍부한 시각적 출력까지 포함하여 텍스트 기반 소스 코드 를 넘어 확장되는 신경 코드 인텔리전스 의 범위를 다루는 것을 목표로 합니다. 특히, 시각적 내용 생성, 편집 및 해석을 위한 통합된 시각-프로그래밍 인터페이스 를 구축하여 멀티모달 코드 인텔리전스 를 발전시키는 데 중점을 둡니다.

#Review #Multimodal Code Intelligence #Visual-Programmatic Interface #Code Generation #Data Synthesis #Large Language Models #Visualizations #Web UI #Animation

2025년 10월 30일

[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding Agents

본 논문은 기존 시각화 코드 생성 연구의 한계, 즉 단일 언어 및 단일 라운드 생성에 대한 편향을 해결하고, 다국어 환경에서 신뢰성 있는 시각화 코드를 생성하며 스스로 오류를 수정 할 수 있는 AI 에이전트 구축을 목표로 합니다.

#Review #Multi-Language Visualization #Code Generation #Self-Debugging #Instruction Tuning #Large Language Models #Visualization Benchmark #Coding Agents #Code-Feedback

2025년 10월 29일

[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Best-of-N Sampling #Max@k Optimization #Policy Gradients #Off-policy Learning #Code Generation

2025년 10월 28일

[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.

#Review #LLM Evaluation #Reward Hacking #Benchmark Reliability #Test Exploitation #Prompt Engineering #LLM Safety #Code Generation

2025년 10월 24일

[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models

기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.

#Review #Chart-to-Code #Multimodal Models #Hierarchical Benchmark #Chart Understanding #Code Generation #Evaluation Metrics #Benchmarking

2025년 10월 23일

[논문리뷰] FinSight: Towards Real-World Financial Deep Research

본 논문은 기존 AI 시스템이 완전 자동화하기 어려웠던 전문 금융 보고서 생성의 문제를 해결하는 것을 목표로 합니다. 특히, 노동 집약적이고 지적인 노력이 많이 드는 금융 리서치 보고서 작업을 사람 전문가 수준으로 수행할 수 있는 고품질의 멀티모달 금융 보고서 를 생성하는 프레임워크 FinSight 를 제안합니다.

#Review #Financial Research #Multi-Agent System #Code Generation #Multimodal Reports #Iterative Visualization #Variable Memory #Deep Learning

2025년 10월 23일

[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.

#Review #Code Generation #Human Preference #LLM Evaluation #Execution Feedback #Benchmarking #Crowdsourcing #Software Engineering #Large Language Models

2025년 10월 13일

[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.

#Review #Large Reasoning Models #Optimization Modeling #Reflective Generation #Supervised Fine-tuning #Reinforcement Learning #Human-in-the-Loop #Code Generation #Domain Adaptation

2025년 10월 9일

[논문리뷰] VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation

본 논문은 자율 AI 에이전트, 특히 LLM 기반 에이전트의 배포로 인해 발생하는 안전, 보안, 프라이버시 위험을 해결하고자 합니다.

#Review #LLM Agents #Safety #Formal Verification #Code Generation #Runtime Monitoring #Security #Guardrails #Policy Enforcement

2025년 10월 8일

[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

본 논문은 LLM의 추론 능력 향상을 위해 기존 자연어 기반 CoT(Chain-of-Thought) 방식의 검증 불가능성, 확장성 한계, 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Code-Assisted Reasoning #Chain-of-Thought (CoT)#Instruction Tuning #Data Augmentation #LLMs #Mathematical Reasoning #Self-Verification #Code Generation

2025년 10월 8일

[논문리뷰] CoDA: Coding LM via Diffusion Adaptation

논문은 AR(Autoregressive) 코드 생성 모델의 한계점, 즉 순차적 오류 전파, 양방향 컨텍스트 활용의 어려움, 코드 채우기(infilling) 기능의 부족을 해결하고자 합니다.

#Review #Diffusion Language Models #Code Generation #Bidirectional Decoding #Text Infilling #Instruction Tuning #Lightweight Models #TPU Training

2025년 10월 8일

[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern

본 논문은 확산형 대규모 언어 모델(dLLM)을 이용한 단위 테스트 생성(UTG) 과정에서 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Unit Test Generation #Acceleration #Repetitive Patterns #Abstract Syntax Tree #Software Testing #Code Generation

2025년 10월 6일

[논문리뷰] CoDA: Agentic Systems for Collaborative Data Visualization

본 논문은 복잡한 데이터셋, 반복적인 개선, 코드 오류 및 최종 시각화 품질 문제로 인해 기존 시스템이 어려움을 겪는 자연어 기반 데이터 시각화 자동화의 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Data Visualization #LLM #Automation #Self-reflection #Code Generation #Natural Language to Visualization

2025년 10월 6일

[논문리뷰] Code2Video: A Code-centric Paradigm for Educational Video Generation

최근 픽셀 기반 생성 모델들은 전문적인 교육용 비디오 제작에 어려움을 겪습니다. 특히 학문적 지식, 정밀한 시각 구조, 일관된 전환이 필요한데, Code2Video는 이러한 한계를 극복하기 위해 실행 가능한 Python 코드 를 활용한 코드 중심의 에이전트 프레임워크를 제안합니다.

#Review #Educational Video Generation #Code-centric AI #Multi-agent Framework #Manim #Vision-Language Models #Knowledge Transfer #Code Generation #MMMC Benchmark

2025년 10월 2일