[논문리뷰] From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements본 논문은 현재의 코딩 에이전트가 웹 애플리케이션 생성 시 겪는 70% 이상의 기능적 요구사항 미충족 문제를 해결하는 것을 목표로 합니다. 기존의 에이전트는 코드 파일이나 터미널 출력만을 기반으로 검증을 수행하지만, 웹 애플리케이션의 정확성은 브라우저 환경에서의 동적 상호작용을 통해서만 평가될 수 있습니다 .#Review#Multi-Agent System#Test-Driven Development#Web Development#Code Generation#Closed-Loop Validation#Large Language Model2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 .#Review#Large Language Models#Competitive Programming#Agentic Evolution#Reinforcement Learning#Knowledge Network#Code Generation#Multi-Agent System2026년 5월 17일댓글 수 로딩 중
[논문리뷰] PlayCoder: Making LLM-Generated GUI Code Playable본 논문은 GUI 행동의 정확성을 검증하고 이를 기반으로 코드를 반복적으로 수정하는 다중 에이전트 프레임워크인 PlayCoder를 제안합니다 . PlayDeveloper는 리포지토리 문맥을 활용하여 초기 코드를 생성하고, PlayTester는 GUI를 직접 실행하며 시각적/기능적 결함을 진단합니다.#Review#Large Language Model#Code Generation#Multi-Agent#GUI Applications#Automated Program Repair2026년 4월 21일댓글 수 로딩 중
[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .#Review#QuantCode-Bench#Large Language Models#Algorithmic Trading#Backtrader#Code Generation#Agentic Workflow#Domain-Specific Benchmarking2026년 4월 19일댓글 수 로딩 중
[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code Generation본 연구는 기존 LLM 코드 생성 및 실행 파이프라인에서 발생하는 불필요한 대기 시간을 제거하는 것을 핵심 목표로 합니다.#Review#Parallel Execution#LLM#Code Generation#Latency#AST-based Chunking#Dynamic Batching#Error Interruption2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines본 논문은 Four-Condition Design을 통해 성능 이득을 Additive하게 분해하는 프레임워크를 제안합니다. 이 방법론은 Generator 기반 성능($x_1$), 표준 Revision($x_2$), 독립 재해결 제어($x_3$), 구조화된 Null 초안 제어($x_4$)를 비교하여 세 가지 효과를 각각 산출합니다.#Review#Multi-LLM Pipeline#Iterative Refinement#Self-Correction#Task-Time Scaling#Code Generation#MCQ2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.#Review#Self-Distillation#Code Generation#Large Language Models#Precision-Exploration Conflict#Supervised Fine-Tuning#Temperature Scaling#Truncation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Think Anywhere in Code Generation기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.#Review#Code Generation#Large Language Models#Reasoning#Reinforcement Learning#On-demand Reasoning#Adaptive Computation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.#Review#Multi-Agent Reinforcement Learning#Policy-Space Response Oracles#Large Language Models#Program Synthesis#Interpretable AI#Game Theory#Code Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Towards a Neural Debugger for Python본 논문은 개발자들이 실제로 디버거를 사용하는 비순차적 상호작용 방식을 모델링하는 '신경망 디버거(neural debuggers)' 개념을 도입합니다.#Review#Neural Debuggers#Python Execution Traces#Large Language Models (LLMs)#Markov Decision Process (MDP)#Program Understanding#Code Generation#Inverse Execution#CruxEval2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.#Review#Large Language Models (LLMs)#Code Generation#HTML#Interactive Applications#Benchmark#MINIAPPBENCH#Agentic Evaluation#MINIAPPEVAL#Real-World Principles#Human-AI Interaction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.#Review#Vision-Language Models#Self-Evolution#Reinforcement Learning#Zero-Data#Multi-Agent Systems#Code Generation#Synthetic Data2026년 3월 10일댓글 수 로딩 중
[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.#Review#Text-to-Image Generation#Chain-of-Thought#Code Generation#Multimodal Large Language Models#Structured Image Synthesis#Draft-Guided Refinement#Visual Reasoning2026년 3월 9일댓글 수 로딩 중
[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.#Review#LLM Agents#Software Engineering#Code Maintenance#Continuous Integration#Benchmark#Code Generation#Long-term Evaluation#Technical Debt2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Qwen3-Coder-Next Technical Report본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.#Review#Coding Agents#Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training#Software Engineering#Reinforcement Learning#Code Generation#Tool Usage2026년 3월 3일댓글 수 로딩 중
[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.#Review#Agentic Programming#CLI#Benchmark#Long-horizon Tasks#Code Generation#LLM Evaluation#Human-Agent Collaboration#Software Engineering2026년 2월 24일댓글 수 로딩 중
[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World ModelGPU 커널 최적화의 복잡성으로 인해 기존 LLM 기반의 진화론적 접근 방식이 다단계 구조 변환 및 일시적인 구현 결함에 취약하다는 문제를 해결하는 것이 목표입니다.#Review#LLM#GPU Kernel Optimization#Code Generation#World Model#Evolutionary Search#Program Synthesis#High-Performance Computing2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.#Review#Small Language Model#Generalist AI#Reasoning#Code Generation#Agentic Behavior#Reinforcement Learning#Tool Use#Deep Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels본 연구는 고도로 전문화된 CUDA 커널 생성 태스크에서 diffusion large language models (dLLMs) 의 잠재력을 탐색하고, 이 분야의 고품질 학습 데이터 부족 및 dLLM의 적합성 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLM#CUDA Kernel Generation#Reinforcement Learning#Code Generation#High-Performance Computing#Bi-phase Curated RL#CuKe Dataset2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.#Review#On-Policy Distillation#Reward Extrapolation#Large Language Models (LLMs)#Knowledge Distillation#Reinforcement Learning#Math Reasoning#Code Generation#Multi-teacher Distillation2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Weak-Driven Learning#LLM Optimization#Post-training#Gradient Amplification#Curriculum Learning#Knowledge Distillation#Mathematical Reasoning#Code Generation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.#Review#AI Research Agents#LLM Agents#Machine Learning Benchmarks#Scientific Discovery#Code Generation#Evaluation Metrics#Scaffolds#Reproducibility2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing본 논문은 기존의 개별 에이전트 중심, 트리 구조 진화 방식이 탐색적 다양성의 비효율적인 활용과 고립된 진화 브랜치로 인한 장기적인 누적 발전의 한계를 가지는 문제를 해결하고자 합니다. 궁극적으로 인간 개입 없이 스스로 구조적 설계를 수정하여 능력을 향상시키는 오픈엔드 자가 개선 에이전트 를 개발하는 것을 목표로 합니다.#Review#Open-Ended Learning#Self-Improving Agents#Evolutionary Algorithms#Experience Sharing#Meta-Learning#Code Generation#Agent Frameworks2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.#Review#Self-Supervised Learning#Code Generation#Documentation Generation#Back-Translation#Reinforcement Learning#Large Language Models (LLMs)#Code-Documentation Alignment#Low-Resource Languages2026년 2월 4일댓글 수 로딩 중
[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently본 논문은 대규모 언어 모델(LLM)이 단기 작업에서 뛰어난 성능을 보임에도 불구하고, 실제와 같은 복잡한 장기 에이전트 워크플로우로 확장하는 데 필요한 고품질 훈련 데이터 부족 문제를 해결하고자 합니다.#Review#Long-Horizon Agency#Data Synthesis#Pull Request Chains#Software Evolution#LLM Training#Agentic AI#Self-Distillation#Code Generation2026년 2월 3일댓글 수 로딩 중
[논문리뷰] MARS: Modular Agent with Reflective Search for Automated AI Research본 논문은 높은 평가 비용, 불투명한 성능 귀속, 복잡한 아키텍처 등으로 인해 기존 LLM 기반 에이전트가 어려움을 겪는 자동화된 AI 연구의 한계를 해결하는 것을 목표로 합니다. 특히, 컴퓨테이션 비용을 고려하고 모듈식 코드 생성을 통해 자율적인 AI 과학 발견을 최적화하는 프레임워크를 제시합니다.#Review#Autonomous AI#Agent Framework#Machine Learning Engineering#Monte Carlo Tree Search#Reflective Learning#Modular Programming#Code Generation#Resource Management2026년 2월 3일댓글 수 로딩 중
[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.#Review#LLM#Unit Test Maintenance#Software Engineering#Code Generation#Test Repair#Test Updating#Benchmark#Mutation Testing#Code Coverage2026년 2월 1일댓글 수 로딩 중
[논문리뷰] OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models본 논문은 기존의 파편화된 OCR 접근법의 한계를 극복하고, 텍스트 중심(Text-centric) 및 비전 중심(Vision-centric) OCR 기능을 통합하는 최초의 엔드-투-엔드(end-to-end) 통합 OCR 방법론 인 OCRVerse를 제안합니다.#Review#Holistic OCR#Vision-Language Models#Multi-domain Training#Text-centric OCR#Vision-centric OCR#SFT-RL#Code Generation#Document Understanding2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning via Self-Distillation대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.#Review#Reinforcement Learning#Self-Distillation#Large Language Models (LLMs)#Rich Feedback#Credit Assignment#Policy Optimization#RLHF#Code Generation#Test-Time Training2026년 1월 28일댓글 수 로딩 중
[논문리뷰] daVinci-Dev: Agent-native Mid-training for Software Engineering본 논문은 LLM 기반 코드 에이전트 개발에서 기존 포스트 트레이닝(SFT, RL) 방식의 한계 인 리소스 제약과 데이터 불일치를 극복하고자 합니다.#Review#Agentic Software Engineering#Mid-training#Large Language Models#Agent-native Data#Contextual Trajectories#Environmental Trajectories#SWE-Bench Verified#Code Generation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.#Review#Large Language Models#Code Generation#Prompt Engineering#Prompt Optimization#Empirical Study#Software Engineering#Guidelines2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.#Review#Code Diffusion Models#Large Language Models#Continual Pretraining#Code Generation#Code Editing#Masked Language Models#Code Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics기존 에이전트 기반 형식 증명 시스템의 유연성, 재현성, 확장성 한계를 해결하고자 합니다.#Review#Agentic Systems#Formal Theorem Proving#Large Language Models (LLMs)#Lean Theorem Prover#Multi-Agent Systems#Code Generation#Automated Reasoning#Human-AI Collaboration2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.#Review#LLM-based Issue Resolution#Software Engineering#Autonomous Agents#Code Generation#Benchmarking#Reinforcement Learning#Supervised Fine-tuning#Multimodal LLMs2026년 1월 20일댓글 수 로딩 중
[논문리뷰] ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development기존 코드 생성 벤치마크들이 정적인 코드 로직 평가에 집중하여 실제 백엔드 개발의 동적이고 전체 프로세스 요구사항(환경 구성, 서비스 배포 등)을 간과하는 문제를 해결하고자 합니다.#Review#Backend Development#LLM Agents#Code Generation#Benchmarking#DevOps#Containerization#End-to-End Testing#Environment Configuration2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Text-to-Visualization#Reinforcement Learning#Multi-Objective Optimization#GRPO#Multimodal Feedback#LLMs#Code Generation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.#Review#Molecular Dynamics#LAMMPS#Code Generation#Knowledge Q&A#Large Language Models#Reinforcement Learning#Multi-agent System#Domain Adaptation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMs대규모 언어 모델(LLM)의 추론 및 코드 생성 능력 평가를 위한 새롭고 다양한 벤치마크를 효율적으로 생성하는 것이 이 논문의 핵심 목표입니다.#Review#Benchmark Synthesis#LLM Evaluation#Code Generation#Information Theory#Genetic Algorithms#Novelty Metrics#Diversity Metrics2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Visual Thinking#Reinforcement Learning#Code Generation#Geometric Reasoning#Adaptive Reward Mechanism#Problem Solving2025년 12월 31일댓글 수 로딩 중
[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Coding Agents#Software Evolution#Benchmarking#Long-Horizon Tasks#Large Language Models (LLMs)#Software Engineering#Code Generation2025년 12월 24일댓글 수 로딩 중
[논문리뷰] UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models본 연구는 대규모 언어 모델(LLMs)의 코드 생성 능력이 값비싼 감독 학습 데이터에 크게 의존하는 문제점을 해결하고자 합니다. 외부 코퍼스나 수동으로 주석 처리된 데이터 없이, 오직 사전 훈련된 지식만을 활용하여 LLM의 코드 생성 능력을 자율적으로 개선하는 비감독 학습 프레임워크를 개발하는 것이 목표입니다.#Review#Unsupervised Learning#Code Generation#Large Language Models (LLMs)#Internal Probing#Self-Bootstrapping#Consensus Clustering#Code Intelligence2025년 12월 22일댓글 수 로딩 중
[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories이 논문은 기존의 LLM 기반 소프트웨어 엔지니어링 벤치마크(예: SWE-bench)가 수동 큐레이션, 정적 데이터셋, Python 버그 수정에 대한 집중, 그리고 데이터 오염 위험과 같은 한계를 가진다는 문제점을 해결하고자 합니다.#Review#Software Engineering Benchmarks#Large Language Models (LLMs)#Code Generation#Automated Benchmark Generation#Multilingual#GitHub Pull Requests#Test Oracle#Fine-tuning2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows본 논문은 대규모 언어 모델(LLM)의 과학적 일반 지능(SGI) 평가를 위한 체계적인 프레임워크와 정의가 부족하다는 문제를 해결합니다.#Review#Scientific General Intelligence (SGI)#LLMs#Benchmarking#Scientist-Aligned Workflows#Practical Inquiry Model#Multi-modal Reasoning#Code Generation#Test-Time Reinforcement Learning (TTRL)2025년 12월 21일댓글 수 로딩 중
[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive Models본 논문은 autoregressive (AR) 디코딩의 내재된 지연으로 인해 발생하는 LLM 기반 에이전트 및 추론 시스템의 효율성 문제를 해결하고자 합니다. 특히, 기존 AR 기반 드래프터의 단계별 불확실성 누적과 순차적 디코딩으로 인한 제한적인 가속화 문제를 극복하는 것을 목표로 합니다.#Review#Speculative Decoding#Diffusion LLM#Autoregressive Model#Inference Acceleration#Model Alignment#Code Generation#Block Regeneration2025년 12월 17일댓글 수 로딩 중
[논문리뷰] DeepCode: Open Agentic Coding대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Agentic Coding#LLM#Code Generation#Repository Synthesis#Information Flow Management#Code Memory#CodeRAG#Automated Verification#Scientific Reproduction2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Agentic Reasoning#Tool Use#Reinforcement Learning#Faithfulness Evaluation#Policy Optimization#Visual Search#Code Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.#Review#Code LLMs#Software Engineering Agents#Code Generation#Reinforcement Learning#Supervised Fine-tuning#Multimodal AI#Code Safety#Scaling Laws2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?이 논문은 기존 LLM 기반 소프트웨어 에이전트가 고정된 설계와 값비싼 오프라인 훈련으로 인해 성능이 최적화되지 못하고 특정 벤치마크에 국한되는 한계를 해결하고자 합니다.#Review#Software Engineering Agents#LLM Agents#Self-Evolution#On-the-Fly Learning#Tool Creation#SWE-bench#Autonomous Systems#Code Generation2025년 11월 17일댓글 수 로딩 중
[논문리뷰] WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation본 논문은 기존 Vision-Language Models (VLMs) 기반의 UI-to-Code 접근 방식이 정적인 HTML/CSS 코드만 생성하고 GUI 상호작용을 지원하지 못하는 한계를 극복하고자 합니다.#Review#UI-to-Code#Vision-Language Models#Agentic Framework#Interactive UI#Web Automation#Code Generation#UI Verification#Supervised Fine-Tuning2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Small Language Models#Reasoning#Diversity Optimization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning#Code Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.#Review#Reinforcement Learning with Verifiable Reward#Competitive Programming#Code Generation#Data Curation#Curriculum Learning#Supervised Fine-tuning#Entropy Expansion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper본 논문은 기존 AI Scientist 시스템의 제한된 연구 품질, 모호한 목표, 소규모 코드 실험 위주의 한계를 극복하고, 실제 과학적 가치를 창출할 수 있는 자율적인 AI 과학자 시스템을 개발하는 것을 목표로 합니다.#Review#AI Scientist#Autonomous Research#Scientific Automation#LLM for Research#Code Generation#Experimental Design#Risk Assessment2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.#Review#Multimodal AI#Code Generation#SVG#Visual Representation#Benchmark#Large Vision-Language Models#Agentic AI#Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.#Review#Agentic Coding#AI Agents#Large Language Models#GitHub Pull Requests#Software Engineering#Empirical Study#Code Generation#Software Development2025년 9월 25일댓글 수 로딩 중
[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.#Review#AI Agents#Software Engineering#LLMs#Code Generation#Benchmark#Contamination Resistance#Long-Horizon Tasks#Enterprise Software2025년 9월 23일댓글 수 로딩 중
[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.#Review#Code Generation#LLMs#Repository Planning#Graph-based Representation#Software Engineering#Agent Frameworks#Scalable Codebase2025년 9월 22일댓글 수 로딩 중
[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Tool-Integrated Reasoning#Reinforcement Learning#Hierarchical Optimization#Self-Correction#Large Language Models#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning본 논문은 Code Language Models (CLMs) 에서 발생하는 민감한 훈련 데이터의 의도치 않은 기억(memorization) 문제를 해결하고자 합니다.#Review#Code Language Models#Machine Unlearning#Sensitive Memorization#Privacy#Gradient Ascent#Model Utility#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.#Review#Diffusion Language Models#Reinforcement Learning#Trajectory-aware RL#Value Model#Masked Diffusion Models#Large Language Models#Reasoning Tasks#Code Generation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Universal Deep Research: Bring Your Own Model and Strategy이 논문은 기존의 심층 연구 도구(DRT)들이 고정된 연구 전략과 제한적인 모델 선택으로 인해 사용자 정의가 어렵고 특정 산업에 특화된 연구 전략을 구축하기 어렵다는 문제를 제기합니다.#Review#Agentic Systems#Language Models (LLMs)#Research Automation#Customizable Strategies#Code Generation#Deep Research#User-Defined Agents#Sandboxed Execution2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Thyme: Think Beyond Images본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal LLMs#Code Generation#Image Processing#Reinforcement Learning#Supervised Fine-Tuning#Visual Reasoning#Sandbox2025년 8월 18일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.#Review#Reasoning LLMs#Reinforcement Learning#PPO#Gradient Clipping#Supervised Fine-tuning#Math Reasoning#Code Generation#Policy Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.#Review#Large Language Model#Mixture-of-Experts#Agentic AI#Reasoning#Code Generation#Reinforcement Learning#Foundation Model2025년 8월 11일댓글 수 로딩 중
[논문리뷰] CoAct-1: Computer-using Agents with Coding as Actions이 논문은 복잡하고 장기적인 컴퓨터 사용 태스크에서 GUI(Graphical User Interface) 기반 자율 에이전트의 효율성과 신뢰성 문제를 해결하는 것을 목표로 합니다.#Review#AI Agent#Multi-agent System#GUI Automation#Programmatic Control#Code Generation#OSWorld Benchmark#Hybrid AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-Thought본 연구는 멀티모달 대규모 언어 모델(MLLM)이 웹페이지 디자인을 코드로 변환하는 과정에서 레이아웃을 정확하게 유지하지 못하는 문제 를 해결하고자 합니다. 특히 복잡한 레이아웃을 가진 실제 웹페이지 디자인의 경우 MLLM의 한계로 인해 레이아웃 정보가 손실되는 문제를 개선하는 것이 주된 목표입니다.#Review#Design-to-Code#Webpage Generation#Multimodal Large Language Models (MLLMs)#Layout Preservation#Chain-of-Thought (CoT)#UI Automation#Code Generation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference본 논문은 이산 상태 확산 모델(discrete-state diffusion models)의 고질적인 문제인 토큰-순서 모델링의 유도 편향 과 추론 비효율성 을 해결하여, 코드 생성 대규모 언어 모델(LLM)의 추론 속도를 혁신적으로 향상시키면서도 경쟁력 있는 품질을 유지하는 것을 목표로 합니다.#Review#Diffusion Models#Language Models#Code Generation#Non-Autoregressive Inference#High-Speed Inference#Discrete Diffusion#LLM Inference2025년 8월 6일댓글 수 로딩 중
[논문리뷰] CellForge: Agentic Design of Virtual Cell Models본 논문은 복잡한 생물학적 시스템, 이질적인 데이터 양식, 그리고 다학제적 전문 지식의 필요성으로 인해 어려움을 겪는 가상 세포 모델의 자율적인 구축 문제를 해결하고자 합니다.#Review#AI Scientist#Multi-Agent System#Virtual Cell Modeling#Single-Cell Perturbation Prediction#Deep Learning#Automated Model Design#Code Generation#Retrieval-Augmented Generation2025년 8월 5일댓글 수 로딩 중
[논문리뷰] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence본 논문은 프로그램이 생성하는 풍부한 시각적 출력까지 포함하여 텍스트 기반 소스 코드 를 넘어 확장되는 신경 코드 인텔리전스 의 범위를 다루는 것을 목표로 합니다. 특히, 시각적 내용 생성, 편집 및 해석을 위한 통합된 시각-프로그래밍 인터페이스 를 구축하여 멀티모달 코드 인텔리전스 를 발전시키는 데 중점을 둡니다.#Review#Multimodal Code Intelligence#Visual-Programmatic Interface#Code Generation#Data Synthesis#Large Language Models#Visualizations#Web UI#Animation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding Agents본 논문은 기존 시각화 코드 생성 연구의 한계, 즉 단일 언어 및 단일 라운드 생성에 대한 편향을 해결하고, 다국어 환경에서 신뢰성 있는 시각화 코드를 생성하며 스스로 오류를 수정 할 수 있는 AI 에이전트 구축을 목표로 합니다.#Review#Multi-Language Visualization#Code Generation#Self-Debugging#Instruction Tuning#Large Language Models#Visualization Benchmark#Coding Agents#Code-Feedback2025년 10월 29일댓글 수 로딩 중
[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Best-of-N Sampling#Max@k Optimization#Policy Gradients#Off-policy Learning#Code Generation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.#Review#Code Generation#Human Preference#LLM Evaluation#Execution Feedback#Benchmarking#Crowdsourcing#Software Engineering#Large Language Models2025년 10월 13일댓글 수 로딩 중
[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.#Review#Large Reasoning Models#Optimization Modeling#Reflective Generation#Supervised Fine-tuning#Reinforcement Learning#Human-in-the-Loop#Code Generation#Domain Adaptation2025년 10월 9일댓글 수 로딩 중
[논문리뷰] VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation본 논문은 자율 AI 에이전트, 특히 LLM 기반 에이전트의 배포로 인해 발생하는 안전, 보안, 프라이버시 위험을 해결하고자 합니다.#Review#LLM Agents#Safety#Formal Verification#Code Generation#Runtime Monitoring#Security#Guardrails#Policy Enforcement2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning본 논문은 LLM의 추론 능력 향상을 위해 기존 자연어 기반 CoT(Chain-of-Thought) 방식의 검증 불가능성, 확장성 한계, 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Code-Assisted Reasoning#Chain-of-Thought (CoT)#Instruction Tuning#Data Augmentation#LLMs#Mathematical Reasoning#Self-Verification#Code Generation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] CoDA: Coding LM via Diffusion Adaptation논문은 AR(Autoregressive) 코드 생성 모델의 한계점, 즉 순차적 오류 전파, 양방향 컨텍스트 활용의 어려움, 코드 채우기(infilling) 기능의 부족을 해결하고자 합니다.#Review#Diffusion Language Models#Code Generation#Bidirectional Decoding#Text Infilling#Instruction Tuning#Lightweight Models#TPU Training2025년 10월 8일댓글 수 로딩 중
[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern본 논문은 확산형 대규모 언어 모델(dLLM)을 이용한 단위 테스트 생성(UTG) 과정에서 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#Unit Test Generation#Acceleration#Repetitive Patterns#Abstract Syntax Tree#Software Testing#Code Generation2025년 10월 6일댓글 수 로딩 중
[논문리뷰] CoDA: Agentic Systems for Collaborative Data Visualization본 논문은 복잡한 데이터셋, 반복적인 개선, 코드 오류 및 최종 시각화 품질 문제로 인해 기존 시스템이 어려움을 겪는 자연어 기반 데이터 시각화 자동화의 한계를 해결하는 것을 목표로 합니다.#Review#Multi-agent Systems#Data Visualization#LLM#Automation#Self-reflection#Code Generation#Natural Language to Visualization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.#Review#LLM Evaluation#Reward Hacking#Benchmark Reliability#Test Exploitation#Prompt Engineering#LLM Safety#Code Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.#Review#Chart-to-Code#Multimodal Models#Hierarchical Benchmark#Chart Understanding#Code Generation#Evaluation Metrics#Benchmarking2025년 10월 23일댓글 수 로딩 중
[논문리뷰] FinSight: Towards Real-World Financial Deep Research본 논문은 기존 AI 시스템이 완전 자동화하기 어려웠던 전문 금융 보고서 생성의 문제를 해결하는 것을 목표로 합니다. 특히, 노동 집약적이고 지적인 노력이 많이 드는 금융 리서치 보고서 작업을 사람 전문가 수준으로 수행할 수 있는 고품질의 멀티모달 금융 보고서 를 생성하는 프레임워크 FinSight 를 제안합니다.#Review#Financial Research#Multi-Agent System#Code Generation#Multimodal Reports#Iterative Visualization#Variable Memory#Deep Learning2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Code2Video: A Code-centric Paradigm for Educational Video Generation최근 픽셀 기반 생성 모델들은 전문적인 교육용 비디오 제작에 어려움을 겪습니다. 특히 학문적 지식, 정밀한 시각 구조, 일관된 전환이 필요한데, Code2Video는 이러한 한계를 극복하기 위해 실행 가능한 Python 코드 를 활용한 코드 중심의 에이전트 프레임워크를 제안합니다.#Review#Educational Video Generation#Code-centric AI#Multi-agent Framework#Manim#Vision-Language Models#Knowledge Transfer#Code Generation#MMMC Benchmark2025년 10월 2일댓글 수 로딩 중