[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code GenerationarXiv에 게시된 'Executing as You Generate: Hiding Execution Latency in LLM Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Parallel Execution#LLM#Code Generation#Latency#AST-based Chunking#Dynamic Batching#Error Interruption2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines본 논문은 Four-Condition Design을 통해 성능 이득을 Additive하게 분해하는 프레임워크를 제안합니다. 이 방법론은 Generator 기반 성능($x_1$), 표준 Revision($x_2$), 독립 재해결 제어($x_3$), 구조화된 Null 초안 제어($x_4$)를 비교하여 세 가지 효과를 각각 산출합니다.#Review#Multi-LLM Pipeline#Iterative Refinement#Self-Correction#Task-Time Scaling#Code Generation#MCQ2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code GenerationRonan Collobert이 arXiv에 게시한 'Embarrassingly Simple Self-Distillation Improves Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Self-Distillation#Code Generation#Large Language Models#Precision-Exploration Conflict#Supervised Fine-Tuning#Temperature Scaling#Truncation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Think Anywhere in Code GenerationTaozhi Chen이 arXiv에 게시한 'Think Anywhere in Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Code Generation#Large Language Models#Reasoning#Reinforcement Learning#On-demand Reasoning#Adaptive Computation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language ModelsarXiv에 게시된 'Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Agent Reinforcement Learning#Policy-Space Response Oracles#Large Language Models#Program Synthesis#Interpretable AI#Game Theory#Code Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Towards a Neural Debugger for PythonarXiv에 게시된 'Towards a Neural Debugger for Python' 논문에 대한 자세한 리뷰입니다.#Review#Neural Debuggers#Python Execution Traces#Large Language Models (LLMs)#Markov Decision Process (MDP)#Program Understanding#Code Generation#Inverse Execution#CruxEval2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered AssistantsYuante Li이 arXiv에 게시한 'MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Code Generation#HTML#Interactive Applications#Benchmark#MINIAPPBENCH#Agentic Evaluation#MINIAPPEVAL#Real-World Principles#Human-AI Interaction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero DataarXiv에 게시된 'MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Self-Evolution#Reinforcement Learning#Zero-Data#Multi-Agent Systems#Code Generation#Synthetic Data2026년 3월 10일댓글 수 로딩 중
[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept GenerationHuanyu Zhang이 arXiv에 게시한 'CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Chain-of-Thought#Code Generation#Multimodal Large Language Models#Structured Image Synthesis#Draft-Guided Refinement#Visual Reasoning2026년 3월 9일댓글 수 로딩 중
[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous IntegrationBing Zhao이 arXiv에 게시한 'SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Software Engineering#Code Maintenance#Continuous Integration#Benchmark#Code Generation#Long-term Evaluation#Technical Debt2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Qwen3-Coder-Next Technical ReportarXiv에 게시된 'Qwen3-Coder-Next Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Coding Agents#Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training#Software Engineering#Reinforcement Learning#Code Generation#Tool Usage2026년 3월 3일댓글 수 로딩 중
[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line InterfacesChuanhao Li이 arXiv에 게시한 'LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Programming#CLI#Benchmark#Long-horizon Tasks#Code Generation#LLM Evaluation#Human-Agent Collaboration#Software Engineering2026년 2월 24일댓글 수 로딩 중
[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World ModelIon Stoica이 arXiv에 게시한 'K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model' 논문에 대한 자세한 리뷰입니다.#Review#LLM#GPU Kernel Optimization#Code Generation#World Model#Evolutionary Search#Program Synthesis#High-Performance Computing2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and ActsarXiv에 게시된 'Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts' 논문에 대한 자세한 리뷰입니다.#Review#Small Language Model#Generalist AI#Reasoning#Code Generation#Agentic Behavior#Reinforcement Learning#Tool Use#Deep Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA KernelsZhiqiang Tao이 arXiv에 게시한 'DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion LLM#CUDA Kernel Generation#Reinforcement Learning#Code Generation#High-Performance Computing#Bi-phase Curated RL#CuKe Dataset2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward ExtrapolationarXiv에 게시된 'Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation' 논문에 대한 자세한 리뷰입니다.#Review#On-Policy Distillation#Reward Extrapolation#Large Language Models (LLMs)#Knowledge Distillation#Reinforcement Learning#Math Reasoning#Code Generation#Multi-teacher Distillation2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents StrongerarXiv에 게시된 'Weak-Driven Learning: How Weak Agents make Strong Agents Stronger' 논문에 대한 자세한 리뷰입니다.#Review#Weak-Driven Learning#LLM Optimization#Post-training#Gradient Amplification#Curriculum Learning#Knowledge Distillation#Mathematical Reasoning#Code Generation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science AgentsarXiv에 게시된 'AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Research Agents#LLM Agents#Machine Learning Benchmarks#Scientific Discovery#Code Generation#Evaluation Metrics#Scaffolds#Reproducibility2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Group-Evolving Agents: Open-Ended Self-Improvement via Experience SharingZhen Zhang이 arXiv에 게시한 'Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing' 논문에 대한 자세한 리뷰입니다.#Review#Open-Ended Learning#Self-Improving Agents#Evolutionary Algorithms#Experience Sharing#Meta-Learning#Code Generation#Agent Frameworks2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel GenerationsarXiv에 게시된 'Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-TranslationXiaohua Wang이 arXiv에 게시한 'BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation' 논문에 대한 자세한 리뷰입니다.#Review#Self-Supervised Learning#Code Generation#Documentation Generation#Back-Translation#Reinforcement Learning#Large Language Models (LLMs)#Code-Documentation Alignment#Low-Resource Languages2026년 2월 4일댓글 수 로딩 중
[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-EfficientlyarXiv에 게시된 'daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently' 논문에 대한 자세한 리뷰입니다.#Review#Long-Horizon Agency#Data Synthesis#Pull Request Chains#Software Evolution#LLM Training#Agentic AI#Self-Distillation#Code Generation2026년 2월 3일댓글 수 로딩 중
[논문리뷰] MARS: Modular Agent with Reflective Search for Automated AI ResearcharXiv에 게시된 'MARS: Modular Agent with Reflective Search for Automated AI Research' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous AI#Agent Framework#Machine Learning Engineering#Monte Carlo Tree Search#Reflective Learning#Modular Programming#Code Generation#Resource Management2026년 2월 3일댓글 수 로딩 중
[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test MaintenanceDaniil Grebenkin이 arXiv에 게시한 'TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Unit Test Maintenance#Software Engineering#Code Generation#Test Repair#Test Updating#Benchmark#Mutation Testing#Code Coverage2026년 2월 1일댓글 수 로딩 중
[논문리뷰] OCRVerse: Towards Holistic OCR in End-to-End Vision-Language ModelsLiming Zheng이 arXiv에 게시한 'OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Holistic OCR#Vision-Language Models#Multi-domain Training#Text-centric OCR#Vision-centric OCR#SFT-RL#Code Generation#Document Understanding2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning via Self-DistillationarXiv에 게시된 'Reinforcement Learning via Self-Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Self-Distillation#Large Language Models (LLMs)#Rich Feedback#Credit Assignment#Policy Optimization#RLHF#Code Generation#Test-Time Training2026년 1월 28일댓글 수 로딩 중
[논문리뷰] daVinci-Dev: Agent-native Mid-training for Software EngineeringarXiv에 게시된 'daVinci-Dev: Agent-native Mid-training for Software Engineering' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Software Engineering#Mid-training#Large Language Models#Agent-native Data#Contextual Trajectories#Environmental Trajectories#SWE-Bench Verified#Code Generation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical CharacterizationGabriele Bavota이 arXiv에 게시한 'Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Code Generation#Prompt Engineering#Prompt Optimization#Empirical Study#Software Engineering#Guidelines2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language ModelarXiv에 게시된 'Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Code Diffusion Models#Large Language Models#Continual Pretraining#Code Generation#Code Editing#Masked Language Models#Code Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal MathematicsarXiv에 게시된 'Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Systems#Formal Theorem Proving#Large Language Models (LLMs)#Lean Theorem Prover#Multi-Agent Systems#Code Generation#Automated Reasoning#Human-AI Collaboration2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive SurveyarXiv에 게시된 'Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey' 논문에 대한 자세한 리뷰입니다.#Review#LLM-based Issue Resolution#Software Engineering#Autonomous Agents#Code Generation#Benchmarking#Reinforcement Learning#Supervised Fine-tuning#Multimodal LLMs2026년 1월 20일댓글 수 로딩 중
[논문리뷰] ABC-Bench: Benchmarking Agentic Backend Coding in Real-World DevelopmentarXiv에 게시된 'ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development' 논문에 대한 자세한 리뷰입니다.#Review#Backend Development#LLM Agents#Code Generation#Benchmarking#DevOps#Containerization#End-to-End Testing#Environment Configuration2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-VisualizationarXiv에 게시된 'Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Visualization#Reinforcement Learning#Multi-Objective Optimization#GRPO#Multimodal Feedback#LLMs#Code Generation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular DynamicsarXiv에 게시된 'MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics' 논문에 대한 자세한 리뷰입니다.#Review#Molecular Dynamics#LAMMPS#Code Generation#Knowledge Q&A#Large Language Models#Reinforcement Learning#Multi-agent System#Domain Adaptation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] InfoSynth: Information-Guided Benchmark Synthesis for LLMsarXiv에 게시된 'InfoSynth: Information-Guided Benchmark Synthesis for LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Benchmark Synthesis#LLM Evaluation#Code Generation#Information Theory#Genetic Algorithms#Novelty Metrics#Diversity Metrics2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual ThinkingJie Zhou이 arXiv에 게시한 'Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reasoning#Visual Thinking#Reinforcement Learning#Code Generation#Geometric Reasoning#Adaptive Reward Mechanism#Problem Solving2025년 12월 31일댓글 수 로딩 중
[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution ScenariosNghi D. Q. Bui이 arXiv에 게시한 'SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Coding Agents#Software Evolution#Benchmarking#Long-Horizon Tasks#Large Language Models (LLMs)#Software Engineering#Code Generation2025년 12월 24일댓글 수 로딩 중
[논문리뷰] UCoder: Unsupervised Code Generation by Internal Probing of Large Language ModelsYuqing Ma이 arXiv에 게시한 'UCoder: Unsupervised Code Generation by Internal Probing of Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Unsupervised Learning#Code Generation#Large Language Models (LLMs)#Internal Probing#Self-Bootstrapping#Consensus Clustering#Code Intelligence2025년 12월 22일댓글 수 로딩 중
[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source RepositoriesarXiv에 게시된 'SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories' 논문에 대한 자세한 리뷰입니다.#Review#Software Engineering Benchmarks#Large Language Models (LLMs)#Code Generation#Automated Benchmark Generation#Multilingual#GitHub Pull Requests#Test Oracle#Fine-tuning2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Probing Scientific General Intelligence of LLMs with Scientist-Aligned WorkflowsYuhao Zhou이 arXiv에 게시한 'Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows' 논문에 대한 자세한 리뷰입니다.#Review#Scientific General Intelligence (SGI)#LLMs#Benchmarking#Scientist-Aligned Workflows#Practical Inquiry Model#Multi-modal Reasoning#Code Generation#Test-Time Reinforcement Learning (TTRL)2025년 12월 21일댓글 수 로딩 중
[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive ModelsZhijie Deng이 arXiv에 게시한 'DEER: Draft with Diffusion, Verify with Autoregressive Models' 논문에 대한 자세한 리뷰입니다.#Review#Speculative Decoding#Diffusion LLM#Autoregressive Model#Inference Acceleration#Model Alignment#Code Generation#Block Regeneration2025년 12월 17일댓글 수 로딩 중
[논문리뷰] DeepCode: Open Agentic CodingChao Huang이 arXiv에 게시한 'DeepCode: Open Agentic Coding' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Coding#LLM#Code Generation#Repository Synthesis#Information Flow Management#Code Memory#CodeRAG#Automated Verification#Scientific Reproduction2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with ImagesTao Jin이 arXiv에 게시한 'Thinking with Programming Vision: Towards a Unified View for Thinking with Images' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy OptimizationarXiv에 게시된 'CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Agentic Reasoning#Tool Use#Reinforcement Learning#Faithfulness Evaluation#Policy Optimization#Visual Search#Code Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code IntelligencearXiv에 게시된 'From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Code LLMs#Software Engineering Agents#Code Generation#Reinforcement Learning#Supervised Fine-tuning#Multimodal AI#Code Safety#Scaling Laws2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?Lingming Zhang이 arXiv에 게시한 'Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?' 논문에 대한 자세한 리뷰입니다.#Review#Software Engineering Agents#LLM Agents#Self-Evolution#On-the-Fly Learning#Tool Creation#SWE-bench#Autonomous Systems#Code Generation2025년 11월 17일댓글 수 로딩 중
[논문리뷰] WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code GenerationarXiv에 게시된 'WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#UI-to-Code#Vision-Language Models#Agentic Framework#Interactive UI#Web Automation#Code Generation#UI Verification#Supervised Fine-Tuning2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5BarXiv에 게시된 'Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B' 논문에 대한 자세한 리뷰입니다.#Review#Small Language Models#Reasoning#Diversity Optimization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning#Code Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code GenerationarXiv에 게시된 'DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning with Verifiable Reward#Competitive Programming#Code Generation#Data Curation#Curriculum Learning#Supervised Fine-tuning#Entropy Expansion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline PaperarXiv에 게시된 'Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper' 논문에 대한 자세한 리뷰입니다.#Review#AI Scientist#Autonomous Research#Scientific Automation#LLM for Research#Code Generation#Experimental Design#Risk Assessment2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual RepresentationarXiv에 게시된 'VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Code Generation#SVG#Visual Representation#Benchmark#Large Vision-Language Models#Agentic AI#Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them DrawarXiv에 게시된 'LTD-Bench: Evaluating Large Language Models by Letting Them Draw' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code IntelligencearXiv에 게시된 'JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Code Intelligence#Visual-Programmatic Interface#Code Generation#Data Synthesis#Large Language Models#Visualizations#Web UI#Animation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] VisCoder2: Building Multi-Language Visualization Coding AgentsarXiv에 게시된 'VisCoder2: Building Multi-Language Visualization Coding Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Language Visualization#Code Generation#Self-Debugging#Instruction Tuning#Large Language Models#Visualization Benchmark#Coding Agents#Code-Feedback2025년 10월 29일댓글 수 로딩 중
[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k OptimisationarXiv에 게시된 'The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#Best-of-N Sampling#Max@k Optimization#Policy Gradients#Off-policy Learning#Code Generation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test CasesNicholas Carlini이 arXiv에 게시한 'ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Reward Hacking#Benchmark Reliability#Test Exploitation#Prompt Engineering#LLM Safety#Code Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal ModelsDongxing Mao이 arXiv에 게시한 'From Charts to Code: A Hierarchical Benchmark for Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Chart-to-Code#Multimodal Models#Hierarchical Benchmark#Chart Understanding#Code Generation#Evaluation Metrics#Benchmarking2025년 10월 23일댓글 수 로딩 중
[논문리뷰] FinSight: Towards Real-World Financial Deep ResearchYutao Zhu이 arXiv에 게시한 'FinSight: Towards Real-World Financial Deep Research' 논문에 대한 자세한 리뷰입니다.#Review#Financial Research#Multi-Agent System#Code Generation#Multimodal Reports#Iterative Visualization#Variable Memory#Deep Learning2025년 10월 23일댓글 수 로딩 중
[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via ExecutionHange Liu이 arXiv에 게시한 'BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution' 논문에 대한 자세한 리뷰입니다.#Review#Code Generation#Human Preference#LLM Evaluation#Execution Feedback#Benchmarking#Crowdsourcing#Software Engineering#Large Language Models2025년 10월 13일댓글 수 로딩 중
[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization ModelingChengpeng Li이 arXiv에 게시한 'CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Large Reasoning Models#Optimization Modeling#Reflective Generation#Supervised Fine-tuning#Reinforcement Learning#Human-in-the-Loop#Code Generation#Domain Adaptation2025년 10월 9일댓글 수 로딩 중
[논문리뷰] VeriGuard: Enhancing LLM Agent Safety via Verified Code GenerationarXiv에 게시된 'VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Safety#Formal Verification#Code Generation#Runtime Monitoring#Security#Guardrails#Policy Enforcement2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model ReasoningZhuoshi Pan이 arXiv에 게시한 'Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Code-Assisted Reasoning#Chain-of-Thought (CoT)#Instruction Tuning#Data Augmentation#LLMs#Mathematical Reasoning#Self-Verification#Code Generation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] CoDA: Coding LM via Diffusion AdaptationarXiv에 게시된 'CoDA: Coding LM via Diffusion Adaptation' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Language Models#Code Generation#Bidirectional Decoding#Text Infilling#Instruction Tuning#Lightweight Models#TPU Training2025년 10월 8일댓글 수 로딩 중
[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive PatternJia Li이 arXiv에 게시한 'DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion LLMs#Unit Test Generation#Acceleration#Repetitive Patterns#Abstract Syntax Tree#Software Testing#Code Generation2025년 10월 6일댓글 수 로딩 중
[논문리뷰] CoDA: Agentic Systems for Collaborative Data VisualizationarXiv에 게시된 'CoDA: Agentic Systems for Collaborative Data Visualization' 논문에 대한 자세한 리뷰입니다.#Review#Multi-agent Systems#Data Visualization#LLM#Automation#Self-reflection#Code Generation#Natural Language to Visualization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Code2Video: A Code-centric Paradigm for Educational Video GenerationarXiv에 게시된 'Code2Video: A Code-centric Paradigm for Educational Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Educational Video Generation#Code-centric AI#Multi-agent Framework#Manim#Vision-Language Models#Knowledge Transfer#Code Generation#MMMC Benchmark2025년 10월 2일댓글 수 로딩 중
[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHubHajimu Iida이 arXiv에 게시한 'On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Coding#AI Agents#Large Language Models#GitHub Pull Requests#Software Engineering#Empirical Study#Code Generation#Software Development2025년 9월 25일댓글 수 로딩 중
[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?Yannis Yiming He이 arXiv에 게시한 'SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Software Engineering#LLMs#Code Generation#Benchmark#Contamination Resistance#Long-Horizon Tasks#Enterprise Software2025년 9월 23일댓글 수 로딩 중
[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase GenerationSteven Liu이 arXiv에 게시한 'RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation' 논문에 대한 자세한 리뷰입니다.#Review#Code Generation#LLMs#Repository Planning#Graph-based Representation#Software Engineering#Agent Frameworks#Scalable Codebase2025년 9월 22일댓글 수 로딩 중
[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical ReasoningYicheng Pan이 arXiv에 게시한 'THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Mathematical Reasoning#Tool-Integrated Reasoning#Reinforcement Learning#Hierarchical Optimization#Self-Correction#Large Language Models#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine UnlearningZhou Yang이 arXiv에 게시한 'Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning' 논문에 대한 자세한 리뷰입니다.#Review#Code Language Models#Machine Unlearning#Sensitive Memorization#Privacy#Gradient Ascent#Model Utility#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language ModelsKe Shen이 arXiv에 게시한 'Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Language Models#Reinforcement Learning#Trajectory-aware RL#Value Model#Masked Diffusion Models#Large Language Models#Reasoning Tasks#Code Generation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Universal Deep Research: Bring Your Own Model and StrategyPavlo Molchanov이 arXiv에 게시한 'Universal Deep Research: Bring Your Own Model and Strategy' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Systems#Language Models (LLMs)#Research Automation#Customizable Strategies#Code Generation#Deep Research#User-Defined Agents#Sandboxed Execution2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Thyme: Think Beyond ImagesWei Chen이 arXiv에 게시한 'Thyme: Think Beyond Images' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Code Generation#Image Processing#Reinforcement Learning#Supervised Fine-Tuning#Visual Reasoning#Sandbox2025년 8월 18일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding ModelsDongdong Zhang이 arXiv에 게시한 'VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy OptimizationGuanting Dong이 arXiv에 게시한 'Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Reasoning LLMs#Reinforcement Learning#PPO#Gradient Clipping#Supervised Fine-tuning#Math Reasoning#Code Generation#Policy Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation ModelsGLM-4. 5 Team이 arXiv에 게시한 'GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Model#Mixture-of-Experts#Agentic AI#Reasoning#Code Generation#Reinforcement Learning#Foundation Model2025년 8월 11일댓글 수 로딩 중
[논문리뷰] CoAct-1: Computer-using Agents with Coding as ActionsTaiwei Shi이 arXiv에 게시한 'CoAct-1: Computer-using Agents with Coding as Actions' 논문에 대한 자세한 리뷰입니다.#Review#AI Agent#Multi-agent System#GUI Automation#Programmatic Control#Code Generation#OSWorld Benchmark#Hybrid AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-ThoughtTianpeng Lv이 arXiv에 게시한 'LaTCoder: Converting Webpage Design to Code with Layout-as-Thought' 논문에 대한 자세한 리뷰입니다.#Review#Design-to-Code#Webpage Generation#Multimodal Large Language Models (MLLMs)#Layout Preservation#Chain-of-Thought (CoT)#UI Automation#Code Generation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed InferenceFan Xia이 arXiv에 게시한 'Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Language Models#Code Generation#Non-Autoregressive Inference#High-Speed Inference#Discrete Diffusion#LLM Inference2025년 8월 6일댓글 수 로딩 중
[논문리뷰] CellForge: Agentic Design of Virtual Cell ModelsDaniel Shao이 arXiv에 게시한 'CellForge: Agentic Design of Virtual Cell Models' 논문에 대한 자세한 리뷰입니다.#Review#AI Scientist#Multi-Agent System#Virtual Cell Modeling#Single-Cell Perturbation Prediction#Deep Learning#Automated Model Design#Code Generation#Retrieval-Augmented Generation2025년 8월 5일댓글 수 로딩 중