Review

[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.

#Review #Large Language Models #Code Generation #Prompt Engineering #Prompt Optimization #Empirical Study #Software Engineering #Guidelines

2026년 1월 25일

[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents

본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Procedural Generation #Terminal Agents #Environment Scaling #Language Models (LLMs)#PPO #Task Generation #Automated Verification

2026년 1월 25일

[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.

#Review #Academic Rebuttal #Theory of Mind #Large Language Models #Strategic Persuasion #Reinforcement Learning #Self-Reward #Dataset Synthesis #Automated Evaluation

2026년 1월 25일

[논문리뷰] DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

기존 데이터 사이언스 LLM 벤치마크의 단편적인 평가 인터페이스 , 좁은 태스크 커버리지 , 그리고 데이터 의존성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 실제 데이터를 사용하지 않고도 해결 가능한 '지름길' 문제들을 제거하여 데이터에 기반한 진정한 추론 능력 을 평가하고자 합니다.

#Review #Data Science Agents #LLM Evaluation #Benchmark Framework #Execution-Grounded Training #Bioinformatics #Kaggle #Shortcut Filtering #Synthetic Data

2026년 1월 25일

[논문리뷰] VideoMaMa: Mask-Guided Video Matting via Generative Prior

논문은 비디오 매팅 모델이 실제 세계 비디오에 효과적으로 일반화되지 못하는 문제, 즉 레이블링된 데이터의 희소성과 합성 비디오와 실제 비디오 간의 도메인 간극을 해결하는 것을 목표로 합니다.

#Review #Video Matting #Diffusion Models #Generative Priors #Mask-Guided #Pseudo-labeling #Large-scale Dataset #Zero-shot Generalization

2026년 1월 22일

[논문리뷰] VIOLA: Towards Video In-Context Learning with Minimal Annotations

본 논문은 레이블링된 데이터가 부족한 새로운 비디오 도메인에서 Multimodal Large Language Models (MLLMs) 의 일반화 능력을 향상시키는 것을 목표로 합니다.

#Review #Video In-Context Learning #Minimal Annotation #Active Learning #Pseudo-Labeling #Multimodal LLMs #Density-Uncertainty Sampling #Confidence-Aware Retrieval #Low-Resource Adaptation

2026년 1월 22일

[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs

본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.

#Review #Large Language Models #Kernel Generation #GPU Optimization #AI Agents #Code Synthesis #Performance Engineering #Hardware Acceleration

2026년 1월 22일

[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Reasoning #Reinforcement Learning #Autoregressive Models #Generation Order #Entropy Degradation #Pass@k #GRPO

2026년 1월 22일

[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.

#Review #AI Agents #LLM Evaluation #Benchmarking #Command Line Interface #Software Engineering #Realistic Tasks #Error Analysis

2026년 1월 22일

[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.

#Review #Code Diffusion Models #Large Language Models #Continual Pretraining #Code Generation #Code Editing #Masked Language Models #Code Reasoning

2026년 1월 22일

[논문리뷰] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

본 논문은 기존 변형 오토인코더(VAE) 의 저차원 잠재 공간이 대규모 텍스트-이미지(T2I) 생성 모델에서 가질 수 있는 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Diffusion Models #Representation Autoencoder #Latent Space #Large-Scale Models #Unified Models #Noise Scheduling

2026년 1월 22일

[논문리뷰] SAMTok: Representing Any Mask with Two Words

본 논문은 픽셀 단위의 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 인코더, 전용 디코더, 비호환적인 훈련 목표로 인해 확장성 문제를 겪는 점을 해결하고자 합니다.

#Review #Mask Tokenization #Multimodal LLMs #Pixel-wise Vision-Language #Reinforcement Learning #Segmentation Anything Model #Discrete Representation

2026년 1월 22일

[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.

#Review #Composed Image Retrieval #Fine-Grained Evaluation #Image Editing #Benchmark #Multimodal LLM #Synthetic Data #Compositional Reasoning

2026년 1월 22일

[논문리뷰] Qwen3-TTS Technical Report

본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multilingual #Voice Cloning #Controllable Speech #Streaming #Speech Tokenization #Language Models #Low-latency

2026년 1월 22일

[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.

#Review #Unified Visual Encoder #Image Understanding #Image Generation #VAE #Vision Transformer #Multimodal Learning #Reconstruction #Contrastive Learning

2026년 1월 22일

[논문리뷰] Numba-Accelerated 2D Diffusion-Limited Aggregation: Implementation and Fractal Characterization

본 연구는 고성능 Numba-가속화 Python 프레임워크(dla-ideal-solver) 를 개발하여 2차원 확산-제한 응집(DLA) 시뮬레이션의 계산 처리량을 개선하는 것을 목표로 합니다.

#Review #Diffusion-Limited Aggregation #Fractal Dimension #Numba #JIT Compilation #Monte Carlo Simulation #Pattern Formation #Laplacian Growth #Non-equilibrium Statistical Mechanics

2026년 1월 22일

[논문리뷰] Learning to Discover at Test Time

본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.

#Review #Test-Time Training #Reinforcement Learning #Scientific Discovery #LLM Optimization #GPU Kernel Engineering #Algorithm Design #Single-Cell Analysis

2026년 1월 22일

[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence

본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.

#Review #LLM-in-Sandbox #Agentic Intelligence #Code Sandbox #Reinforcement Learning #Generalization #Tool Use #Multi-Modal Generation #Long-Context Processing

2026년 1월 22일

[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #KV Cache Management #Hierarchical Memory #MLLMs #Low Latency #Training-free #Memory Efficiency

2026년 1월 22일

[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.

#Review #Computer Use Agent #Synthetic Experience #Evolutionary Learning #Reinforcement Learning #Direct Preference Optimization #GUI Automation #Scalable Infrastructure #Verifiable Synthesis

2026년 1월 22일