[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.#Review#Large Language Models#Code Generation#Prompt Engineering#Prompt Optimization#Empirical Study#Software Engineering#Guidelines2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.#Review#Reinforcement Learning#Procedural Generation#Terminal Agents#Environment Scaling#Language Models (LLMs)#PPO#Task Generation#Automated Verification2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.#Review#Academic Rebuttal#Theory of Mind#Large Language Models#Strategic Persuasion#Reinforcement Learning#Self-Reward#Dataset Synthesis#Automated Evaluation2026년 1월 25일댓글 수 로딩 중
[논문리뷰] DSGym: A Holistic Framework for Evaluating and Training Data Science Agents기존 데이터 사이언스 LLM 벤치마크의 단편적인 평가 인터페이스 , 좁은 태스크 커버리지 , 그리고 데이터 의존성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 실제 데이터를 사용하지 않고도 해결 가능한 '지름길' 문제들을 제거하여 데이터에 기반한 진정한 추론 능력 을 평가하고자 합니다.#Review#Data Science Agents#LLM Evaluation#Benchmark Framework#Execution-Grounded Training#Bioinformatics#Kaggle#Shortcut Filtering#Synthetic Data2026년 1월 25일댓글 수 로딩 중
[논문리뷰] VideoMaMa: Mask-Guided Video Matting via Generative Prior논문은 비디오 매팅 모델이 실제 세계 비디오에 효과적으로 일반화되지 못하는 문제, 즉 레이블링된 데이터의 희소성과 합성 비디오와 실제 비디오 간의 도메인 간극을 해결하는 것을 목표로 합니다.#Review#Video Matting#Diffusion Models#Generative Priors#Mask-Guided#Pseudo-labeling#Large-scale Dataset#Zero-shot Generalization2026년 1월 22일댓글 수 로딩 중
[논문리뷰] VIOLA: Towards Video In-Context Learning with Minimal Annotations본 논문은 레이블링된 데이터가 부족한 새로운 비디오 도메인에서 Multimodal Large Language Models (MLLMs) 의 일반화 능력을 향상시키는 것을 목표로 합니다.#Review#Video In-Context Learning#Minimal Annotation#Active Learning#Pseudo-Labeling#Multimodal LLMs#Density-Uncertainty Sampling#Confidence-Aware Retrieval#Low-Resource Adaptation2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.#Review#Large Language Models#Kernel Generation#GPU Optimization#AI Agents#Code Synthesis#Performance Engineering#Hardware Acceleration2026년 1월 22일댓글 수 로딩 중
[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.#Review#Diffusion Language Models#Reasoning#Reinforcement Learning#Autoregressive Models#Generation Order#Entropy Degradation#Pass@k#GRPO2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.#Review#AI Agents#LLM Evaluation#Benchmarking#Command Line Interface#Software Engineering#Realistic Tasks#Error Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.#Review#Code Diffusion Models#Large Language Models#Continual Pretraining#Code Generation#Code Editing#Masked Language Models#Code Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders본 논문은 기존 변형 오토인코더(VAE) 의 저차원 잠재 공간이 대규모 텍스트-이미지(T2I) 생성 모델에서 가질 수 있는 한계를 극복하고자 합니다.#Review#Text-to-Image Generation#Diffusion Models#Representation Autoencoder#Latent Space#Large-Scale Models#Unified Models#Noise Scheduling2026년 1월 22일댓글 수 로딩 중
[논문리뷰] SAMTok: Representing Any Mask with Two Words본 논문은 픽셀 단위의 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 인코더, 전용 디코더, 비호환적인 훈련 목표로 인해 확장성 문제를 겪는 점을 해결하고자 합니다.#Review#Mask Tokenization#Multimodal LLMs#Pixel-wise Vision-Language#Reinforcement Learning#Segmentation Anything Model#Discrete Representation2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Qwen3-TTS Technical Report본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multilingual#Voice Cloning#Controllable Speech#Streaming#Speech Tokenization#Language Models#Low-latency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.#Review#Unified Visual Encoder#Image Understanding#Image Generation#VAE#Vision Transformer#Multimodal Learning#Reconstruction#Contrastive Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Numba-Accelerated 2D Diffusion-Limited Aggregation: Implementation and Fractal Characterization본 연구는 고성능 Numba-가속화 Python 프레임워크(dla-ideal-solver) 를 개발하여 2차원 확산-제한 응집(DLA) 시뮬레이션의 계산 처리량을 개선하는 것을 목표로 합니다.#Review#Diffusion-Limited Aggregation#Fractal Dimension#Numba#JIT Compilation#Monte Carlo Simulation#Pattern Formation#Laplacian Growth#Non-equilibrium Statistical Mechanics2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Learning to Discover at Test Time본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.#Review#Test-Time Training#Reinforcement Learning#Scientific Discovery#LLM Optimization#GPU Kernel Engineering#Algorithm Design#Single-Cell Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.#Review#LLM-in-Sandbox#Agentic Intelligence#Code Sandbox#Reinforcement Learning#Generalization#Tool Use#Multi-Modal Generation#Long-Context Processing2026년 1월 22일댓글 수 로딩 중
[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.#Review#Streaming Video Understanding#KV Cache Management#Hierarchical Memory#MLLMs#Low Latency#Training-free#Memory Efficiency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.#Review#Computer Use Agent#Synthetic Experience#Evolutionary Learning#Reinforcement Learning#Direct Preference Optimization#GUI Automation#Scalable Infrastructure#Verifiable Synthesis2026년 1월 22일댓글 수 로딩 중