Review

[논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Diffusion Transformer (DiT) 모델은 최첨단 이미지 생성 품질을 제공하지만, 높은 계산 및 메모리 비용으로 인해 엣지 디바이스 에서의 배포가 비실용적인 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Transformers #Edge AI #Efficient Image Generation #Sparse Attention #Elastic Training #Knowledge Distillation #Mobile AI #High-Fidelity

2026년 1월 13일

[논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

기존 GUI 에이전트들이 주로 이산적인 클릭 예측에 의존하여 연속적이고 자유로운 형태의 드래그(예: 그림 그리기, 캡차 풀이)와 같이 즉각적인 시각적 인지와 조정이 필요한 복잡한 GUI 상호작용을 수행하기 어렵다는 문제를 해결합니다.

#Review #GUI Automation #Flow-based Generative Models #Continuous Control #Vision-Language Models #Human-Computer Interaction #ScreenDrag Benchmark #Dexterous Manipulation

2026년 1월 13일

[논문리뷰] Motion Attribution for Video Generation

본 논문은 비디오 생성 모델에서 생성된 비디오의 움직임(motion) 에 영향을 미치는 훈련 클립을 식별하는 것을 목표로 합니다.

#Review #Motion Attribution #Video Generation #Diffusion Models #Gradient-based Attribution #Temporal Dynamics #Motion Masking #Fine-tuning #Data Curation

2026년 1월 13일

[논문리뷰] Ministral 3

본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Model Distillation #Pruning #Parameter-Efficient AI #Multimodal LLMs #Instruction Tuning #Reinforcement Learning from Human Feedback #Open-Source AI

2026년 1월 13일

[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning

본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.

#Review #Executive Memory #LLM Agents #Reasoning #Context Management #Tool-Augmented Agents #Memory Management #Trajectory Folding #Preference Optimization

2026년 1월 13일

[논문리뷰] MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

자율 소프트웨어 엔지니어링(SWE) 에이전트가 GitHub와 같은 플랫폼에 축적된 방대한 인간 경험을 효과적으로 활용하지 못하는 '닫힌 세계' 한계를 해결하는 것이 목표입니다.

#Review #Code Agents #Software Engineering #Experiential Memory #GitHub Data #Experience Governance #Agentic Search #LLM Applications #Bug Fixing

2026년 1월 13일

[논문리뷰] KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

이 논문은 기존의 LLM 메모리 벤치마크가 단순한 정보 검색에 치우쳐 '인물 이해(Person Understanding)'를 직접적으로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #Person Understanding #Lifelong Digital Companions #Memory Benchmarking #Autobiographical Narratives #Cognitive Stream #Flashback Handling #LLM Evaluation #Hierarchical Reasoning

2026년 1월 13일

[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.

#Review #RLVR #LLMs #Reasoning #Judge-then-Generate #Quality-Efficiency #Discriminative Supervision #Mathematical Reasoning #Backtracking Reduction

2026년 1월 13일

[논문리뷰] EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

본 논문은 LLM의 반복적인 자가 훈련 과정에서 발생하는 과도한 자신감(overconfidence) 및 신뢰도 저하(calibration cost) 문제를 해결하여, 모델이 '무엇을 모르는지'를 알게 함으로써 더 나은 추론 능력을 갖추는 것을 목표로 합니다.

#Review #LLM Reasoning #Model Calibration #Epistemic Uncertainty #Self-Training #Supervised Fine-tuning #Confidence-Informed Self-Consistency #Model Collapse

2026년 1월 13일

[논문리뷰] End-to-End Video Character Replacement without Structural Guidance

본 논문은 기존 비디오 캐릭터 교체 방법론이 페어링된 데이터 부족과 per-frame segmentation masks 및 explicit structural guidance (e.g., skeleton, depth) 에 의존하여 일반화 및 시각적 일관성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Video Character Replacement #Diffusion Models #In-Context Learning #Reinforcement Learning #Structural Guidance #Video Editing #Data Generation Pipeline

2026년 1월 13일

[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Open-Ended Tasks #Relative Ranking #Tournament-based Ranking #Discriminative Collapse #Reward Modeling #Benchmarks

2026년 1월 13일

[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Visualization #Reinforcement Learning #Multi-Objective Optimization #GRPO #Multimodal Feedback #LLMs #Code Generation

2026년 1월 13일

[논문리뷰] X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

본 논문은 경쟁 프로그래밍(Competitive Programming)을 위한 코드 LLM(Large Language Model)이 실제 데이터의 희소성으로 인해 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Competitive Programming #Code LLMs #Synthetic Data Generation #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Dual Verification #Scaling Laws #SynthSmith

2026년 1월 12일

[논문리뷰] What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

본 논문은 현재 Vision-Language Models (VLMs) 벤치마크가 대부분 명확하고 구조화된 질문에 초점을 맞추고 있어 실제 사용자 질의의 비공식적이고 불완전한 특성을 제대로 반영하지 못하는 문제를 제기합니다.

#Review #Vision-Language Models #Under-specified Queries #Multimodal Benchmark #HAERAE-Vision #Query Explicitation #Retrieval Augmentation #Cultural Knowledge #Korean QA

2026년 1월 12일

[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

본 논문은 기존 비디오 질의응답 벤치마크의 한계, 즉 폐쇄된 증거 설정과 텍스트 기반 검색에 의존하는 문제점을 해결하고자 합니다.

#Review #Video Question Answering #Open-domain Search #Multimodal LLMs #Agentic AI #Benchmark #Video Understanding #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

본 논문은 여행 계획 생성 시 발생하는 세 가지 주요 문제를 해결하는 것을 목표로 합니다: 방대한 관심 지점(POI) 후보군의 효율적인 가지치기, 단일 추론 경로로 인한 해법 공간 탐색 능력 제한, 그리고 하드 제약(예: 유효 방문 시간)과 소프트 제약(예: 경로 효율성)의 동시 최적화 어려움.

#Review #Travel Planning #LLM Agents #Reinforcement Learning #Multi-path Reasoning #Constraint Satisfaction #POI Optimization #Chain-of-Thought

2026년 1월 12일

[논문리뷰] Structured Episodic Event Memory

현재 LLM(Large Language Models)의 RAG (Retrieval-Augmented Generation) 가 겪는 산발적인 정보 검색 및 구조적 의존성 부족 문제를 해결하여, 자율 에이전트의 장기 기억(long-term memory) 성능과 추론 일관성(logical consistency) 을 향상시키는 것을 목표로 합니다.

#Review #LLMs #RAG #Episodic Memory #Graph Memory #Memory Architecture #Narrative Coherence #Long-term Reasoning #Event Frames

2026년 1월 12일

[논문리뷰] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

본 논문은 현대 언어 모델(LLM)이 고정된 컨텍스트 창 내에서 순차적 추론에 의존하여 테스트 시간 연산(Test-Time Compute, TTC) 을 대규모로 확장할 수 없다는 근본적인 한계를 해결하는 것을 목표로 합니다.

#Review #PaCoRe #Test-Time Compute Scaling #LLMs #Parallel Reasoning #Reinforcement Learning #Reasoning Synthesis #Message Passing #Mathematical Reasoning

2026년 1월 12일

[논문리뷰] OpenTinker: Separating Concerns in Agentic Reinforcement Learning

기존 대규모 언어 모델(LLM) 에이전트용 강화 학습(RL) 시스템의 한계를 극복하고, 에이전트 환경 및 상호작용 프로토콜의 재사용성 부족, 그리고 에이전트 프로그래밍과 실행 간의 분리 부재 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Agents #Multi-Agent Systems #System Architecture #Separation of Concerns #RLaaS #Distributed Training #Agent Protocol Coordination

2026년 1월 12일

[논문리뷰] On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

본 논문은 음성 언어 모델(SLM) 평가에 널리 사용되는 '글로벌 토큰 퍼플렉시티(Global Token Perplexity)' 가 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 실제 성능을 왜곡할 수 있다는 문제를 제기합니다.

#Review #Spoken Language Models #Evaluation Metrics #Perplexity #Mean Opinion Score #Likelihood-based Evaluation #Model-as-a-Judge #Acoustic Consistency #Speech Generation

2026년 1월 12일