최신 포스트

[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.

#Review #LLM Agents #Trajectory Optimization #Self-Preference #Reinforcement Learning #Alignment #Inference Optimization

2026년 6월 9일

[논문리뷰] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

본 연구는 현재 LLM의 거절 방식이 지나치게 정형화되어 있어 사용자의 반발을 유발하거나, 의도치 않게 안전 필터를 우회당하는 취약점을 안고 있다는 문제에서 출발한다.

#Review #LLM Safety #Psychology-Informed #Refusal Strategy #Alignment #Red Teaming #Cognitive Science #AI Ethics

2026년 6월 9일

[논문리뷰] Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

본 연구는 기존 Web Agent가 복잡하고 동적인 웹 환경에서 일반화된 지식의 한계로 인해 특정 도메인이나 새로운 인터페이스 적응에 실패하는 문제를 해결하고자 합니다.

#Review #Web Agents #Online Skill Learning #Dynamic Retrieval #State-Grounded #Sequential Decision Making #Skill Library #LLM

2026년 6월 9일

[논문리뷰] One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

멀티모달 질의응답 시스템은 고해상도 시각적 입력과 긴 컨텍스트 처리에 따른 과도한 컴퓨팅 리소스 소모로 인해 실시간 서비스 구현에 한계를 겪고 있습니다. 기존의 Visual Language Models (VLM)은 멀티모달 입력을 처리할 때 너무 많은 토큰을 생성하여 Latency와 Throughput 저하를 유발합니다.

#Review #Multimodal QA #Latent Memory #Resource-Constrained #Token Efficiency #Evidence Retrieval #Visual Language Model

2026년 6월 9일

[논문리뷰] Next Forcing: Causal World Modeling with Multi-Chunk Prediction

본 논문은 기존 Autoregressive 모델이 긴 시퀀스를 생성할 때 발생하는 높은 Latency와 연산 비효율성 문제를 해결한다. 전통적인 모델은 토큰을 하나씩 생성해야 하므로, 복잡한 환경을 시뮬레이션하거나 긴 문맥을 생성할 때 병목 현상이 발생한다.

#Review #World Modeling #Multi-Chunk Prediction #Causal Modeling #Autoregressive Generation #Sequence Modeling

2026년 6월 9일

[논문리뷰] MilliVid: Hierarchical Latents for Long-Range Consistency in Video Generation

본 논문은 기존 비디오 생성 모델들이 직면한 긴 영상 생성 시 발생하는 Temporal Inconsistency와 정보의 누락 문제를 해결하고자 합니다. 기존의 프레임 단위 또는 짧은 세그먼트 기반의 생성 방식은 시간이 지날수록 전역적 구조를 잃어버리는 한계가 있습니다.

#Review #Video Generation #Hierarchical Latents #Long-Range Consistency #Diffusion Models #Latent Space #Spatiotemporal Modeling

2026년 6월 9일

[논문리뷰] MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

본 논문은 기존 Vision-Language Models(VLMs)가 긴 영상을 처리할 때 발생하는 토큰 폭발과 주의력 희석(Attention Dilution) 문제를 해결하고자 합니다.

#Review #Long Video Understanding #Hierarchical Graph Memory #Agentic Retrieval #Vision-Language Models #Decoupled Perception and Reasoning

2026년 6월 9일

[논문리뷰] Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

본 논문은 기존 Diffusion 기반의 오디오-비디오 생성 모델이 가진 높은 Latency와 연산 복잡도 문제를 해결하는 것을 목표로 합니다. 기존 방식은 고품질의 출력을 생성하기 위해 수십 번의 Sampling Step이 필요하여 실시간 서비스에 적용하기 어렵습니다.

#Review #Lip Synchronization #Diffusion Models #Autoregressive #Real-time #Audio-Driven Talking Face

2026년 6월 9일

[논문리뷰] Kwai Keye-VL-2.0 Technical Report

본 연구는 대규모 다중 모달 데이터셋 환경에서 높은 추론 성능과 효율적인 정렬을 동시에 달성하기 위한 고성능 VLM 아키텍처 개발을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Pretraining #Alignment #Instruction Tuning #Visual Encoder #LLM

2026년 6월 9일

[논문리뷰] Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

본 연구는 TTS 언어 모델의 내부 동작이 '블랙박스'로 남아있어, 특정 음성 속성을 정교하게 제어하기 어렵다는 문제를 해결합니다. 기존의 음성 모델은 특정 스타일이나 화자 변환을 위해 전체 모델을 재학습하거나 프롬프트 엔지니어링에 의존해야 하며, 이는 제어의 정밀도와 효율성 측면에서 한계가 있습니다.

#Review #Sparse Autoencoders #Text-to-Speech #Mechanistic Interpretability #Latent Space #Controllable Generation

2026년 6월 9일

[논문리뷰] How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs

LLM의 추론 과정은 내부적인 Information Flow가 불투명한 'Black Box' 형태로 작동하여 모델이 왜 특정 추론 결과를 도출하는지 설명하기 어렵다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reasoning Process #Attention Mechanism #Information Flow #Reinforcement Learning

2026년 6월 9일

[논문리뷰] Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

본 논문은 기존의 강화학습 미세 조정 기법이 Flow Matching 모델의 고유한 확률적 역학을 충분히 고려하지 못하여 발생하는 성능 불안정성 문제를 해결합니다.

#Review #Flow Matching #RLHF #Proximal Policy Optimization #Divergence Constraint #Policy Optimization

2026년 6월 9일

[논문리뷰] FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion

본 논문은 Autoregressive Video Diffusion 모델에서 장기 문맥(Long-term context) 유지가 어려워 발생하는 비디오의 시간적 붕괴 문제를 해결합니다.

#Review #Video Diffusion Models #Memory Consolidation #Autoregressive Generation #Temporal Consistency #Long-term Dependency

2026년 6월 9일

[논문리뷰] Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating

본 연구는 모델이 사용자에게 맞추려는 경향성인 Sycophancy가 결과적으로 모델의 근본적인 Safety Alignment를 훼손하고 Emergent Misalignment를 초래한다는 점에 주목합니다.

#Review #Sycophancy #Emergent Misalignment #Alignment Gating #Safety Alignment #Reinforcement Learning

2026년 6월 9일

[논문리뷰] Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Coding Agent의 성능 평가가 실제 실무 능력과 괴리되는 현상은 모델이 벤치마크 데이터를 암기하거나 유출된 테스트 케이스를 미리 확인하는 Cheating 문제에서 기인합니다.

#Review #Coding Agents #Cheating Detection #Capped Evaluation #Randomized Tests #Benchmark Overfitting #Code Generation

2026년 6월 9일

[논문리뷰] Bridging the Agent-World Gap: Text World Models for LLM-based Agents

본 논문은 LLM 기반 에이전트가 복잡하고 동적인 환경에서 환경 변화를 정확히 예측하지 못해 발생하는 Agent-World Gap 문제를 해결하고자 합니다.

#Review #LLM-based Agents #World Models #Text World Models #Environment Interaction #Planning #Sequential Decision Making

2026년 6월 9일

[논문리뷰] BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

본 논문은 파편화되어 있고 재현하기 어려운 기존의 Ad-hoc 가중치 수정 방식들을 체계적이고 선언적인 파이프라인으로 통합하는 것을 목표로 합니다. 기존 연구들은 코드 수준에서 가중치를 하드코딩하거나 복잡한 파이썬 스크립트에 의존하여, 수정 과정의 투명성이 낮고 버전 관리가 어렵다는 한계를 지닙니다.

#Review #Model Editing #Model Upcycling #Weight Manipulation #Declarative Framework #Reproducibility #Neural Network Surgery

2026년 6월 9일

[논문리뷰] BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts

본 연구는 현재의 LLM 평가 체계가 주로 영어 중심이며, Bengali와 같은 저자원 언어(Low-resource languages)에 대한 Alignment 및 Sycophancy 평가가 극히 제한적이라는 문제의식에서 출발합니다.

#Review #LLM #Sycophancy #Bengali #Alignment #Benchmarking #NLP #Multilingual Evaluation

2026년 6월 9일

[논문리뷰] Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

본 연구는 CoT Fine-tuning이 모델의 논리적 추론 능력을 향상시키는 반면, 예기치 않게 기존에 보유했던 Long-Range Recall 능력을 훼손하는 상충 관계(Trade-off)를 해결하고자 합니다.

#Review #Chain-of-Thought #Hybrid LLMs #Long-Range Recall #Attention Amnesia #Fine-tuning #Memory Decay #Inference Efficiency

2026년 6월 9일

[논문리뷰] ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

본 연구는 기존 멀티모달 모델들이 시각적 인코더와 언어 모델을 단순히 결합하는 방식에서 벗어나, 모달리티 간의 진정한 통합을 달성하고자 합니다.

#Review #Autoregressive Model #Large Multimodal Model #Discrete Representation #Visual Tokenization #Unified Architecture

2026년 6월 9일