최신 포스트

[논문리뷰] Looped World Models

본 논문은 기존 World Models가 장기 시뮬레이션에서 겪는 Compounding Prediction Error와 고정된 연산 깊이로 인한 비효율성 문제를 해결하기 위해 고안되었습니다.

#Review #Looped World Models #Latent Dynamics #Parameter Efficiency #Adaptive Computation #Spectral Stability #Deferred Decoding

2026년 6월 16일

[논문리뷰] LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling

본 논문은 LoopCoder-v2를 통해 PLT에서 루프 횟수(loop count) 선택이 성능에 미치는 영향을 규명하고, 왜 특정 루프 횟수에서 성능이 포화되거나 저하되는지를 분석하고자 합니다.

#Review #Parallel Loop Transformer #Test-Time Compute #Gain-Cost Trade-off #Code Generation #Cross-Loop Position Offset #Representation Dynamics

2026년 6월 16일

[논문리뷰] LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

본 논문은 기존 AI 기반 교육 솔루션들이 단순 콘텐츠 추천이나 정적인 텍스트 제공에 국한되어, 학습자에게 실질적인 몰입과 이해를 돕는 Embodied 교수 행위를 통합하지 못하는 문제를 해결하고자 합니다 .

#Review #Multi-Agent Framework #Adaptive Personalized Learning #Embodied Teaching #Teaching Action-Speech Alignment #LLM Agent #Education Technology

2026년 6월 16일

[논문리뷰] Learning from the Self-future: On-policy Self-distillation for dLLMs

본 논문은 기존의 OPSD 방법론들이 Autoregressive (AR) 모델에 최적화되어 있어, dLLMs의 고유한 특성인 비자기회귀적 생성 방식과 충돌한다는 문제를 해결하고자 합니다.

#Review #On-policy Self-distillation #Diffusion Large Language Models #dLLMs #Step-level Divergence #Self-future #Reasoning Benchmarks

2026년 6월 16일

[논문리뷰] GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

본 논문은 현대의 Coding Agent가 자연어 명세(Specification)를 실제 실행 가능한 게임으로 변환하는 End-to-End 생성 능력을 엄밀하게 평가하고자 합니다.

#Review #Game Generation #Coding Agents #Game Engine #Godot #End-to-End Evaluation #Interactive Verification #Benchmark

2026년 6월 16일

[논문리뷰] EgoCS-400K: An Egocentric Gameplay Dataset for World Models

본 논문은 대규모 상호작용 세계 모델(Interactive World Models) 학습을 위한 고품질의 영상-액션-언어 데이터셋 부족 문제를 해결하고자 한다.

#Review #World Models #Egocentric Video #Gaming Agent #Video Generation #Replay-grounded #Embodied AI

2026년 6월 16일

[논문리뷰] Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

본 논문은 대규모 코퍼스에서 에이전트 기반 검색(Agentic Search)의 확장성과 정밀도 사이의 상충 문제를 해결하고자 합니다.

#Review #Agentic Search #Direct Corpus Interaction (DCI)#Workspace Expansion #Retrieval-Augmented Generation (RAG)#Dynamic Pull #Large-scale Corpus #Information Retrieval

2026년 6월 16일

[논문리뷰] ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

본 논문은 LLM이 영어 기반 논리 벤치마크에서는 우수한 성능을 보이지만, 중국어와 같이 언어적/실용적 변동성이 큰 환경에서도 이러한 논리적 추론 성능이 유지되는지 의문을 제기한다.

#Review #Logical Reasoning #Chinese Language Understanding #Robustness #Large Language Models #Benchmark #Surface Realization #Back-translation

2026년 6월 16일

[논문리뷰] Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

본 논문은 기존의 browsing-based 벤치마크들이 대부분 모국어(monolingual) 환경을 가정하고 있어, 실제 정보 탐색 시 필수적인 언어 간 교차(cross-lingual) 능력을 평가하지 못한다는 문제를 해결하고자 한다.

#Review #Deep Research #Cross-lingual Retrieval #Agentic Search #Multilingual Evaluation #Evidence Recall #Benchmarking #Information Seeking

2026년 6월 16일

[논문리뷰] Aligning Quantum Operators with Large Language Models

본 연구는 LLM이 텍스트나 기호 기반의 양자 프로그램은 처리할 수 있으나, 양자 연산의 본질인 Unitary Matrix와 같은 수학적 객체를 직접 이해하지 못한다는 한계를 해결하고자 합니다. 기존의 방식들은 기호화된 프록시에 의존하여 양자 연산자의 수치적 구조를 파악하지 못하는 문제가 있습니다.

#Review #Quantum Circuit Synthesis #Large Language Models #Pauli Transfer Matrix #Multimodal Alignment #Unitary Synthesis #Stepwise Autoregressive Synthesis #Language-Conditioned Synthesis

2026년 6월 16일

[논문리뷰] ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

기존의 인터랙티브 월드 모델은 주로 이동(locomotion)과 뷰포인트 제어에 집중되어 있어, 실질적인 객체 상호작용을 지원하지 못하는 한계가 있습니다 . 이러한 '네비게이션-상호작용 격차'는 크게 두 가지 병목 현상에서 기인합니다.

#Review #World Model #Interactive Generation #Action-Aware Memory #Chunk-Autoregressive #Video Diffusion #Embodied AI #Human-Object Interaction

2026년 6월 16일

[논문리뷰] ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

본 논문은 일반 목적의 VLA 모델 학습 시 데이터의 양과 다양성을 확보하기 위해 로봇 데이터와 대규모 인간 egocentric 영상을 통합하고자 합니다. 기존의 VLA pretraining은 로봇 실습 데이터의 비용과 노동 집약적 수집 방식 때문에 규모 확장에 한계가 있습니다.

#Review #Vision-Language-Action Models #Robot Manipulation #Learning from Human Video #Embodied AI #Cross-Embodiment #Pseudo-Action Supervision #Data Heterogeneity

2026년 6월 16일

[논문리뷰] A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

본 논문은 RLVR 학습 과정에서 발생하는 빈번한 모델 Collapse 문제를 토큰 단위의 경사(Gradient) 역학 관점에서 분석합니다. 기존의 GRPO 스타일 최적화 기법들은 오프라인 샘플을 재사용하는 과정에서 정책 드리프트나 비대칭적인 경사 업데이트로 인해 학습이 불안정해지는 한계가 있습니다.

#Review #RLVR #Policy Optimization #Gradient Dynamics #WAPO #Training Stability #Token-level Taxonomy

2026년 6월 16일

[cpython] CPython unicodedata.normalize() 최적화: Py_UCS4 버퍼 직접 조작으로 성능 향상

unicodedata.normalize()의 정렬 로직을 Py_UCS4 버퍼 직접 조작으로 최적화하여 성능을 개선합니다.

#Python #CPython #Optimization #Unicode #Performance #C

2026년 6월 15일

[sglang] SGLang: DeepSeek-R1 FP8 GEMM 성능 회귀 문제 해결 및 최적화

FP8 GEMM 연산 시 불필요한 Triton fallback을 제거하여 DeepSeek-R1 모델의 추론 성능을 복구했습니다.

#SGLang #DeepSeek-R1 #FP8 #GEMM #Optimization

2026년 6월 15일

[flashinfer] FlashInfer, SM120 GPU를 위한 희소 MLA 커널 추가로 LLM 추론 속도 향상

FlashInfer가 SM120 GPU를 위한 희소 MLA 커널을 도입하여 LLM 추론 성능을 대폭 개선했습니다.

#FlashInfer #LLM #GPU 최적화 #CUDA 커널 #머신러닝

2026년 6월 15일

[transformers] Hugging Face Transformers: logits_to_keep을 활용한 메모리 최적화

모델 내부에서 logits을 미리 슬라이싱하여 메모리 사용량을 줄이고 추론 처리량을 개선하는 최적화 기법을 소개합니다.

#HuggingFace #Transformers #LLM #Optimization #DeepLearning

2026년 6월 15일

[논문리뷰] Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

본 논문은 다양한 능력을 갖춘 여러 MDLM의 지식을 디코딩 단계에서 어떻게 효과적으로 융합할 것인가에 대한 문제를 다룹니다. 기존의 Autoregressive 모델용 앙상블 기법은 순차적인 생성 방식에 의존하므로, 비순차적이고 유연한 디코딩 방식을 가진 MDLM에는 직접 적용하기 어렵습니다.

#Review #Masked Diffusion Language Models #Ensembling #Decoding Dynamics #Trajectory-based Iterative Ensembling #Knowledge Fusion #Confidence Dynamics

2026년 6월 15일

[논문리뷰] Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

본 논문은 LLM이 정답을 알고 있음에도 불구하고, 외부의 그럴듯한 반론에 의해 얼마나 쉽게 답변을 번복하는지, 즉 '답변 안정성(Answer Stability)'을 체계적으로 평가하는 데 목적이 있습니다.

#Review #LLM #Answer Instability #Sycophancy #Argument-driven Challenge #MMLU #MaxFlip #Answer Flip Rate

2026년 6월 15일

[논문리뷰] Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

본 논문은 웹 에이전트 평가의 핵심 문제인 '최종 성공 여부(Terminal Success)에만 의존하는 방식'이 에이전트의 실패 원인을 규명하는 데 한계가 있다는 점을 지적한다. 기존의 결과 중심 평가는 긴 상호작용 과정에서 발생하는 질적으로 다른 실패 모드들을 하나로 압축하여, 구체적인 개선 방향을 제시하지 못한다 .

#Review #Web Agent #Process-Level Evaluation #Semantic MDP #Benchmark #Skill Diagnosis #Trajectory Analysis

2026년 6월 15일