최신 포스트

[논문리뷰] xHC: Expanded Hyper-Connections

본 논문은 Transformer의 residual stream을 확장하는 기존 HC 계열 기법들이 왜 $N=4$ 수준에서 한계에 직면하는지에 대한 근본적인 원인을 진단합니다.

#Review #Hyper-Connections #Transformer #Residual-Stream #Sparse-Architecture #Scaling-Laws #MoE #LLM

2026년 7월 19일

[논문리뷰] Xiaomi-Robotics-1: Scaling Vision-Language-Action Models with over 100K Hours of Real-World Trajectories

본 논문은 대규모 데이터 학습을 통해 범용 로봇 정책을 구축하고자 하는 Scaling Laws의 가능성을 실현하는 데 초점을 맞춥니다.

#Review #Vision-Language-Action Models #Scaling Laws #Real-World Trajectories #Robot Foundation Models #Flow Matching #Auto-labeling #Cross-embodiment Learning

2026년 7월 19일

[논문리뷰] When Does Muon Help Agentic Reinforcement Learning?

본 논문은 Muon 최적화 기법이 대규모 사전 학습(Pre-training)에서는 성공적이나, Reinforcement Learning(RL) 기반의 사후 학습(Post-training) 단계에서는 성능 향상이 불확실하고 때로는 불안정하다는 문제를 해결하고자 합니다.

#Review #Muon #Agentic Reinforcement Learning #GiGPO #Advantage Estimator #Credit Assignment #Qwen2.5 #ALFWorld

2026년 7월 19일

[논문리뷰] VideoRAE: Taming Video Foundation Models for Generative Modeling via Representation Autoencoders

본 논문은 기존의 3D-VAE 기반 비디오 토크나이저가 픽셀 단위의 복원(MSE)에 과도하게 최적화되어 고차원적인 의미론적 구조를 포착하지 못한다는 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Representation Autoencoders #Generative Modeling #Representation Alignment #Latent Spaces #Diffusion Transformers #Autoregressive Models

2026년 7월 19일

[논문리뷰] Understanding Reasoning from Pretraining to Post-Training

본 논문은 LLM 훈련 과정에서 Pretraining 단계의 선택(모델 크기, 데이터 등)이 이후 RL 효율성에 미치는 정량적 관계를 규명하고자 한다.

#Review #Reinforcement Learning #Pretraining #Scaling Law #LLM #Reasoning #Compute Allocation #Policy Evolution

2026년 7월 19일

[논문리뷰] See like a Robot: Robot-Centric Pointmaps for Vision-Language-Action Models

본 논문은 대규모 데이터셋을 활용하는 VLA 모델 학습 시, 카메라 뷰포인트 변화에 따른 성능 저하 문제를 해결하고자 합니다. 기존 모델들은 카메라 프레임의 RGB 데이터를 입력으로 사용하므로, 실제 로봇 동작이 정의되는 Robot-frame과의 Frame mismatch가 발생합니다 .

#Review #VLA #Manipulation #3D Geometry #Pointmap #Robot-Centric #Viewpoint Variation #End-to-End Learning

2026년 7월 19일

[논문리뷰] S1-Omni: A Unified Multimodal Reasoning Model for Scientific Understanding, Prediction, and Generation

본 논문은 기존의 AI for Science(AI4S) 연구들이 Domain-specific models, Tool-augmented LLMs, 그리고 Scientific language models로 파편화되어 있다는 문제점을 해결하고자 합니다 .

#Review #AI4S #Multimodal Reasoning #Scientific Modeling #Foundation Model #S1-Omni #Knowledge Alignment

2026년 7월 19일

[논문리뷰] Recursive Harness Self-Improvement

본 논문은 foundation model과 harness의 공동 진화(co-evolution) 과정에서, 수작업으로 생성된 harness의 최적화가 어렵고 비용이 많이 든다는 문제를 해결하고자 합니다.

#Review #Recursive Harness Self-Improvement #RHI #Agentic Workflow #Test-time Scaling #Prompt-level Optimization #Co-evolution

2026년 7월 19일

[논문리뷰] RecGPT-V3 Technical Report

본 논문은 대규모 산업용 추천 시스템에서 LLM을 활용할 때 발생하는 세 가지 핵심적인 병목 현상을 해결하고자 합니다. 기존 RecGPT 시리즈와 같은 LLM 기반 추천 모델들은 사용자 전체 행동 이력을 매번 재처리하는 Stateless behavior modeling으로 인해 불필요한 연산이 발생합니다 .

#Review #Large Language Models #Recommender Systems #Memory Hub #Semantic IDs #Latent Intent Reasoning #Hybrid-modal Foundation Model #Instruction Tuning

2026년 7월 19일

[논문리뷰] RESOURCE2SKILL: Distilling Executable Agent Skills from Human-Created Multimodal Resources

본 논문은 최신 Large Language Model(LLM) 기반 에이전트가 소프트웨어 조작 및 복잡한 아티팩트 생성 작업을 수행할 때 발생하는 Procedural Knowledge 부족 문제를 해결하고자 한다.

#Review #Software Agents #Multimodal Skill Wiki #Procedural Knowledge #Distillation #Agentic Harness #Human-Created Resources #Offline-Online Pipeline

2026년 7월 19일

[논문리뷰] RAGU: A Multi-Step GraphRAG Engine with a Compact Domain-Adapted LLM

본 논문은 기존 GraphRAG 시스템들이 직면한 Single-pass extraction의 한계와 고성능 LLM에 대한 과도한 의존성 문제를 해결하고자 합니다. 기존 방식은 단일 단계에서 지식 그래프를 추출함에 따라 노이즈가 많고 중복된 엔티티를 생성하여 검색의 안정성을 저해합니다.

#Review #GraphRAG #LLM #Knowledge Graph #Information Extraction #Multi-step Consolidation #Meno-Lite-0.1

2026년 7월 19일

[논문리뷰] Qwen-Music Technical Report

본 논문은 음악 생성 시스템에서 발생하는 의미론적 구성(semantic composition)과 음향적 렌더링(acoustic rendering) 사이의 불일치 문제를 해결하고자 합니다. 기존의 대규모 오디오 생성 모델들은 가사, 멜로디, 리듬 등 복잡한 음악적 요소를 장시간 일관성 있게 제어하는 데 한계를 보입니다.

#Review #Music Generation #Music Semantic Tokens #Melody-CoT #Diffusion Transformer #Spec-VAE #Post-training Alignment

2026년 7월 19일

[논문리뷰] On-Policy Delta Distillation

본 논문은 기존의 On-Policy Distillation (OPD) 방식이 교사 모델의 전체 출력 분포를 모방하는 데 그쳐, 추론 능력 향상에 필수적인 핵심 학습 궤적을 충분히 전달하지 못한다는 문제를 제기합니다 .

#Review #Knowledge Distillation #On-Policy Distillation #Reasoning Capability #Delta Signal #LLM Post-training #Reinforcement Learning

2026년 7월 19일

[논문리뷰] Loop the Loopies!

본 논문은 Looped Transformer가 고정된 컴퓨팅 자원 내에서 Vanilla Transformer보다 우수한 성능을 낼 수 있도록 하는 compute-matched scaling recipe를 정의합니다.

#Review #Looped Transformers #Mixture-of-Experts #Layer-Loop #Compute-Matched Scaling #Post-Training #Reasoning Models

2026년 7월 19일

[논문리뷰] From Human-Centric to Agentic Code Review: The Impact of Different Generations of Generative AI Technology on Review Quality

본 논문은 Generative AI 기술이 소프트웨어 개발 생태계에 깊숙이 침투함에 따라, 기존의 Human-Centric 코드 리뷰가 LLM 및 AI Agent가 결합된 형태로 변화하면서 발생하는 리뷰 품질 및 효율성 변화를 규명하고자 합니다 .

#Review #Generative AI #Code Review #LLM #AI Agents #Review Quality #Human-AI Collaboration #Software Engineering

2026년 7월 19일

[논문리뷰] DSWorld: A Data Science World Model for Efficient Autonomous Agents

본 논문은 자율형 데이터 과학 에이전트가 반복적인 시행착오 과정에서 겪는 비효율적인 연산 비용 문제를 해결하고자 합니다.

#Review #Data Science World Model #Autonomous Agents #Transition Prediction #Reflective Reinforcement Learning #Data Science Workflow #Simulation

2026년 7월 19일

[논문리뷰] Cura 1T: Specialized Model for Agentic Healthcare

본 논문은 환자 상담, 임상 추론, EHR 워크플로우 수행이라는 복합적인 의료 과업을 동시에 해결할 수 있는 특화된 LLM이 부재하다는 문제점을 해결하고자 합니다. 기존 연구들은 각기 다른 의료 하위 도구에 집중해왔으나, 한 영역의 업데이트가 다른 영역의 성능을 저하시키는 '성능 침식' 현상이 발생하기 쉽습니다.

#Review #Healthcare LLM #Self-evolution Loop #Data-centered #Agentic Workflow #EHR Tool Use #SDFT

2026년 7월 19일

[논문리뷰] Beyond Entropy: Correctness-Aware Advantage Shaping via Contrastive Policy Optimization

본 논문은 기존 RLVR 방식의 핵심 한계인 Entropy의 '정확성 인식 능력 부재' 문제를 해결합니다. 기존의 Entropy 기반 방식들은 모델의 불확실성을 측정하지만, 이것이 생산적인 탐색인지 아니면 단순한 오류인지 구분하지 못해 최적화의 모호함을 야기합니다 .

#Review #Reinforcement Learning #Advantage Shaping #Contrastive Policy Optimization #RLVR #LLM Reasoning #Token-level Supervision

2026년 7월 19일

[논문리뷰] Audio-Visual Flamingo: Open Audio-Visual Intelligence for Long and Complex Videos

본 논문은 오디오-비주얼 정보가 풍부한 장시간의 실세계 비디오를 인간처럼 이해하고 추론하는 범용 AI 모델의 부재를 해결합니다. 기존의 AV-LLM들은 주로 짧은 클립 이해에 국한되어 있으며, 특히 오디오와 비주얼 데이터를 결합하여 추론하는 능력이 부족합니다 .

#Review #AV-LLM #Audio-Visual Reasoning #Long-form Video #Chain-of-Thought #Multimodal Learning #Temporal Alignment

2026년 7월 19일

[논문리뷰] Agon: Competitive Cross-Model RL with Implicit Rival Grading of Reasoning

본 논문은 기존 GRPO 기반의 LLM 학습이 '추론 과정(trace)'을 평가하지 못하고 최종 정답에만 의존하여 발생하는 'Length Pathology(불필요한 답변 길이 증가)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #GRPO #Competitive Training #Multi-Agent System #Self-Improvement

2026년 7월 19일