Review

[논문리뷰] DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

기존 멀티모달 RLVR(Reinforcement Learning with Verifiable Rewards) 학습 데이터셋의 제한적인 다양성, 커버리지, 일반화 능력을 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Mathematical Dataset #RLVR #Data Curation #Visual Diversity #K12 Mathematics #Large Multimodal Models

2026년 2월 22일

[논문리뷰] World Models for Policy Refinement in StarCraft II

본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.

#Review #StarCraft II #World Model #Policy Refinement #Large Language Models #Reinforcement Learning #Partial Observability #Structured Text Representation #Game AI

2026년 2월 19일

[논문리뷰] 'What Are You Doing?': Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing

본 논문은 LLM 기반 에이전트 어시스턴트 가 다단계 작업을 수행할 때 진행 상황과 추론을 어떻게 효과적으로 전달해야 하는지에 대한 문제를 다룹니다.

#Review #Agentic LLM #In-Car Assistants #Human-AI Interaction #Feedback Mechanisms #User Experience #Multi-Step Tasks #Automotive AI #Speech Interfaces

2026년 2월 19일

[논문리뷰] Unified Latents (UL): How to train your latents

확산 모델을 위한 레이턴트 표현 학습에 있어 정보 내용과 재구성 품질 간의 근본적인 트레이드오프 문제를 해결하고자 합니다.

#Review #Diffusion Models #Latent Representation Learning #VAE #Image Generation #Video Generation #Bitrate Control #Training Efficiency #Diffusion Prior #Diffusion Decoder

2026년 2월 19일

[논문리뷰] TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

웨어러블 장치(예: 촉각 장갑)를 통해 수집된 풍부한 인간 촉각 신호를 로봇으로 효과적으로 전이하는 문제를 해결하는 것을 목표로 합니다. 특히, 센서 모달리티와 신체적 구현의 차이에도 불구하고 인간의 촉각 데이터를 로봇의 촉각 공간에 정렬 하여 다양한 로봇 핸드에 대한 정책 학습의 확장성과 일반성을 향상시키고자 합니다.

#Review #Human-to-Robot Transfer #Tactile Sensing #Cross-Embodiment #Policy Learning #Rectified Flow #Unpaired Data #Dexterous Manipulation #Latent Space Alignment

2026년 2월 19일

[논문리뷰] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

수중 스테레오 깊이 추정에서 발생하는 도메인 시프트(domain shift) 문제를 해결하고, 특히 대규모 깊이 차이(large-disparity) 및 텍스처 없는(textureless) 영역에서의 기존 GRU 기반 반복 정제 방식의 효율성 및 정확도 한계 를 극복하는 것을 목표로 합니다.

#Review #Underwater Depth Estimation #Stereo Matching #State Space Model #Mamba Architecture #ConvSS2D #Data Synthesis #LoRA #Zero-shot Learning #Robotics

2026년 2월 19일

[논문리뷰] SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

이 논문은 비디오 확산 모델에서 높은 희소성(sparsity)에서도 생성 품질 저하 없이 효율적인 학습 가능한(trainable) 스파스 어텐션 을 구현하는 것을 목표로 합니다.

#Review #Sparse Attention #Diffusion Models #Video Generation #Hybrid Masking #Distillation Fine-Tuning #Model Acceleration #Top-k #Top-p

2026년 2월 19일

[논문리뷰] References Improve LLM Alignment in Non-Verifiable Domains

이 논문은 검증 불가능한 도메인(예: LLM 정렬 튜닝)에서 강화 학습(RL) 의 적용 한계를 극복하기 위해 레퍼런스(참조 출력)를 활용한 LLM-as-a-Judge 평가자가 '소프트 검증기' 역할을 할 수 있는지 탐구합니다.

#Review #LLM Alignment #Reference-Guided Evaluation #Self-Improvement #Non-Verifiable Domains #Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)

2026년 2월 19일

[논문리뷰] Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

본 보고서는 빠르게 발전하는 프론티어 AI 모델(LLMs 및 에이전트 AI) 이 초래하는 전례 없는 위험을 이해하고 식별하며, 사이버 공격, 설득 및 조작, 전략적 기만, 통제되지 않은 AI R&D, 자기 복제 등 다섯 가지 주요 위험 차원에 대한 업데이트되고 심층적인 평가를 제공합니다.

#Review #Frontier AI #AI Risk Management #Autonomous Agents #LLM Safety #Cybersecurity #Deception #Self-Replication #Mitigation Frameworks

2026년 2월 19일

[논문리뷰] Arcee Trinity Large Technical Report

본 논문은 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델인 Trinity Large 를 개발하고, 효율적인 학습 및 추론 성능과 높은 안정성을 달성하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Sparse LLM #Training Stability #Load Balancing #MoE #Transformer Architecture #Context Extension #Muon Optimizer

2026년 2월 19일

[논문리뷰] FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

본 논문은 Vision-Language-Action (VLA) 모델이 세계 모델링 능력을 향상시키는 데 직면한 두 가지 주요 문제(픽셀 단위 재구성에 대한 과도한 강조와 예측된 미래 관찰에 대한 의존으로 인한 오류 누적)를 해결하고자 합니다.

#Review #World Modeling #Generalist Policies #Representation Alignment #Diffusion Models #Robotics #Fine-tuning #Egocentric Data #VLA

2026년 2월 19일

[논문리뷰] Discovering Multiagent Learning Algorithms with Large Language Models

이 논문은 다중 에이전트 강화 학습(MARL) 알고리즘의 수동적인 설계 및 반복적인 개선의 한계를 극복하기 위해 대규모 언어 모델(LLM) 을 활용하여 새로운 알고리즘을 자동으로 발견하는 것을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Game Theory #Large Language Models #Evolutionary Algorithms #Counterfactual Regret Minimization #Policy Space Response Oracles #Algorithm Discovery

2026년 2월 19일

[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Dynamic Tokenization #Patch Scheduling #Inference Acceleration #Text-to-Image Generation #Text-to-Video Generation #Latent Manifold Analysis #LoRA

2026년 2월 19일

[논문리뷰] Computer-Using World Model

본 논문은 복잡한 소프트웨어 환경에서 에이전트가 행동의 결과를 추론하는 능력의 부재로 인해 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #World Model #GUI Agents #Desktop Automation #Reinforcement Learning #Large Language Models #Visual State Realization #Textual State Transition

2026년 2월 19일

[논문리뷰] ArXiv-to-Model: A Practical Study of Scientific LM Training

본 연구는 raw arXiv LaTeX 소스 를 활용하여 도메인 특화 과학 언어 모델(Scientific LM)을 훈련하는 실제적이고 투명한 과정을 문서화하는 것을 목표로 합니다.

#Review #Scientific Language Models #LLM Training #ArXiv #LaTeX Processing #Tokenization #Resource Constraints #Pretraining #Data Engineering

2026년 2월 19일

[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

본 논문은 효율성이 높지만 정확도가 낮은 선형 어텐션 과 정확도는 높지만 연산 복잡도가 높은 소프트맥스 어텐션 간의 격차를 해소하는 것을 목표로 합니다. 구체적으로 Mamba-2 의 표현력을 향상시켜 소프트맥스 어텐션에 필적하는 정확도를 달성하면서도 선형적인 복잡도를 유지하는 새로운 어텐션 메커니즘을 제안합니다.

#Review #Linear Attention #Mamba-2 #High-Order Attention #Model Efficiency #Long Context #Transformer #State Space Models

2026년 2월 19일

[논문리뷰] World Action Models are Zero-shot Policies

본 논문은 Vision-Language-Action (VLA) 모델의 한계인 새로운 환경에서 미지의 물리적 동작에 대한 일반화 능력 부족을 해결하고자 합니다.

#Review #World Action Models #Video Diffusion Models #Zero-shot Generalization #Cross-embodiment Transfer #Real-time Control #Robotics #Foundation Models #Flow Matching

2026년 2월 18일

[논문리뷰] Visual Memory Injection Attacks for Multi-Turn Conversations

본 논문은 대규모 시각-언어 모델(LVLM)의 다중 턴 대화 환경에서의 보안 취약점을 해결하고자 합니다.

#Review #LVLM #Adversarial Attacks #Multi-Turn Conversations #Visual Memory Injection #Stealthy Attacks #Benign Anchoring #Context-Cycling

2026년 2월 18일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[논문리뷰] SLA2: Sparse-Linear Attention with Learnable Routing and QAT

본 논문은 기존 Sparse-Linear Attention (SLA)의 한계, 즉 주의 가중치 크기에 기반한 휴리스틱 기반의 어텐션 분할 과 희소 및 선형 어텐션 출력 간의 불일치 를 해결하는 것을 목표로 합니다.

#Review #Sparse-Linear Attention #Diffusion Models #Video Generation #Learnable Routing #Quantization-Aware Training #Attention Acceleration #Model Optimization

2026년 2월 18일