Review

[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

기존 오디오 토크나이저의 사전 학습된 인코더 , 의미론적 증류 , 이질적인 CNN 기반 아키텍처 의존성으로 인한 재구성 충실도 및 확장성 한계를 극복하는 것이 목표입니다.

#Review #Audio Tokenizer #Transformer Architecture #End-to-End Learning #Residual Vector Quantization #Speech Synthesis #Audio Foundation Models #Scalability #Autoregressive Models

2026년 2월 12일

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.

#Review #On-Policy Distillation #Reward Extrapolation #Large Language Models (LLMs)#Knowledge Distillation #Reinforcement Learning #Math Reasoning #Code Generation #Multi-teacher Distillation

2026년 2월 12일

[논문리뷰] LawThinker: A Deep Research Legal Agent in Dynamic Environments

법률 추론 태스크에서 정확한 최종 결과뿐만 아니라, 절차적으로도 적합한 추론 과정 을 보장하는 것을 목표로 합니다.

#Review #Legal Reasoning #AI Agent #Large Language Models #Verification #Knowledge Management #Dynamic Environments #Procedural Compliance #Tool Use

2026년 2월 12일

[논문리뷰] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

본 논문은 현재 VLA(Vision-Language-Action) 모델이 겪는 제한된 장면 이해 능력과 약한 미래 예측 능력으로 인한 장기적인 액션 계획의 한계를 해결하는 것을 목표로 합니다.

#Review #VLA Models #World Models #Reinforcement Learning #Robotic Manipulation #Long-Horizon Control #Human-in-the-Loop #Continual Learning

2026년 2월 12일

[논문리뷰] EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

본 논문은 로봇 텔레오퍼레이션의 한계(높은 비용, 복잡성, 환경 제약)로 인해 부족한 휴머노이드 로코-조작(loco-manipulation) 데이터 문제를 해결하고자 합니다.

#Review #Humanoid Robotics #Loco-Manipulation #Egocentric Demonstration #Robot-Free Learning #Cross-Embodiment Transfer #View Alignment #Action Alignment #VLA Co-training

2026년 2월 12일

[논문리뷰] DeepSight: An All-in-One LM Safety Toolkit

본 논문은 현재 대규모 언어 모델(LM) 및 멀티모달 대규모 언어 모델(MLLM)의 안전성 평가, 진단, 정렬 워크플로우가 파편화되어 외부 행동 위험만 파악하고 내부 원인을 규명하지 못하는 문제를 해결하고자 합니다.

#Review #LM Safety #Evaluation #Diagnosis #Multimodal AI #Frontier AI Risks #Black-box Analysis #White-box Insight #Open-source Toolkit

2026년 2월 12일

[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.

#Review #Multimodal Model #Image Generation #Image Editing #Diffusion Models #VLM-DiT Architecture #Stacked Channel Bridging #Reinforcement Learning #Lightweight Models

2026년 2월 12일

[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

RLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Prompt Engineering #Compositional Generalization #Verifiable Rewards #Curriculum Learning #Mathematical Reasoning #Multi-task Learning

2026년 2월 12일

[논문리뷰] Adapting Vision-Language Models for E-commerce Understanding at Scale

본 논문은 일반적인 Vision-Language Models (VLMs) 이 속성 중심, 멀티-이미지, 노이즈가 많은 e-commerce 데이터에 적용될 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #E-commerce #Vision-Language Models #Multimodal Understanding #Instruction Tuning #Attribute Extraction #Fine-tuning #Benchmarking #LLMs

2026년 2월 12일

[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.

#Review #Long-Context Reasoning #Large Language Models (LLMs)#Recurrent Memory #Gated Mechanisms #Reinforcement Learning #Memory Efficiency #Early Exit

2026년 2월 11일

[논문리뷰] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

본 논문은 대규모 이미지 편집 모델에서 시각적 프롬프트가 사용자 의도를 전달하는 새로운 패러다임이 도입되면서 발생하는 미탐지된 안전 위험 을 밝히고 해결하는 것을 목표로 합니다.

#Review #Vision-Centric Jailbreak Attack #Image Editing Models #Safety Benchmark #IESBench #Multimodal Reasoning #Adversarial Attack #Defense Mechanism

2026년 2월 11일

[논문리뷰] Towards Autonomous Mathematics Research

본 논문은 국제 수학 올림피아드(IMO) 수준을 넘어 전문적인 수학 연구 영역으로 AI의 능력을 확장하는 것을 목표로 합니다. 방대한 문헌 탐색과 장기적인 증명 구성이 요구되는 연구 문제 해결을 위해, 자연어로 솔루션을 반복적으로 생성, 검증, 수정하는 수학 연구 에이전트 Aletheia 를 소개합니다.

#Review #Mathematics Research #Large Language Models #AI Agents #Theorem Proving #Tool Use #Gemini Deep Think #Autonomous Research #Human-AI Collaboration

2026년 2월 11일

[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.

#Review #Video Captioning #Multi-Scene Videos #Time-Aware #Structural Captions #Audio-Visual Understanding #Large Language Models #Reinforcement Learning #OmniDCBench

2026년 2월 11일

[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.

#Review #2D Strokes #3D Model Generation #Rigged Meshes #Latent Diffusion Models #Skeleton Generation #Text-to-3D #Graph Neural Networks #Preference Optimization

2026년 2월 11일

[논문리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

본 논문은 11B 활성화 파라미터 를 가진 196B Mixture-of-Experts (MoE) 모델 인 Step 3.5 Flash 를 소개하며, 첨단 에이전트 지능과 컴퓨팅 효율성 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparse Models #Inference Efficiency #Hybrid Attention #Multi-Token Prediction (MTP)#Reinforcement Learning (RL)#Agentic AI #Long-Context Understanding

2026년 2월 11일

[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

ROCKET 논문은 대규모 언어 모델(LLMs)의 과도한 크기로 인한 연산 및 메모리 요구 사항을 해결하기 위해 빠르고 훈련 없는(training-free) 모델 압축 방법을 개발하는 것을 목표로 합니다.

#Review #Model Compression #LLM #Training-Free #Knapsack Problem #Sparse Matrix Factorization #Dictionary Learning #Post-Training Optimization #Weight Sparsification

2026년 2월 11일

[논문리뷰] QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

기존 검색 엔진의 쿼리 처리(QP) 시스템은 여러 개의 분리된 차별 모델 파이프라인으로 구성되어 제한적인 의미 이해 능력 과 높은 유지보수 오버헤드 를 겪습니다.

#Review #Large Language Models (LLMs)#Query Understanding #Multi-Task Learning #Generative AI #Reinforcement Learning (RL)#Social Network Services (SNS)#Xiaohongshu #Search Engines

2026년 2월 11일

[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI

본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.

#Review #Multimodal Critics #Physical AI #Reinforcement Learning #Self-Referential Finetuning #Evaluation Models #Causal Reasoning #Embodied AI #RLVR

2026년 2월 11일

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일

[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Meta-Learning #Error Attribution #Knowledge Internalization #Self-Distillation #Verifiable Rewards

2026년 2월 11일