[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Group Relative Policy Optimization#Advantage Estimation#Exploration-Exploitation#Curriculum Learning#Multi-modal LLMs2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Thinking with Drafting: Optical Decompression via Logical Reconstruction본 논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력에 대한 복잡한 추론 작업에서 겪는 '정밀도 역설'을 해결하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Visual Algebra#Domain-Specific Language#Optical Decompression#Logical Reconstruction#Bar Model#MLLMs#Verification2026년 2월 12일댓글 수 로딩 중
[논문리뷰] ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces본 논문은 대규모 언어 모델(LLM)의 추론 효율성을 향상시키는 것을 목표로 합니다. 특히, 기존의 명시적 추론 궤적(CoT) 및 잠재 공간 추론 방식의 한계를 극복하고, 추론 정확도를 높이면서 생성 길이를 줄이는 새로운 방법을 제안합니다.#Review#Efficient Reasoning#Latent Space Reasoning#Discrete Space Reasoning#LLM Confidence#Routing Mechanism#Inference-Time Optimization#Chain-of-Thought2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#In-Context Learning#Reinforcement Learning#Test-Time Scaling#Exploration-Exploitation#State Coverage#Reward Shaping#Chain-of-Thought2026년 2월 12일댓글 수 로딩 중
[논문리뷰] The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies본 논문은 지속적인 자기 진화(Continuous Self-Evolution), 완전한 고립(Complete Isolation), 안전 불변성(Safety Invariance)이라는 자기 진화 삼중고(self-evolution trilemma)를 만족하는 AI 에이전트 사회가 불가능함을 이론적 및 실증적으로 증명하는 것을 목표로 합니다.#Review#Multi-agent Systems#Self-evolution#AI Safety#Alignment Drift#Information Theory#Thermodynamics#Entropy Accumulation#Moltbook2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching본 논문은 단일 벡터 스케치가 스트로크가 순차적으로 추가됨에 따라 극적인 의미 변환을 겪는 새로운 태스크인 'Progressive Semantic Illusions' 를 소개합니다.#Review#Vector Sketching#Progressive Semantic Illusions#Score Distillation Sampling#Joint Optimization#Visual Anagrams#Bézier Strokes#CLIP-guided Generation#Diffusion Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation본 논문은 실세계 환경에서 Beyond-the-View Navigation (BVN) 이 직면한 과제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Navigation#Beyond-the-View Navigation#Video Generation Models#Sparse Video Generation#Diffusion Models#Embodied AI#Real-world Navigation#Long-horizon Planning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.#Review#LLM#Scientific Reasoning#Co-evolution#Reinforcement Learning#Sparse Supervision#Geometric Consensus#Self-Play#Verifier2026년 2월 12일댓글 수 로딩 중
[논문리뷰] ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning본 연구는 대규모 Visual Instruction Tuning (VIT) 데이터셋의 높은 중복성으로 인한 비효율적인 훈련 비용 문제를 해결하고자 합니다.#Review#Multimodal Data Selection#Visual Instruction Tuning#Training-Free#Scalability#Subspace Learning#Vision-Language Models#Attention Mechanism2026년 2월 12일댓글 수 로딩 중
[논문리뷰] RISE: Self-Improving Robot Policy with Compositional World Model본 논문은 VLA(Vision-Language-Action) 모델 이 접촉이 많고 역동적인 로봇 조작 작업에서 여전히 취약하며, 물리적 환경에서의 온-정책(on-policy) 강화 학습이 하드웨어 비용, 느린 상호작용, 수동 리셋 등의 문제로 인해 확장이 어렵다는 한계를 해결하고자 합니다.#Review#Robot Learning#Reinforcement Learning#World Models#Compositional Models#Robotic Manipulation#Self-Improving#Vision-Language-Action (VLA)2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm대규모 언어 모델(LLM) 사전 학습에 필요한 막대한 GPU 메모리 및 통신 대역폭 요구 사항으로 인한 중앙 집중식 학습의 한계를 극복하는 것입니다.#Review#Decentralized Training#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Memory Efficiency#Sparse Expert Synchronization#Federated Learning#Distributed GPUs2026년 2월 12일댓글 수 로딩 중
[논문리뷰] NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control본 논문은 긴 길이의 비디오에 대해 계산 효율적이고, 시간적으로 일관되며, 서사적 흐름에 의미론적으로 부합하는 배경 음악을 자동으로 생성하는 것을 목표로 합니다.#Review#Video-to-Music Generation#Affective Computing#Vision-Language Models (VLMs)#Hierarchical Control#Soundtrack Generation#Temporal Coherence#Emotion-Driven Music2026년 2월 12일댓글 수 로딩 중
[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Image Metaphor Understanding#Visual Reasoning#Reinforcement Learning#MLLMs#TFQ-GRPO#End-to-End Learning#Cognitive AI2026년 2월 12일댓글 수 로딩 중
[논문리뷰] MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models기존 오디오 토크나이저의 사전 학습된 인코더 , 의미론적 증류 , 이질적인 CNN 기반 아키텍처 의존성으로 인한 재구성 충실도 및 확장성 한계를 극복하는 것이 목표입니다.#Review#Audio Tokenizer#Transformer Architecture#End-to-End Learning#Residual Vector Quantization#Speech Synthesis#Audio Foundation Models#Scalability#Autoregressive Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.#Review#On-Policy Distillation#Reward Extrapolation#Large Language Models (LLMs)#Knowledge Distillation#Reinforcement Learning#Math Reasoning#Code Generation#Multi-teacher Distillation2026년 2월 12일댓글 수 로딩 중
[논문리뷰] LawThinker: A Deep Research Legal Agent in Dynamic Environments법률 추론 태스크에서 정확한 최종 결과뿐만 아니라, 절차적으로도 적합한 추론 과정 을 보장하는 것을 목표로 합니다.#Review#Legal Reasoning#AI Agent#Large Language Models#Verification#Knowledge Management#Dynamic Environments#Procedural Compliance#Tool Use2026년 2월 12일댓글 수 로딩 중
[논문리뷰] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning본 논문은 현재 VLA(Vision-Language-Action) 모델이 겪는 제한된 장면 이해 능력과 약한 미래 예측 능력으로 인한 장기적인 액션 계획의 한계를 해결하는 것을 목표로 합니다.#Review#VLA Models#World Models#Reinforcement Learning#Robotic Manipulation#Long-Horizon Control#Human-in-the-Loop#Continual Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration본 논문은 로봇 텔레오퍼레이션의 한계(높은 비용, 복잡성, 환경 제약)로 인해 부족한 휴머노이드 로코-조작(loco-manipulation) 데이터 문제를 해결하고자 합니다.#Review#Humanoid Robotics#Loco-Manipulation#Egocentric Demonstration#Robot-Free Learning#Cross-Embodiment Transfer#View Alignment#Action Alignment#VLA Co-training2026년 2월 12일댓글 수 로딩 중
[논문리뷰] DeepSight: An All-in-One LM Safety Toolkit본 논문은 현재 대규모 언어 모델(LM) 및 멀티모달 대규모 언어 모델(MLLM)의 안전성 평가, 진단, 정렬 워크플로우가 파편화되어 외부 행동 위험만 파악하고 내부 원인을 규명하지 못하는 문제를 해결하고자 합니다.#Review#LM Safety#Evaluation#Diagnosis#Multimodal AI#Frontier AI Risks#Black-box Analysis#White-box Insight#Open-source Toolkit2026년 2월 12일댓글 수 로딩 중
[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.#Review#Multimodal Model#Image Generation#Image Editing#Diffusion Models#VLM-DiT Architecture#Stacked Channel Bridging#Reinforcement Learning#Lightweight Models2026년 2월 12일댓글 수 로딩 중