[논문리뷰] CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving본 논문은 모방 학습(IL)에만 의존하는 자율주행 모델이 겪는 일반화 성능 저하 및 롱테일 시나리오 대응 문제 를 해결하고자 합니다. 또한, 강화 학습(RL)의 샘플 비효율성 및 불안정한 수렴 문제를 극복하기 위해, IL과 RL을 효과적으로 통합 하여 보다 견고하고 일반화된 자율주행 정책을 개발하는 것을 목표로 합니다.#Review#Autonomous Driving#Imitation Learning#Reinforcement Learning#World Models#Latent Space#Dual-Policy#Competitive Learning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving자율 주행을 위한 포괄적인 세계 모델을 구축하기 위해, 다양한 제어 입력 하에 장기간의 다중 시점 비디오를 생성하고 동시에 4D 장면 재구성 기능을 제공하는 것을 목표로 합니다. 특히, 기존 비디오 생성 모델들이 명시적인 3D 정보 를 다루지 못해 자율 주행 시나리오에 적용하기 어려운 한계를 극복하고자 합니다.#Review#Autonomous Driving#Video Generation#Diffusion Models#Spatial-Temporal Reconstruction#3D Gaussian Splatting#Variational Autoencoder#World Modeling#Multi-View Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs본 논문은 데이터 품질 격차로 인해 독점 모델에 뒤처지는 Fully Open MLLM 의 한계를 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Data Curation#Supervised Fine-tuning#Chain-of-Thought#Open-source AI#Data Quality#MLLM Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization본 논문은 LLM의 불투명한 추론 과정을 명확히 이해하고, 기존 RL의 균일한 크레딧 할당 방식이 중요한 추론 단계를 모호하게 만드는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Attention Mechanisms#Reinforcement Learning#Credit Assignment#Policy Optimization#Interpretability#Preplan-and-Anchor Rhythm#Generative Models2025년 10월 16일댓글 수 로딩 중
[pydantic-ai] RunUsage.tool_calls race condition 수정 revert — asyncio.Lock 제거asyncio.Lock으로 tool_calls 카운터를 보호하던 수정을 revert하고 더 근본적인 해결을 준비#Python#Pydantic AI#Concurrency#Revert#asyncio2025년 10월 15일댓글 수 로딩 중
[논문리뷰] What If : Understanding Motion Through Sparse Interactions논문은 물리적 장면의 동역학을 이해하는 것을 목표로 하며, 특히 국부적인 상호작용('pokes')의 결과로 발생할 수 있는 잠재적인 변화의 다중 모드 분포 를 예측하고자 합니다.#Review#Motion Understanding#Sparse Interactions#Multimodal Prediction#Flow Poke Transformer#Physical Scene Dynamics#Uncertainty Quantification#Generative Models#Computer Vision2025년 10월 15일댓글 수 로딩 중
[논문리뷰] ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution본 논문은 MLLM의 이미지 입력으로 인한 추론 비용 증가 문제를 해결하고, 이미지의 의미론적 복잡성 에 따라 가변적인 수의 시각 토큰을 사용하여 이미지를 효율적으로 표현하는 새로운 훈련 전략을 제안합니다.#Review#Multimodal Large Language Models (MLLMs)#Dynamic Resolution#Token Compression#Semantic Awareness#Visual Consistency Learning (ViCO)#Visual Resolution Router (ViR)#Inference Optimization2025년 10월 15일댓글 수 로딩 중
[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image Generation기존 이미지 생성 모델들이 이미지와 텍스트에 대해 분리된 인코더를 사용하는 한계를 극복하고, 크로스-모달 추론 및 지식 전이 능력을 향상시키는 것을 목표로 합니다.#Review#Vision-Language Model#Unified Encoder#Image Generation#Diffusion Models#Multimodal Learning#Text-to-Image#Image Editing#Zero-shot Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Tensor Logic: The Language of AIAI 분야의 발전이 프로그래밍 언어의 한계로 인해 저해되고 있다는 문제의식에서 출발합니다. PyTorch나 TensorFlow와 같은 라이브러리가 자동 미분과 GPU 가속을 제공하지만, 자동 추론 및 지식 습득 기능이 부족하며, LISP나 Prolog 같은 심볼릭 AI 언어는 확장성과 학습 지원이 미비합니다.#Review#Tensor Logic#Neurosymbolic AI#Logic Programming#Tensor Algebra#Deep Learning#Automated Reasoning#Embedding Space2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models논문은 Diffusion 모델이 외부 가이던스(guidance)를 적용할 때 발생하는 'off-manifold' 현상으로 인해 생성된 샘플이 실제 데이터 manifold에서 벗어나 품질이 저하되는 문제를 해결하고자 합니다.#Review#Diffusion Models#Generative Models#Guidance#On-Manifold Sampling#Temporal Alignment#Score Approximation Error#Training-Free Guidance2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SynthID-Image: Image watermarking at internet scale본 논문은 AI 생성 이미지의 출처(provenance)를 인터넷 규모로 확립하기 위한 SynthID-Image 라는 딥러닝 기반의 비가시적 이미지 워터마킹 시스템을 소개합니다.#Review#Image Watermarking#AI-Generated Content#Provenance#Robustness#Security#Deep Learning#Internet Scale#Post-hoc2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model본 논문은 2D 데이터로 사전 훈련된 VLA 모델이 3D 물리 세계에서 정확한 동작을 수행하는 데 필요한 공간 인식이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Spatial Perception#Implicit Representation Alignment#3D Foundation Models#Robotics#Data Efficiency#Representation Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Scaling Language-Centric Omnimodal Representation Learning본 논문은 MLLM(Multimodal Large Language Model) 기반 임베딩 모델의 우수한 성능이 전통적인 CLIP-스타일 모델 에 비해 가지는 근본적인 이유를 탐구합니다.#Review#Multimodal Embeddings#MLLMs#Contrastive Learning#Cross-modal Alignment#Generative Pretraining#Representation Learning#Scaling Laws2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models본 논문은 Unified Multimodal Models ( UMMs )이 이미지 이해 능력에 비해 이미지 생성 능력에서 현저한 격차를 보이는 문제에 주목합니다. 모델이 사용자 지침에 따라 이미지를 정확하게 이해하더라도, 동일한 텍스트 프롬프트로부터 충실한 이미지를 생성하지 못하는 역설을 해결하고자 합니다.#Review#Unified Multimodal Models#Self-Rewarding#Text-to-Image Generation#Image Understanding#Post-Training#Global-Local Reward#Compositional Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model기존 멀티모달 임베딩 모델의 한계인 제한된 모달리티 지원, 불안정한 학습 메커니즘, 산업 도메인 간극을 해결하는 것을 목표로 합니다. 이를 통해 다양한 실세계 시나리오에서 효과적인 옴니모달 임베딩(omni-modal embedding) 을 제공하는 SAIL-Embedding 이라는 파운데이션 모델을 제안합니다.#Review#Omni-modal Embedding#Multimodal Learning#Recommendation Systems#Hard Negative Mining#Contrastive Learning#Large Language Models (LLMs)#Data Balancing#Multitask Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Robot Learning: A Tutorial이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.#Review#Robot Learning#Reinforcement Learning#Imitation Learning#Behavioral Cloning#Vision-Language-Action Models#Diffusion Models#Transformers#LeRobot2025년 10월 15일댓글 수 로딩 중
[논문리뷰] ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability논문은 기존 Long Chain-of-Thought (CoT) 추론 모델 들이 답변 정확도와 토큰 효율성에만 집중하여 신뢰성(trustworthiness) 을 간과하는 문제를 해결하고자 합니다.#Review#Trustworthy AI#Large Reasoning Models (LRMs)#Interpretability#Faithfulness#Reliability#Chain-of-Thought (CoT)#Supervised Fine-tuning (SFT)#GRPO2025년 10월 15일댓글 수 로딩 중
[논문리뷰] One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration본 논문은 복잡하고 확률적인 환경에서 제한된 상호작용 예산('one life')과 인간의 보상/목표와 같은 외부 안내 없이 기호적 월드 모델을 학습하는 어려운 문제를 해결하는 것을 목표로 합니다. 이전 연구들이 주로 결정론적 환경, 풍부한 데이터, 인간의 지시에 의존했던 한계를 극복하고자 합니다.#Review#Symbolic World Models#Stochastic Environments#Unguided Exploration#Probabilistic Programming#Law Synthesis#Crafter-OO#Program Synthesis2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks본 논문은 LLM 기반 에이전트가 긴 작업(long-horizon tasks)을 수행할 때 제한된 작업 메모리 가 불필요하거나 관련 없는 컨텍스트에 의해 쉽게 과부하되는 문제를 해결하고자 합니다.#Review#Long-Horizon Tasks#Agentic AI#Context Curation#Working Memory#Reinforcement Learning#Policy Optimization#Large Language Models#Memory-as-Action2025년 10월 15일댓글 수 로딩 중
[논문리뷰] MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces본 논문은 사용자 인터페이스(UI) 디자인 평가 과정에서 발생하는 리소스 제약을 해결하기 위해 Multimodal Large Language Models (MLLMs) 이 인간의 UI 인식과 선호도를 얼마나 정확하게 예측할 수 있는지 벤치마킹하는 것을 목표로 합니다.#Review#Multimodal LLMs#UI Evaluation#Human Perception#Benchmarking#UX Research#MLLM-as-a-Judge#Cognitive Factors#Pairwise Comparison2025년 10월 15일댓글 수 로딩 중