[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Text-to-Video Generation#Physics-Aware AI#Direct Preference Optimization#Groupwise Preference Learning#Vision-Language Model#LoRA2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.#Review#Agentic Learning Ecosystem#Large Language Models#Reinforcement Learning#Agentic Crafting#Tool Use#ROME Model#Policy Optimization#Sandbox Environment2025년 12월 31일댓글 수 로딩 중
[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Sounding Video#Video Comprehension#Video Generation#Audio-Video Synchronization#Instruction Tuning#Diffusion Model#Encoder-Decoder2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of Itself확산 트랜스포머(Diffusion Transformer) 모델이 저확률 데이터 영역에서 고품질 이미지를 생성하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Diffusion Models#Transformer#Generative AI#Image Generation#Guidance Strategy#Internal Guidance#Auxiliary Loss#Classifier-Free Guidance2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers호흡음 분류를 위한 ICBHI 2017 과 같은 소규모, 고노이즈, 클래스 불균형 데이터셋에서 Transformer 기반 모델의 과적합 및 일반화 문제 를 해결하고, 특히 민감도(Sensitivity) 를 향상시키는 것을 목표로 합니다.#Review#Respiratory Sound Classification#Audio Spectrogram Transformer#Sharpness-Aware Minimization#Loss Landscape#Imbalanced Learning#Transfer Learning#ICBHI 20172025년 12월 31일댓글 수 로딩 중
[논문리뷰] GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction본 논문은 제한된 입력 뷰(sparse-view) 환경에서 발생하는 3D 재구성의 고질적인 문제(구멍, 고스팅, 기하학적 불일치)를 해결하고자 합니다.#Review#3D Reconstruction#Sparse-View#Diffusion Models#Outpainting#Gaussian Splatting#Geometry-aware#Novel View Synthesis2025년 12월 31일댓글 수 로딩 중
[논문리뷰] GR-Dexter Technical Report본 논문은 고자유도(high-DoF) 양손 덱스터러스 핸드 로봇에서 Vision-Language-Action (VLA) 모델 기반의 일반화된 로봇 조작 정책을 확장하는 과제를 해결합니다.#Review#Dexterous Manipulation#Bimanual Robotics#VLA Models#Robot Learning#Teleoperation#Cross-Embodiment Data#Robotic Hand Design2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.#Review#Multi-modal Pre-training#Autonomous Systems#Spatial Intelligence#Foundation Models#LiDAR-Camera Fusion#Self-Supervised Learning#Generative World Models#Embodied AI2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Visual Thinking#Reinforcement Learning#Code Generation#Geometric Reasoning#Adaptive Reward Mechanism#Problem Solving2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process대규모 언어 모델(LLM)의 복잡한 추론 과정 중 내부 메커니즘을 심층적으로 이해하고 조작하는 것을 목표로 합니다. 특히, 사람의 개입 없이 추론 행동을 표현하는 벡터 를 비지도 방식으로 발견 하여 기존의 제한적인 인간 정의 개념(예: 과도한 생각, 회고)을 넘어선 추론 행동을 식별하고 제어하고자 합니다.#Review#LLM Reasoning#Mechanistic Interpretability#Sparse Autoencoders (SAEs)#Activation Steering#Unsupervised Learning#Reasoning Behaviors#Chain-of-Thought#Feature Disentanglement2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Factorized Learning for Temporally Grounded Video-Language Models기존 비디오-언어 모델(VLLMs)이 이벤트 수준의 정확한 temporal grounding 과 텍스트 응답 생성에서 겪는 한계를 해결하는 것을 목표로 합니다.#Review#Video-Language Models#Temporal Grounding#Factorized Learning#Preference Optimization#Evidence Referencing#Video Understanding#Dense Captioning2025년 12월 31일댓글 수 로딩 중
[논문리뷰] BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts전략적 대화에서 에이전트가 정확하게 추정된 신념을 발화 생성에 효과적으로 활용하는 메커니즘이 부족하다는 문제를 해결하고자 합니다. 복잡한 신념 상태에서 기존 방식이 비최적적인 의사소통으로 이어지는 한계를 극복하고, 신념 추정을 기반으로 신뢰성 높은 전략적 대화를 수행하는 것을 목표로 합니다.#Review#Strategic Dialogue#Belief Estimation#Dialogue Acts#Probabilistic Constraints#Theory of Mind#Adversarial Dialogue#Alignment Dialogue2025년 12월 31일댓글 수 로딩 중
[논문리뷰] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents이 논문은 AI 에이전트, 특히 LLM 기반 에이전트의 효율적인 메모리 시스템 설계를 위해 인지 신경과학의 통찰력을 통합하는 것을 목표로 합니다.#Review#Autonomous Agents#Memory Systems#Cognitive Neuroscience#Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Memory Management#Multimodal Memory#Agent Skills2025년 12월 31일댓글 수 로딩 중
[논문리뷰] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement본 논문은 3D 콘텐츠 생성에서 데이터 품질, 기하학적 확장성, 미세 디테일 합성이라는 주요 과제를 해결하기 위해, 고품질의 3D 형상을 효율적으로 생성하는 확장 가능한(scalable) 3D 확산 프레임워크인 UltraShape 1.0 을 제안합니다.#Review#3D Shape Generation#Diffusion Models#Geometric Refinement#Data Curation#Watertight Mesh#Voxel-based#Scalability#High-Fidelity2025년 12월 30일댓글 수 로딩 중
[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.#Review#Issue Localization#Causal Reasoning#Graph-guided#Large Language Models#Software Engineering#Defect Analysis#Repository Mining2025년 12월 30일댓글 수 로딩 중
[논문리뷰] GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs본 논문은 Mixture-of-Experts (MoE) LLM 의 고유한 안전 특성과 취약점이 기존 Dense LLM 에 비해 충분히 연구되지 않았다는 문제의식을 제기합니다.#Review#MoE LLM#Safety Alignment#Adversarial Attack#Neuron Pruning#Gate-level Profiling#Transfer Attack#Vision Language Model2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Evaluating Parameter Efficient Methods for RLVR본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 패러다임 하에서 다양한 Parameter-Efficient Fine-Tuning (PEFT) 방법론 을 체계적으로 평가하여 최적의 아키텍처를 식별하는 것을 목표로 합니다.#Review#Parameter-Efficient Fine-Tuning (PEFT)#Reinforcement Learning with Verifiable Rewards (RLVR)#Low-Rank Adaptation (LoRA)#Mathematical Reasoning#LLM Adaptation#SVD Initialization2025년 12월 30일댓글 수 로딩 중
[논문리뷰] End-to-End Test-Time Training for Long Context본 논문은 트랜스포머의 전체 어텐션이 긴 컨텍스트에서 선형적인 비용 증가로 비효율적인 문제를 해결하고자 합니다.#Review#Long-Context Language Modeling#Test-Time Training (TTT)#Meta-Learning#Continual Learning#Transformer#Sliding-Window Attention#Inference Efficiency#MLP Adaptation2025년 12월 30일댓글 수 로딩 중
[논문리뷰] DreamOmni3: Scribble-based Editing and Generation본 논문은 통합 생성 및 편집 모델에서 텍스트 프롬프트의 한계, 즉 사용자의 의도된 편집 위치 및 미세한 시각적 세부 사항을 정확히 포착하지 못하는 문제를 해결하고자 합니다.#Review#Image Editing#Image Generation#Scribble-based Control#Multimodal AI#Diffusion Models#Data Synthesis#Human-Computer Interaction#Instruction-based Editing2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation Model본 논문은 대규모 파라미터 크기, 긴 추론 단계, 빠르게 증가하는 히스토리컬 컨텍스트, 그리고 텍스트 기반 제어 능력 부족과 같은 기존 비디오 확산 모델의 한계를 극복하여 사실적이고 상호작용적이며 연속적인 가상 세계를 실시간으로 생성 하는 것을 목표로 합니다.#Review#Interactive World Generation#Video Diffusion Models#Text-to-Video#Image-to-Video#Real-time Generation#Temporal-Spatial-Channel Modeling#Self-Forcing2025년 12월 29일댓글 수 로딩 중