[논문리뷰] Reasoning in Space via Grounding in the World기존 3D LLM이 통일된 3D 표현 부재 및 외부 모듈 의존으로 인해 3D 시각적 그라운딩과 공간 추론을 원활하게 통합하지 못하는 문제를 해결하는 것이 목표입니다. 본 연구는 LLM이 자율회귀적 방식으로 자연스럽고 효과적인 그라운딩을 수행하여 공간 추론 능력을 향상시킬 수 있는 방법을 모색합니다.#Review#3D Visual Grounding#Spatial Reasoning#Large Language Models (LLMs)#Chain-of-Thought (CoT)#Hybrid Representation#Multi-modal LLMs#Point Clouds2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Point Prompting: Counterfactual Tracking with Video Diffusion Models본 논문은 사전 학습된 비디오 확산 모델(video diffusion models) 이 추가 훈련 없이 제로-샷(zero-shot) 방식으로 시점 추적(point tracking)을 수행할 수 있는지 탐구합니다.#Review#Video Diffusion Models#Point Tracking#Zero-Shot Learning#Counterfactual Modeling#Visual Prompting#SDEdit#Negative Prompting#Object Permanence2025년 10월 16일댓글 수 로딩 중
[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning본 논문은 최신 비디오 생성 모델들이 시각적으로 사실적인 비디오를 생성하지만 물리 법칙을 준수하지 못하는 문제를 해결하는 것을 목표로 합니다. 물리적 지식을 비디오 생성 모델에 통합하여 물리적으로 그럴듯한 비디오 를 생성하고, 모델을 단순한 콘텐츠 생성기에서 '월드 모델' 로 발전시키는 것을 궁극적인 목적으로 합니다.#Review#Video Generation#Physical Plausibility#Reinforcement Learning#Direct Preference Optimization#Physical Representation#Diffusion Models#World Models#Image-to-Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs본 논문은 Diffusion LLM (dLLM)의 병렬 디코딩이 토큰 의존성 을 무시하여 발생하는 생성 품질 저하 문제와 그로 인한 속도-품질 트레이드오프를 심층적으로 이해하고 정량화하는 것을 목표로 합니다.#Review#Diffusion LLMs#Parallel Decoding#Speed-Quality Trade-off#Benchmark#Token Dependencies#Unmasking Strategies#Information Theory2025년 10월 16일댓글 수 로딩 중
[논문리뷰] NOSA: Native and Offloadable Sparse Attention본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 디코딩 시 발생하는 메모리 병목 현상, 특히 KV 캐시 크기 가 배치 크기 및 디코딩 처리량을 제한하는 문제를 해결하는 것을 목표로 합니다.#Review#Sparse Attention#KV Cache Offloading#LLMs#Decoding Throughput#Locality Constraint#Memory Optimization#Trainable Sparse Attention2025년 10월 16일댓글 수 로딩 중
[논문리뷰] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training본 논문은 기존 Multi-turn Text-to-SQL 시스템들이 단기적인 추론 패러다임에 머물러 실행 가능하거나 일관성 있는 SQL을 생성하지 못하는 문제를 해결합니다.#Review#Multi-turn Text-to-SQL#Agentic Training#Reinforcement Learning#Large Language Models#Dialogue Systems#Semantic Parsing#Database Interaction#Self-correction2025년 10월 16일댓글 수 로딩 중
[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model기존 RL 기반 LLM들이 수학적 추론 능력을 확장하기보다 기존 지식을 정교화하는 데 그치는 한계를 극복하고, 실제 모델의 추론 능력 경계를 확장 시키는 새로운 RL 방법론 개발을 촉진하기 위한 벤치마크 MATH-Beyond (MATH-B) 를 제시하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Mathematical Reasoning#Benchmark#Large Language Models (LLMs)#Exploration#Boundary Expansion#MATH-Beyond2025년 10월 16일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI2025년 10월 16일댓글 수 로딩 중
[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy본 논문은 로봇이 지시를 이해하고 3D 공간에서 행동하는 데 필요한 본질적인 격차를 해소하여, 확장 가능하고 범용적인 지능을 갖춘 지시-추종 로봇을 개발하는 것을 목표로 합니다.#Review#Robotics#Vision-Language-Action (VLA)#Spatial Grounding#Generalist Policy#Multimodal Learning#Instruction Following#Simulation-to-Real#Diffusion Models2025년 10월 16일댓글 수 로딩 중
[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.#Review#Omni-modal LLM#Audio-Visual Dialogue#Multi-turn Interaction#Speech Generation#Long-term Memory#Multimodal Understanding#End-to-end Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] HyperAgent: Leveraging Hypergraphs for Topology Optimization in Multi-Agent Communication본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템에서 발생하는 비효율적인 그룹 협업 모델링(단순한 쌍별 관계) 및 제한적인 태스크 적응성으로 인한 통신 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Model#Multi-agent Systems#Multi-agent Communication#Graph Neural Networks#Hypergraph#Topology Optimization#Variational Autoencoder#Sparsity Regularization2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain본 논문은 대규모 언어 모델(LLM)이 인간 수준의 언어 능력을 보여주지만 구문 구조를 모델링하는 특정 연산 모듈이 불분명하다는 문제에 주목합니다.#Review#Large Language Models#Syntactic Structure#Human Brain#Frequency Tagging#Neuroscience#Model Interpretability#Representational Similarity Analysis#Intracranial EEG2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math본 논문은 LLM 기반 추론 시스템의 수학적 증명 단계별 검증 능력을 평가하기 위한 새로운 벤치마크, Hard2Verify 를 제시합니다. 기존 벤치마크가 프론티어 수준의 오픈 엔드 수학 문제에 대한 단계별 오류를 충분히 평가하지 못하는 한계를 해결하고, 검증기의 실제 성능을 엄격하게 측정하는 것을 목표로 합니다.#Review#LLM Verification#Math Reasoning#Step-Level Verification#Benchmark#Open-Ended Problems#Process Reward Models#Generative Critics2025년 10월 16일댓글 수 로딩 중
[논문리뷰] GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search본 논문은 다중 에이전트 LLM 시스템에서 발생하는 복잡한 다중 턴 심층 탐색 시나리오 의 실패에 대한 정확한 원인 추론(failure attribution) 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Multi-Agent Systems#Failure Tracing#Root Cause Analysis#Information Dependency Graph#Reinforcement Learning#Deep Search2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.#Review#Multimodal AI#Visual Verification#Generative Models#Self-Refinement#Vision-Language Models#Test-Time Scaling#Reasoning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] FlashWorld: High-quality 3D Scene Generation within Seconds논문은 기존 3D 장면 생성 방법론의 한계인 긴 생성 시간(수분~수시간)과 시각적 품질 저하, 3D 일관성 부족 문제를 해결하고자 합니다. 단일 이미지 또는 텍스트 프롬프트로부터 수초 내에 고품질의 3D 장면을 생성 하여 이전 방식보다 10~100배 빠른 속도 와 우수한 렌더링 품질을 달성하는 것을 목표로 합니다.#Review#3D Scene Generation#Diffusion Models#Multi-View Synthesis#3D Gaussian Splatting#Knowledge Distillation#Real-time Generation#High-Quality Rendering#Cross-modal Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model기존 비전-언어 모델(VLM)이 대규모 전역 정렬에는 능숙하지만, 객체 속성, 공간 관계, 미묘한 언어 표현 등 세분화된 디테일 을 포착하고 비영어권 환경(특히 중국어) 에서 다국어 지원이 부족하다는 문제점을 해결하는 것을 목표로 합니다.#Review#Vision-Language Alignment#Fine-grained Understanding#Bilingual Model#Contrastive Learning#Multimodal Retrieval#Open-Vocabulary Detection#Region-Text Matching2025년 10월 16일댓글 수 로딩 중
[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.#Review#LLM#Inference-Time Scaling#Entropy-Aware Generation#Adaptive Budget Allocation#Reasoning Benchmarks#Computational Efficiency#Chain-of-Thought2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Direct Multi-Token Decoding본 논문은 대규모 언어 모델(LLM)의 비효율적인 계층 활용을 해결하여 추론 속도를 가속화하는 것을 목표로 합니다.#Review#LLM Inference#Multi-token Decoding#Transformer Architecture#Layer Specialization#Cyclical Refilling#Inference Speedup#Model Scaling2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCsLLM 기반 비플레이어 캐릭터(NPC)가 게임 내에서 기능적 작업 실행과 페르소나 일관성 있는 대화 생성을 동시에 수행할 때 발생하는 'Flanderization' (과도한 역할극) 문제를 해결하는 것을 목표로 합니다. 이를 통해 캐릭터의 진정성 과 작업 실행의 정확성 사이의 균형을 효과적으로 맞추는 방안을 모색합니다.#Review#LLM#NPC#Game Dialogue#Persona-Grounded Dialogue#Task Execution#Prompt Engineering#Fine-tuning#Deflanderization2025년 10월 16일댓글 수 로딩 중