[논문리뷰] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation카메라 중심의 장면 이해와 생성을 별개의 문제로 다루던 기존 방식의 한계를 극복하고, 이를 단일 멀티모달 모델 로 통합하는 것을 목표로 합니다.#Review#Unified Multimodal Model#Camera-Centric#Image Understanding#Image Generation#Spatial Reasoning#Camera Parameters#Instruction Tuning#Multimodal Spatial Intelligence2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.#Review#Referring Video Object Segmentation#Foundation Models#Prompt Engineering#Object Tracking#SAM#Video Analysis#Prompt Preference Learning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control기존의 controllable diffusion model이 고정된 아키텍처와 정적인 컨디셔닝 전략을 사용하여 동적인 denoising 과정에 비효율적이라는 문제를 해결합니다.#Review#Diffusion Models#Conditional Generation#LoRA#Hypernetwork#Dynamic Weight Adaptation#Generative AI#Controllable Generation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] StreamingVLM: Real-Time Understanding for Infinite Video Streams본 논문은 near-infinite 비디오 스트림 을 이해하는 데 있어 기존 VLM이 겪는 높은 지연 시간과 메모리 사용량 증가 문제를 해결하는 것을 목표로 합니다.#Review#Video Stream Understanding#Real-Time VLM#Attention Sink#KV Cache Management#Contiguous RoPE#Supervised Fine-tuning#Long-Context Video2025년 10월 13일댓글 수 로딩 중
[논문리뷰] StatEval: A Comprehensive Benchmark for Large Language Models in Statistics본 논문은 수학적 및 논리적 추론에 비해 통계 분야 에서 벤치마킹 노력이 부족하다는 점을 지적하며, 이 간극을 해소하고자 합니다. 통계학 전반의 깊이와 난이도를 포괄하는 최초의 포괄적 벤치마크인 StatEval 을 도입하여 LLM의 통계적 추론 능력과 이론적 증명 역량을 엄격하게 평가하는 것을 목표로 합니다.#Review#Statistical Reasoning#LLM Benchmark#Statistics Education#Proof Verification#Multi-agent Pipeline#Automated Extraction#Evaluation Framework2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation본 논문은 순차적인 토큰별 디코딩 과정으로 인해 수천 번의 모델 포워드 패스를 요구하는 자율회귀 텍스트-투-이미지 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다. 병렬 토큰 디코딩을 통해 자율회귀 텍스트-투-이미지 생성 모델의 추론을 가속화하고자 합니다.#Review#Autoregressive Models#Text-to-Image Generation#Inference Acceleration#Jacobi Decoding#Denoising Diffusion Models#Speculative Decoding#Multi-token Prediction#Fine-tuning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review과학 출판의 핵심인 피어 리뷰 과정에서 발생하는 불일치, 주관성, 확장성 문제를 해결하고, AI가 인간의 판단을 보완하는 체계적이고 일관된 평가를 제공할 수 있도록 AI 기반 피어 리뷰 시스템 을 연구하고 배포하는 것을 목표로 합니다.#Review#Peer Review#AI-Assisted Review#Large Language Models#LLM Agents#Meta-Review#Conference Submissions#Reviewer Personas#Evaluation Metrics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.#Review#Long-Horizon Reasoning#Query Composition#Large Reasoning Models#Reinforcement Learning#Benchmark Evaluation#Thinking Budget#Performance Degradation#Chain-of-Thought2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition본 논문은 ASR 도메인 적응 시 타겟 도메인의 실제 레이블(ground truth)이 없는 상황에서 pseudo-labeling 으로 인해 발생하는 체계적인 오류 패턴을 완화하는 것을 목표로 합니다.#Review#ASR#Pseudo-labeling#Domain Adaptation#Task Arithmetic#Correction Vector#Accent Adaptation#Speaker Clustering#Model Editing2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction본 논문은 기존 3D 점유 예측 방법론이 고정된 카테고리에 국한되거나, 희소한 가우시안 표현이 세밀한 객체 묘사에 한계가 있고, 조밀한 표현은 높은 연산 비용을 수반하는 문제를 해결하고자 합니다.#Review#3D Occupancy Prediction#Open Vocabulary#Gaussian Splatting#Transformer#Progressive Densification#Anisotropy-aware Sampling#Autonomous Driving2025년 10월 13일댓글 수 로딩 중
[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Physical Tool Understanding#Benchmarking#Embodied AI#Visual Question Answering (VQA)#Tool Affordances#Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Parallel Test-Time Scaling for Latent Reasoning Models본 논문은 latent reasoning models 가 연속적인 벡터 공간에서 추론을 수행함에도 불구하고, 기존 token-based models 처럼 parallel Test-Time Scaling (TTS) 의 이점을 활용하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Latent Reasoning#Test-Time Scaling#Parallel Inference#Stochastic Sampling#Monte Carlo Dropout#Additive Gaussian Noise#Latent Reward Model#Trajectory Aggregation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework본 논문은 기존의 이미지 전체 기반(image-centric) 제로샷 캡셔닝 모델이 지역 단위 캡셔닝에서 낮은 성능을 보이는 문제를 해결하고자 합니다.#Review#Zero-Shot Captioning#Region-Level Captioning#Vision Transformers#DINOv2#Patch-Centric#Modality Gap Mitigation#Visual-Language Models2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs본 논문은 기존 프롬프트 최적화 방법론이 텍스트 모달리티에만 국한되어 Multimodal Large Language Models (MLLMs) 의 잠재력을 완전히 활용하지 못하는 한계를 해결하고자 합니다.#Review#Multimodal AI#Prompt Optimization#MLLMs#Bayesian Optimization#Cross-modal Alignment#Prompt Engineering#Generative AI#Exploration-Exploitation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Mitigating Overthinking through Reasoning Shaping본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#RLVR#Overthinking Mitigation#Reasoning Shaping#Segment-level Penalization#Computational Efficiency#Training Stability#Length-aware Weighting2025년 10월 13일댓글 수 로딩 중
[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval기존 멀티모달 검색 벤치마크의 한계(일반 도메인, 단순 의미 매칭, 단일 이미지/단일 모달 문서)를 극복하고, 전문가 수준의 다학제적 지식과 심층적인 추론 을 요구하는 현실적인 멀티모달 검색 벤치마크를 구축하는 것을 목표로 합니다.#Review#Multimodal Retrieval#Benchmark#Reasoning#Multidisciplinary#Expert-Level#Image-Text Interleaving#Contradiction Retrieval2025년 10월 13일댓글 수 로딩 중
[논문리뷰] KORMo: Korean Open Reasoning Model for Everyone본 논문은 한국어와 영어를 지원하는 최초의 완전 공개(Fully Open) 이중 언어 대규모 언어 모델(LLM) 인 KORMo 를 구축하는 것을 목표로 합니다.#Review#Large Language Model#Korean#Bilingual#Synthetic Data#Fully Open Model#Tokenizer#Reasoning#Pretraining#Instruction Tuning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Instant4D: 4D Gaussian Splatting in Minutes본 논문은 보정되지 않은 단안 비디오 에서 동적 3D 장면을 재구성하는 데 있어 느린 최적화와 복잡한 파라미터 추정으로 인한 문제를 해결하는 것을 목표로 합니다.#Review#4D Gaussian Splatting#Dynamic View Synthesis#Monocular Reconstruction#Visual SLAM#Grid Pruning#Real-time Rendering#GPU Memory Optimization2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation이 논문은 자기 지도(self-supervised) 단안 깊이 추정(MDE)에서 기존 방법론의 한계를 극복하고자 합니다.#Review#Self-supervised Monocular Depth Estimation#Foundation Models#CLIP#DINO#Language Guidance#Coarse-to-fine Learning#Feature Aggregation#3D Perception2025년 10월 13일댓글 수 로딩 중