[논문리뷰] Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation ModelI have browsed the paper. Now I will extract the necessary information to construct the summary and figure JSON.#Review2026년 3월 23일댓글 수 로딩 중
[논문리뷰] SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning기존의 대규모 사전 학습된 이미지 표현 모델, 즉 Vision Encoder들은 다양한 비전 태스크에서 뛰어난 성능을 보였음에도 불구하고, 주로 2D 이미지 데이터로 학습되어 실제 세계의 객체와 배경 간의 3D 공간 관계를 제대로 포착하지 못하는 근본적인 한계가 있었다.#Review2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels기존의 Weight-Decomposed Low-Rank Adaptation (DoRA) 구현은 특히 high-rank 설정에서 심각한 메모리 및 성능 병목 현상을 겪습니다.#Review#DoRA#Low-Rank Adaptation#Parameter-Efficient Fine-Tuning#Fused Kernels#Memory Optimization#Performance Scaling#Triton2026년 3월 23일댓글 수 로딩 중
[논문리뷰] SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language ModelsCLIP과 같은 Vision-Language Models (VLMs)는 multimodal AI의 핵심 구성 요소이지만, 대규모의 uncurated training data로 인해 심각한 social 및 spurious bias가 내재되어 있다.#Review#Vision-Language Models#CLIP#Debiasing#Sparse Autoencoder#Post-Hoc#Zero-Shot#Feature Disentanglement#Bias Mitigation2026년 3월 23일댓글 수 로딩 중
[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models최근 VLA는 로봇 공학 분야에서 두드러진 성과를 보이며, MLLM의 시각 인지, 언어 이해 및 상식 지식을 활용하여 실제 시나리오에서 일반화 가능한 로봇 정책 학습의 기반을 제공합니다.#Review#Vision-Language-Action Models (VLAs)#Multimodal-Large-Language Models (MLLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Embodied Reasoning#Low-level Actions#FAST tokenization#Robotics2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Repurposing Geometric Foundation Models for Multi-view Diffusion최근 latent space의 발전이 single-image generation에서 상당한 진전을 이끌었지만, Novel View Synthesis (NVS) 를 위한 최적의 latent space는 대부분 미탐색 상태로 남아있습니다.#Review#Geometric Foundation Models#Multi-view Diffusion#Novel View Synthesis (NVS)#Latent Space Design#Geometric Consistency#Diffusion Models#RGB Reconstruction#3D Consistency2026년 3월 23일댓글 수 로딩 중
[논문리뷰] REVERE: Reflective Evolving Research Engineer for Scientific Workflows기존의 Prompt-Optimization Techniques는 주로 Local Signals에 의존하여 Behavior를 업데이트하며, 이로 인해 Generalization이 저하되고 Full-Prompt Rewrites나 Unstructured Merges 과정에서 Knowledge Loss가 발생합니다.#Review#LLM Agents#Self-Adaptation#Research-Coding Workflows#Prompt Optimization#Global Training Context#Code-Based Edits#Continual Learning#Semantic Drift2026년 3월 23일댓글 수 로딩 중
[논문리뷰] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost본 논문은 long-horizon agentic 태스크의 post-training에서 SFT의 compute 효율성과 end-to-end RL의 out-of-domain 성능을 동시에 얻기 위해, 정보량이 큰 'Pivot' 턴에서만 local on-policy rollout을 수행하고 functional equivalence를 보상하는 PivotRL을 제안합니다.#Review#Reinforcement Learning#Agentic Post-Training#On-Policy Rollout#Pivot Turn#Functional Equivalence#LLM Fine-Tuning2026년 3월 23일댓글 수 로딩 중
[논문리뷰] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory SynthesisDeep Research Agent를 훈련시키기 위해서는 검색, 증거 취합 및 다단계 추론이 복합적으로 이루어지는 Long-Horizon Trajectory가 필수적입니다.#Review#Deep Research Agents#Long-Horizon Trajectories#Offline Trajectory Synthesis#Browser Primitives#Supervised Fine-tuning#Corpus Bootstrapping#Reproducible Pipeline2026년 3월 23일댓글 수 로딩 중
[논문리뷰] On the Direction of RLVR Updates for LLM Reasoning: Identification and ExploitationLarge Language Models (LLMs)의 reasoning capability는 Reinforcement Learning with Verifiable Rewards (RLVR)와 같은 기법을 통해 크게 발전했습니다.#Review#RLVR#LLM Reasoning#Log Probability Difference#Directional Updates#Test-Time Extrapolation#Advantage Reweighting#Sparse Updates2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models기존 비디오 기반 World Models 의 평가 벤치마크들은 주로 시각적 충실도(visual fidelity) 및 텍스트-비디오 정렬(text-video alignment)에만 협소하게 초점을 맞추거나, 시간적 역동성(temporal dynamics)을 근본적으로 무시하는 정적 3D 재구성(3D reconstruction) 메트릭에 의존해왔다.#Review#World Models#4D Generation#Interactive Response#Evaluation Benchmark#Omni-WorldSuite#Omni-Metrics#AgenticScore#Causal Consistency2026년 3월 23일댓글 수 로딩 중
[논문리뷰] MemDLM: Memory-Enhanced DLM TrainingDiffusion Language Models (DLMs)는 병렬 생성(parallel generation) 및 양방향 context 인지(bidirectional context awareness) 등 Auto-Regressive (AR) 모델 대비 매력적인 이점을 제공한다.#Review#Diffusion Language Models#Train-Inference Mismatch#Bi-level Optimization#Parametric Memory#Fast Weights#Long-Context Understanding#Exposure Bias#In-Weight Retrieval2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs기존 Vision-language models (VLMs) 은 detail-sensitive tasks 를 해결하기 위해 high-resolution visual inputs 에 의존하지만, 이로 인해 computational costs 와 inference latency 가 크게 증가하는 문제가 발생한다.#Review#Vision-language models#High-resolution crops#Tool-calling#Efficiency#Reinforcement Learning#Multi-turn interaction#Data curation#Spatial-on-demand2026년 3월 23일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning최근 Large Language Models (LLMs)의 추론 능력 향상에도 불구하고, 현재 LLMs는 Lean4 와 같이 엄격하고 검증된 formal language를 요구하는 formal theorem-proving task에서 여전히 어려움을 겪고 있다.#Review#Mixture-of-Experts#Native Formal Reasoning#Tool-Integrated Reinforcement Learning#Lean4#Auto-formalization#Theorem Proving#Hierarchical Importance Sampling Policy Optimization2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language ModelsLarge Language Models (LLMs)는 Chain-of-Thought prompting과 같은 확장된 추론을 통해 상당한 발전을 이루었지만, 이를 Multi-modal Large Language Models (MLLMs)로 확장하는 것은 여전히 큰 도전 과제입니다.#Review#Visual Reasoning#Image Understanding#Video Understanding#Multi-Agent System#Reinforcement Learning#Self-Evolving2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object DetectionThe paper 'Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection' by Youbin Kim, Jinho Park, Hogun Park, and Eunbyung Park proposes a multi-view open-vocabulary 3D object detection framework.#Review2026년 3월 23일댓글 수 로딩 중
[논문리뷰] FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models본 논문은 Transformer 기반 world model의 O(N²) 연산 비용과 공간적 inductive bias 부재 문제를 해결하기 위해, reaction-diffusion 형태의 편미분방정식을 예측 동역학으로 사용하는 FluidWorld를 제안합니다.#Review#World Models#Reaction-Diffusion PDE#Video Prediction#Latent Dynamics#Spatial Inductive Bias#Computational Efficiency2026년 3월 23일댓글 수 로딩 중
[논문리뷰] F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting기존의 Feed-Forward 3DGS 방법론들은 rigid한 pixel-to-Gaussian 또는 voxel-to-Gaussian 파이프라인을 채택하여 Gaussians를 uniformly하게 할당하는 경향이 있었습니다.#Review#3D Gaussian Splatting#Feed-Forward#Predictive Densification#Spatially Adaptive Allocation#Novel View Synthesis#Uncalibrated Multi-view#Gaussian Budget Control2026년 3월 23일댓글 수 로딩 중
[논문리뷰] BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge GraphsLarge Language Models (LLMs)는 Knowledge-intensive task에서 Hallucination 과 outdated knowledge 문제를 겪고 있으며, 이를 해결하기 위해 Graph-based Retrieval-Augmented Generation (RAG)이 유망한 솔루션으로 부상했습니다.#Review2026년 3월 23일댓글 수 로딩 중
[논문리뷰] s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs본 논문은 LLM이 산업용 cryptographic assembly 코드를 검증할 수 있는지를 평가하기 위해, AWS의 s2n-bignum 라이브러리에서 추출한 형식 명세와 HOL Light 증명 스크립트 생성 과제를 묶은 실용 벤치마크를 제안합니다.#Review#Formal Verification#Theorem Proving#HOL Light#LLM for Code#Cryptographic Assembly#Neurosymbolic AI2026년 3월 22일댓글 수 로딩 중