[논문리뷰] Perceptual Flow Network for Visually Grounded Reasoning본 논문은 기존 LVLM이 표준 MLE 학습 과정에서 시각적 궤적을 제어하지 못해 발생하는 언어 편향과 환각(Hallucination) 문제를 해결하고자 합니다.#Review#Large-Vision Language Models#Visually Grounded Reasoning#Perceptual Flow#Variational Reinforcement Learning#Vicinal Geometric Shaping#Hallucination Mitigation2026년 5월 4일댓글 수 로딩 중
[논문리뷰] OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models본 논문은 해양 데이터의 파편화와 도메인 특화 데이터의 부재로 인해 발생하는 해양 인공지능(Marine AI)의 성능 병목 현상을 해결하고자 한다.#Review#Multimodal Large Language Models#Marine Science#Foundation Models#Data Corpus#Instruction Tuning#Sonar Detection2026년 5월 4일댓글 수 로딩 중
[논문리뷰] Motion-Aware Caching for Efficient Autoregressive Video Generation본 논문은 autoregressive 비디오 생성 모델에서 반복적인 denoising 프로세스로 인해 발생하는 과도한 계산 비용 문제를 해결하기 위해 MotionCache를 제안합니다.#Review#Autoregressive Video Generation#Feature Caching#Motion-Aware Acceleration#Residual Stability#Diffusion Transformers2026년 5월 4일댓글 수 로딩 중
[논문리뷰] MolmoAct2: Action Reasoning Models for Real-world Deployment본 논문은 범용 로봇 제어(Generalist robot manipulation)를 위한 VLA 모델이 실질적인 실환경 배포(Real-world deployment) 요건을 충족하지 못하는 한계를 해결하고자 한다.#Review#Vision-Language-Action (VLA) Model#Embodied Reasoning#Flow Matching#Adaptive Depth Perception#Open-source Robotics#Real-world Deployment2026년 5월 4일댓글 수 로딩 중
[논문리뷰] Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation본 연구는 기존 Tree-RAG 방법론들이 단일 문서 내 단일 홉 질문에만 최적화되어 있어, 복잡한 교차 문서 multi-hop 질문 대응 및 corpus-level 확장에 한계가 있다는 점을 지적한다.#Review#RAG#Tree-RAG#Hierarchical Abstract Tree#Multi-hop Retrieval#Multi-granular Retrieval2026년 5월 4일댓글 수 로딩 중
[논문리뷰] Generative Modeling with Orbit-Space Particle Flow Matching본 논문은 현대의 Grid-based 생성 모델(Diffusion, Flow Matching)이 입자 시스템(Particle Systems)의 고유한 특성을 효과적으로 다루지 못한다는 점을 해결하고자 합니다 .#Review#Generative Modeling#Flow Matching#Particle Systems#Orbit-Space Canonicalization#Geometric Probability Paths#Surface Normals#Arc-Length Terminal Velocity2026년 5월 4일댓글 수 로딩 중
[논문리뷰] From Context to Skills: Can Language Models Learn from Context Skillfully?본 논문은 LLM이 pre-training 과정에서 학습하지 않은 복잡한 맥락을 효과적으로 이해하고 추론하는 능력이 부족하다는 문제를 해결하고자 한다.#Review#Context Learning#Language Models#Self-evolving Framework#Multi-agent Self-play#Skill Augmentation#Cross-time Replay#Context-specific Skills2026년 5월 4일댓글 수 로딩 중
[논문리뷰] ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models본 논문은 기존 Diffusion 모델이 고차원 데이터의 조합적 구조를 충분히 반영하지 못해 학습 효율과 생성 성능이 제한되는 문제를 해결하고자 한다.#Review#Diffusion Generative Models#Combinatorial Stochasticity#Structured Data#Asynchronous Inference#Graded Control2026년 5월 4일댓글 수 로딩 중
[논문리뷰] AcademiClaw: When Students Set Challenges for AI Agents기존 OpenClaw 생태계의 벤치마크들은 주로 보조 수준(assistant-level)의 단순 업무 평가에 치중되어 있어, 실제 학술 및 전문 분야의 고난도 업무 수행 능력을 평가하는 데 한계가 있습니다 . 이러한 좁은 평가 범위는 OpenClaw 에이전트의 실제 역량에 대한 편향된 인식을 야기합니다.#Review#Agent Benchmarking#OpenClaw#Academic-level Tasks#GPU-intensive#Multi-dimensional Evaluation#Behavioral Phenotypes#Autonomous Agents2026년 5월 4일댓글 수 로딩 중
[논문리뷰] Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction본 논문은 대규모 웹 정보 탐색에서 깊이 있는 추론과 넓은 범위의 구조화된 데이터 집계라는 두 가지 상충하는 요구를 동시에 만족해야 하는 문제를 해결하고자 합니다.#Review#Web-to-Table Search#Multi-Agent Framework#Bi-Level Architecture#External Memory#Self-Evolving Agents#Task Decomposition2026년 5월 3일댓글 수 로딩 중
[논문리뷰] UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors기존의 비디오 생성 연구들은 각 문제 설정(예: Text-to-Video, Inverse Rendering)에 대해 개별적인 모델을 학습시키는 파편화된 방식을 취하고 있어, 고정된 입력-출력 매핑에 제한되고 모달리티 간의 상호 상관관계를 활용하지 못하는 한계가 있습니다.#Review#Video Diffusion Models#Multimodal Video Generation#Intrinsic Decomposition#Diffusion Priors#Stochastic Condition Masking#Decoupled Gated LoRA#Cross-Modal Self-Attention2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Trees to Flows and Back: Unifying Decision Trees and Diffusion Models본 연구는 고전적인 데이터 분석 모델인 결정 트리와 현대의 생성 모델인 diffusion model이 각각 수행하는 계층적 정보 정제 과정 사이의 근본적인 수학적 연결고리를 규명하고자 합니다.#Review#Decision Trees#Diffusion Models#Global Trajectory Score Matching (GTSM)#Probability Flow ODE#Tabular Data#Knowledge Distillation#Flow Matching2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling본 논문은 기존의 dual-branch diffusion transformer 구조가 갖는 talking head 생성에서의 한계를 해결하고자 한다.#Review#Talking head generation#Joint audio-video generation#Autoregressive modeling#Diffusion transformer#Multimodal generation2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Online Self-Calibration Against Hallucination in Vision-Language Models본 논문은 기존의 offline 선호도 정렬 방식이 LVLM의 hallucination 문제를 해결하는 데 오히려 역효과를 낼 수 있다는 Supervision-Perception Mismatch 문제를 제기한다.#Review#Vision-Language Models#Hallucination#Monte Carlo Tree Search#Preference Alignment#DPO#Generative-Discriminative Gap#Online Learning2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Map2World: Segment Map Conditioned Text to 3D World Generation본 논문은 기존 3D World Generation 연구들이 겪고 있는 고정된 그리드 기반 레이아웃의 제약과 전역적 규모의 일관성 부족 문제를 해결하는 것을 목적으로 합니다.#Review#3D World Generation#Segment Map Conditioning#Latent Fusion#Structured Latent#Detail Enhancer#Rectified Flow2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.#Review#Vision Transformer#Generative Pre-training#Multimodal Large Language Models#Gated Attention#Vision-Language Pre-training#Minimalist Architecture2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization본 논문은 분산 환경에서 에이전트들이 handcrafted update rules에 의존하지 않고, historical trajectory를 기반으로 스스로 알고리즘을 설계하는 방식을 연구한다.#Review#Distributed Black-Box Optimization#Multi-Agent Systems#Large Language Models#Consensus Optimization#Trajectory-Driven Self-Design2026년 5월 3일댓글 수 로딩 중
[논문리뷰] LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation본 논문은 다국어 음성 합성 및 diarization 시스템에서 동일 화자가 언어(스크립트)를 전환할 때 발생하는 스피커 인식 오류 문제를 해결합니다.#Review#Speaker Encoder#Indic Scripts#Gradient Reversal Layer#Speaker Verification#Language Adversarial Training#Voice Cloning#Diarization2026년 5월 3일댓글 수 로딩 중
[논문리뷰] From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills본 논문은 LLM 에이전트 시스템이 사용하는 기술(Skill)의 표현 방식이 텍스트 중심의 파편화된 구조에 머물러 있어, 기계적 reasoning과 자동화된 검증에 한계가 있다는 문제의식에서 출발합니다.#Review#LLM Agents#Skill Representation#Scheduling-Structural-Logical (SSL)#Skill Discovery#Risk Assessment#Knowledge Representation2026년 5월 3일댓글 수 로딩 중
[논문리뷰] End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer본 논문은 기존의 2단계 학습 방식이 토크나이저와 생성 모델 간의 비정렬 문제를 야기하여 최종 생성 품질을 제한한다는 점을 해결하고자 한다.#Review#Autoregressive Image Generation#1D Vision Tokenizer#End-to-End Training#Semantic Alignment#Vision Foundation Models2026년 5월 3일댓글 수 로딩 중