Review

[논문리뷰] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

본 논문은 기존의 선도적인 통합 멀티모달 모델(UMM)들이 상당한 계산 자원과 학습 비용을 요구한다는 문제에 주목합니다.

#Review #Unified Multimodal Models #Double Fusion #Lightweight AI #Text-to-Image Generation #Image Editing #Model Architecture #Efficient Training #Cross-modal Interaction

2025년 10월 28일

[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards

대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.

#Review #Language Agents #Language Server Protocol (LSP)#CLI #Process Rewards #Code Refactoring #Static Analysis #Reinforcement Learning #Deterministic Execution

2025년 10월 28일

[논문리뷰] Knocking-Heads Attention

본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.

#Review #Multi-Head Attention #Transformer #Large Language Models #Inter-Head Communication #Parameter Sharing #Training Stability #Diagonal Initialization

2025년 10월 28일

[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.

#Review #Semantic 3D Reconstruction #Instance Grounding #Geometry Transformer #Multi-view Consistency #Scene Understanding #InsScene-15K #Vision-Language Models #Cross-Modal Fusion

2025년 10월 28일

[논문리뷰] FARMER: Flow AutoRegressive Transformer over Pixels

본 논문은 연속적인 autoregressive 모델링이 직면하는 긴 시퀀스 및 고차원 공간 문제를 해결하며, Normalizing Flows (NF) 와 Autoregressive (AR) 모델을 결합하여 픽셀 수준에서 정확한 우도 추정과 고품질 이미지 합성을 위한 단일화된 생성 프레임워크인 FARMER 를 제시합니다.

#Review #Normalizing Flows #Autoregressive Models #Generative Models #Image Synthesis #Tractable Likelihood #Dimension Reduction #Distillation #Classifier-Free Guidance

2025년 10월 28일

[논문리뷰] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

본 논문은 단일 스텝 확산 모델(1-SDP) 의 개념 학습 능력 한계를 해결하고, 기존 T2I 모델의 느린 추론 속도와 제한된 개념 포착 능력을 개선하는 것을 목표로 합니다.

#Review #Diffusion Models #One-Step Generation #Model Personalization #Knowledge Distillation #Bidirectional Learning #Text-to-Image Generation #Concept Learning

2025년 10월 28일

[논문리뷰] E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker

본 논문은 효율적인 검색과 효과적인 리스트와이즈 재랭킹 사이의 성능 격차를 해소하기 위해, 단일 텍스트 임베딩 모델을 확장하여 두 가지 기능을 모두 수행할 수 있는 통일된 프레임워크 E²RANK 를 제안합니다.

#Review #Text Embedding #Listwise Reranking #Information Retrieval #Pseudo Relevance Feedback #Contrastive Learning #Multi-task Learning #Efficiency #LLM-based Ranking

2025년 10월 28일

[논문리뷰] Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

이미지 자기회귀(AR) 모델 의 느린 샘플링 속도 문제를 해결하고, 특히 원스텝 샘플링 시 발생하는 성능 저하 및 Distilled Decoding 1 (DD1) 의 사전 정의된 매핑 의존성 한계를 극복하는 것을 목표로 합니다.

#Review #Auto-regressive Models #Image Generation #One-step Sampling #Model Distillation #Conditional Score Distillation #Flow Matching #Generative Models

2025년 10월 28일

[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection

기존 앵커 기반 차선 감지 방법론의 고질적인 일반화 능력 부족 과 과적합 문제 를 해결하기 위해, 차선 감지 태스크를 노이즈 제거 확산(denoising diffusion) 과정 으로 재정의하는 확산 모델 기반 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Lane Detection #Diffusion Model #Denoising Diffusion #Hybrid Decoding #Anchor-based #Domain Adaptation #Computer Vision #Generative Models

2025년 10월 28일

[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #2D-3D Fusion #Spatial Representation #Point Cloud #Image Features #Multimodal Learning #Semantic Segmentation #LoRA

2025년 10월 28일

[논문리뷰] Code Aesthetics with Agentic Reward Feedback

대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.

#Review #Code Aesthetics #Agentic Reward Feedback #Large Language Models #Reinforcement Learning #Instruction Tuning #Webpage Design #Multimodal Evaluation

2025년 10월 28일

[논문리뷰] ACG: Action Coherence Guidance for Flow-based VLA models

본 논문은 모방 학습을 통해 훈련된 Vision-Language-Action (VLA) 모델, 특히 Diffusion 및 Flow Matching 모델 에서 발생하는 액션 불일치(jerks, pauses, jitter) 문제를 해결하여 안정성과 궤적 드리프트로 인한 정밀 조작 실패를 방지하는 것을 목표로 합니다.

#Review #Action Coherence #Flow Matching #VLA Models #Guidance #Robotics #Imitation Learning #Transformer #Self-Attention

2025년 10월 28일

[논문리뷰] A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

본 논문은 '데이터 에이전트' 용어의 종합적이고 체계적인 정의 및 분류 를 제공하고, 기능적 경계와 책임 분배를 명확히 하는 계층적 분류 체계를 제안하여 데이터 에이전트 연구의 개념적 모호성을 해소 하는 것을 목표로 합니다. 나아가 기존 연구를 검토하고 미래 연구 방향을 제시하여 이 분야의 건강한 발전을 돕고자 합니다.

#Review #Data Agents #LLMs #Autonomy Levels #Hierarchical Taxonomy #SAE J3016 #Data Management #Data Preparation #Data Analysis #Autonomous Orchestration

2025년 10월 28일

[논문리뷰] WithAnyone: Towards Controllable and ID Consistent Image Generation

본 논문은 텍스트-투-이미지 생성 모델에서 레퍼런스 인물의 ID(Identity)를 일관성 있게 유지하면서도, 레퍼런스 이미지를 단순히 복사하는 듯한 'copy-paste' 아티팩트 를 줄이고 생성된 이미지의 표현, 포즈, 조명 등의 다양성 및 제어 가능성 을 높이는 것을 목표로 합니다.

#Review #Identity-Consistent Generation #Text-to-Image Diffusion #Copy-Paste Artifacts #Contrastive Learning #Multi-Identity Dataset #Controllable Generation #ID-Preservation

2025년 10월 17일

[논문리뷰] When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위한 핵심 과제인 환각(hallucination) 탐지를 목표로 합니다.

#Review #Hallucination Detection #Multilingual LLMs #Span-Level Annotation #Synthetic Data Generation #Question Answering (QA)#Encoder Models #Uncertainty Quantification #GPT-4o

2025년 10월 17일

[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.

#Review #Video Reward Models #Multimodal Reasoning #Thinking-with-Image #Visual Reasoning #Reinforcement Learning #Chain-of-Thought #Context Management

2025년 10월 17일

[논문리뷰] VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

본 논문은 기존 VLA 모델이 훈련 데이터 외부의 미확인 객체 개념(unseen concepts) 에 직면했을 때 급격히 성능이 저하되는 문제, 즉 OOD(Out-of-Distribution) 일반화 실패를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Agentic Framework #Unseen Concept Manipulation #Out-of-Distribution Generalization #Tool Use #Web Retrieval #Object Detection #LIBERO Simulation

2025년 10월 17일

[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification

본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #VLA-0 #Zero Modification #Text-based Action Prediction #Robot Manipulation #Large Language Models #Fine-tuning #State-of-the-Art

2025년 10월 17일

[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.

#Review #Text-to-3D #Model Stitching #Multi-view Reconstruction #Video Generation #Latent Diffusion Models #Gaussian Splats #Pointmaps #Reward Finetuning

2025년 10월 17일

[논문리뷰] TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

본 논문은 Code LLM 이 사용하는 서브워드 토크나이저 와 프로그래밍 언어(PL) 문법 간의 불일치 문제를 해결하고자 합니다.

#Review #Code LLMs #Subword Tokenization #Grammar-aware Tokenization #Semantic Preservation #Rewrite Rules #Model Robustness #Tokenization Misalignment

2025년 10월 17일