[논문리뷰] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation본 논문은 기존의 선도적인 통합 멀티모달 모델(UMM)들이 상당한 계산 자원과 학습 비용을 요구한다는 문제에 주목합니다.#Review#Unified Multimodal Models#Double Fusion#Lightweight AI#Text-to-Image Generation#Image Editing#Model Architecture#Efficient Training#Cross-modal Interaction2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.#Review#Language Agents#Language Server Protocol (LSP)#CLI#Process Rewards#Code Refactoring#Static Analysis#Reinforcement Learning#Deterministic Execution2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Knocking-Heads Attention본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.#Review#Multi-Head Attention#Transformer#Large Language Models#Inter-Head Communication#Parameter Sharing#Training Stability#Diagonal Initialization2025년 10월 28일댓글 수 로딩 중
[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.#Review#Semantic 3D Reconstruction#Instance Grounding#Geometry Transformer#Multi-view Consistency#Scene Understanding#InsScene-15K#Vision-Language Models#Cross-Modal Fusion2025년 10월 28일댓글 수 로딩 중
[논문리뷰] FARMER: Flow AutoRegressive Transformer over Pixels본 논문은 연속적인 autoregressive 모델링이 직면하는 긴 시퀀스 및 고차원 공간 문제를 해결하며, Normalizing Flows (NF) 와 Autoregressive (AR) 모델을 결합하여 픽셀 수준에서 정확한 우도 추정과 고품질 이미지 합성을 위한 단일화된 생성 프레임워크인 FARMER 를 제시합니다.#Review#Normalizing Flows#Autoregressive Models#Generative Models#Image Synthesis#Tractable Likelihood#Dimension Reduction#Distillation#Classifier-Free Guidance2025년 10월 28일댓글 수 로딩 중
[논문리뷰] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization본 논문은 단일 스텝 확산 모델(1-SDP) 의 개념 학습 능력 한계를 해결하고, 기존 T2I 모델의 느린 추론 속도와 제한된 개념 포착 능력을 개선하는 것을 목표로 합니다.#Review#Diffusion Models#One-Step Generation#Model Personalization#Knowledge Distillation#Bidirectional Learning#Text-to-Image Generation#Concept Learning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker본 논문은 효율적인 검색과 효과적인 리스트와이즈 재랭킹 사이의 성능 격차를 해소하기 위해, 단일 텍스트 임베딩 모델을 확장하여 두 가지 기능을 모두 수행할 수 있는 통일된 프레임워크 E²RANK 를 제안합니다.#Review#Text Embedding#Listwise Reranking#Information Retrieval#Pseudo Relevance Feedback#Contrastive Learning#Multi-task Learning#Efficiency#LLM-based Ranking2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation이미지 자기회귀(AR) 모델 의 느린 샘플링 속도 문제를 해결하고, 특히 원스텝 샘플링 시 발생하는 성능 저하 및 Distilled Decoding 1 (DD1) 의 사전 정의된 매핑 의존성 한계를 극복하는 것을 목표로 합니다.#Review#Auto-regressive Models#Image Generation#One-step Sampling#Model Distillation#Conditional Score Distillation#Flow Matching#Generative Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection기존 앵커 기반 차선 감지 방법론의 고질적인 일반화 능력 부족 과 과적합 문제 를 해결하기 위해, 차선 감지 태스크를 노이즈 제거 확산(denoising diffusion) 과정 으로 재정의하는 확산 모델 기반 프레임워크 를 제안하는 것을 목표로 합니다.#Review#Lane Detection#Diffusion Model#Denoising Diffusion#Hybrid Decoding#Anchor-based#Domain Adaptation#Computer Vision#Generative Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.#Review#Self-Supervised Learning#2D-3D Fusion#Spatial Representation#Point Cloud#Image Features#Multimodal Learning#Semantic Segmentation#LoRA2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Code Aesthetics with Agentic Reward Feedback대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.#Review#Code Aesthetics#Agentic Reward Feedback#Large Language Models#Reinforcement Learning#Instruction Tuning#Webpage Design#Multimodal Evaluation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] ACG: Action Coherence Guidance for Flow-based VLA models본 논문은 모방 학습을 통해 훈련된 Vision-Language-Action (VLA) 모델, 특히 Diffusion 및 Flow Matching 모델 에서 발생하는 액션 불일치(jerks, pauses, jitter) 문제를 해결하여 안정성과 궤적 드리프트로 인한 정밀 조작 실패를 방지하는 것을 목표로 합니다.#Review#Action Coherence#Flow Matching#VLA Models#Guidance#Robotics#Imitation Learning#Transformer#Self-Attention2025년 10월 28일댓글 수 로딩 중
[논문리뷰] A Survey of Data Agents: Emerging Paradigm or Overstated Hype?본 논문은 '데이터 에이전트' 용어의 종합적이고 체계적인 정의 및 분류 를 제공하고, 기능적 경계와 책임 분배를 명확히 하는 계층적 분류 체계를 제안하여 데이터 에이전트 연구의 개념적 모호성을 해소 하는 것을 목표로 합니다. 나아가 기존 연구를 검토하고 미래 연구 방향을 제시하여 이 분야의 건강한 발전을 돕고자 합니다.#Review#Data Agents#LLMs#Autonomy Levels#Hierarchical Taxonomy#SAE J3016#Data Management#Data Preparation#Data Analysis#Autonomous Orchestration2025년 10월 28일댓글 수 로딩 중
[논문리뷰] WithAnyone: Towards Controllable and ID Consistent Image Generation본 논문은 텍스트-투-이미지 생성 모델에서 레퍼런스 인물의 ID(Identity)를 일관성 있게 유지하면서도, 레퍼런스 이미지를 단순히 복사하는 듯한 'copy-paste' 아티팩트 를 줄이고 생성된 이미지의 표현, 포즈, 조명 등의 다양성 및 제어 가능성 을 높이는 것을 목표로 합니다.#Review#Identity-Consistent Generation#Text-to-Image Diffusion#Copy-Paste Artifacts#Contrastive Learning#Multi-Identity Dataset#Controllable Generation#ID-Preservation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위한 핵심 과제인 환각(hallucination) 탐지를 목표로 합니다.#Review#Hallucination Detection#Multilingual LLMs#Span-Level Annotation#Synthetic Data Generation#Question Answering (QA)#Encoder Models#Uncertainty Quantification#GPT-4o2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.#Review#Video Reward Models#Multimodal Reasoning#Thinking-with-Image#Visual Reasoning#Reinforcement Learning#Chain-of-Thought#Context Management2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation본 논문은 기존 VLA 모델이 훈련 데이터 외부의 미확인 객체 개념(unseen concepts) 에 직면했을 때 급격히 성능이 저하되는 문제, 즉 OOD(Out-of-Distribution) 일반화 실패를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Agentic Framework#Unseen Concept Manipulation#Out-of-Distribution Generalization#Tool Use#Web Retrieval#Object Detection#LIBERO Simulation2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#VLA-0#Zero Modification#Text-based Action Prediction#Robot Manipulation#Large Language Models#Fine-tuning#State-of-the-Art2025년 10월 17일댓글 수 로딩 중
[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.#Review#Text-to-3D#Model Stitching#Multi-view Reconstruction#Video Generation#Latent Diffusion Models#Gaussian Splats#Pointmaps#Reward Finetuning2025년 10월 17일댓글 수 로딩 중
[논문리뷰] TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar본 논문은 Code LLM 이 사용하는 서브워드 토크나이저 와 프로그래밍 언어(PL) 문법 간의 불일치 문제를 해결하고자 합니다.#Review#Code LLMs#Subword Tokenization#Grammar-aware Tokenization#Semantic Preservation#Rewrite Rules#Model Robustness#Tokenization Misalignment2025년 10월 17일댓글 수 로딩 중