[논문리뷰] ReCode: Unify Plan and Action for Universal Granularity Control현재 LLM 기반 에이전트의 주요 한계점인 고정된 결정 세분성(granularity) 문제를 해결하고, 인간처럼 유연하게 다양한 세분성 수준에서 의사결정을 내릴 수 있는 능력을 부여하는 것입니다.#Review#LLM Agents#Decision Granularity Control#Recursive Code Generation#Hierarchical Planning#Action Unification#Program Synthesis#Data Efficiency2025년 10월 28일댓글 수 로딩 중
[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity기존 MLLM이 주로 전체적인(holistic) 장면 이해에 초점을 맞춰 이미지 및 비디오 내 특정, 지역화된 영역에 대한 세분화된 객체 중심 추론(visual referring) 능력이 부족한 문제를 해결하는 것입니다.#Review#MLLM#Region-level Understanding#Object-centric Reasoning#Spatio-temporal Referring#Video Understanding#Scale-Adaptive Tokenizer#Efficiency#Instruction Tuning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS본 연구는 멀티모달 LLM 기반 음성 인식(ASR, VSR, AVSR) 모델에서 발생하는 attention sink 및 massive activation 현상을 최초로 분석하고, 이들이 모델 성능에 미치는 영향을 이해하며, 효과적인 완화 전략을 개발하는 것을 목표로 합니다.#Review#Audio-Visual Speech Recognition#Large Language Models#Attention Sinks#Massive Activations#Decorrelation Loss#Fine-tuning#Multimodal AI2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Memory-based Language Models: An Efficient, Explainable, and Eco-friendly Approach to Large Language Modeling본 논문은 Transformer 기반 LLM 의 높은 계산 비용과 낮은 투명성 문제에 대한 대안으로, 효율적이고 설명 가능하며 친환경적인 메모리 기반 언어 모델링(Memory-based Language Modeling) 접근 방식을 제시하고 평가하는 것을 목표로 합니다.#Review#Memory-based Language Model#k-Nearest Neighbor#Eco-friendly AI#Explainable AI#Next-token Prediction#Prefix Trie#Low-latency Inference#CPU-based AI2025년 10월 28일댓글 수 로딩 중
[논문리뷰] MARS-M: When Variance Reduction Meets Matrices본 논문은 대규모 언어 모델(LLM) 및 딥러닝 모델 훈련의 효율성과 안정성을 향상시키기 위해, 행렬 기반 전처리 옵티마이저 의 장점과 분산 감소(variance reduction) 기법 의 장점을 결합하는 것을 목표로 합니다.#Review#Variance Reduction#Matrix-based Optimizer#LLM Training#Deep Learning Optimization#Moonlight#MARS-M#Stochastic Gradient Descent2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation오디오 기반 인물 애니메이션 모델이 장시간 생성 시 겪는 캐릭터 정체성(identity) 표류 문제를 해결하고, 기존 키프레임 기반 방법론의 한계를 극복하여 일관된 캐릭터 정체성 과 높은 시각적 품질 을 유지하는 것을 목표로 합니다.#Review#Audio-driven Animation#Identity Preservation#Diffusion Transformers#Long-form Video Generation#Temporal Autoregression#Keyframe Anchoring#Self-keyframing2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical Report본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LimRank: Less is More for Reasoning-Intensive Information Reranking본 논문은 계산 비용이 높은 대규모 파인튜닝 없이, 최소한의 고품질 감독으로도 LLM 을 추론 집약적 정보 리랭킹(reasoning-intensive information reranking) 태스크에 효과적으로 적용하는 것을 목표로 합니다.#Review#Information Reranking#Large Language Models#Data Synthesis#Reasoning-Intensive Retrieval#Low-Resource Learning#Data Efficiency#Instruction Following2025년 10월 28일댓글 수 로딩 중
[논문리뷰] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation본 논문은 기존의 선도적인 통합 멀티모달 모델(UMM)들이 상당한 계산 자원과 학습 비용을 요구한다는 문제에 주목합니다.#Review#Unified Multimodal Models#Double Fusion#Lightweight AI#Text-to-Image Generation#Image Editing#Model Architecture#Efficient Training#Cross-modal Interaction2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.#Review#Language Agents#Language Server Protocol (LSP)#CLI#Process Rewards#Code Refactoring#Static Analysis#Reinforcement Learning#Deterministic Execution2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Knocking-Heads Attention본 논문은 기존 Multi-Head Attention (MHA) 의 어텐션 헤드들이 독립적으로 작동하여 개별 헤드 역량 저하 및 상호작용 부족을 야기하는 문제를 해결하고자 합니다.#Review#Multi-Head Attention#Transformer#Large Language Models#Inter-Head Communication#Parameter Sharing#Training Stability#Diagonal Initialization2025년 10월 28일댓글 수 로딩 중
[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.#Review#Semantic 3D Reconstruction#Instance Grounding#Geometry Transformer#Multi-view Consistency#Scene Understanding#InsScene-15K#Vision-Language Models#Cross-Modal Fusion2025년 10월 28일댓글 수 로딩 중
[논문리뷰] FARMER: Flow AutoRegressive Transformer over Pixels본 논문은 연속적인 autoregressive 모델링이 직면하는 긴 시퀀스 및 고차원 공간 문제를 해결하며, Normalizing Flows (NF) 와 Autoregressive (AR) 모델을 결합하여 픽셀 수준에서 정확한 우도 추정과 고품질 이미지 합성을 위한 단일화된 생성 프레임워크인 FARMER 를 제시합니다.#Review#Normalizing Flows#Autoregressive Models#Generative Models#Image Synthesis#Tractable Likelihood#Dimension Reduction#Distillation#Classifier-Free Guidance2025년 10월 28일댓글 수 로딩 중
[논문리뷰] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization본 논문은 단일 스텝 확산 모델(1-SDP) 의 개념 학습 능력 한계를 해결하고, 기존 T2I 모델의 느린 추론 속도와 제한된 개념 포착 능력을 개선하는 것을 목표로 합니다.#Review#Diffusion Models#One-Step Generation#Model Personalization#Knowledge Distillation#Bidirectional Learning#Text-to-Image Generation#Concept Learning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker본 논문은 효율적인 검색과 효과적인 리스트와이즈 재랭킹 사이의 성능 격차를 해소하기 위해, 단일 텍스트 임베딩 모델을 확장하여 두 가지 기능을 모두 수행할 수 있는 통일된 프레임워크 E²RANK 를 제안합니다.#Review#Text Embedding#Listwise Reranking#Information Retrieval#Pseudo Relevance Feedback#Contrastive Learning#Multi-task Learning#Efficiency#LLM-based Ranking2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation이미지 자기회귀(AR) 모델 의 느린 샘플링 속도 문제를 해결하고, 특히 원스텝 샘플링 시 발생하는 성능 저하 및 Distilled Decoding 1 (DD1) 의 사전 정의된 매핑 의존성 한계를 극복하는 것을 목표로 합니다.#Review#Auto-regressive Models#Image Generation#One-step Sampling#Model Distillation#Conditional Score Distillation#Flow Matching#Generative Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection기존 앵커 기반 차선 감지 방법론의 고질적인 일반화 능력 부족 과 과적합 문제 를 해결하기 위해, 차선 감지 태스크를 노이즈 제거 확산(denoising diffusion) 과정 으로 재정의하는 확산 모델 기반 프레임워크 를 제안하는 것을 목표로 합니다.#Review#Lane Detection#Diffusion Model#Denoising Diffusion#Hybrid Decoding#Anchor-based#Domain Adaptation#Computer Vision#Generative Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.#Review#Self-Supervised Learning#2D-3D Fusion#Spatial Representation#Point Cloud#Image Features#Multimodal Learning#Semantic Segmentation#LoRA2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Code Aesthetics with Agentic Reward Feedback대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.#Review#Code Aesthetics#Agentic Reward Feedback#Large Language Models#Reinforcement Learning#Instruction Tuning#Webpage Design#Multimodal Evaluation2025년 10월 28일댓글 수 로딩 중