Review

[논문리뷰] SWE-Exp: Experience-Driven Software Issue Resolution

본 논문은 기존 LLM 기반 소프트웨어 문제 해결 에이전트가 과거 경험을 활용하지 못하고 각 문제를 독립적으로 처리하여 발생하는 비효율성(중복 탐색, 지식 이전 부족, 전략적 진화 부재)을 해결하는 것을 목표로 합니다.

#Review #Software Issue Resolution #LLM Agents #Experience-Driven Learning #Automated Program Repair #Multi-Agent Systems #Knowledge Management #Continuous Learning

2025년 8월 4일

[논문리뷰] SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution

본 논문은 대규모 언어 모델(LLM) 기반 소프트웨어 이슈 해결 시스템의 '제한된 관찰 범위(limited observation scope)' 문제를 해결하고자 합니다.

#Review #Multi-Agent System #Software Engineering #Fault Localization #Issue Resolution #Large Language Models #Competitive Debate #Graph Traversal

2025년 8월 4일

[논문리뷰] PixNerd: Pixel Neural Field Diffusion

이 논문은 Variational Autoencoder (VAE) 기반의 기존 확산 모델이 야기하는 누적 오류와 디코딩 아티팩트 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Neural Fields #Pixel Space #Generative Models #Image Synthesis #Transformer Architecture #End-to-End Learning

2025년 8월 4일

[논문리뷰] Multimodal Referring Segmentation: A Survey

이 논문은 이미지, 비디오, 3D 장면과 같은 다양한 시각적 맥락에서 텍스트 또는 오디오 참조 표현을 기반으로 특정 객체를 분할하는 다중모드 참조 분할(Multimodal Referring Segmentation) 분야에 대한 포괄적인 최신 조사를 제공하는 것을 목표로 합니다.

#Review #Multimodal Learning #Referring Segmentation #Vision-Language Models #Image Segmentation #Video Segmentation #3D Vision #Survey

2025년 8월 4일

[논문리뷰] Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges

이 논문은 대규모 언어 모델(LLM) 기반의 대화 평가에서 현재 'LLM-as-a-judge' 패러다임이 겪는 편향 문제와 추론 시 발생하는 과도한 계산 오버헤드 를 해결하고자 합니다.

#Review #Multi-Turn Dialogue Evaluation #LLM-as-a-Judge #Multi-Judge Aggregation #Preference Learning #Dialogue Quality Assessment #Maximum Likelihood Estimation #Computational Efficiency

2025년 8월 4일

[논문리뷰] Investigating Hallucination in Conversations for Low Resource Languages

본 연구는 대규모 언어 모델(LLM)이 생성하는 텍스트의 사실적 오류, 즉 '환각(hallucination)' 문제를 저자원 언어인 힌디어, 페르시아어, 만다린어 대화 데이터에서 심층적으로 조사하는 것을 목표로 합니다.

#Review #LLM Hallucination #Low-resource Languages #Conversational AI #ROUGE Score #Cross-lingual Evaluation #Factual Consistency

2025년 8월 4일

[논문리뷰] IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

본 논문은 이미지-목표 내비게이션(Image-goal Navigation)의 근본적인 문제를 해결하는 것을 목표로 합니다. 기존의 종단 간 RL 학습이나 모듈 기반 접근 방식이 탐색된 3D 환경과 목표 이미지 간의 기하학적 관계를 효과적으로 모델링하지 못하는 한계를 극복하고자 합니다.

#Review #Image-goal Navigation #3D Gaussian Splatting (3DGS)#Incremental Scene Representation #Coarse-to-fine Localization #Embodied AI #Robotics #Differentiable Rendering

2025년 8월 4일

[논문리뷰] Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Diffusion Large Language Models (DLLMs)의 핵심 제약 사항인 고정된 출력 길이 문제를 해결하고, 태스크별로 동적으로 적응하는 가변 길이 생성 을 가능하게 하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Variable-Length Generation #Dynamic Length Adaptation #Denoising Strategy #Inference Optimization #Computational Efficiency

2025년 8월 4일

[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.

#Review #3D Vision-Language Models #Reasoning #Scene Understanding #Reinforcement Learning #Chain-of-Thought #Dynamic View Selection #Multi-task Learning

2025년 8월 4일

[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.

#Review #Vision-Language-Action Models #Latent Actions #Robot Manipulation #Pre-training #Diffusion Models #Proprioceptive Feedback #Foundation Models

2025년 8월 2일

[논문리뷰] iLRM: An Iterative Large 3D Reconstruction Model

본 논문은 일반화 가능한 Feed-forward 3D 재구성 모델, 특히 Transformer 아키텍처 를 기반으로 하는 최신 방법론들이 다수의 뷰 또는 고해상도 이미지 처리 시 겪는 확장성 및 높은 연산 비용 문제 를 해결하고자 합니다.

#Review #3D Reconstruction #Gaussian Splatting #Iterative Refinement #Transformer Architecture #Multi-view Learning #Scalability #Feed-forward Models

2025년 8월 2일

[논문리뷰] TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

멀티모달 대규모 언어 모델(MLLMs)에서 발생하는 환각(hallucination) 문제를 해결하고 신뢰성을 향상하는 것이 목표입니다. 기존 직접 선호도 최적화(DPO) 방식이 선호도 데이터의 표면적인 언어적 특징에 과적합되어 시각적 정보와의 인과적 연결이 약해지는 한계를 극복하고자 합니다.

#Review #MLLMs #Hallucination Reduction #Preference Optimization #Min-Max Optimization #Token-Adaptive Strategy #Spectral Regularization #Visual Grounding

2025년 8월 2일

[논문리뷰] Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

본 논문은 대규모 언어 모델(LLM)이 자연어 기반 정리 증명에서 명확한 감독 신호 부족으로 겪는 어려움을 해결하고자 합니다.

#Review #Automated Theorem Proving #Large Language Models #Formal Verification #Reinforcement Learning #Lean #Geometry Reasoning #Chain-of-Thought #Lemma-Style Proving

2025년 8월 2일

[논문리뷰] Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

본 논문은 강화 학습(RL) 모델의 과적합 문제를 해결하여, visuomotor 에이전트가 다양한 환경에서 일반화 가능한 행동을 습득하지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Multi-Task Learning #Visuomotor Agents #Spatial Reasoning #Generalization #Minecraft #Cross-View Goal Specification #Automated Task Synthesis

2025년 8월 2일

[논문리뷰] RecGPT Technical Report

기존 추천 시스템의 로그 기반(log-fitting) 접근 방식 이 야기하는 과적합, 필터 버블, 롱테일 문제의 한계를 극복하고, 사용자 의도 를 중심으로 하는 차세대 추천 시스템 RecGPT 를 제안합니다.

#Review #Recommender Systems #Large Language Models (LLMs)#User Intent Modeling #Multi-Stage Training #Human-in-the-Loop #E-commerce #Filter Bubble Mitigation #Matthew Effect

2025년 8월 2일

[논문리뷰] Phi-Ground Tech Report: Advancing Perception in GUI Grounding

본 논문은 현재 65% 미만 의 정확도를 보이는 GUI 그라운딩 모델의 한계를 극복하고, Computer Use Agent (CUA) 의 핵심 구성 요소로서 GUI 요소 인식을 향상시켜 실제 애플리케이션에 배포 가능한 수준의 성능을 달성하는 것을 목표로 합니다.

#Review #GUI grounding #AI agent #Large Multi-modal Model #Perception #Data Augmentation #Direct Preference Optimization #Computational Efficiency

2025년 8월 2일

[논문리뷰] Persona Vectors: Monitoring and Controlling Character Traits in Language Models

이 논문은 대규모 언어 모델(LLMs)에서 발생하는 예상치 못한 또는 바람직하지 않은 페르소나 변화 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Persona Control #Activation Steering #Finetuning #Behavioral Shift Detection #Interpretability #Data Filtering

2025년 8월 2일

[논문리뷰] On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

이 논문은 Softmax Attention 이 선형 Attention 보다 우수한 성능을 보이는 근본적인 이유를 규명하고, Softmax Attention 의 표현력과 동작 원리를 재귀 신경망(RNN) 관점에서 분석하는 것을 목표로 합니다.

#Review #Softmax Attention #Linear Attention #Recurrent Neural Networks (RNNs)#Taylor Series Expansion #Attention Mechanisms #Expressiveness #Transformer Architectures

2025년 8월 2일

[논문리뷰] NeRF Is a Valuable Assistant for 3D Gaussian Splatting

본 논문은 3D Gaussian Splatting (3DGS) 의 고유한 한계(Gaussian 초기화 민감성, 제한된 공간 인식, 약한 Gaussian 간 상관관계)를 해결하기 위해 Neural Radiance Fields (NeRF) 의 연속적인 공간 표현 능력을 활용하는 것을 목표로 합니다.

#Review #NeRF #3D Gaussian Splatting #Hybrid Model #Joint Optimization #Scene Representation #Neural Rendering #Residual Learning #Sparse View

2025년 8월 2일

[논문리뷰] Flow Equivariant Recurrent Neural Networks

본 논문은 기존 정적 변환 및 피드포워드 네트워크 에 국한된 equivariance 이론을 확장하여, 시각적 움직임과 같은 시간 매개변수화된 흐름(flows)을 포착하는 순환 신경망(RNN) 에 적용하는 것을 목표로 합니다.

#Review #Flow Equivariance #Recurrent Neural Networks #Sequence Models #Group Equivariance #Lie Subgroups #Generalization #Time-Parameterized Symmetries

2025년 8월 2일