최신 포스트

[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization

본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.

#Review #Issue Localization #Causal Reasoning #Graph-guided #Large Language Models #Software Engineering #Defect Analysis #Repository Mining

2025년 12월 30일

[논문리뷰] GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs

본 논문은 Mixture-of-Experts (MoE) LLM 의 고유한 안전 특성과 취약점이 기존 Dense LLM 에 비해 충분히 연구되지 않았다는 문제의식을 제기합니다.

#Review #MoE LLM #Safety Alignment #Adversarial Attack #Neuron Pruning #Gate-level Profiling #Transfer Attack #Vision Language Model

2025년 12월 30일

[논문리뷰] Evaluating Parameter Efficient Methods for RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 패러다임 하에서 다양한 Parameter-Efficient Fine-Tuning (PEFT) 방법론 을 체계적으로 평가하여 최적의 아키텍처를 식별하는 것을 목표로 합니다.

#Review #Parameter-Efficient Fine-Tuning (PEFT)#Reinforcement Learning with Verifiable Rewards (RLVR)#Low-Rank Adaptation (LoRA)#Mathematical Reasoning #LLM Adaptation #SVD Initialization

2025년 12월 30일

[논문리뷰] End-to-End Test-Time Training for Long Context

본 논문은 트랜스포머의 전체 어텐션이 긴 컨텍스트에서 선형적인 비용 증가로 비효율적인 문제를 해결하고자 합니다.

#Review #Long-Context Language Modeling #Test-Time Training (TTT)#Meta-Learning #Continual Learning #Transformer #Sliding-Window Attention #Inference Efficiency #MLP Adaptation

2025년 12월 30일

[논문리뷰] DreamOmni3: Scribble-based Editing and Generation

본 논문은 통합 생성 및 편집 모델에서 텍스트 프롬프트의 한계, 즉 사용자의 의도된 편집 위치 및 미세한 시각적 세부 사항을 정확히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Image Editing #Image Generation #Scribble-based Control #Multimodal AI #Diffusion Models #Data Synthesis #Human-Computer Interaction #Instruction-based Editing

2025년 12월 30일

[Open WebUI] mammoth 라이브러리 동적 로딩으로 페이지 초기 로드 301KB 절감

DOCX 파일 처리를 위한 mammoth 라이브러리를 정적 import에서 동적 import로 변경하여, 초기 번들 크기를 301KB 줄인 PR을 분석합니다.

#Open WebUI #Performance #Bundle Size #Dynamic Import #TypeScript

2025년 12월 30일

[triton] AMD ReorderInstructions에서 효과 없는 sinkSecondLoad 최적화 제거

제한적 케이스에서만 트리거되고 성능 영향이 없는 sinkSecondLoad 최적화를 제거하여 ReorderInstructions를 단순화한 PR을 분석합니다.

#Triton #AMD #Refactoring #Dead Code #Cleanup

2025년 12월 30일

[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원

warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.

#Triton #AMD #WMMA #LinearLayout #GPU Layout #gfx1250

2025년 12월 29일

[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation Model

본 논문은 대규모 파라미터 크기, 긴 추론 단계, 빠르게 증가하는 히스토리컬 컨텍스트, 그리고 텍스트 기반 제어 능력 부족과 같은 기존 비디오 확산 모델의 한계를 극복하여 사실적이고 상호작용적이며 연속적인 가상 세계를 실시간으로 생성 하는 것을 목표로 합니다.

#Review #Interactive World Generation #Video Diffusion Models #Text-to-Video #Image-to-Video #Real-time Generation #Temporal-Spatial-Channel Modeling #Self-Forcing

2025년 12월 29일

[논문리뷰] Web World Models

본 논문은 고정된 컨텍스트의 웹 프레임워크와 완전히 생성형 세계 모델(World Model) 사이의 간극을 메우는 Web World Model (WWM) 개념을 제안합니다. 언어 에이전트가 지속적으로 활동, 기억, 학습할 수 있는 제어 가능하면서도 무한히 확장 가능한 환경 을 구축하는 것이 주된 목표입니다.

#Review #Web World Model #LLM #Neuro-symbolic AI #Procedural Generation #Hybrid Architecture #Deterministic Generation #Persistent Environments #TypeScript

2025년 12월 29일

[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

본 논문은 기존 벤치마크들이 텍스트 및 정적 멀티모달 정보 탐색에 초점을 맞추고 동적인 웹 비디오 콘텐츠를 간과하는 문제점을 해결하고자 합니다.

#Review #Agentic AI #Video Understanding #Web Browsing #Benchmark #Multimodal LLMs #Temporal Grounding #Cross-Source Reasoning #Information Seeking

2025년 12월 29일

[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.

#Review #Embodied AI #Vision and Language Navigation #Instance Object Navigation #Active Dialog #Large Language Models (LLMs)#Benchmark #Human-Robot Interaction

2025년 12월 29일

[논문리뷰] Training AI Co-Scientists Using Rubric Rewards

언어 모델(LLM)이 개방형 연구 목표에 대해 모든 제약 조건을 따르는 고품질 연구 계획을 생성하는 데 어려움을 겪는 문제를 해결합니다. 특히, 느리고 비용이 많이 드는 실험 실행을 통한 검증 없이, 다양한 개방형 연구 목표 에 대한 더 나은 연구 계획 을 생성하도록 모델을 훈련하는 방법을 연구하는 것을 목표로 합니다.

#Review #AI Co-Scientists #Research Plan Generation #Reinforcement Learning (RL)#Self-Grading #Rubric Rewards #Language Models (LLMs)#Scientific Discovery

2025년 12월 29일

[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.

#Review #Surgical Robotics #World Models #Video Generation #Imitation Learning #Inverse Dynamics Model #Synthetic Data #Vision-Language-Action Models #Data Scarcity

2025년 12월 29일

[논문리뷰] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

본 논문은 기존 확산 모델 기반 비디오 초해상화(VSR) 방법들이 높은 지각 품질(perceptual quality)을 제공함에도 불구하고, 미래 프레임 의존성 및 다단계 노이즈 제거 과정으로 인한 높은 지연 시간 때문에 실시간 온라인 적용이 불가능하다는 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Diffusion Models #Low-Latency #Streamable #Auto-Regressive #Model Distillation #Temporal Consistency #Perceptual Quality

2025년 12월 29일

[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers

본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Image Editing #Selective Editing #Computational Efficiency #Training-Free #Region-Aware #Perceptual Similarity

2025년 12월 29일

[논문리뷰] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

본 논문은 복잡한 GUI 태스크에서 자율 에이전트 개발을 위한 에이전트 강화 학습( Agentic RL )의 주요 병목인 태스크 완료 검증의 비효율성과 신뢰성 문제 를 해결하고자 합니다.

#Review #Agentic RL #Self-Verifying Agents #GUI Automation #Evidence Curation #LLM-as-a-Judge #Reward Shaping #AndroidLab

2025년 12월 29일

[논문리뷰] Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

이 논문은 3D Gaussian Splatting (3D-GS) 기반의 Open-vocabulary segmentation (OVS)에서 512-차원 CLIP 특징 과 같은 고차원 특징을 효율적으로 렌더링하는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting #Open-vocabulary Segmentation #Neural Rendering #High-dimensional Features #Quantile Sampling #Real-time Rendering #Feature Distillation

2025년 12월 29일

[논문리뷰] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

기존 옴니모달 대규모 언어 모델(OmniLLMs) 이 겪는 미세한 크로스모달 이해(fine-grained cross-modal understanding) 및 멀티모달 정렬(multimodal alignment) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Omnimodal Understanding #Audio-Guided Perception #Active Learning Agents #Cross-Modal Alignment #Tool-Use #Video Understanding #Multimodal LLMs

2025년 12월 29일

[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking

정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.

#Review #Agentic Information Seeking #LLM Agents #Browser Automation #Nested Framework #Tool Learning #Context Efficiency #Deep Web

2025년 12월 29일