최신 포스트

[논문리뷰] Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

본 논문은 현재 RAG(Retrieval-Augmented Generation) 시스템이 인간의 '마인드스케이프(mindscape-aware)' 능력처럼 긴 문맥을 전체적으로 이해하는 능력이 부족하여 장문 컨텍스트(long-context) 태스크에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Retrieval Augmented Generation #Long Context Understanding #Mindscape-Aware #Hierarchical Summarization #Context-Aware Embeddings #Integrative Reasoning #LLMs

2025년 12월 28일

[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.

#Review #GUI Agents #Foundation Models #Reinforcement Learning #Device-Cloud Collaboration #Mobile Navigation #Tool Augmentation #User Interaction

2025년 12월 28일

[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

본 논문은 상업적 활용에 적합한 수준의 사실적인 비디오 객체 삽입(VOI) 을 달성하는 것을 목표로 합니다. 특히, 제한적인 4D 장면 이해 와 가려짐(occlusion) , 조명 효과 에 대한 부적절한 처리로 인해 발생하는 문제를 해결하여 기하학적으로 일관되고 외관상 충실한 비디오 합성을 구현하고자 합니다.

#Review #Video Object Insertion (VOI)#4D Scene Geometry #Diffusion Models #Mask Generation #Temporal Consistency #Occlusion Handling #Illumination Synthesis #ROSE++ Dataset

2025년 12월 28일

[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Visual Search #Foundation Models #Multi-agent Systems #Reinforcement Learning #Benchmarking #Visual Reasoning

2025년 12월 28일

[논문리뷰] A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication

본 논문의 핵심 목표는 일반적인 비가환 링(non-commutative rings) 환경에서 3x3 행렬 곱셈 을 위한 랭크-23(rank-23) 알고리즘 의 가산 복잡도(additive complexity)를 최적화하는 것입니다.

#Review #Matrix Multiplication #Additive Complexity #Algorithm Optimization #Ternary Flip-Graph #Heuristic Search #Common Subexpression Elimination #BLAS

2025년 12월 28일

[pydantic-ai] 테스트 스위트에서 불필요한 asyncio.sleep 제거

Google 파일 검색, OpenAI 응답 모델 등 다수 테스트에서 불필요한 asyncio.sleep과 VCR 마커를 제거하여 테스트 속도를 개선한 사례를 분석합니다.

#pydantic-ai #Testing #Performance #asyncio #Cleanup

2025년 12월 28일

[pydantic-ai] 스트리밍에서 중복 도구 호출 방지 및 결과 캐싱 추가

partial_output=False일 때 stream_output/stream_text/get_output의 반복 호출 시 중복 검증과 도구 호출을 방지하기 위한 결과 캐싱을 추가한 사례를 분석합니다.

#pydantic-ai #Streaming #Caching #Bug Fix #Output Validation

2025년 12월 27일

[pytest] actions/cache v4에서 v5로 업그레이드

GitHub Actions 워크플로우에서 actions/cache를 v4에서 v5로 메이저 업그레이드

#Python #pytest #CI/CD #GitHub Actions #Dependencies

2025년 12월 27일

[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정

float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지

#Triton #AMD #Bug Fix #Atomic Operations #LLVM

2025년 12월 27일

[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.

#Review #Autoregressive Generation #Pixel-Aware Alignment #Variational Optimization #Reinforcement Learning #Visual Tokenizers #Image Quality #ELBO #Post-Training Framework

2025년 12월 25일

[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory

기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.

#Review #Video Generation #Spatial Memory #3D Scene Point Cloud #Spatial Consistency #Camera Control #Interactive Editing #Diffusion Models #Visual SLAM

2025년 12월 25일

[논문리뷰] Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

대규모 언어 모델(LLM)의 추론 과정은 표면적인 통계 외에는 그 인지 구조와 단계를 파악하기 어렵습니다.

#Review #LLM Reasoning #Cognitive Science #Schoenfeld's Episode Theory #Mathematical Problem Solving #Reasoning Dynamics #Interpretable AI #Behavioral Analysis

2025년 12월 25일

[논문리뷰] Latent Implicit Visual Reasoning

본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Visual Reasoning #Latent Tokens #Visual Bottlenecking #Implicit Learning #Task-agnostic #Attention Mechanisms

2025년 12월 25일

[논문리뷰] How Much 3D Do Video Foundation Models Encode?

본 논문은 대규모 비디오 데이터로 사전 훈련된 Video Foundation Models (VidFMs) 내에 글로벌 3D 이해도가 자연스럽게 내재되어 있는지를 정량적으로 탐구하는 것을 목표로 합니다.

#Review #Video Foundation Models #3D Understanding #3D Reconstruction #Model Agnostic #Feature Probing #Diffusion Models #Temporal Reasoning

2025년 12월 25일

[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

멀티턴 강화 학습(RL) 기반 VLM(Vision-Language Model) 에이전트 훈련 의 주요 문제점인 희소한 보상, 긴 신용 할당 문제, 그리고 GTR(Guided Thought Reinforcement) 과 같은 기존 방법론에서 외부 교사 모델 사용으로 인한 높은 비용과 접근성 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #Vision-Language Models (VLMs)#Agentic AI #Knowledge Distillation #Model Merging #PPO #Thought Guidance #Cost Efficiency

2025년 12월 25일

[Triton] LLVM Debug Information에서 커널 인자 누락 수정

Triton FuncOp에서 LLVM IR 변환 시 포인터 타입의 pointee 정보가 유실되어 디버그 정보에 커널 인자가 누락되는 버그를 수정

#Triton #LLVM #Debug Info #Bug Fix

2025년 12월 25일

[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.

#Review #Video Generation #Diffusion Models #Acceleration #Quantization #Attention #Step Distillation #Performance Optimization #RTX 5090

2025년 12월 24일

[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Tokenizer #Language Models (LMs)#Robustness #Multilingual NLP #Benchmark #Subword Segmentation #Pre-training #Tokenization Impact

2025년 12월 24일

[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Text-to-Audio-Video Generation #Multimodal Evaluation #Benchmark #MLLM-as-a-Judge #Cross-modal Alignment #Instruction Following #Perceptual Realism #Audio Realism

2025년 12월 24일

[논문리뷰] Streaming Video Instruction Tuning

이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #Large Language Models (LLMs)#Instruction Tuning #Multi-task Learning #Real-time AI Assistant #Temporal Reasoning #Focal Loss #Video Question Answering

2025년 12월 24일