최신 포스트

[논문리뷰] In-Video Instructions: Visual Signals as Generative Control

본 논문은 대규모 비디오 생성 모델의 제어 가능성을 탐구하며, 기존 텍스트 프롬프트의 한계인 전역적이고 추상적인 제어를 극복하고자 합니다.

#Review #Video Generation #Controllable AI #Visual Instructions #Image-to-Video #Spatial Control #Zero-shot Learning #Generative Models

2025년 11월 24일

[논문리뷰] HunyuanVideo 1.5 Technical Report

경량화되면서도 강력한 오픈소스 비디오 생성 모델 Hunyuan Video 1.5 를 개발하여, 8.3억 파라미터로 최첨단 시각 품질과 움직임 일관성을 달성하고, 소비자용 GPU에서 효율적인 추론을 가능하게 하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformer #Sparse Attention #Super-Resolution #Open-Source #Multimodal Understanding #Training Optimization #Efficient Inference

2025년 11월 24일

[논문리뷰] General Agentic Memory Via Deep Research

AI 에이전트 분야에서 널리 사용되는 정적 메모리(AOT Compilation) 방식의 심각한 정보 손실 문제와 복잡한 컨텍스트 관리의 한계를 해결하는 것을 목표로 합니다.

#Review #AI Agents #Memory Systems #Large Language Models (LLMs)#Just-in-Time (JIT) Compilation #Memorizer #Researcher #Reinforcement Learning #Context Management

2025년 11월 24일

[논문리뷰] Flow Map Distillation Without Data

본 논문은 반복적인 샘플링으로 인해 속도가 느린 최첨단 플로우 모델의 가속화를 위해 사용되는 플로우 맵 증류(flow map distillation) 기법의 데이터 의존성 문제 를 해결하고자 합니다.

#Review #Flow Map Distillation #Data-Free Learning #Generative Models #Teacher-Student #Diffusion Acceleration #Teacher-Data Mismatch #One-Step Sampling

2025년 11월 24일

[논문리뷰] Fidelity-Aware Recommendation Explanations via Stochastic Path Integration

본 논문은 추천 시스템에서 설명의 충실도(fidelity), 즉 설명이 모델의 실제 추론을 얼마나 정확하게 반영하는지에 대한 문제를 해결하고자 합니다.

#Review #Recommender Systems #Explainable AI (XAI)#Explanation Fidelity #Path Integration #Stochastic Sampling #Counterfactual Explanations #Model-Agnostic #Sparse Data

2025년 11월 24일

[논문리뷰] Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

본 논문은 현대 추천 시스템의 잠재 임베딩이 의미론적으로 불투명하여 해석 가능성이 낮고 제어가 어렵다는 문제를 해결하고자 합니다.

#Review #Recommender Systems #Sparse Autoencoder (SAE)#Monosemantic Neurons #Interpretability #Prediction-Aware Loss #User-Item Interactions #Post-hoc Control

2025년 11월 24일

[논문리뷰] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

기존 픽셀 확산 모델이 Diffusion Transformer (DiT) 하나로 고주파수 신호와 저주파수 의미론을 동시에 모델링하여 발생하는 느린 학습 및 추론 속도, 낮은 이미지 품질 문제를 해결하고자 합니다.

#Review #Pixel Diffusion #Image Generation #Frequency Decoupling #Diffusion Transformer (DiT)#Flow Matching #AdaLN #Text-to-Image Synthesis

2025년 11월 24일

[논문리뷰] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

이 논문의 핵심 목표는 기존 개방형 심층 연구 모델들이 짧은 형식의 질문 답변(QA)에 초점을 맞춰 실제 장문형 심층 연구 작업에 적용하기 어렵다는 한계를 극복하는 것입니다.

#Review #Reinforcement Learning #Evolving Rubrics #Deep Research #LLM Agents #Tool Use #Long-form QA #Open-source AI #Dynamic Evaluation

2025년 11월 24일

[논문리뷰] Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

본 논문은 합성된 래스터 이미지에서 레이어 수준의 편집이 불가능한 한계를 극복하고자 합니다. 기존 이미지 매팅 및 인페인팅 기반 방법들이 제어 가능성과 분할 정밀도에서 부족했던 문제를 해결하기 위해, 사용자 정의 바운딩 박스를 기반으로 미세 조정 가능하고 제어 가능한 다중 레이어 분리 를 달성하는 방법을 제안합니다.

#Review #Controllable Layer Decomposition #Diffusion Models #Multi-Layer Image Generation #Layer Separation #Bounding Box Guidance #Generative AI #Image Editing

2025년 11월 24일

[논문리뷰] Computer-Use Agents as Judges for Generative User Interface

현재 인간 중심적으로 설계된 GUI 가 Computer-Use Agent (CUA)의 비효율적인 태스크 수행을 강제하는 문제를 해결하는 것이 목표입니다.

#Review #Computer-Use Agents #Generative UI #AI-assisted Design #Human-Computer Interaction #LLM #AUI-Gym #Feedback Loop #Agent-centric Design

2025년 11월 24일

[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

기존 VLM이 이산적인 텍스트 기반 추론에 국한되어 공간 추론 및 기하학적 인식과 같은 미세한 시각적 이해가 필요한 작업에서 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Chain-of-Thought (CoT)#Continuous Visual Tokens #Multimodal Reasoning #Perceptual Grounding #Visual Thinking #Dense Prediction

2025년 11월 24일

[논문리뷰] Budget-Aware Tool-Use Enables Effective Agent Scaling

이 논문은 대규모 언어 모델(LLM) 기반 에이전트의 효과적인 테스트 시간 스케일링(test-time scaling) 에 대한 연구를 목표로 합니다. 특히, 도구 사용 에이전트가 명시적인 예산 제약 조건 하에서 외부 환경과의 상호작용(도구 호출)을 어떻게 효율적으로 활용하여 성능을 최적화할 수 있는지를 탐구합니다.

#Review #LLM Agents #Tool Use #Budget Awareness #Test-time Scaling #Cost-Performance #Web Search Agents #Planning #Self-Verification

2025년 11월 24일

[논문리뷰] AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

본 논문은 인공 에이전트의 교차 환경 학습 능력 을 체계적으로 측정하기 위한 표준화된 인프라의 부재를 해결하는 것을 목표로 합니다. 특히, 다양하고 제어 가능한 환경의 부족과 에이전트 학습 방식을 통일적으로 표현할 방법이 없다는 두 가지 핵심 문제를 다룹니다.

#Review #Automated Environment Generation #Cross-Environment Learning #Agent Learning #Language Models #Benchmark #Meta-Learning #Reinforcement Learning #Environment Design Language

2025년 11월 24일

[논문리뷰] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

논문은 대규모 언어 모델(LLM) 학습을 위한 웹 데이터 품질의 중요성을 강조하며, 기존 HTML-to-텍스트 추출 방식의 한계를 해결하고자 합니다.

#Review #HTML Extraction #Web Corpus #Large Language Models #Data Curation #Structured Element Preservation #Sequence Labeling #Markdown Conversion #MainWebBench

2025년 11월 24일

[Triton] AMD TDM 연산에 multi-CTA 및 multicast 지원 추가

CGALayout 기반으로 TDM load/store에 멀티캐스트 마스크를 자동 설정하여 cluster 간 데이터 공유 가능

#Triton #AMD #TDM #Multi-CTA #Multicast

2025년 11월 24일

[Loki] 테넌트 rate limit 기반 셔플 샤딩으로 쿼리 성능 향상

Grafana Loki의 distributor에서 테넌트별 ingestion rate limit을 기반으로 셔플 샤딩을 적용하여, 저볼륨 테넌트의 세그먼트 키를 동일 파티션에 모아 쿼리 성능을 향상시킨 최적화를 분석합니다.

#Grafana Loki #Go #Performance #Sharding #Distributed Systems #Query Optimization

2025년 11월 24일

[Grafana Loki] 파서의 문자열 인턴 셋에서 키 충돌 결과 캐싱 버그 수정

internedStringSet이 키 충돌(duplicate suffix) 결과까지 캐싱하여 다른 스트림에 잘못된 라벨이 적용되던 버그를, 충돌 감지를 캐시 밖으로 이동하여 수정한 분석.

#Grafana Loki #Go #Bug Fix #Parser #Performance

2025년 11월 24일

[triton] Triton Kernel의 Matrix Multiplication 리팩토링: 코드 가독성과 유지보수성 향상

Triton의 행렬 곱셈 관련 모듈을 정리하고 변수 명명 규칙을 개선하여 코드의 일관성과 유지보수성을 높인 리팩토링 사례를 분석합니다.

#Triton #GPU #Kernel #Refactoring #MatrixMultiplication

2025년 11월 23일

[논문리뷰] WorldGen: From Text to Traversable and Interactive 3D Worlds

본 논문은 텍스트 프롬프트로부터 대규모의 인터랙티브 3D 월드를 자동으로 생성하는 시스템 WorldGen 을 소개합니다.

#Review #3D World Generation #Text-to-3D #Generative AI #Procedural Generation #Scene Decomposition #Navmesh #Game Engines #Interactive Environments

2025년 11월 23일

[논문리뷰] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

본 논문은 Vision-Language Models(VLMs)의 '시각 처리 병목 현상'을 해결하여, 긴 생성 과정에서 시각적 증거에 대한 접지력 상실 및 맥락화된 시각 경험 부족 문제를 극복하고, 정밀한 지각, 다단계 추론, 장기 생성 시퀀스 전반에 걸친 시각적 충실도를 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models #Latent Memory #Cognitive Memory #Visual Grounding #Short-term Memory #Long-term Memory #Reinforcement Learning

2025년 11월 23일