[논문리뷰] Streaming Autoregressive Video Generation via Diagonal Distillation대규모 확산 모델의 제한된 실시간 스트리밍 기능을 개선하고, 기존 자기회귀 모델의 높은 연산 비용으로 인한 낮은 품질 문제를 해결하는 것이 목표입니다.#Review#Video Generation#Autoregressive Models#Diffusion Models#Distillation#Real-time#Streaming#Temporal Coherence#Flow Matching2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.#Review#Spatial Intelligence#Vision-Language Models#Sports Analytics#3D Reconstruction#Dataset#Benchmark#Racket Sports#Human-Centric AI2026년 3월 10일댓글 수 로딩 중
[논문리뷰] SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement본 논문은 반복적인 자체 개선(recursive self-improvement)을 수행하는 AI 시스템에서 발생하는 미묘한 정렬 편향(alignment drift) 문제를 해결하는 것을 목표로 합니다.#Review#Recursive Self-Improvement#Alignment Drift#AI Safety#Goal Drift Index (GDI)#Constraint Preservation#Regression Risk#Capability Alignment Ratio (CAR)2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Reward Prediction with Factorized World States본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.#Review#Reward Prediction#World Models#State Representation#Large Language Models#Zero-shot Learning#Reinforcement Learning#Planning#Factorization2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs본 논문은 Multimodal Large Language Models (MLLMs) 가 텍스트를 이미지 형태로 처리할 때 발생하는 '모달리티 갭(modality gap)'을 체계적으로 진단하고 해결하는 것을 목표로 합니다.#Review#Multimodal LLMs#Modality Gap#Visual Text Understanding#Error Analysis#Self-Distillation#Text-to-Image Conversion#Reasoning Collapse2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 주로 사용하는 자기회귀(autoregressive) 아키텍처 의 한계를 극복하고, 텍스트, 음성, 이미지 전반에 걸친 이해 및 생성을 통합할 수 있는 새로운 확률적 모델링 대안 을 탐색하는 것을 목표로 합니다.#Review#Multimodal AI#Discrete Diffusion Models#Masked Language Modeling#Unified Generative Models#Any-to-Any#Speech-to-Image#Visual Question Answering2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.#Review#Large Language Models (LLMs)#Code Generation#HTML#Interactive Applications#Benchmark#MINIAPPBENCH#Agentic Evaluation#MINIAPPEVAL#Real-World Principles#Human-AI Interaction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.#Review#Vision-Language Models#Self-Evolution#Reinforcement Learning#Zero-Data#Multi-Agent Systems#Code Generation#Synthetic Data2026년 3월 10일댓글 수 로딩 중
[논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing통합 멀티모달 모델(UMM)이 강한 의미론적 이해와 강력한 생성 능력 사이에서 겪는 본질적인 상충 관계를 해결하고자 합니다. 이 논문은 InternVL-U 라는 경량의 4B 매개변수 UMM을 제안하여, 이해, 추론, 생성, 편집 능력을 하나의 통합 프레임워크 내에서 민주화하는 것을 목표로 합니다.#Review#Unified Multimodal Models#Multimodal Large Language Model#Image Generation#Image Editing#Chain-of-Thought#Data Synthesis#Low-parameter Models2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing논문은 3D 장면 편집 과정에서 발생하는 다중 뷰 일관성(multi-view consistency) 유지의 어려움 과 3D 일관성 편집 쌍 데이터의 극심한 부족 문제를 해결하는 것을 목표로 합니다.#Review#3D Scene Editing#Reinforcement Learning#Multi-view Consistency#Diffusion Models#Reward Modeling#3D Gaussian Splatting#FLUX-Kontext#VGGT2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Fish Audio S2 Technical Report본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multi-speaker#Multi-turn#Instruction Following#Dual-Autoregressive#Reinforcement Learning (RL)#Data Pipeline#SGLang2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-Following현재 Speech Large Language Models (SLLMs) 평가 시 주로 사용되는 텍스트 프롬프트의 한계를 극복하고, 현실적인 음성 기반 명령어 환경 에서 SLLM의 성능을 평가할 수 있는 데이터셋을 구축하는 것이 목표입니다.#Review#Speech Language Models#Instruction Following#Multilingual Dataset#Spoken Prompts#Benchmark#SLLM Evaluation#Prompt Diversity2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable RewardsRLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Calibration#Over-confidence#Decoupled Optimization#Verifiable Rewards#Policy Optimization#Expected Calibration Error2026년 3월 10일댓글 수 로딩 중
[논문리뷰] ConFu: Contemplate the Future for Better Speculative Sampling본 논문은 기존의 speculative decoding 드래프트 모델들이 현재 prefix에만 의존하여 예측하는 방식 때문에 발생하는 오류 누적 문제 를 해결하고자 합니다.#Review#Speculative Decoding#LLM Inference Acceleration#Draft Model#Future Prediction#Contemplate Tokens#Mixture-of-Experts#Token Acceptance Rate#Speedup Ratio2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Compiler-First State Space Duality and Portable O(1) Autoregressive Caching for Inference이 논문은 Mamba-2 의 State Space Duality (SSD) 알고리즘이 기존의 NVIDIA CUDA/Triton 커널 에 대한 의존성 없이도 XLA 컴파일러 를 통해 효율적이고 이식성 높은 추론 성능을 달성할 수 있음을 증명하는 것을 목표로 합니다.#Review#State Space Models#Mamba-2#XLA#JAX#Compiler Codegen#Autoregressive Caching#Hardware Portability#Inference Optimization2026년 3월 10일댓글 수 로딩 중
[논문리뷰] BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation본 논문은 텍스트-투-비디오(T2V) 생성 모델의 상업적 잠재력을 확장하기 위해 'Seamless Brand Integration' 이라는 새로운 태스크를 소개합니다.#Review#Text-to-Video Generation#Multi-Agent System#Brand Integration#Prompt Engineering#Large Language Models (LLMs)#LoRA Fine-tuning#Contextual Adaptation2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering본 논문은 오디오-언어 모델(LALMs)에서 발생하는 텍스트 지배(text dominance) 문제를 해결하는 것을 목표로 합니다. 이는 LALMs가 중요한 오디오 증거가 있을 때에도 언어적 선험 지식에 과도하게 의존하여 오디오를 충분히 활용하지 못하는 현상을 의미합니다.#Review#Audio-Language Models (LALMs)#Text Dominance#Mechanistic Interpretability#Attention Heads#Activation Steering#Multimodal Grounding#Inference-time Intervention2026년 3월 10일댓글 수 로딩 중
[Loki] Helm 차트 Memcached CPU 리소스 오버라이드 지원 추가Grafana Loki Helm 차트의 자동 리소스 계산 모드에서 하드코딩된 500m CPU 대신, allocatedCPU 값으로 오버라이드할 수 있도록 개선한 변경 사항을 분석합니다.#Grafana Loki#Helm#Kubernetes#Memcached#Resource Management2026년 3월 10일댓글 수 로딩 중
[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.#Ray#Python#PyArrow#Performance#Schema#Data Pipeline2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training금융 도메인 LLM 배포의 어려움(밀도 높은 전문 용어, 엄격한 수치 추론, 낮은 오류 허용치)을 해결하고, 특히 데이터 품질 과 훈련 데이터의 난이도/검증 가능성 프로필 이 특수 수직 도메인에서의 LLM 성능에 미치는 영향을 체계적으로 이해하는 것을 목표로 합니다.#Review#Financial LLMs#Data-Centric AI#Distillation#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Difficulty-Aware Training#Data Quality2026년 3월 9일댓글 수 로딩 중