[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming고해상도 비디오 생성은 확산 모델의 제곱 복잡도 로 인해 계산적으로 병목 현상이 발생하여 실용적인 추론이 불가능하다는 문제를 해결하고자 합니다.#Review#High-Resolution Video Generation#Diffusion Models#Autoregressive#Efficiency#Caching#Attention Mechanisms#Video Streaming#Temporal Consistency2025년 12월 24일댓글 수 로딩 중
[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.#Review#Video Generation#One-Shot Video#Diffusion Transformer (DiT)#Frame-Guided Generation#Auto-Regressive Generation#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models본 논문은 최신 Vision-Language Models (VLMs)에 내재된 인기도 편향(popularity bias)을 탐구하고 노출하는 것을 목표로 합니다.#Review#Vision-Language Models (VLMs)#Popularity Bias#Ordinal Regression#Building Age Estimation#Multi-modal Learning#Benchmark Dataset#Explainable AI2025년 12월 24일댓글 수 로딩 중
[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정max-model-len을 auto(-1)로 설정하면 사용 가능한 GPU 메모리에 맞춰 최대 컨텍스트 길이를 자동 결정#vllm#Performance2025년 12월 24일댓글 수 로딩 중
[Triton] ext slice rematerialization 견고성 개선 — 실패 시 원본 보존레이아웃 변환 제거 패스에서 ext backward slice 탐색 실패 시 원본 데이터가 오염되는 버그를 수정한다#Triton#MLIR#Compiler Optimization#Layout Conversion#Bug Fix2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다.#Review#Conversational AI#Toxicity Detection#LLM#Prompt Engineering#Open Source Software#GitHub#Derailment Forecasting2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Step-DeepResearch Technical Report본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.#Review#Deep Research Agents#LLMs#Reinforcement Learning#Supervised Fine-tuning#Agentic AI#Multi-hop Reasoning#Benchmarking#Cost-effectiveness2025년 12월 23일댓글 수 로딩 중
[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal LLMs#Cognitive Hierarchy#Benchmark#Reinforcement Learning#Supervised Fine-tuning#Spatial Reasoning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems스트리밍 음성-텍스트 번역(StreamST) 시스템의 평가 및 시연을 위한 통일된 오픈 소스 프레임워크가 부재하며, 기존 SimulEval 도구의 한계(유지보수 중단, 재번역 미지원, 짧은 오디오 처리 중심)를 극복하고자 합니다.#Review#Streaming Speech-to-Text Translation#StreamST#Evaluation Toolkit#Open-Source Framework#Re-translation#Incremental Decoding#Latency Metrics#Quality Metrics#Real-time Demonstration2025년 12월 23일댓글 수 로딩 중
[논문리뷰] SemanticGen: Video Generation in Semantic Space기존 비디오 생성 모델의 느린 수렴 속도 와 긴 비디오 생성 시 높은 계산 비용 이라는 한계를 해결하는 것을 목표로 합니다. 비디오의 내재된 중복성을 활용하여 컴팩트하고 높은 수준의 의미 공간(semantic space) 에서 비디오를 생성함으로써 효율성과 품질을 동시에 개선하고자 합니다.#Review#Video Generation#Semantic Space#Diffusion Models#VAE Latents#Long Video Generation#Semantic Encoders#Generative AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in Audio본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.#Review#Audio Source Separation#Foundation Models#Multimodal Prompting#Diffusion Transformers#Flow Matching#Self-Supervised Learning#Reference-Free Evaluation#Audio-Visual Learning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.#Review#Reinforcement Learning (RL)#LLM Agents#Skill Library#Self-Improvement#Sequential Rollout#AppWorld dataset#GRPO2025년 12월 23일댓글 수 로딩 중
[논문리뷰] QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models본 논문은 최신 Vision-Language Models (VLMs) 이 물리적 특성을 정량적으로 추론하는 능력에 대한 불확실성을 해결하고자 합니다.#Review#Vision-Language Models#Physical Reasoning#Quantitative Benchmark#Kinematics#Mean Relative Accuracy#Video-Text#Embodied AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation본 연구는 질적 연구에서 LLM 기반 주제 분석의 신뢰성 문제를 해결하고, 기존의 시간 소모적이며 비용이 많이 드는 인간 코더 기반 방식의 한계를 극복하는 것을 목표로 합니다. 특히, LLM 출력의 신뢰도를 정량적으로 평가하고 투명하게 검증할 수 있는 다중 관점 검증 프레임워크를 제시하고자 합니다.#Review#Thematic Analysis#Large Language Models#Qualitative Research#Cohen's Kappa#Semantic Similarity#Reliability Metrics#Ensemble Validation#Prompt Engineering2025년 12월 23일댓글 수 로딩 중
[논문리뷰] MemEvolve: Meta-Evolution of Agent Memory Systems본 논문은 LLM 기반 에이전트의 고정된 메모리 시스템 아키텍처가 다양한 태스크 컨텍스트에 메타 적응할 수 없는 근본적인 한계 를 해결하고자 합니다.#Review#LLM Agents#Memory Systems#Meta-Evolution#Self-Evolving AI#Memory Architecture#EvolveLab#Generalization2025년 12월 23일댓글 수 로딩 중
[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent System#Long Video Understanding#Video Question Answering#Reinforcement Learning#Large Language Models#Temporal Grounding#Multimodal Reasoning#Tool-Augmented AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] INTELLECT-3: Technical Report본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Mixture-of-Experts#Asynchronous Training#Distributed Systems#Agentic AI#Code Execution#Model Evaluation2025년 12월 23일댓글 수 로딩 중
[논문리뷰] FaithLens: Detecting and Explaining Faithfulness Hallucination본 논문은 대규모 언어 모델(LLM) 출력에서 발생하는 충실성 환각(faithfulness hallucination) 을 탐지하고, 그 결정에 대한 설명(explanation) 을 함께 제공하여 LLM의 신뢰성을 향상시키는 비용 효율적이고 효과적인 모델 FaithLens 를 제안합니다.#Review#LLM Hallucination Detection#Explainable AI#Faithfulness Evaluation#Data Augmentation#Reinforcement Learning#Fact-Checking2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Interpretability#Transformer#Internal Policy#Entropy Analysis2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Active Intelligence in Video Avatars via Closed-loop World Modeling기존 비디오 아바타 생성 방식이 단순한 애니메이션을 넘어 자율적인 에이전시 를 가지지 못하고 장기 목표를 달성할 수 없는 한계를 해결하는 것이 목표입니다.#Review#Video Avatars#Active Intelligence#World Models#Closed-loop Reasoning#POMDP#Generative AI#Hierarchical Planning#Cognitive Architecture2025년 12월 23일댓글 수 로딩 중