[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.#Review#Video Generation#Multi-modal Learning#Multi-task Learning#Zero-shot Generalization#Diffusion Models#World Models#Video Understanding2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Unified Video Editing with Temporal Reasoner기존 비디오 편집 모델들이 겪는 정밀도(expert models)와 통합성/마스크-프리(in-context learning models) 간의 트레이드오프를 해결하는 것을 목표로 합니다.#Review#Video Editing#Diffusion Models#Temporal Reasoning#Chain-of-Thought#In-Context Learning#ROPE#Multi-instance Editing2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Scaling Zero-Shot Reference-to-Video Generation논문은 기존 R2V(Reference-to-Video) 생성 모델이 명시적인 R2V 데이터셋 에 의존하여 확장성과 일반화 능력이 제한되는 문제를 해결하고자 합니다. 이를 위해 명시적인 R2V 데이터 없이 순수한 대규모 비디오-텍스트 쌍 만을 사용하여 제로샷 R2V 생성 이 가능한 Saber 프레임워크를 제안합니다.#Review#Reference-to-Video Generation#Zero-Shot Learning#Diffusion Models#Masked Training#Video-Text Pairs#Identity Preservation#Scalability#Attention Mechanism2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Rethinking Training Dynamics in Scale-wise Autoregressive Generation본 연구는 스케일별 자동회귀(AR) 생성 모델이 겪는 (1) 훈련-추론 불일치(exposure bias) 와 (2) 스케일별 학습 난이도 불균형 문제로 인해 저하되는 생성 품질을 해결하는 것을 목표로 합니다.#Review#Autoregressive Generation#Visual Synthesis#Exposure Bias#Student Forcing#Self-Autoregressive Refinement#Scale-wise Prediction#Image Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Relational Visual Similarity본 연구는 기존 이미지 유사성 모델들이 시각적 속성(perceptual attribute)에만 집중하여, 인간이 인지하는 추상적이고 관계적인 시각 유사성(relational visual similarity)을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Relational Similarity#Visual Similarity#Vision-Language Models#Anonymous Captioning#Image Retrieval#Analogical Reasoning#Dataset Curation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.#Review#Video Generation#Camera Control#Novel Trajectory#3D Gaussian Splatting (3DGS)#LiDAR-Free#Diffusion Models#Autonomous Driving#Scene Synthesis2025년 12월 8일댓글 수 로딩 중
[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Pre-training#Mid-training#Reasoning LMs#Generalization#Synthetic Reasoning Tasks#Process-level Supervision2025년 12월 8일댓글 수 로딩 중
[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.#Review#Multimodal LLMs#Jailbreak Attack#Attack-Defense Evaluation#Benchmark#Safety Alignment#Vulnerability Analysis#Risk Taxonomy#Evaluation Metrics2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Parallel Reasoning#Self-Distilled Reinforcement Learning#Policy Optimization#Inference Acceleration#Structured Output#Agentic Reasoning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Multi-view Pyramid Transformer: Look Coarser to See Broader본 논문은 대규모 3D 장면을 수십에서 수백 개의 이미지로부터 단일 순방향 패스로 재구성하는 트랜스포머 아키텍처의 확장성 문제 를 해결하는 것을 목표로 합니다.#Review#Multi-view Transformer#3D Reconstruction#Hierarchical Attention#Computational Efficiency#3D Gaussian Splatting#Novel View Synthesis#Scalability2025년 12월 8일댓글 수 로딩 중
[논문리뷰] LongCat-Image Technical Report컴퓨터 비전 분야에서 다국어 텍스트 렌더링, 사실주의, 배포 효율성, 개발자 접근성 등 기존 주요 모델들의 핵심 과제를 해결하고자 합니다. LongCat-Image 는 브루트 포스 스케일링에 대한 의존성에서 벗어나 최첨단 성능과 효율성 간의 최적의 균형을 이루는 경량 오픈소스 기반 모델을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Diffusion Model#Multilingual Text Rendering#Photorealism#Efficiency#Open-Source2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Group Representational Position EncodingTransformer 모델의 필수 요소인 위치 인코딩(Positional Encoding) 메커니즘들을 군 이론(Group Theory) 기반의 통합된 프레임워크 로 제시하고, 기존의 주요 기법인 RoPE 와 ALiBi 를 특수 사례로 포괄하며, 더 넓고 원칙적인 설계 공간을 제공하는 것을 목표로 합니다.#Review#Positional Encoding#Group Theory#Transformer#RoPE#ALiBi#Lie Groups#Multiplicative PE#Additive PE2025년 12월 8일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing논문은 대규모 움직임, 빈번한 손-객체 상호작용 등 독특한 도전 과제를 가진 자기중심적(egocentric) 비디오 편집 을 위한 포괄적인 생태계를 구축하는 것을 목표로 합니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent SystemsLLM 기반 다중 에이전트 시스템의 복잡한 디버깅 문제를 해결하는 것을 목표로 합니다.#Review#LLM Multi-Agent Systems#Debugging#Intervention-Driven#Failure Attribution#Automated Debugging#Verification#AI Agents#Reliability2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Distribution Matching Variational AutoEncoder본 논문은 시각적 생성 모델에서 VAE 및 파운데이션 모델 인코더가 잠재 공간의 분포를 명시적으로 형성하지 못하는 문제를 해결합니다.#Review#Variational Autoencoder (VAE)#Distribution Matching#Diffusion Models#Latent Space#Self-supervised Learning (SSL) Features#Generative Models#ImageNet#Tokenizer2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Evolving Learning#Data-Scarce Domains#Context-First Learning#Reward Hacking Mitigation#Multimodal Reasoning#Curriculum Learning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue본 논문은 긴 컨텍스트 대화 시스템에서 모델이 오래된 이력에 과도하게 집중하여 새로운 충돌 정보가 있을 때 내부 상태를 업데이트하지 못하는 'State Inertia' 문제를 해결하고자 합니다.#Review#Long-Context Dialogue#Mutable State Tracking#Temporal Alignment#Preference Optimization#Attention Mechanism#State Inertia#Non-Destructive Alignment2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.#Review#Decoding-based Regression#Reinforcement Learning#Numerical Prediction#Large Language Models#Policy Gradient#Tokenization#Sequence Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs현재 RoPE(Rotary Position Embeddings) 구현이 어텐션 스코어 계산 시 복소수 값의 내적에서 실수부만 사용 하고 허수부를 버려, 장문맥 의존성 모델링에 중요한 관계형 정보 손실 이 발생하는 문제를 해결하고자 합니다.#Review#Rotary Position Embedding#Long-Context LLMs#Complex-Valued Neural Networks#Self-Attention#Positional Encoding#Information Loss#Length Extrapolation2025년 12월 8일댓글 수 로딩 중
[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.#Triton#GPU#Optimization#MXFP8#MatMul2025년 12월 8일댓글 수 로딩 중