[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing본 논문은 복잡한 추론과 세계 지식이 필요한 이미지 합성 태스크에서 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Image Generation#Image Editing#World Knowledge#Self-Reflection#Unified Framework#Text-to-Image2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.#Review#Multimodal Large Language Models#Cognitive Reasoning#Visual Imagery#Latent Representations#Reinforcement Learning#Visual Question Answering#Benchmark2026년 2월 2일댓글 수 로딩 중
[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.#Review#Software Engineering Environments#LLM Agents#Data Generation#Verifiable Tasks#Multilingual#Reinforcement Learning#Self-Verification#Hacking Detection2026년 2월 2일댓글 수 로딩 중
[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Progressive Learning#Width Expansion#Signal Preservation#Symmetry Breaking#LLM#Training Stability#MoE#RMSNorm2026년 2월 2일댓글 수 로딩 중
[논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization기존 선호도 최적화 방법론, 특히 DPO 및 SimPO 가 겪는 '언러닝(unlearning)'과 '포맷팅 붕괴(formatting collapse)' 문제를 해결하는 것이 주 목표입니다.#Review#Preference Optimization#LLM Alignment#Direct Preference Optimization#Reference-Free#Likelihood Anchoring#Token Stabilization#Dual-Margin Loss#Unlearning2026년 2월 2일댓글 수 로딩 중
[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.#Review#Reinforcement Learning#Large Language Models#Agentic AI#Reward Modeling#Environment Adaptation#Closed-loop Optimization#Multimodal Agents2026년 2월 2일댓글 수 로딩 중
[논문리뷰] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss본 논문은 기존 픽셀 확산 모델이 고차원 픽셀 공간의 지각적으로 중요하지 않은 신호를 학습하는 데 어려움을 겪어 잠재 확산 모델보다 성능이 뒤처지는 문제를 해결하고자 합니다.#Review#Pixel Diffusion#Perceptual Loss#Latent Diffusion#Image Generation#LPIPS#DINOv2#x-prediction#End-to-End Generation2026년 2월 2일댓글 수 로딩 중
[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Post-Training#Optimal Transport#Reward Modeling#Annotation-free#Vision-Language Models#Diffusion Models2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation기존 텍스트-이미지(T2I) 모델의 한계인 정적인 동작, 암묵적인 사용자 의도 파악 실패, 복잡한 지식 기반 추론 능력 부족을 해결하는 것입니다.#Review#Agentic Text-to-Image#Multimodal Reasoning#Cognitive Search#Knowledge-Driven Generation#Image Generation Benchmarks#Complex User Intent2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars본 논문은 기존 토킹 아바타 기술의 한계인 환경 인지 및 텍스트 기반 객체 상호작용 능력 부재 문제를 해결하고자 합니다.#Review#Talking Avatars#Human-Object Interaction (HOI)#Text-Driven Generation#Diffusion Models#Multimodal Control#Grounded Interaction2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Kimi K2.5: Visual Agentic Intelligence본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.#Review#Multimodal AI#Agentic Intelligence#Vision-Language Models#Parallel Agent Orchestration#Reinforcement Learning#Joint Optimization#Visual Reasoning#Software Engineering2026년 2월 2일댓글 수 로딩 중
[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.#Review#Visual Instruction#Image Editing#Multimodal Benchmark#LMM-as-a-judge#Deictic Grounding#Morphological Manipulation#Causal Reasoning#Generative Models2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Green-VLA: Staged Vision-Language-Action Model for Generalist Robots본 논문은 로봇 학습의 고질적인 문제인 데이터의 이질성, 낮은 품질, 그리고 행동 모방 (Behavior Cloning, BC)의 장기 태스크 한계를 해결하고자 합니다.#Review#Vision-Language-Action#Generalist Robots#Staged Training#Reinforcement Learning#Multi-embodiment#Data Quality#Humanoid Robotics#Flow Matching2026년 2월 2일댓글 수 로딩 중
[논문리뷰] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space본 논문은 기존 비디오 확산 모델의 높은 추론 비용으로 인한 긴 대기 시간과 GPU 비용 문제를 해결하여, 더욱 빠르고 효율적인 비디오 생성을 가능하게 하는 고속 이미지-투-비디오 (I2V) 확산 프레임워크인 FSVideo 를 개발하는 것을 목표로 합니다.#Review#Video Diffusion Model#Image-to-Video Generation#Latent Space Compression#Diffusion Transformer (DiT)#Model Acceleration#Layer Memory#Video Upsampling2026년 2월 2일댓글 수 로딩 중
[논문리뷰] FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents본 논문은 대규모 언어 모델(LLM) 에이전트가 긴 호라이즌의 심층 연구 작업을 수행할 때 발생하는 컨텍스트 창 제한 문제를 해결하고자 합니다. 이는 토큰 예산을 압축하고 효과적인 테스트 시간 스케일링을 방해하여 보고서의 불완전한 커버리지와 낮은 품질을 초래합니다.#Review#LLM Agents#Deep Research#Long-Horizon Tasks#Test-Time Scaling#File System#Persistent Workspace#Knowledge Base#Dual-Agent Framework2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Closing the Loop: Universal Repository Representation with RPG-Encoder현재 리포지토리 에이전트들이 단편적인 코드 표현 방식(API 문서, 의존성 그래프)으로 인해 겪는 추론 단절 문제 를 해결하는 것이 목표입니다.#Review#Code Representation#LLM Agent#Software Engineering AI#Repository Understanding#Repository Generation#Repository Planning Graph (RPG)#Semantic Lifting#Incremental Code Maintenance2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation실시간 상호작용 비디오 생성을 위해 기존의 양방향(bidirectional) 비디오 확산 모델을 소수 스텝의 자기회귀(autoregressive, AR) 모델로 증류하는 과정에서 발생하는 아키텍처 간극(architectural gap) 과 프레임 수준의 단사성(frame-level injectivity) 위반 문제 를 해결하고자 합니다.#Review#Autoregressive Video Generation#Diffusion Models#Model Distillation#Real-Time AI#Causal Attention#ODE Distillation#Frame-level Injectivity#Teacher Forcing2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning본 논문은 기존 생성형 AI 모델이 픽셀 수준의 지침과 표면적 외관 유지에만 머물러 진정한 은유적 생성을 위한 추상적 논리를 포착하지 못하는 한계를 해결하고자 합니다.#Review#Visual Metaphor Transfer#Conceptual Blending Theory#Schema Grammar#Multi-Agent Framework#Generative AI#VLM#LLM#Creative AI2026년 2월 2일댓글 수 로딩 중
[Triton] AMD TDM AsyncWait을 UpdateAsyncWaitCount에서 지원TDM scatter/gather가 여러 intrinsic을 생성하는 경우의 정확한 waitcnt 계산 지원#Triton#AMD#TDM#Async Wait#Compiler2026년 2월 2일댓글 수 로딩 중
[Loki] 인덱스 빌더에서 오브젝트 다운로드 시 슬라이스 사전 할당으로 메모리 효율화io.ReadAll 대신 오브젝트 크기 기반 사전 할당으로 인덱스 빌드 시 불필요한 메모리 재할당을 제거한 분석.#Loki#Go#Performance#Memory Allocation#Object Storage2026년 2월 2일댓글 수 로딩 중