[논문리뷰] StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation기존 단안 비디오 생성 모델의 스테레오 기능 부재 및 취약한 pose estimation/multi-stage warping 파이프라인으로 인한 스테레오 비디오 생성의 한계를 극복하는 것이 목표입니다.#Review#Monocular-to-Stereo#Video Generation#Diffusion Models#Geometry-Aware#XR#IPD-aligned Dataset#Novel View Synthesis2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Reinventing Clinical Dialogue: Agentic Paradigms for LLM Enabled Healthcare Communication임상 대화에서 기존 LLM 의 반응적, 무상태적 특성 및 환각 문제의 한계를 극복하고, LLM 을 자율적인, 목표 지향적 시스템으로 전환하는 'Agentic Paradigm'을 제안합니다.#Review#Clinical Dialogue#LLM Agents#Healthcare AI#Agentic Paradigm#Medical Decision Support#Knowledge Grounding#AI Safety#Workflow Automation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Pay Less Attention to Function Words for Free Robustness of Vision-Language ModelsVision-Language Model (VLM)의 견고성과 성능 간의 상충 관계를 해결하고, 특히 함수어(function words) 가 교차-모달 적대적 공격에 대한 VLM의 취약성을 유발한다는 가설을 검증하고자 합니다.#Review#Vision-Language Models#Adversarial Robustness#Function Words#Cross-Attention#Adversarial Attacks#Differential Attention#Vision-Language Alignment2025년 12월 10일댓글 수 로딩 중
[논문리뷰] OmniPSD: Layered PSD Generation with Diffusion Transformer본 논문은 기존 생성 모델의 한계인 단일 평면 이미지 출력 문제를 해결하고, 투명한 알파 채널을 포함하는 레이어드 PSD 파일 을 생성 및 재구성하는 통합 프레임워크인 OmniPSD 를 제안합니다.#Review#Diffusion Transformer#PSD Generation#Image Decomposition#RGBA-VAE#In-Context Learning#Text-to-PSD#Image-to-PSD2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Learning Unmasking Policies for Diffusion Language Models마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.#Review#Diffusion Language Models#Reinforcement Learning#Masked Diffusion#Sampling Policy#Inference Optimization#Markov Decision Process#Generative AI#Text Generation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models본 연구는 기존 VLM의 이차적인 계산 복잡성과 증가하는 KV 캐시로 인한 장기 컨텍스트 이해 능력 및 배포 제약 문제를 해결하는 것을 목표로 합니다. 특히, 선형 어텐션의 정보 집약적 작업에서의 저조한 성능과 윈도우 기반 어텐션의 장기 기억 유지 부족이라는 한계를 극복하고자 합니다.#Review#Vision-Language Models#Linear Attention#Sliding Window Attention#Gated DeltaNet#Long-Context Understanding#Efficiency#Hybrid Architecture#Multimodal Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting본 연구는 주로 자연 이미지에 훈련된 Multimodal Large Language Models (MLLMs) 의 적외선 이미지 이해 능력이 미개척 상태임을 문제로 인식하고 있습니다.#Review#Multimodal Large Language Models (MLLMs)#Infrared Image Understanding#Benchmark Dataset#Visual Question Answering (VQA)#Generative Visual Prompting (GenViP)#Domain Adaptation#Image-to-Image Translation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models대부분의 Vision-Language-Action (VLA) 모델이 Markov 속성을 가정하여 장기 태스크에서 temporal myopia 와 일관성 부족 을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action#Motion Representation#Temporal Reasoning#Long-Horizon Manipulation#Hindsight#Foresight#Robotics2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules본 논문은 확산 언어 모델(dLLM)이 오토회귀 모델에 비해 가지는 잠재력에도 불구하고, 느리고 반복적인 샘플링 과정으로 인해 실용성이 저해되는 문제를 해결하고자 합니다.#Review#Diffusion Language Models#Decoding Efficiency#Early Exit#Confidence Schedules#Training-free#Model-agnostic#Progress-aware2025년 12월 10일댓글 수 로딩 중
[논문리뷰] EtCon: Edit-then-Consolidate for Reliable Knowledge Editing본 논문은 대규모 언어 모델(LLM)의 지식 편집 방법론이 제어된 환경에서는 높은 성능을 보이나, 실제 자율 회귀 생성 및 평생 학습 시나리오에서는 치명적인 실패를 겪는 문제를 해결하고자 합니다.#Review#Knowledge Editing#Large Language Models#Lifelong Learning#Reinforcement Learning#Trust Region Policy Optimization#Chain-of-Thought#Catastrophic Forgetting2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Composing Concepts from Images and Videos via Concept-prompt Binding본 논문은 복잡한 시각적 개념(예: 스타일, 모션)을 이미지 및 비디오 입력에서 정확하게 추출하고, 이를 유연하게 조합하여 일관된 시각적 출력을 생성하는 문제를 해결하고자 합니다.#Review#Visual Concept Composition#Diffusion Models#Text-to-Video Generation#Concept Binding#Hierarchical Binder#Diversify-and-Absorb Mechanism#Temporal Disentanglement#One-shot Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain본 논문은 인간 뇌에서 시각적 개념 표현을 대규모로 발견하고 해석하는 자동화된 프레임워크인 BrainExplore 를 제안합니다. 기존 fMRI 연구의 소규모, 수동 분석 및 특정 영역 의존성의 한계를 극복하고, 방대한 시각적 개념 공간에서 정교하고 해석 가능한 뇌 활동 패턴 을 자동으로 식별하는 것을 목표로 합니다.#Review#fMRI#Brain Mapping#Visual Representation#Interpretability#Sparse Autoencoders#Vision-Language Models#Unsupervised Learning#Neuroscience2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS경량화된 실시간 TTS 시스템에서 문맥 인지 phonemization의 품질과 추론 속도 간의 근본적인 트레이드오프를 해결하는 것이 목표입니다.#Review#TTS#Phonemization#G2P#Low Latency#Real-time#Service-Oriented Architecture#Context-Aware#Persian Language2025년 12월 10일댓글 수 로딩 중
[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.#Ray#Python#LLM#Batch Inference#Error Handling2025년 12월 10일댓글 수 로딩 중
[Triton] preload에 optional device 인자 추가JIT 함수의 preload 메서드에 device 인자를 추가하여 특정 디바이스에서 커널을 사전 로드할 수 있도록 개선#Triton#JIT#Frontend#Python2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance기존 모션 제어 비디오 생성 모델의 낮은 제어 정밀도, 제한된 확장성 및 비실용적인 출력 품질 문제를 해결하고자 합니다.#Review#Video Generation#Motion Control#Latent Trajectory Guidance#Image-to-Video#Diffusion Models#Neural Networks#MoveBench2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform본 논문은 기존 3D Gaussian Splatting(3DGS) 뷰어의 한계인 파편화, 무거움, 레거시 파이프라인 제약으로 인한 높은 배포 마찰과 동적 콘텐츠 및 생성 모델 지원 부족 문제를 해결하고자 합니다.#Review#Neural Rendering#3D Gaussian Splatting#WebGPU#ONNX Inference#World Models#Real-time Rendering#Browser-based#Dynamic Scenes2025년 12월 9일댓글 수 로딩 중
[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models본 논문은 시각적 생성 모델의 RL 후학습(post-training) 시 발생하는 막대한 계산 비용 문제를 해결하고, 기존 방법론들의 낮은 샘플 효율성 과 투박한 신용 할당 한계를 극복하여 인간의 선호도에 더 잘 부합하는 모델을 효율적으로 정렬하는 것을 목표로 합니다.#Review#Reinforcement Learning#Diffusion Models#Generative Models#Tree Search#Sample Efficiency#Credit Assignment#GRPO#Visual Generative Models2025년 12월 9일댓글 수 로딩 중
[논문리뷰] TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels기존 단안 3D 트래킹 방법론의 한계인 카메라 움직임과 전경 동적 객체 움직임의 분리 미흡 및 새롭게 출현하는 동적 객체의 밀집 트래킹 불가 문제를 해결하는 것입니다.#Review#Monocular 3D Tracking#World-centric Coordinates#Dense Tracking#Camera Pose Estimation#Dynamic Object Tracking#Optimization#2D Track Upsampling2025년 12월 9일댓글 수 로딩 중
[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.#Review#LLM#Parallel Reasoning#Inference Latency#Chain-of-Thought#Reinforcement Learning#Adaptive Threading#Mathematical Reasoning#Speedup2025년 12월 9일댓글 수 로딩 중