[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models본 연구는 기존 멀티모달 모델이 2D 이미지에 의존하여 3D 공간 이해 능력이 부족하다는 한계를 해결하는 것을 목표로 합니다.#Review#3D Grounding#Spatial Reasoning#Vision-Language Models#Depth Estimation#3D Object Detection#Chain-of-Thought#Data Generation#Multimodal AI2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.#Review#Reward Models#Multimodal LLMs#Benchmark#Text-to-Image Generation#Image Editing#Interleaved Generation#Multimodal Reasoning#MLLM-as-a-judge2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Kling-Omni Technical Report논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.#Review#Video Generation#Multimodal Visual Language#Generative AI#Video Editing#Reasoning-enhanced Generation#Diffusion Transformer#Multi-modal World Simulators2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language본 논문은 시계열 데이터로부터 통찰력을 추출하는 데 필요한 깊은 도메인 전문성과 시간 소모적인 과정을 해결하고자 합니다.#Review#Time Series Analysis#Multimodal Language Models#Natural Language Generation#Dataset Creation#Instruction Tuning#GPT-4#LLaVA#Cross-Domain Alignment2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs이 논문은 음성 양식이 LLM(Large Language Model) 에 직접 통합될 때 음성-텍스트 번역(ST) 품질이 향상되는지, 아니면 기존의 계단식(cascaded) 또는 직접(direct) 모델 이 여전히 더 효과적인 솔루션인지 평가합니다.#Review#Speech-to-Text Translation#Multimodal LLMs#Speech Foundation Models#Cascaded Systems#Benchmarking#Speech Modality Integration#Robustness#Evaluation Metrics2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Generative Refocusing: Flexible Defocus Control from a Single Image본 논문은 단일 이미지로부터 촬영 후 유연한 초점 및 심도 제어를 가능하게 하는 생성적 리포커싱(Generative Refocusing) 시스템을 개발하는 것을 목표로 합니다.#Review#Generative AI#Image Refocusing#Defocus Deblurring#Bokeh Synthesis#Depth of Field Control#Semi-Supervised Learning#Diffusion Models#Aperture Shape Control2025년 12월 18일댓글 수 로딩 중
[논문리뷰] FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering본 논문은 인터랙티브 애플리케이션을 위한 G-buffer 조건부 신경망 포워드 프레임 렌더링에서 시간적 일관성 을 유지하는 동시에 사실적인 이미지를 프레임별로 자동회귀적으로 생성 하는 문제를 해결하는 것을 목표로 합니다. 기존 단일 이미지 모델의 시간적 불일치 와 비디오 모델의 높은 연산 비용 문제를 극복하고자 합니다.#Review#Neural Rendering#Diffusion Models#G-Buffer#Autoregressive Generation#Temporal Consistency#ControlNet#ControlLoRA#Interactive Applications2025년 12월 18일댓글 수 로딩 중
[논문리뷰] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction본 논문은 확산 모델 기반의 기존 장시간 인물 애니메이션 방법론이 겪는 신원(ID) 불일치 및 높은 추론 지연 시간 문제를 해결하고자 합니다. 특히, ID를 보존 하면서 무한 길이의 비디오 를 생성하고, 추론 속도를 최대 6배까지 가속 하는 것을 목표로 합니다.#Review#Portrait Animation#Diffusion Models#Inference Acceleration#Identity Preservation#Video Generation#Latent Prediction#Sliding Window2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious RewardRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Clipping#Policy Entropy#Spurious Rewards#Mathematical Reasoning#RLVR2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Model Auditing#Capability Gaps#Failure Mode Discovery#Reinforcement Learning#Data Rectification#Counterfactual Generation#VQA2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation본 연구는 파노라마 깊이 추정의 핵심 과제인 다양한 장면과 거리에서의 일반화 및 측정 일관성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Panoramic Depth Estimation#Foundation Model#Semi-Supervised Learning#Pseudo-Labeling#Data-in-the-Loop#DINOv3#Metric Depth#360-degree Vision2025년 12월 18일댓글 수 로딩 중
[논문리뷰] DeContext as Defense: Safe Image Editing in Diffusion Transformers본 논문은 대규모 Diffusion Transformer(DiT) 기반 이미지 편집 모델 의 심각한 프라이버시 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Image Editing#Privacy Protection#Adversarial Attack#Attention Mechanism#Identity Preservation#Deepfake Defense#In-context Learning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data SelectionText-to-Image(T2I) 생성 모델(예: Imagen, Stable Diffusion, FLUX)의 훈련 효율성을 개선하고 시각적 품질 저하, 불안정한 훈련 및 비효율적인 연산을 야기하는 저품질/과잉 데이터 문제를 해결하는 것입니다.#Review#Text-to-Image#Data Selection#Meta-Learning#Meta-Gradient#Data Efficiency#Generative Models#Coreset Selection#Data Pruning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Adaptation of Agentic AI본 논문은 급성장하는 에이전트 AI 시스템의 적응(adaptation) 연구 분야를 체계적인 프레임워크로 통합하고, 에이전트 적응과 툴 적응 모두를 포괄하는 통일된 관점을 제공하는 것을 목표로 합니다.#Review#Agentic AI#Adaptation#Agent Adaptation#Tool Adaptation#Reinforcement Learning#Fine-tuning#Modular AI2025년 12월 18일댓글 수 로딩 중
[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Adaptive Tool-Use#Reinforcement Learning#Chain-of-Thought#Vision-Language Models#Visual Reasoning#AT-GRPO2025년 12월 18일댓글 수 로딩 중
[Triton] Gluon 검증 로직을 C++ verifier로 이동 — 차원 축소 로드 지원Python assert 기반 검증을 C++ verifier로 이동하여 dimension-reducing load를 올바르게 지원한다#Triton#Gluon#MLIR#Verifier#Refactoring2025년 12월 18일댓글 수 로딩 중
[Triton] Frontend에서 scaled batched matrix multiply 지원dot_scaled의 shape 검증을 마지막 2차원 기준으로 변경하여 BMM 연산을 올바르게 처리#Triton#Frontend#BMM#MXFP#Bug Fix2025년 12월 18일댓글 수 로딩 중
[Triton] AMD scf.if else 분기 누락 버그 수정 — deduceMinCountBetweeOpsscf.if에 else 영역이 없을 때 async wait count가 잘못 계산되는 버그 수정#Triton#AMD#MLIR#Bug Fix#Compiler2025년 12월 18일댓글 수 로딩 중
[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 18일댓글 수 로딩 중
[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.#Triton#NVIDIA#WGMMA#Pipeline#Optimization2025년 12월 17일댓글 수 로딩 중