최신 포스트

[논문리뷰] Valori: A Deterministic Memory Substrate for AI Systems

현대 AI 시스템, 특히 RAG(Retrieval Augmented Generation) 및 에이전트 워크플로우에서 부동 소수점(floating-point) 연산 으로 인해 발생하는 비결정론적(non-determinism) 메모리 상태 문제를 해결하는 것이 목표입니다.

#Review #Deterministic AI #Reproducible Computation #Fixed-Point Arithmetic #Vector Databases #AI Memory #State Machine #Auditability

2025년 12월 31일

[논문리뷰] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

본 연구는 단일 모노큘러 비디오 로부터 동적 장면을 공간(카메라 시점)과 시간(모션 시퀀스)에 걸쳐 독립적으로 제어하며 생성적으로 렌더링하는 것을 목표로 합니다.

#Review #Video Diffusion Model #Generative Rendering #Novel View Synthesis #Space-Time Disentanglement #Temporal Control #Camera Control #Dynamic Scenes #Temporal Warping

2025년 12월 31일

[논문리뷰] Scaling Open-Ended Reasoning to Predict the Future

본 연구는 불확실한 미래에 대한 개방형 예측 질문에 대해 언어 모델(LLM)이 정확하고 신뢰할 수 있는 예측을 할 수 있도록 훈련하는 것을 목표로 합니다.

#Review #Language Models #Forecasting #Open-Ended Reasoning #Reinforcement Learning (RL)#Data Generation #Calibration #Retrieval-Augmented Generation (RAG)#Future Prediction

2025년 12월 31일

[논문리뷰] Pretraining Frame Preservation in Autoregressive Video Memory Compression

본 논문은 오토회귀 비디오 생성 모델에서 발생하는 긴 비디오 컨텍스트 처리의 한계 와 컨텍스트 품질 및 길이 간의 트레이드오프 문제를 해결하고자 합니다.

#Review #Video Compression #Autoregressive Models #Memory Compression #Frame Preservation #Pretraining #Video Generation #Diffusion Models #Long-Range Consistency

2025년 12월 31일

[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Text-to-Video Generation #Physics-Aware AI #Direct Preference Optimization #Groupwise Preference Learning #Vision-Language Model #LoRA

2025년 12월 31일

[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.

#Review #Agentic Learning Ecosystem #Large Language Models #Reinforcement Learning #Agentic Crafting #Tool Use #ROME Model #Policy Optimization #Sandbox Environment

2025년 12월 31일

[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Sounding Video #Video Comprehension #Video Generation #Audio-Video Synchronization #Instruction Tuning #Diffusion Model #Encoder-Decoder

2025년 12월 31일

[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of Itself

확산 트랜스포머(Diffusion Transformer) 모델이 저확률 데이터 영역에서 고품질 이미지를 생성하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Transformer #Generative AI #Image Generation #Guidance Strategy #Internal Guidance #Auxiliary Loss #Classifier-Free Guidance

2025년 12월 31일

[논문리뷰] Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers

호흡음 분류를 위한 ICBHI 2017 과 같은 소규모, 고노이즈, 클래스 불균형 데이터셋에서 Transformer 기반 모델의 과적합 및 일반화 문제 를 해결하고, 특히 민감도(Sensitivity) 를 향상시키는 것을 목표로 합니다.

#Review #Respiratory Sound Classification #Audio Spectrogram Transformer #Sharpness-Aware Minimization #Loss Landscape #Imbalanced Learning #Transfer Learning #ICBHI 2017

2025년 12월 31일

[논문리뷰] GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction

본 논문은 제한된 입력 뷰(sparse-view) 환경에서 발생하는 3D 재구성의 고질적인 문제(구멍, 고스팅, 기하학적 불일치)를 해결하고자 합니다.

#Review #3D Reconstruction #Sparse-View #Diffusion Models #Outpainting #Gaussian Splatting #Geometry-aware #Novel View Synthesis

2025년 12월 31일

[논문리뷰] GR-Dexter Technical Report

본 논문은 고자유도(high-DoF) 양손 덱스터러스 핸드 로봇에서 Vision-Language-Action (VLA) 모델 기반의 일반화된 로봇 조작 정책을 확장하는 과제를 해결합니다.

#Review #Dexterous Manipulation #Bimanual Robotics #VLA Models #Robot Learning #Teleoperation #Cross-Embodiment Data #Robotic Hand Design

2025년 12월 31일

[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.

#Review #Multi-modal Pre-training #Autonomous Systems #Spatial Intelligence #Foundation Models #LiDAR-Camera Fusion #Self-Supervised Learning #Generative World Models #Embodied AI

2025년 12월 31일

[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Visual Thinking #Reinforcement Learning #Code Generation #Geometric Reasoning #Adaptive Reward Mechanism #Problem Solving

2025년 12월 31일

[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

대규모 언어 모델(LLM)의 복잡한 추론 과정 중 내부 메커니즘을 심층적으로 이해하고 조작하는 것을 목표로 합니다. 특히, 사람의 개입 없이 추론 행동을 표현하는 벡터 를 비지도 방식으로 발견 하여 기존의 제한적인 인간 정의 개념(예: 과도한 생각, 회고)을 넘어선 추론 행동을 식별하고 제어하고자 합니다.

#Review #LLM Reasoning #Mechanistic Interpretability #Sparse Autoencoders (SAEs)#Activation Steering #Unsupervised Learning #Reasoning Behaviors #Chain-of-Thought #Feature Disentanglement

2025년 12월 31일

[논문리뷰] Factorized Learning for Temporally Grounded Video-Language Models

기존 비디오-언어 모델(VLLMs)이 이벤트 수준의 정확한 temporal grounding 과 텍스트 응답 생성에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Video-Language Models #Temporal Grounding #Factorized Learning #Preference Optimization #Evidence Referencing #Video Understanding #Dense Captioning

2025년 12월 31일

[논문리뷰] BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts

전략적 대화에서 에이전트가 정확하게 추정된 신념을 발화 생성에 효과적으로 활용하는 메커니즘이 부족하다는 문제를 해결하고자 합니다. 복잡한 신념 상태에서 기존 방식이 비최적적인 의사소통으로 이어지는 한계를 극복하고, 신념 추정을 기반으로 신뢰성 높은 전략적 대화를 수행하는 것을 목표로 합니다.

#Review #Strategic Dialogue #Belief Estimation #Dialogue Acts #Probabilistic Constraints #Theory of Mind #Adversarial Dialogue #Alignment Dialogue

2025년 12월 31일

[논문리뷰] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

이 논문은 AI 에이전트, 특히 LLM 기반 에이전트의 효율적인 메모리 시스템 설계를 위해 인지 신경과학의 통찰력을 통합하는 것을 목표로 합니다.

#Review #Autonomous Agents #Memory Systems #Cognitive Neuroscience #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Memory Management #Multimodal Memory #Agent Skills

2025년 12월 31일

[Ray Data] AutoscalingCoordinator에서 여러 데이터셋 실행 시 리소스 이중 할당 방지

request_remaining=True인 요청자가 여러 개일 때 잔여 리소스를 모두에게 중복 할당하던 문제를 균등 분배로 수정한 분석.

#Ray #Python #Bug Fix #Autoscaling #Resource Management

2025년 12월 31일

[Triton] AMD TDM L2 Prefetch 백엔드 지원 추가

AMD GPU의 TDM L2 프리페치 하드웨어 기능에 대한 MLIR op 정의와 LLVM lowering을 구현한다

#Triton #AMD #L2 Cache #Prefetch #MLIR #LLVM Lowering

2025년 12월 31일

[논문리뷰] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

본 논문은 3D 콘텐츠 생성에서 데이터 품질, 기하학적 확장성, 미세 디테일 합성이라는 주요 과제를 해결하기 위해, 고품질의 3D 형상을 효율적으로 생성하는 확장 가능한(scalable) 3D 확산 프레임워크인 UltraShape 1.0 을 제안합니다.

#Review #3D Shape Generation #Diffusion Models #Geometric Refinement #Data Curation #Watertight Mesh #Voxel-based #Scalability #High-Fidelity

2025년 12월 30일