[pytest] actions/cache v4에서 v5로 업그레이드GitHub Actions 워크플로우에서 actions/cache를 v4에서 v5로 메이저 업그레이드#Python#pytest#CI/CD#GitHub Actions#Dependencies2025년 12월 27일댓글 수 로딩 중
[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지#Triton#AMD#Bug Fix#Atomic Operations#LLVM2025년 12월 27일댓글 수 로딩 중
[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Autoregressive Generation#Pixel-Aware Alignment#Variational Optimization#Reinforcement Learning#Visual Tokenizers#Image Quality#ELBO#Post-Training Framework2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.#Review#Video Generation#Spatial Memory#3D Scene Point Cloud#Spatial Consistency#Camera Control#Interactive Editing#Diffusion Models#Visual SLAM2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Schoenfeld's Anatomy of Mathematical Reasoning by Language Models대규모 언어 모델(LLM)의 추론 과정은 표면적인 통계 외에는 그 인지 구조와 단계를 파악하기 어렵습니다.#Review#LLM Reasoning#Cognitive Science#Schoenfeld's Episode Theory#Mathematical Problem Solving#Reasoning Dynamics#Interpretable AI#Behavioral Analysis2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Latent Implicit Visual Reasoning본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Large Multimodal Models (LMMs)#Visual Reasoning#Latent Tokens#Visual Bottlenecking#Implicit Learning#Task-agnostic#Attention Mechanisms2025년 12월 25일댓글 수 로딩 중
[논문리뷰] How Much 3D Do Video Foundation Models Encode?본 논문은 대규모 비디오 데이터로 사전 훈련된 Video Foundation Models (VidFMs) 내에 글로벌 3D 이해도가 자연스럽게 내재되어 있는지를 정량적으로 탐구하는 것을 목표로 합니다.#Review#Video Foundation Models#3D Understanding#3D Reconstruction#Model Agnostic#Feature Probing#Diffusion Models#Temporal Reasoning2025년 12월 25일댓글 수 로딩 중
[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training멀티턴 강화 학습(RL) 기반 VLM(Vision-Language Model) 에이전트 훈련 의 주요 문제점인 희소한 보상, 긴 신용 할당 문제, 그리고 GTR(Guided Thought Reinforcement) 과 같은 기존 방법론에서 외부 교사 모델 사용으로 인한 높은 비용과 접근성 한계를 해결하는 것을 목표로 합니다.#Review#Multi-turn Reinforcement Learning#Vision-Language Models (VLMs)#Agentic AI#Knowledge Distillation#Model Merging#PPO#Thought Guidance#Cost Efficiency2025년 12월 25일댓글 수 로딩 중
[Triton] LLVM Debug Information에서 커널 인자 누락 수정Triton FuncOp에서 LLVM IR 변환 시 포인터 타입의 pointee 정보가 유실되어 디버그 정보에 커널 인자가 누락되는 버그를 수정#Triton#LLVM#Debug Info#Bug Fix2025년 12월 25일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중
[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.#Review#Tokenizer#Language Models (LMs)#Robustness#Multilingual NLP#Benchmark#Subword Segmentation#Pre-training#Tokenization Impact2025년 12월 24일댓글 수 로딩 중
[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Text-to-Audio-Video Generation#Multimodal Evaluation#Benchmark#MLLM-as-a-Judge#Cross-modal Alignment#Instruction Following#Perceptual Realism#Audio Realism2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Streaming Video Instruction Tuning이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Large Language Models (LLMs)#Instruction Tuning#Multi-task Learning#Real-time AI Assistant#Temporal Reasoning#Focal Loss#Video Question Answering2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios이 논문은 기존 AI 코딩 에이전트 벤치마크(예: SWE-Bench )가 단일 이슈 해결 에 초점을 맞춰 실제 소프트웨어 진화의 복잡성을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Coding Agents#Software Evolution#Benchmarking#Long-Horizon Tasks#Large Language Models (LLMs)#Software Engineering#Code Generation2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Mamba-Transformer#Agentic Reasoning#Long Context LLM#FP8 Quantization#Supervised Fine-Tuning#Reinforcement Learning2025년 12월 24일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron 3: Efficient and Open IntelligenceNemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.#Review#Hybrid Mamba-Transformer#Mixture-of-Experts#LatentMoE#NVFP4 Training#Multi-Token Prediction#Long Context#Reinforcement Learning#Open Models2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning#Reinforcement Learning (RL)#Knowledge Alignment#Iterative RAG#Entropy Analysis#Plan Failure2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models본 논문은 Vision-Language Models (VLMs)이 동적 공간 추론(DSR)에 취약하다는 문제점을 해결하고자 합니다. 특히, 3D 공간에서 시간의 흐름에 따른 객체 기하학 및 관계의 변화를 이해하는 능력을 향상시키기 위해 확장 가능한 4D 인식 훈련 리소스의 부족을 해소하는 것을 목표로 합니다.#Review#Dynamic Spatial Reasoning#Vision-Language Models#4D Understanding#Automated Data Generation#Geometry Selection Module#Video Analysis#Multimodal AI2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations기존 시각 생성 사전 훈련 방법론이 비디오의 핵심적인 시간 정보를 간과하거나, 자기회귀 방식이 의미론적 부정확성 및 낮은 생성 품질을 겪는 문제를 해결합니다.#Review#Autoregressive Model#Video Modeling#Generative Pretraining#Representation Learning#Flow-Matching Decoder#Context Isolation#Masked Next-Frame Prediction2025년 12월 24일댓글 수 로딩 중
[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics논문은 LLM 평가가 파편화된 태스크별 지표에 의존하고 있음을 지적하며, 이는 다양한 벤치마크 간의 적절한 가중치 혼합을 결정하는 데 실패하고 모델의 동적인 경쟁 적합성이나 순차적 태스크에서의 취약성을 포착하지 못한다고 주장합니다.#Review#LLM Evaluation#Competitive Ranking#Swiss-System#Monte Carlo Simulation#Failure Sensitivity Analysis#Robustness#Multi-Benchmark2025년 12월 24일댓글 수 로딩 중