[논문리뷰] Architecture Decoupling Is Not All You Need For Unified Multimodal Model본 논문은 통합 멀티모달 모델(UMM)에서 시각 생성 및 이해 태스크 간의 내재된 충돌을 완화하면서도 모델 아키텍처 디커플링에 과도하게 의존하지 않고 성능을 향상시키는 것을 목표로 합니다. 과도한 디커플링이 통합 모델의 상호작용적 추론 능력과 지식 전이 능력을 저해하는 문제를 해결하고자 합니다.#Review#Unified Multimodal Models#Architecture Decoupling#Cross-Modal Attention#Attention Interaction Alignment (AIA) Loss#Task Conflicts#Image Generation#Image Understanding2025년 11월 30일댓글 수 로딩 중
[논문리뷰] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement본 논문은 다양한 다중 인물 데이터 수집의 높은 비용과 여러 인물을 일관된 상호작용으로 구동하기 어려운 문제를 해결하고자 합니다. 특히, 적은 양의 다중 인물 데이터로도 자연스러운 제스처, 생생한 감정, 상호작용이 풍부한 다중 인물 대화 영상을 확장 가능하게 생성하는 것을 목표로 합니다.#Review#Multi-Person Video Generation#Audio-Driven Animation#Diffusion Models#Interactivity Refinement#Identity-Aware Attention#Scalability#Data Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Adversarial Flow Models본 논문은 기존 GANs (Generative Adversarial Networks) 의 훈련 불안정성과 Flow Matching 모델의 저해상도 이산화 오류 및 반복적인 추론 비용 문제를 해결하고자 합니다.#Review#Generative Models#Adversarial Flow Models#GANs#Flow Matching#Optimal Transport#Single-step Generation#Image Generation#Transformer Architecture2025년 11월 30일댓글 수 로딩 중
[pytest] async fixture를 플러그인 없이 요청 시 hard error로 전환pytest 9에서 async fixture를 처리할 플러그인 없이 요청하면 경고 대신 즉시 에러를 발생시키도록 변경#Python#pytest#async#Breaking Change#Fixtures2025년 11월 30일댓글 수 로딩 중
[vllm] W4A8 Marlin 커널 - 4비트 가중치 + 8비트 활성화 양자화Marlin 커널에 W4A8 지원을 추가하여 4비트 가중치와 8비트 활성화의 혼합 정밀도 추론 가능#vllm#Performance2025년 11월 29일댓글 수 로딩 중
[GPT-SoVITS] batch_size 변수의 부동소수점 타입 오류 수정GPU 메모리 기반 자동 배치 크기 계산에서 정수 나눗셈 결과가 float로 반환되어 PyTorch DataLoader가 실패하던 버그 수정 분석.#GPT-SoVITS#Python#Bug Fix#PyTorch#Training2025년 11월 28일댓글 수 로딩 중
[Feast] 시간 윈도우 집계를 위한 타일링(Tiling) 지원 구현Intermediate Representation 기반 타일링으로 스트리밍 시간 윈도우 집계 성능을 대폭 개선한다#Feast#Feature Store#Tiling#Streaming Aggregation2025년 11월 28일댓글 수 로딩 중
[논문리뷰] What does it mean to understand language?본 논문은 인간의 심층적인 언어 이해 가 뇌의 핵심 언어 시스템 내에서만 이루어지는 것이 아니라, 해당 시스템에서 얻은 정보가 다른 전문화된 뇌 영역으로 내보내져(exportation) 처리 되어야 한다는 가설을 제안합니다.#Review#Language Understanding#Cognitive Neuroscience#Situation Models#World Knowledge#Embodiment#fMRI#Large Language Models#Brain Networks2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Video Generation Models Are Good Latent Reward Models비디오 생성 모델을 인간의 선호도에 맞춰 정렬하는 Reward Feedback Learning (ReFL) 의 기존 한계, 즉 높은 메모리 사용량, 긴 훈련 시간, 초기 생성 단계 감독 부족 문제를 해결하는 것이 목표입니다.#Review#Video Generation#Reward Feedback Learning#Latent Space#Diffusion Models#Human Preferences#Motion Quality#Process-aware2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following본 연구는 기존 멀티모달 평가 벤치마크들이 단일, 총체적 선호도 에만 초점을 맞춰, 미세한 기준별 판단 과 기준 간의 충돌 을 간과하는 한계를 해결하고자 합니다.#Review#Multimodal Judges#LMM Evaluation#Pluralistic Criteria#Criteria-Following#Trade-off Sensitivity#Conflict Resolution#Reward Models#Benchmark2025년 11월 27일댓글 수 로딩 중
[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image Editing이 논문은 확산 기반 이미지 편집 모델이 복잡한 사용자 지침(구성 관계, 맥락적 단서, 참조 표현 등)을 정확하게 해석하지 못하여 발생하는 의미론적 드리프트 및 편집 실패 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Multimodal AI#Iterative Reasoning#Agentic AI#Reinforcement Learning#Diffusion Models#Vision-Language Models#Instruction Following2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Canvas-to-Image: Compositional Image Generation with Multimodal Controls본 연구는 최신 확산 모델이 텍스트 프롬프트, 객체 참조, 공간 배치, 포즈 제약, 레이아웃 주석 등 다양한 유형의 제어 신호를 동시에 처리할 때 발생하는 제한적인 합성 능력과 낮은 충실도 문제를 해결하는 것을 목표로 합니다.#Review#Image Generation#Diffusion Models#Compositional Control#Multimodal Control#Unified Canvas#Multi-Task Learning#Personalization2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Agentic Learner with Grow-and-Refine Multimodal Semantic Memory현재 MLLM(Multimodal Large Language Models) 이 각 문제를 de novo 방식으로 해결하며 시각적 주의 집중 및 논리적 추론 오류를 반복하는 한계를 극복하는 것이 목표입니다.#Review#Multimodal LLMs#Semantic Memory#Agentic Learning#Error Attribution#Visual Reasoning#Long-term Memory#Grow-and-Refine#Multimodal Reasoning2025년 11월 27일댓글 수 로딩 중
[Loki] 페이지 빌더 메모리 사전 할당 제거로 희소 컬럼 메모리 효율 개선Grafana Loki의 dataobj 페이지 빌더에서 최대 페이지 크기만큼 메모리를 사전 할당하던 것을, Go의 자연스러운 슬라이스 성장에 맡겨 희소 컬럼의 메모리 오버헤드를 줄인 최적화를 분석합니다.#Grafana Loki#Go#Memory#Performance#Data Object2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Terminal Velocity Matching논문은 고품질 샘플을 빠르고 효율적으로 생성하며, 고차원 데이터에 확장 가능한 생성 모델을 단일 훈련 단계로 구축하는 것을 목표로 합니다.#Review#Generative Models#Flow Matching#Diffusion Models#One-Step Generation#Few-Step Generation#Wasserstein Distance#Transformer Architecture#Lipschitz Continuity2025년 11월 26일댓글 수 로딩 중
[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and Reasoning본 논문은 기존 벤치마크들이 시각적 인식보다 추론을 강조하거나 대칭, 정신적 회전 등 핵심 인지 원시 요소들을 체계적으로 평가하지 못하는 한계를 지적합니다.#Review#Visual Reasoning#Synthetic Environment#LVLM Evaluation#Reinforcement Learning#Cognitive Primitives#Procedural Generation#Multimodal AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM Generalization#Task Difficulty#Item Response Theory#Cross-Difficulty#Data Curation#Model Evaluation#Supervised Fine-Tuning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale본 연구는 도시 규모 3D 세계 생성에서 기존 방법론이 직면한 품질, 충실도 및 확장성 문제를 해결하는 것을 목표로 합니다.#Review#3D World Generation#City-Scale#Multimodal Agents#Reality Alignment#Urban Simulation#Foundation Models#Geospatial Data2025년 11월 26일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.#Review#Latent Visual Reasoning#Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking2025년 11월 26일댓글 수 로딩 중