[논문리뷰] MAPO: Mixed Advantage Policy Optimization본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.#Review#Reinforcement Learning#Foundation Models#Policy Optimization#Advantage Function#Trajectory Certainty#Multimodal Reasoning#GRPO2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation본 논문의 핵심 목표는 실세계 다중 뷰 데이터 없이 단일 이미지 또는 비디오 입력으로부터 고품질의 3D 및 4D 장면을 생성하는 것입니다.#Review#Generative AI#3D Scene Reconstruction#Video Diffusion Models#Self-Distillation#3D Gaussian Splatting#Dynamic 4D Generation#Monocular Input2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Large Language Models Discriminate Against Speakers of German Dialects본 논문은 대규모 언어 모델(LLMs)이 독일 방언 사용자에 대한 사회적 고정관념을 반영하고 강화하는지 탐구하는 것을 목표로 합니다. 특히, 독일 인구의 40% 이상 이 지역 방언을 사용하는 상황에서, LLM의 편향이 실제 세계에 미칠 수 있는 차별적 영향을 분석하고자 합니다.#Review#Large Language Models#Bias#German Dialects#Sociolinguistics#Stereotypes#Implicit Association Test#Decision Making2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation통합 멀티모달 모델에서 확산 디노이징과 자기회귀 디코딩의 반복적인 프로세스로 발생하는 상당한 계산 오버헤드 를 해결하는 것이 주 목표입니다. Hyper-Bagel 이라는 통합 가속 프레임워크를 제안하여 멀티모달 이해 및 생성 작업을 동시에 가속화하면서 원본 모델의 고품질 출력을 유지하고자 합니다.#Review#Multimodal AI#Acceleration Framework#Speculative Decoding#Diffusion Distillation#Unified Models#Text-to-Image Generation#Image Editing#Computational Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis3D Gaussian Splatting (3DGS) 의 실시간 고품질 렌더링 장점은 유지하면서, 뷰-의존적 효과 및 이방성 모양 모델링으로 인한 막대한 메모리 오버헤드 를 해결하는 것을 목표로 합니다.#Review#Novel View Synthesis#3D Gaussian Splatting (3DGS)#Neural Radiance Fields (NeRF)#Memory Efficiency#High-Quality Rendering#Hybrid Representation#Real-time Rendering2025년 9월 24일댓글 수 로딩 중
[논문리뷰] GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface Reconstruction본 논문은 기존 3D Gaussian Splatting (3DGS) 기반 표면 재구성 방법론의 한계, 즉 초기화 시 점군(point clouds) 에 대한 의존성, 불완전한 커버리지, 모호한 기하학적 표현 등의 문제를 해결하는 것을 목표로 합니다.#Review#Surface Reconstruction#Sparse Voxels#Geometric Accuracy#Neural Radiance Fields#3D Gaussian Splatting#Monocular Depth#Voxel Uncertainty2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Do You Need Proprioceptive States in Visuomotor Policies?본 연구는 로봇의 시각-운동 정책(visuomotor policies)에서 고유 수용성 상태(proprioceptive states)의 필요성을 재평가하고, 기존 상태 기반 정책이 학습 궤적에 과적합되어 공간 일반화 능력이 저해되는 문제를 해결하고자 합니다.#Review#Visuomotor Policies#Spatial Generalization#Imitation Learning#Proprioception#State-free Policies#Robot Manipulation#End-Effector Control#Data Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching조건부 생성 모델에서 속도 네트워크가 데이터 분포의 질량 이동(mass transport) 과 조건 정보 인코딩(conditional injection) 이라는 두 가지 과제를 동시에 처리해야 하는 부담을 완화하는 것이 주요 목표입니다. 이를 통해 모델 학습을 가속화하고 생성 품질을 향상시키고자 합니다.#Review#Flow Matching#Conditional Generative Models#Reparameterization#Mode Collapse#Image Generation#Latent Space Alignment#Diffusion Models2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR본 논문은 필기체 스크립트, 다양한 글꼴, 발음 기호, 우-좌향 텍스트 방향성으로 인해 어려운 아랍어 문서 OCR의 과제를 해결하고자 합니다.#Review#Arabic OCR#Vision-Language Model#Fine-tuning#Document Understanding#Markdown Conversion#Benchmark2025년 9월 24일댓글 수 로딩 중
[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs본 논문은 시각 질문 답변(VQA) 태스크에서 Small Vision-Language Models (S-VLMs) 의 성능을 향상시키는 것을 목표로 합니다.#Review#VQA#Small VLMs#Large VLMs#Knowledge Transfer#Pseudo-labeling#Label-Free Learning#Model Parity Alignment#Computational Efficiency2025년 9월 23일댓글 수 로딩 중
[논문리뷰] VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models본 논문은 조잡한(coarse) 3D 지오메트리, 카메라 궤적, 그리고 참조 이미지를 사용하여 고품질 3D 장면 비디오를 생성하는 문제를 해결하고자 합니다.#Review#3D Scene Generation#Video Diffusion#Image Diffusion#Generative Models#Computer Graphics#Temporal Consistency#Sparse Anchor Views2025년 9월 23일댓글 수 로딩 중
[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Visual Question Answering#Reinforcement Learning#Cultural Heritage#Ancient Greek Pottery#Supervised Fine-Tuning#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Understanding Embedding Scaling in Collaborative Filtering협업 필터링 모델에서 임베딩 차원을 확장할 때 발생하는 성능 변화를 이해하고, 기존에 알려진 '단일 봉우리(single-peak)' 현상을 넘어서는 새로운 스케일링 패턴을 발견하는 것이 목표입니다. 또한, 이러한 현상의 근본적인 원인을 밝히고 특히 데이터 내 노이즈 상호작용 의 역할을 규명하고자 합니다.#Review#Collaborative Filtering#Embedding Scaling#Noise Robustness#Recommender Systems#Graph Neural Networks#Self-supervised Learning#Performance Degradation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications대규모 언어 모델(LLMs)의 환각(hallucination) 문제를 해결하고, 특히 형태학적으로 복잡한 터키어 RAG(Retrieval-Augmented Generation) 애플리케이션 을 위한 효과적인 환각 탐지 모델을 개발하는 것이 목표입니다.#Review#Hallucination Detection#Retrieval Augmented Generation#Large Language Models#Turkish NLP#Token Classification#ModernBERT#Low-Resource Languages2025년 9월 23일댓글 수 로딩 중
[논문리뷰] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs이 논문은 비디오 시간적 접지(temporal grounding) 작업에서 멀티모달 대규모 언어 모델(MLLMs) 의 효율성을 개선하는 것을 목표로 합니다. 기존 강화 학습( RL ) 방법론, 특히 GRPO 가 큰 시간 검색 공간에서 비효율적인 탐색과 불안정한 정책 업데이트를 겪는 문제를 해결하고자 합니다.#Review#Video LLMs#Temporal Grounding#Reinforcement Learning#Off-policy Learning#Reward Shaping#Chain-of-Thought#Multimodal LLMs2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Synthetic bootstrapped pretraining본 논문은 대규모 언어 모델(LM) 사전 훈련 시 고품질 텍스트 데이터 고갈 문제를 해결하고, 표준 사전 훈련에서 간과되는 문서 간 풍부한 상관관계 를 효과적으로 모델링하여 LM 성능을 개선하는 것을 목표로 합니다. 기존 데이터의 활용도를 극대화하여 새로운 데이터 수집 없이 모델의 성능을 향상시키는 방법론을 제안합니다.#Review#Language Model Pretraining#Synthetic Data#Inter-document Correlation#Data Augmentation#Transformer#Bootstrapping#Concept Learning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.#Review#AI Agents#Software Engineering#LLMs#Code Generation#Benchmark#Contamination Resistance#Long-Horizon Tasks#Enterprise Software2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.#Review#Process Reward Models#Monte Carlo Annotation#Noise Denoising#Robust Learning#Self-Supervision#Mathematical Reasoning#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning본 연구는 LLM의 기초적인 기호 추론 능력을 향상시키기 위한 확장 가능한 RLVR (Reinforcement Learning with Verifiable Rewards) 환경인 Reasoning Core 를 소개합니다.#Review#LLM Reasoning#Symbolic AI#Reinforcement Learning#Procedural Content Generation#Verifiable Rewards#Adaptive Curricula#First-Order Logic#PDDL Planning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Qwen3-Omni Technical Report본 논문은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티 전반에 걸쳐 단일 멀티모달 모델(Qwen3-Omni) 이 기존 단일 모달 모델과 비교하여 성능 저하 없이 최첨단 성능을 유지 하는 것을 목표로 합니다. 또한, 교차 모달 추론 능력 과 실시간 시청각 상호작용 을 향상시키는 것을 주된 연구 목적으로 삼습니다.#Review#Multimodal Model#Thinker-Talker Architecture#Mixture-of-Experts#Low-latency#Audio Understanding#Cross-modal Reasoning#State-of-the-Art#Real-time Interaction2025년 9월 23일댓글 수 로딩 중