Review

[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language-Action Models #Discrete Diffusion #Reflection Mechanism #Trajectory Generation #Safety Constraints #Imitation Learning

2025년 9월 26일

[논문리뷰] CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling

본 연구는 기존 사실적인 헤어 모델링 기법으로는 다루기 어려운, 고도로 양식화된 3D 애니메이션 헤어스타일 의 효율적인 모델링 및 생성 문제를 해결하고자 합니다.

#Review #3D Anime Hairstyle #Autoregressive Modeling #Control Points #Parametric Representation #Transformer #Generative AI #Dataset (AnimeHair)#Computer Graphics

2025년 9월 26일

[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #PPO #Entropy Control #Gradient Clipping #Exploration-Exploitation

2025년 9월 26일

[논문리뷰] Blueprints of Trust: AI System Cards for End to End Transparency and Governance

본 논문은 AI 시스템의 개발 및 배포 과정에서 투명성과 책임성을 강화하기 위한 새로운 프레임워크인 Hazard-Aware System Card (HASC) 를 소개합니다.

#Review #AI Governance #Transparency #AI System Card #Hazard-Aware System Card #Data Provenance #AI Safety #AI Risk Management #ISO/IEC 42001

2025년 9월 26일

[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?

본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.

#Review #Transformer Decoder #Causal Mask #Positional Encoding #RoPE #Attention Mechanism #Length Generalization #Large Language Models

2025년 9월 26일

[논문리뷰] BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

본 논문은 검색 증강 대규모 언어 모델(LLMs)의 개인화 능력 평가에 대한 체계적인 벤치마크 부재 문제를 해결하고자 합니다. 사용자의 다양한 정보 요구와 선호하는 전달 방식을 LLM이 얼마나 효과적으로 반영하는지 진단하고 평가하기 위한 사실적이고 진단적인 벤치마크 인 BESPOKE 를 제안하는 것을 목표로 합니다.

#Review #Search-Augmented LLMs #Personalization #Benchmark #Diagnostic Feedback #User History #Evaluation Framework #RAG

2025년 9월 26일

[논문리뷰] AutoIntent: AutoML for Text Classification

본 논문은 기존 AutoML 프레임워크가 임베딩 모델 선택, 다중 레이블 분류, OOS(Out-of-Scope) 감지, 퓨샷(Few-shot) 학습 과 같은 NLP 특정 과제를 포괄적으로 지원하지 못하는 한계를 해결하고자 합니다.

#Review #AutoML #Text Classification #Intent Classification #Transformer Embeddings #Out-of-Scope Detection #Multi-label Classification #Few-shot Learning #Sklearn-like Interface

2025년 9월 26일

[논문리뷰] Video models are zero-shot learners and reasoners

본 논문은 비디오 모델이 대규모 언어 모델(LLM)이 언어 이해 분야에서 이룬 것과 같이, 일반적인 목적의 비전 파운데이션 모델이 될 수 있다는 가설을 제시합니다.

#Review #Video Models #Zero-shot Learning #Visual Reasoning #Foundation Models #Generative AI #Perception #Manipulation #Modeling

2025년 9월 25일

[논문리뷰] SIM-CoT: Supervised Implicit Chain-of-Thought

Implicit Chain-of-Thought (CoT) 모델은 토큰 효율성에도 불구하고, 명시적 CoT 대비 지속적인 성능 격차와 핵심적인 '잠재 불안정성(latent instability)' 문제에 직면해 있습니다.

#Review #Implicit Reasoning #Chain-of-Thought #LLM #Latent Space #Supervised Learning #Model Stability #Interpretability

2025년 9월 25일

[논문리뷰] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

기존 비디오 생성 모델들이 겪는 물리적 현실성 부족과 3D 제어의 한계를 극복하는 것을 목표로 합니다. 논문은 물리적 매개변수와 외부 힘을 명시적으로 제어하여 물리 기반(physics-grounded) 이미지-투-비디오 생성 을 가능하게 하는 PhysCtrl 프레임워크를 제안합니다.

#Review #Video Generation #Physics-Grounded #Controllable Generation #Diffusion Models #Point Cloud Trajectories #Material Simulation #Generative Physics

2025년 9월 25일

[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.

#Review #Agentic Coding #AI Agents #Large Language Models #GitHub Pull Requests #Software Engineering #Empirical Study #Code Generation #Software Development

2025년 9월 25일

[논문리뷰] Logics-Parsing Technical Report

본 논문은 기존 LVLM이 복잡한 문서 레이아웃 및 읽기 순서 처리에서 겪는 한계를 극복하고, 이를 위해 강화 학습(Reinforcement Learning) 을 통해 고도화된 종단 간 LVLM 기반 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis #Reading Order #Supervised Fine-Tuning (SFT)#HTML Annotation #Benchmarking

2025년 9월 25일

[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

본 논문은 기존 멀티모달 Masked Diffusion Model (MDM)의 한계를 극복하고, 이미지 이해, 객체 접지, 이미지 편집, 고해상도(1024px) 텍스트-투-이미지 생성 등 광범위한 멀티모달 태스크를 단일 프레임워크 내에서 처리할 수 있는 통합 MDM 인 Lavida-O를 제안하는 것을 목표로 합니다.

#Review #Multimodal AI #Masked Diffusion Models #Image Understanding #Image Generation #Image Editing #Object Grounding #ElasticMoT #Self-reflection

2025년 9월 25일

[논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines

이 논문은 최첨단 거대 언어 모델(LLM) 과 이들이 다양한 학문 분야(인문학, 법률, 경제, 경영, 과학, 공학)에 통합되는 현황을 종합적으로 검토하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Academic Disciplines #LLM Applications #Review #Cross-disciplinary Research #Benchmarks

2025년 9월 25일

[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations

이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.

#Review #Text Embeddings #Lightweight Models #Encoder-Decoder #Knowledge Distillation #Model Souping #Quantization #Multilingual #Gemma

2025년 9월 25일

[논문리뷰] EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

이 논문은 이미지 및 비디오 생성과 편집 작업이 아키텍처적 한계와 데이터 부족으로 인해 파편화되어 있다는 문제를 해결하고자 합니다. 단일 모델 내에서 이미지 및 비디오 편집과 생성을 통합하는 EditVerse 프레임워크를 제안하여, 인컨텍스트 학습 을 통해 다양한 모달리티를 유연하게 처리하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #In-Context Learning #Image and Video Editing #Video Generation #Full Self-Attention #Rotary Positional Embedding #Cross-Modal Knowledge Transfer

2025년 9월 25일

[논문리뷰] Advancing Speech Understanding in Speech-Aware Language Models with GRPO

본 논문은 GRPO (Group Relative Policy Optimization) 기반의 방법을 도입하여 Speech-Aware Large Language Models (SALLMs) 의 개방형 음성 이해 능력 을 향상시키는 것을 목표로 합니다.

#Review #Speech-Aware Language Models #SALLMs #GRPO #Reinforcement Learning #Speech Understanding #Spoken Question Answering #Automatic Speech Translation #BLEU Metric

2025년 9월 25일

[논문리뷰] Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

본 논문은 RGB 전용 이미지로 훈련된 범용 대규모 멀티모달 모델(LMM) 이 원격 감지 분야에서 널리 사용되는 다중 스펙트럼(multi-spectral) 입력 을 추가 훈련 없이 Zero-Shot 방식으로 이해하고 활용 할 수 있도록 하는 새로운 접근 방식을 제안합니다.

#Review #Remote Sensing #Zero-Shot Learning #Multimodal Models #Multi-spectral Imagery #Gemini 2.5 #Prompt Engineering #Land Cover Classification #Pseudo-Image

2025년 9월 24일

[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

본 논문은 대규모 추론 모델(LRMs)에서 효과적인 CoT(Chain-of-Thought) 추론의 특성을 규명하는 것을 목표로 합니다. 특히, 기존의 '길수록 좋다'는 CoT 길이 및 검토(review) 증가 경향에 의문을 제기하고, 추론 과정의 어휘적, 구조적 특성이 정확도에 미치는 영향을 체계적으로 분석하고자 합니다.

#Review #Chain-of-Thought #Reasoning Effectiveness #Large Reasoning Models #Failed-Step Fraction #Test-time Scaling #Reasoning Graph #Model Evaluation

2025년 9월 24일

[논문리뷰] VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

기존 Feed-Forward 3D Gaussian Splatting (3DGS) 방식의 문제점인 픽셀 정렬(pixel alignment) 의존성, 뷰 편향된 밀도 분포, 그리고 정렬 오류를 해결하는 것을 목표로 합니다. 특히 입력 뷰 수에 대한 의존성과 저텍스처 또는 폐색 영역에서의 한계를 극복하고자 합니다.

#Review #3D Gaussian Splatting #Novel View Synthesis #Voxel-Aligned Prediction #Feed-Forward Reconstruction #Multi-View Consistency #Scene Representation #Computer Vision

2025년 9월 24일