Review

[논문리뷰] Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

본 논문은 지능형 조립 어시스턴트가 2D 다이어그램과 실제 카메라 영상을 정렬하는 과정에서 겪는 Depiction Gap 문제를 해결하기 위해 수행되었습니다.

#Review #Vision-Language Models #Cross-depiction Alignment #Assembly Guidance #Diagram-to-video Matching #Mechanistic Analysis

2026년 4월 1일

[논문리뷰] AI Generalisation Gap In Comorbid Sleep Disorder Staging

본 연구에서는 SE-ResNet 블록과 Bi-LSTM 레이어를 결합하여 시계열 EEG 데이터의 특징을 추출하고 시간적 의존성을 모델링하는 프레임워크를 제안합니다. 저자들은 새로 구축한 iSLEEPS 데이터셋을 활용하여 기존의 헬스케어 기반 모델들과 성능을 비교하였습니다.

#Review #Sleep Staging #Ischemic Stroke #Explainable AI #Grad-CAM #Deep Learning #Clinical Generalization #iSLEEPS

2026년 4월 1일

[논문리뷰] A Survey of On-Policy Distillation for Large Language Models

본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Knowledge Distillation #Exposure Bias #f-Divergence #Sequence-Level Learning #Reinforcement Learning

2026년 4월 1일

[논문리뷰] daVinci-LLM:Towards the Science of Pretraining

현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.

#Review #Pretraining #Data Darwinism #LLM #Transparency #Data Processing #Scaling Laws #Reasoning

2026년 3월 31일

[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.

#Review #VectorGym #SVG Generation #Multi-task Learning #Reinforcement Learning #VLM-as-a-Judge

2026년 3월 31일

[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

대규모 비디오 Diffusion 모델은 뛰어난 시각적 품질을 보여주지만, 카메라 궤적의 불안정성이나 기하학적 표류(Geometric Drift)와 같은 3D/4D 일관성 문제에 취약합니다 .

#Review #Video Diffusion Models #Geometric Consistency #Reinforcement Learning #Latent Geometry Model #4D Reconstruction #Group Relative Policy Optimization

2026년 3월 31일

[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

기존의 Text-to-Image(T2I) 모델들은 고품질 이미지 생성 능력은 탁월하지만, 학습 데이터에 포함되지 않은 long-tail 개념이나 특정 인물, 문화적 상징 등 외부 세계 지식이 요구되는 상황에서 identity drift나 환각(hallucination) 문제를 겪습니다.

#Review #Multimodal Agent #World-Grounded Image Synthesis #FactIP #Agentic Pipeline #Unified Multimodal Model #Evidence-Grounded Recaptioning

2026년 3월 31일

[논문리뷰] Think Anywhere in Code Generation

기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.

#Review #Code Generation #Large Language Models #Reasoning #Reinforcement Learning #On-demand Reasoning #Adaptive Computation

2026년 3월 31일

[논문리뷰] SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Vision-language models (VLMs)를 3D Question Answering (3D QA)에 적용할 때, 다중 뷰 이미지에서 발생하는 극심한 시각적 중복(token redundancy) 문제가 주요 장애물로 작용합니다.

#Review #3D Question Answering #Vision-Language Models #Visual Token Pruning #Semantic-Awareness #Geometry-Guided

2026년 3월 31일

[논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

기존의 3D Human Mesh Recovery 모델 학습을 위한 데이터셋은 크게 수동으로 어노테이션된 실제 데이터와 3D 엔진으로 렌더링된 합성 데이터로 나뉩니다.

#Review #Diffusion Models #Human Mesh Recovery #Synthetic Data #Direct Preference Optimization #Data Generation Pipeline #3D-2D Consistency

2026년 3월 31일

[논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

LLM의 도메인 및 언어 적응을 위해 CPT 를 수행할 때, 데이터의 혼합 비율(Mixture Ratio)은 매우 민감한 하이퍼파라미터입니다. 기존에는 이 비율을 학습 전에 고정해야 하며, 부적절할 경우 수주간의 GPU 연산 자원이 낭비되는 문제가 있었습니다.

#Review #Continual Pre-training #Model Merging #Distribution Vector #Bayesian Optimization #LLM Adaptation

2026년 3월 31일

[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

LLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.

#Review #Large Language Models #Chain-of-Thought #Monitorability #Benchmark #AI Safety #Stress-Test #Faithfulness

2026년 3월 31일

[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.

#Review #Diffusion Transformer #Multimodal Face Generation #Cross-Modal Fusion #RoPE Attention #Controlled Generation

2026년 3월 31일

[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens

기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다.

#Review #Multimodality #Autoregressive Modeling #Discrete Tokenization #Vision Transformer #Audio Tokenization #Mixture-of-Experts #Next-Token Prediction

2026년 3월 31일

[논문리뷰] Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

기존의 single-cell transcriptomics 기초 모델들(예: scGPT , Geneformer )은 주로 정적 표현(static representation) 학습에 치중하여 실제 세포 분포를 생성하거나 복잡한 perturbation 반응을 시뮬레이션하는 데 한계가 있습니다.

#Review #Generative Model #Single-cell Transcriptomics #Discrete Diffusion Model #Virtual Cell #Perturbation Prediction #Cellular World Model

2026년 3월 31일

[논문리뷰] Learn2Fold: Structured Origami Generation with World Model Planning

Origami는 평면 시트를 복잡한 3D 구조로 변환하는 물리적 지능의 고난도 테스트베드입니다. 이는 단순한 시각적 플라시보가 아니라 기하학적 공리와 엄격한 Kinematic 제약 조건을 준수해야 하며, 작은 오류가 전체 구조의 붕괴를 초래하는 장기적인 추론 작업입니다.

#Review #Origami Generation #Neuro-symbolic Framework #World Model #Constraint-Aware Planning #Program Induction #Spatial Intelligence

2026년 3월 31일

[논문리뷰] It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

기존의 generic restoration 프레임워크는 flicker가 가진 물리적 특성인 주기성과 방향성을 고려하지 않아 복원 성능이 제한적이거나 ghosting artifact를 유발하는 문제가 있습니다 .

#Review #Flicker Removal #Vision Transformer #Phase Correlation #Autocorrelation #Wavelet Transform #Burst Photography

2026년 3월 31일

[논문리뷰] How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

최근 LALM 연구들은 LLM 을 핵심 인지 및 지식 Backbone으로 활용하고 있으나, 텍스트 전용 사전 학습 과정에서 각 LLM 이 내재적으로 습득한 오디오 관련 지식의 수준과 그 영향력에 대해서는 명확히 규명되지 않았습니다.

#Review #Auditory Knowledge #Large Language Models #Large Audio Language Models #AKB-2000 #Cascade Evaluation #Audio-grounded Evaluation

2026년 3월 31일

[논문리뷰] Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

최근 모바일 LiDAR 시스템의 고감도화는 거리 측정 범위는 넓혔으나, 유리나 반사면으로 인한 Ghost Points 발생을 증가시켜 SLAM이나 3D 객체 인식의 정확도를 심각하게 떨어뜨리고 있습니다.

#Review #Full-Waveform LiDAR #Ghost Removal #Masked Autoencoder #Mobile LiDAR #Dataset #Representation Learning

2026년 3월 31일

[논문리뷰] FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

기존의 과학적 아이디어 생성(SIG) 방식은 문헌 검색과 아이디어 생성이 분리된 '정적 검색-생성(Static Retrieval-then-Generation)' 패러다임을 따르고 있어, 정보의 깊이와 폭에 한계가 존재합니다.

#Review #Scientific Idea Generation #Flow-Guided MCTS #GFlowNet #Test-Time Evolution #Isolation Island Paradigm #Generative Reward Model #Autonomous Research

2026년 3월 31일