최신 포스트

[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

LLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.

#Review #Large Language Models #Chain-of-Thought #Monitorability #Benchmark #AI Safety #Stress-Test #Faithfulness

2026년 3월 31일

[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.

#Review #Diffusion Transformer #Multimodal Face Generation #Cross-Modal Fusion #RoPE Attention #Controlled Generation

2026년 3월 31일

[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens

기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다.

#Review #Multimodality #Autoregressive Modeling #Discrete Tokenization #Vision Transformer #Audio Tokenization #Mixture-of-Experts #Next-Token Prediction

2026년 3월 31일

[논문리뷰] Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

기존의 single-cell transcriptomics 기초 모델들(예: scGPT , Geneformer )은 주로 정적 표현(static representation) 학습에 치중하여 실제 세포 분포를 생성하거나 복잡한 perturbation 반응을 시뮬레이션하는 데 한계가 있습니다.

#Review #Generative Model #Single-cell Transcriptomics #Discrete Diffusion Model #Virtual Cell #Perturbation Prediction #Cellular World Model

2026년 3월 31일

[논문리뷰] Learn2Fold: Structured Origami Generation with World Model Planning

Origami는 평면 시트를 복잡한 3D 구조로 변환하는 물리적 지능의 고난도 테스트베드입니다. 이는 단순한 시각적 플라시보가 아니라 기하학적 공리와 엄격한 Kinematic 제약 조건을 준수해야 하며, 작은 오류가 전체 구조의 붕괴를 초래하는 장기적인 추론 작업입니다.

#Review #Origami Generation #Neuro-symbolic Framework #World Model #Constraint-Aware Planning #Program Induction #Spatial Intelligence

2026년 3월 31일

[논문리뷰] It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

기존의 generic restoration 프레임워크는 flicker가 가진 물리적 특성인 주기성과 방향성을 고려하지 않아 복원 성능이 제한적이거나 ghosting artifact를 유발하는 문제가 있습니다 .

#Review #Flicker Removal #Vision Transformer #Phase Correlation #Autocorrelation #Wavelet Transform #Burst Photography

2026년 3월 31일

[논문리뷰] How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

최근 LALM 연구들은 LLM 을 핵심 인지 및 지식 Backbone으로 활용하고 있으나, 텍스트 전용 사전 학습 과정에서 각 LLM 이 내재적으로 습득한 오디오 관련 지식의 수준과 그 영향력에 대해서는 명확히 규명되지 않았습니다.

#Review #Auditory Knowledge #Large Language Models #Large Audio Language Models #AKB-2000 #Cascade Evaluation #Audio-grounded Evaluation

2026년 3월 31일

[논문리뷰] Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

최근 모바일 LiDAR 시스템의 고감도화는 거리 측정 범위는 넓혔으나, 유리나 반사면으로 인한 Ghost Points 발생을 증가시켜 SLAM이나 3D 객체 인식의 정확도를 심각하게 떨어뜨리고 있습니다.

#Review #Full-Waveform LiDAR #Ghost Removal #Masked Autoencoder #Mobile LiDAR #Dataset #Representation Learning

2026년 3월 31일

[논문리뷰] FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

기존의 과학적 아이디어 생성(SIG) 방식은 문헌 검색과 아이디어 생성이 분리된 '정적 검색-생성(Static Retrieval-then-Generation)' 패러다임을 따르고 있어, 정보의 깊이와 폭에 한계가 존재합니다.

#Review #Scientific Idea Generation #Flow-Guided MCTS #GFlowNet #Test-Time Evolution #Isolation Island Paradigm #Generative Reward Model #Autonomous Research

2026년 3월 31일

[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.

#Review #Reinforcement Learning #Large Language Models #Future-KL #Policy Optimization #GRPO #Chain-of-Thought #Credit Assignment

2026년 3월 31일

[논문리뷰] Extend3D: Town-Scale 3D Generation

최근 3D generative model은 고품질의 3D 객체를 생성하는 데 성공했으나, 여전히 복잡한 구성의 대규모 3D 장면(Town-Scale) 생성에는 어려움을 겪고 있습니다.

#Review #3D Scene Generation #Training-free #Latent Flow Model #Overlapping Patch-wise Flow #Under-noising #SDEdit #3D-aware Optimization

2026년 3월 31일

[논문리뷰] Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

텍스트 데이터의 Privacy 보호는 현대 NLP에서 필수적이지만, 이를 정량화할 명확한 기준이 부재합니다.

#Review #privacy evaluation #knowledge distillation #de-identification #LLM-as-a-Judge #textual privacy

2026년 3월 31일

[논문리뷰] Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

음성 인식(ASR)은 상담, 회의 등 대화형 환경에서 활용도가 높으나, 대부분의 시스템은 개별 발화(utterance)를 독립적으로 처리하여 이전 대화 맥락을 활용하지 못하는 한계가 있습니다.

#Review #Multimodal ASR #Large Language Models #Conversational Context #Abstract Compression #Contextual Biasing #Latent Bottleneck

2026년 3월 31일

[논문리뷰] CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

영상 편집은 시각적 스토리텔링과 오디오의 리듬감을 결합하는 복잡한 작업이나, 수 시간 분량의 원본 영상을 수동으로 편집하는 것은 매우 노동 집약적이며 전문적인 미적 판단을 요구합니다.

#Review #Multimodal Language Models #Video Editing #Audio-Visual Alignment #Multi-Agent System #Hierarchical Planning

2026년 3월 31일

[논문리뷰] CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

최근 저고도 경제, Embodied Intelligence , 그리고 공중-지상 협력 시스템의 발전으로 인해 지상과 항공 에이전트를 결합하여 시뮬레이션할 수 있는 인프라의 필요성이 급증하고 있습니다.

#Review #Embodied Intelligence #Simulation Infrastructure #CARLA #AirSim #Air-Ground Cooperation #Unreal Engine

2026년 3월 31일

[논문리뷰] AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

최근의 생성형 비디오 모델들은 자율주행을 위한 악천후 시나리오 합성에 탁월한 성능을 보이지만, 희귀한 기상 상황을 학습하기 위해 방대한 데이터셋을 필요로 한다는 한계가 있습니다.

#Review #Autonomous Driving #Weather Synthesis #G-buffer #3D-aware Editing #Neural Rendering #Video Diffusion #Relighting

2026년 3월 31일

[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

기존의 Hand-Object Interaction (HOI) 재구성 연구는 주로 강체(Rigid Object)만을 다루거나, 관절형 물체의 4D 재구성을 위해 사전에 스캔된 3D 템플릿 혹은 다중 시점(Multi-view) 비디오와 같은 제약적인 입력을 필요로 했습니다.

#Review #4D Reconstruction #Hand-Object Interaction #Foundation Models #Articulated Objects #Monocular Video #Optimization

2026년 3월 31일

[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기

Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.

#Feast #Python #Performance #Optimization #Data Engineering

2026년 3월 31일

[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선

Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석

#Mamba #Cache Optimization #Performance Tuning #LLM #sglang

2026년 3월 31일

[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존

SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.

#SGLang #CUDA Graph #Sliding Window Attention #성능 최적화 #LLM 추론

2026년 3월 31일