Review

[논문리뷰] Voxtral TTS

Natural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.

#Review #Text-to-Speech #Zero-shot Voice Cloning #Hybrid Architecture #Speech Codec #Flow-Matching #Direct Preference Optimization #Finite Scalar Quantization #Multilingual TTS

2026년 3월 26일

[논문리뷰] Vega: Learning to Drive with Natural Language Instructions

기존 자율주행 시스템은 주로 Perception, Prediction, Planning의 모듈형 파이프라인을 따르며, 이는 고비용의 3D annotation에 크게 의존하여 실제 적용에 한계가 있습니다.

2026년 3월 26일

[논문리뷰] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

기존 Coding Agent Benchmark 들은 압도적으로 Single-shot Solutions 을 Complete Specification에 대해 평가하고 있으며, 이는 Agent가 현재 Specification 에 대한 Correct Code 를 생성할 수 있는지 여부만을 측정한다.

#Review #SlopCodeBench #Coding Agents #Iterative Development #Code Quality #Structural Erosion #Verbosity #Benchmarking #Long-Horizon Tasks

2026년 3월 26일

[논문리뷰] S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

최근 언어 모델링 분야에서 큰 발전을 이끈 Autoregressive (AR) 모델들은 엄격한 좌-우향 생성 방식 때문에 디코딩 유연성과 추론 병렬성에서 한계를 가진다.

#Review #Diffusion LLMs #Self-Speculation #Training-Free #Block-Diffusion #Fast Decoding #Rejection Sampling #Routing Policies

2026년 3월 26일

[논문리뷰] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Large Language Model (LLM)의 Post-training에 있어 On-policy Distillation (OPD)은 student-generated rollouts에 대한 teacher feedback을 활용하기 때문에 매력적이다.

#Review #On-policy Distillation #LLM Post-training #Sampled-token OPD #Variance Reduction #Local Support Matching #Truncated Reverse-KL #Top-p Rollout Sampling #Special Token Masking

2026년 3월 26일

[논문리뷰] Representation Alignment for Just Image Transformers is not Easier than You Think

Representation Alignment (REPA)는 Latent Space Diffusion Transformer의 학습을 가속화하는 효과적인 방법으로 제시되었으나, Just Image Transformers (JiT)와 같은 Pixel-space Diffusion 모델에 이를 적용할 경우 오히려 성능 저하를 야기합니다.

#Review #Representation Alignment #Pixel-space Diffusion #Just Image Transformers #Feature Hacking #Masked Transformer Adapter #Diffusion Models #Image Generation

2026년 3월 26일

[논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

Real-world Degradation 상황에서의 Image Restoration은 자율 주행(Autonomous Driving) 및 객체 탐지(Object Detection)와 같은 Downstream Task에 필수적이다.

#Review #Image Restoration #Real-World Degradation #Large-Scale Image Editing Models #Diffusion Models #Data Generation #RealIR-Bench #Zero-shot Generalization #Transfer Learning

2026년 3월 26일

[논문리뷰] PixelSmile: Toward Fine-Grained Facial Expression Editing

최근 diffusion-based 이미지 편집 모델의 발전에도 불구하고, 미세한(fine-grained) 얼굴 표정 편집은 여전히 어려운 문제로 남아 있다.

2026년 3월 26일

[논문리뷰] MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

최근 VFM은 다양한 task에서 강력한 representation을 제공하며 컴퓨터 비전 분야의 핵심으로 자리 잡았습니다.

#Review #Vision Foundation Models (VFMs)#Multi-Resolution Fusion (MuRF)#Dense Prediction #Anomaly Detection #Multimodal Understanding #Scale-Robust Representation

2026년 3월 26일

[논문리뷰] MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Large Language Models (LLMs) 기반의 Agent들이 장기적인 상호작용을 지원하기 위해 외부 메모리 뱅크를 활용하지만, 대부분의 기존 시스템은 메모리 Construction , Retrieval , Utilization 단계를 개별적인 서브루틴으로 분리하여 처리하는 한계를 가집니다.

#Review #LLM Agents #Memory Cycle #Multi-Agent Reasoning #Self-Evolution #Long-Horizon Memory #Strategic Blindness #Memory Management

2026년 3월 26일

[논문리뷰] MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

Large Language Models (LLMs)는 다양한 분야에서 뛰어난 능력을 보였지만, 수백만 토큰 규모의 장기적이고 세밀한 기억(long-term, fine-grained memory retention)을 처리하는 데에는 여전히 큰 어려움에 직면해 있습니다.

#Review #Memory Sparse Attention #Long-Context LLMs #Efficient Memory #End-to-End Trainable #KV Cache Compression #Rotary Positional Embedding #Multi-hop Reasoning #Scalability

2026년 3월 26일

[논문리뷰] MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

Multi-reference image generation은 multi-subject composition, narrative illustration, novel view synthesis와 같은 실제 애플리케이션에 필수적이지만, 현재 모델들은 input reference의 수가 증가함에 따라 심각한 성능 저하를 겪고 있다.

2026년 3월 26일

[논문리뷰] Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

기존의 feed-forward 3D Gaussian Splatting (3DGS) 방법론들은 pixel-aligned primitive를 예측하므로, 해상도가 증가함에 따라 primitive의 수가 quadratic하게 증가하여 4K와 같은 고해상도(high-resolution) novel view synthesis를 실질적으로 불가능하게 만듭니다.

#Review #3D Gaussian Splatting #Novel View Synthesis #Feed-Forward #High-Resolution Rendering #Textured Primitives #Geometry-Appearance Decoupling #4K

2026년 3월 26일

[논문리뷰] Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Large Language Models (LLMs)와 Visual Language Models (VLMs)의 등장은 인공지능 분야에 혁신을 가져왔지만, 과학 분야(AI for Science, AI4S)에서 효과적인 foundation model을 구축하는 것은 과학 domain의 immense diversity와 specialization으로 인해 큰 도전을 제시합니다.

2026년 3월 26일

[논문리뷰] IQuest-Coder-V1 Technical Report

기존 Large Language Models (LLMs)는 도메인 특화를 통해 일반적인 지능을 크게 향상시켰지만, 코드 지능 분야에서는 Claude 4.5 Sonnet 과 같은 독점적인 선두 모델들과 오픈-웨이트 모델들 사이에 여전히 큰 격차가 존재한다.

2026년 3월 26일

[논문리뷰] FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

최근 Large Language Models (LLMs)는 금융 애플리케이션에서 agent 로서 사용자 요청을 해석하고, 외부 도구를 호출하며, 다단계 추론을 수행해야 하는 역할을 점점 더 많이 맡고 있습니다.

#Review #LLM Agents #Financial Tool Use #Benchmarking #Model Context Protocol #Multi-tool Reasoning #Multi-turn Conversation #Evaluation Metrics

2026년 3월 26일

[논문리뷰] Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

기존 Radar-only 모델은 대규모 대기 Context 부족으로 인해 예측 Lead Time이 길어질수록 성능 저하를 겪는다 [cite: 1, Figure 1].

#Review #Precipitation Nowcasting #Spectral Fusion #Radar Observations #Foundation Model #Pangu-Weather #Frequency Domain #Deep Learning

2026년 3월 26일

[논문리뷰] Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors

재료의 optoelectronic properties를 'electric knob'으로 가역적으로 tuning하는 것은 잠재적 응용 분야를 크게 확장할 수 있는 중요한 목표이지만, photoluminescence (PL)나 photoconductivity (PC)와 같은 광전 특성을 electrostatically 제어하는 연구는 상대적으로 미개척 상태입니다.

#Review #Perovskite #Photoluminescence #Field-Effect Transistor #Electrostatic Tuning #CsPbBr3 #Carrier Recombination #Quantum Efficiency

2026년 3월 26일

[논문리뷰] Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

The paper 'Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration' by Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, and Konstantin Sobolev from MSU and FusionBrain Lab, AXXX, discusses a new method called…

2026년 3월 26일

[논문리뷰] BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

Understanding animal species through multimodal data (visual, textual, acoustic) is a growing challenge at the intersection of computer vision and ecology.

2026년 3월 26일