#Encoder-Decoder

10개의 포스트

[논문리뷰] End-to-End Context Compression at Scale

본 연구는 긴 문맥(long-context) 처리가 LLM의 핵심 역량임에도 불구하고, 기하급수적으로 증가하는 KV Cache 메모리 점유율과 이로 인한 추론 속도 저하 문제를 해결하고자 합니다.

#Review #Context Compression #KV Cache #Latent Context Language Models #Encoder-Decoder #End-to-End Training #Model Efficiency

2026년 6월 8일

[논문리뷰] LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

Novel View Synthesis (NVS)는 기존 뷰들을 기반으로 새로운 시점 이미지를 생성하는 중요한 태스크이다.

#Review #Novel View Synthesis (NVS)#Latent Geometry #Real-time Rendering #3D Inductive Biases #Encoder-Decoder #VGGT #Generalization #Diffusion Models

2026년 3월 25일

[논문리뷰] Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

최근 Large Language Models (LLMs)은 뛰어난 일반 지능과 추론 능력을 보여주지만, 다국어 성능에서는 심각한 불균형을 보입니다.

#Review #LLMs #Multilinguality #Encoder-Decoder #Optimal Transport #Cross-Model Mapping #Language-on-Demand #NMT

2026년 3월 22일

[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery

본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.

#Review #Human Mesh Recovery (HMR)#Full-Body Pose Estimation #Promptable Models #Momentum Human Rig (MHR)#Data Engine #Encoder-Decoder #Robustness #3D Vision

2026년 2월 18일

[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Sounding Video #Video Comprehension #Video Generation #Audio-Video Synchronization #Instruction Tuning #Diffusion Model #Encoder-Decoder

2025년 12월 31일

[논문리뷰] NVIDIA Nemotron Parse 1.1

Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.

#Review #OCR #Document Parsing #Vision-Language Model #Encoder-Decoder #Transformer #Table Extraction #Multilingual OCR #Layout Analysis

2025년 11월 26일

[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations

이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.

#Review #Text Embeddings #Lightweight Models #Encoder-Decoder #Knowledge Distillation #Model Souping #Quantization #Multilingual #Gemma

2025년 9월 25일

[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR

본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.

#Review #ASR #Mechanistic Interpretability #Logit Lens #Linear Probing #Activation Patching #Hallucinations #Repetitions #Encoder-Decoder

2025년 8월 28일

[논문리뷰] DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition

본 논문은 Encoder-Decoder 기반 자동 음성 인식(ASR) 모델의 내부 언어 모델(ILM) 견고성을 향상시켜 도메인 내외(in- and out-of-domain) 환경에서의 일반화 성능을 개선 하는 것을 목표로 합니다.

#Review #Speech Recognition #Encoder-Decoder #Regularization #Decoder-Centric #Intermediate Supervision #Out-of-Domain Generalization #Internal Language Model

2025년 8월 13일

[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

본 논문은 자동 음성 인식(ASR), 음소 인식(PR), 철자-음소 변환(G2P), 음소-철자 변환(P2G)과 같은 개별적으로 연구되어온 음소 관련 태스크들을 단일의 통합 프레임워크 에서 수행하는 것을 목표로 합니다.

#Review #Phonetic Foundation Model #Multitask Learning #Speech Recognition #Phone Recognition #Grapheme-to-Phoneme #Encoder-Decoder #Low-Resource Speech

2025년 10월 31일