[논문리뷰] LagerNVS: Latent Geometry for Fully Neural Real-time Novel View SynthesisNovel View Synthesis (NVS)는 기존 뷰들을 기반으로 새로운 시점 이미지를 생성하는 중요한 태스크이다.#Review#Novel View Synthesis (NVS)#Latent Geometry#Real-time Rendering#3D Inductive Biases#Encoder-Decoder#VGGT#Generalization#Diffusion Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality최근 Large Language Models (LLMs)은 뛰어난 일반 지능과 추론 능력을 보여주지만, 다국어 성능에서는 심각한 불균형을 보입니다.#Review#LLMs#Multilinguality#Encoder-Decoder#Optimal Transport#Cross-Model Mapping#Language-on-Demand#NMT2026년 3월 22일댓글 수 로딩 중
[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.#Review#Human Mesh Recovery (HMR)#Full-Body Pose Estimation#Promptable Models#Momentum Human Rig (MHR)#Data Engine#Encoder-Decoder#Robustness#3D Vision2026년 2월 18일댓글 수 로딩 중
[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Sounding Video#Video Comprehension#Video Generation#Audio-Video Synchronization#Instruction Tuning#Diffusion Model#Encoder-Decoder2025년 12월 31일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.#Review#Text Embeddings#Lightweight Models#Encoder-Decoder#Knowledge Distillation#Model Souping#Quantization#Multilingual#Gemma2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.#Review#ASR#Mechanistic Interpretability#Logit Lens#Linear Probing#Activation Patching#Hallucinations#Repetitions#Encoder-Decoder2025년 8월 28일댓글 수 로딩 중
[논문리뷰] DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition본 논문은 Encoder-Decoder 기반 자동 음성 인식(ASR) 모델의 내부 언어 모델(ILM) 견고성을 향상시켜 도메인 내외(in- and out-of-domain) 환경에서의 일반화 성능을 개선 하는 것을 목표로 합니다.#Review#Speech Recognition#Encoder-Decoder#Regularization#Decoder-Centric#Intermediate Supervision#Out-of-Domain Generalization#Internal Language Model2025년 8월 13일댓글 수 로딩 중
[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation Model본 논문은 자동 음성 인식(ASR), 음소 인식(PR), 철자-음소 변환(G2P), 음소-철자 변환(P2G)과 같은 개별적으로 연구되어온 음소 관련 태스크들을 단일의 통합 프레임워크 에서 수행하는 것을 목표로 합니다.#Review#Phonetic Foundation Model#Multitask Learning#Speech Recognition#Phone Recognition#Grapheme-to-Phoneme#Encoder-Decoder#Low-Resource Speech2025년 10월 31일댓글 수 로딩 중