#Multilingual

14개의 포스트

[논문리뷰] RedVox: Safety and Fairness Gaps in Speech Models Across Languages

본 논문은 최신 음성 인식 모델들의 안전성 및 공정성 평가가 지나치게 영어 중심적이며, 자연스러운 실사용 환경이 아닌 합성 데이터에 치중되어 있다는 한계점을 지적합니다.

#Review #Speech Models #Safety #Fairness #Multilingual #Benchmark #Red Teaming #Multimodal

2026년 6월 30일

[논문리뷰] DocAtlas: Multilingual Document Understanding Across 80+ Languages

본 논문은 기존 Document Understanding 모델들이 다국어 데이터 처리 및 문서 구조 파악에서 겪는 한계를 극복하기 위해 DocAtlas를 제안한다. 대다수의 기존 모델들은 특정 언어군에 편향되어 있거나, 복잡한 문서 레이아웃을 처리하는 데 있어 성능이 저하되는 Generalization 문제를 겪고 있다.

#Review #Document Understanding #Multilingual #Vision-Language Models #OCR #Multimodal Learning

2026년 5월 19일

[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다.

#Review #Multilingual #Document Parsing #Benchmark #Photographed Documents #VLM #OCR

2026년 4월 2일

[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions

본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.

#Review #Software Engineering Environments #LLM Agents #Data Generation #Verifiable Tasks #Multilingual #Reinforcement Learning #Self-Verification #Hacking Detection

2026년 2월 2일

[논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

본 논문은 기존 벤치마크들이 다루지 못했던 시간-가변 오디오-비주얼 신호의 인간 문화적 맥락 이해 능력 을 평가하기 위해, MLLM(Multimodal Large Language Model) 의 맥락적, 문화적 지식 및 사고 능력 을 진단하는 새로운 벤치마크인 AVMeme Exam 을 제시합니다.

#Review #Multimodal LLMs #Benchmark #Cultural Understanding #Contextual Inference #Audio-Visual Memes #Multilingual #Q&A Evaluation

2026년 1월 27일

[논문리뷰] VIBEVOICE-ASR Technical Report

본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.

#Review #Automatic Speech Recognition #Speaker Diarization #Long-form Audio #Large Language Models #End-to-end Speech Processing #Multilingual #Context-aware ASR

2026년 1월 26일

[논문리뷰] Qwen3-TTS Technical Report

본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multilingual #Voice Cloning #Controllable Speech #Streaming #Speech Tokenization #Language Models #Low-latency

2026년 1월 22일

[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.

#Review #OCR #Vision-Language Model #End-to-End Learning #Multilingual #Reinforcement Learning #Document Understanding #Bounding Box Prediction #Task Arithmetic Merging

2026년 1월 20일

[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

이 논문은 기존의 LLM 기반 소프트웨어 엔지니어링 벤치마크(예: SWE-bench)가 수동 큐레이션, 정적 데이터셋, Python 버그 수정에 대한 집중, 그리고 데이터 오염 위험과 같은 한계를 가진다는 문제점을 해결하고자 합니다.

#Review #Software Engineering Benchmarks #Large Language Models (LLMs)#Code Generation #Automated Benchmark Generation #Multilingual #GitHub Pull Requests #Test Oracle #Fine-tuning

2025년 12월 21일

[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

본 논문은 기존 임베딩 모델의 불투명한 훈련 데이터 및 방법론 문제를 해결하고자, 다국어 및 교차 언어 태스크에서 최첨단 성능을 달성하는 완전 오픈 소스 범용 텍스트 임베딩 모델인 llama-embed-nemotron-8b 를 개발하는 것을 목표로 합니다.

#Review #Text Embedding #Multilingual #Cross-Lingual #Contrastive Learning #Model Merging #Synthetic Data Generation #Instruction-Tuning #LLM

2025년 11월 10일

[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations

이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.

#Review #Text Embeddings #Lightweight Models #Encoder-Decoder #Knowledge Distillation #Model Souping #Quantization #Multilingual #Gemma

2025년 9월 25일

[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.

#Review #Voice Style Adaptation #Spoken Language Models #Benchmark #LALM-as-a-Judge #Speech Generation #Multilingual #Evaluation Framework

2025년 9월 15일

[논문리뷰] Hunyuan-MT Technical Report

본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.

#Review #Machine Translation #Large Language Model #Multilingual #Low-Resource Languages #Reinforcement Learning #Weak-to-Strong Learning #Slow Thinking

2025년 9월 11일

[논문리뷰] jina-reranker-v3: Last but Not Late Interaction for Document Reranking

본 논문은 문서 리랭킹에서 효율성과 효과성 사이의 근본적인 트레이드오프를 해결하고자 합니다.

#Review #Document Reranking #Last but Not Late Interaction #Multilingual #Transformer Architecture #Cross-Encoder #InfoNCE Loss #Contextual Embedding #Qwen3

2025년 10월 1일