[논문리뷰] DocAtlas: Multilingual Document Understanding Across 80+ Languages본 논문은 기존 Document Understanding 모델들이 다국어 데이터 처리 및 문서 구조 파악에서 겪는 한계를 극복하기 위해 DocAtlas를 제안한다. 대다수의 기존 모델들은 특정 언어군에 편향되어 있거나, 복잡한 문서 레이아웃을 처리하는 데 있어 성능이 저하되는 Generalization 문제를 겪고 있다.#Review#Document Understanding#Multilingual#Vision-Language Models#OCR#Multimodal Learning2026년 5월 19일댓글 수 로딩 중
[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.#Review#Software Engineering Environments#LLM Agents#Data Generation#Verifiable Tasks#Multilingual#Reinforcement Learning#Self-Verification#Hacking Detection2026년 2월 2일댓글 수 로딩 중
[논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking본 논문은 기존 벤치마크들이 다루지 못했던 시간-가변 오디오-비주얼 신호의 인간 문화적 맥락 이해 능력 을 평가하기 위해, MLLM(Multimodal Large Language Model) 의 맥락적, 문화적 지식 및 사고 능력 을 진단하는 새로운 벤치마크인 AVMeme Exam 을 제시합니다.#Review#Multimodal LLMs#Benchmark#Cultural Understanding#Contextual Inference#Audio-Visual Memes#Multilingual#Q&A Evaluation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] VIBEVOICE-ASR Technical Report본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.#Review#Automatic Speech Recognition#Speaker Diarization#Long-form Audio#Large Language Models#End-to-end Speech Processing#Multilingual#Context-aware ASR2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Qwen3-TTS Technical Report본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multilingual#Voice Cloning#Controllable Speech#Streaming#Speech Tokenization#Language Models#Low-latency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.#Review#OCR#Vision-Language Model#End-to-End Learning#Multilingual#Reinforcement Learning#Document Understanding#Bounding Box Prediction#Task Arithmetic Merging2026년 1월 20일댓글 수 로딩 중
[논문리뷰] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories이 논문은 기존의 LLM 기반 소프트웨어 엔지니어링 벤치마크(예: SWE-bench)가 수동 큐레이션, 정적 데이터셋, Python 버그 수정에 대한 집중, 그리고 데이터 오염 위험과 같은 한계를 가진다는 문제점을 해결하고자 합니다.#Review#Software Engineering Benchmarks#Large Language Models (LLMs)#Code Generation#Automated Benchmark Generation#Multilingual#GitHub Pull Requests#Test Oracle#Fine-tuning2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks본 논문은 기존 임베딩 모델의 불투명한 훈련 데이터 및 방법론 문제를 해결하고자, 다국어 및 교차 언어 태스크에서 최첨단 성능을 달성하는 완전 오픈 소스 범용 텍스트 임베딩 모델인 llama-embed-nemotron-8b 를 개발하는 것을 목표로 합니다.#Review#Text Embedding#Multilingual#Cross-Lingual#Contrastive Learning#Model Merging#Synthetic Data Generation#Instruction-Tuning#LLM2025년 11월 10일댓글 수 로딩 중
[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.#Review#Text Embeddings#Lightweight Models#Encoder-Decoder#Knowledge Distillation#Model Souping#Quantization#Multilingual#Gemma2025년 9월 25일댓글 수 로딩 중
[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.#Review#Voice Style Adaptation#Spoken Language Models#Benchmark#LALM-as-a-Judge#Speech Generation#Multilingual#Evaluation Framework2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Hunyuan-MT Technical Report본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.#Review#Machine Translation#Large Language Model#Multilingual#Low-Resource Languages#Reinforcement Learning#Weak-to-Strong Learning#Slow Thinking2025년 9월 11일댓글 수 로딩 중
[논문리뷰] jina-reranker-v3: Last but Not Late Interaction for Document Reranking본 논문은 문서 리랭킹에서 효율성과 효과성 사이의 근본적인 트레이드오프를 해결하고자 합니다.#Review#Document Reranking#Last but Not Late Interaction#Multilingual#Transformer Architecture#Cross-Encoder#InfoNCE Loss#Contextual Embedding#Qwen32025년 10월 1일댓글 수 로딩 중