#Masked Language Modeling

4개의 포스트

[논문리뷰] A Causal Language Modeling Detour Improves Encoder Continued Pretraining

본 논문은 도메인 적응을 위한 인코더의 Continued Pretraining에서 기존의 MLM 단독 학습 방식이 갖는 한계를 극복하고자 합니다. 저자들은 특정 도메인(특히 Biomedical) 데이터에서 모델이 충분한 성능을 내지 못하는 이유가 학습 목적 함수 자체의 경직성 때문임을 지적합니다.

#Review #Continued Pretraining #Causal Language Modeling #Masked Language Modeling #Domain Adaptation #Biomedical Encoders #CKA #Freeze Interventions #ModernBERT

2026년 5월 12일

[논문리뷰] Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 주로 사용하는 자기회귀(autoregressive) 아키텍처 의 한계를 극복하고, 텍스트, 음성, 이미지 전반에 걸친 이해 및 생성을 통합할 수 있는 새로운 확률적 모델링 대안 을 탐색하는 것을 목표로 합니다.

#Review #Multimodal AI #Discrete Diffusion Models #Masked Language Modeling #Unified Generative Models #Any-to-Any #Speech-to-Image #Visual Question Answering

2026년 3월 10일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] Attention Sinks in Diffusion Language Models

Diffusion Language Models (DLMs)의 내부 메커니즘, 특히 다른 트랜스포머 아키텍처에서 관찰된 '어텐션 싱크(attention sink)' 현상 이 DLMs에서도 발생하는지 여부와 그 특성을 규명하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Attention Sinks #Transformer Architecture #Masked Language Modeling #Bidirectional Attention #Generative Models #Robustness #Dynamic Attention

2025년 10월 23일