[논문리뷰] Ministral 3본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.#Review#Large Language Models#Model Distillation#Pruning#Parameter-Efficient AI#Multimodal LLMs#Instruction Tuning#Reinforcement Learning from Human Feedback#Open-Source AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] A Survey on Diffusion Language Models본 설문조사는 지배적인 자기회귀(AR) 패러다임 에 대한 강력하고 유망한 대안으로 부상하고 있는 확산 언어 모델(DLM) 의 전체 생태계를 체계적으로 포괄적으로 조명하는 것을 목표로 합니다. DLM의 근본 원리, 기술, 한계 를 분석하고, 미래 연구 방향 을 제시하여 이 빠르게 발전하는 분야의 발전을 촉진하고자 합니다.#Review#Diffusion Language Models#Generative AI#Parallel Decoding#Text Generation#Multimodal AI#Model Compression#Reinforcement Learning from Human Feedback#Inference Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment이 논문은 대규모 언어 모델(LLM) 정렬(alignment) 방법론의 한계를 해결하고자 합니다. 기존 방법론들( SFT, DPO, PPO, GRPO )은 특정 정렬 방식에 고정되거나 정량적 지표만을 최적화하여 일반화 및 견고성 측면에서 부족함을 보였습니다.#Review#LLM Alignment#Reinforcement Learning from Human Feedback#Preference Learning#Group Relative Alignment Optimization#Self-Optimization#Mixture-of-Experts#Imitation Learning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs이 논문은 대규모 언어 모델(LLM)이 왜 안전하지 않거나 정책을 위반하는 출력을 생성하는 '정렬 드리프트(alignment drift)'를 겪는지에 대한 근본적인 원인을 밝히는 것을 목표로 합니다.#Review#LLM Alignment#Alignment Drift#Training Data Provenance#Belief Conflict Index (BCI)#Suffix Array#Safety Interventions#Reinforcement Learning from Human Feedback#Explainable AI2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.#Review#Large Language Models#Multi-turn Interaction#Test-Time Adaptation#Reinforcement Learning from Human Feedback#Policy Optimization#Online Learning#Self-Correction2025년 10월 1일댓글 수 로딩 중