[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.#Review#LLM Post-Training#Catastrophic Forgetting#Direct Preference Optimization (DPO)#Reward-based Learning#Data Rectification#Binary Cross-Entropy#Reasoning Tasks#Knowledge Preservation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Model Auditing#Capability Gaps#Failure Mode Discovery#Reinforcement Learning#Data Rectification#Counterfactual Generation#VQA2025년 12월 18일댓글 수 로딩 중