[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.#Review#Multi-Agent LLM#Reinforcement Learning#Training Stability#GRPO#Agent-wise Normalization#Gradient Explosion#LLM Orchestration2026년 2월 10일댓글 수 로딩 중
[논문리뷰] A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification본 논문은 프로덕션 LLM 시스템에서 안전성 검토 및 기타 분류 태스크를 위해 별도의 모델을 사용하는 방식이 야기하는 추론 지연 시간, VRAM 사용량, 운영 복잡성 증가 문제를 해결하고자 합니다.#Review#LLM Orchestration#Lightweight Probes#Token-Layer Aggregation#Hidden States#Single-Pass Classification#Safety Moderation#Sentiment Analysis2026년 1월 20일댓글 수 로딩 중