[논문리뷰] Unlocking Feature Learning in Gated Delta Networks at Scale본 논문은 Gated Delta Network와 같은 효율적인 선형 아키텍처에서 대규모 학습 시 안정적인 feature learning을 지원하는 최적의 $\mu P$ 구성 방식을 도출하는 것을 목표로 합니다.#Review#Gated Delta Network#Maximal Update Parametrization#Feature Learning#Hyperparameter Transfer#Linear Recurrent Models#Deep Learning Theory2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space본 논문은 기존 대규모 언어 모델(LLM)이 언어의 비균일한 정보 밀도에도 불구하고 토큰에 균일한 연산을 적용하여 발생하는 비효율성 문제를 해결하고자 합니다.#Review#Hierarchical Language Model#Concept-Level Reasoning#Dynamic Segmentation#Adaptive Computation#Scaling Laws#Maximal Update Parametrization#Next-Token Prediction#Flash Attention2026년 1월 1일댓글 수 로딩 중