#Knowledge Transfer

7개의 포스트

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning

논문은 기존 FL 방법론이 가정하는 모델 동질성(homogeneous model architectures) 의 비현실성을 지적하며, 모델 이질성(model-heterogeneous FL) 환경에서 성능, 프라이버시, 통신 오버헤드 간의 효과적인 균형을 달성하는 것을 목표로 합니다.

#Review #Federated Learning #Model Heterogeneity #Representation Learning #Privacy Preservation #Communication Efficiency #Entangled Representation #Knowledge Transfer

2025년 11월 30일

[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

본 논문은 통합 멀티모달 모델(UMMs)에서 '이해' 능력이 '생성' 과정에 실제로 정보를 제공하고 안내하는지 여부를 조사합니다.

#Review #Unified Multimodal Models #Understanding-Generation Gap #Reasoning #Knowledge Transfer #Chain-of-Thought #Self-Training #Synthetic Data #Evaluation Framework

2025년 11월 25일

[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Physics Reasoning #Agentic AI #Olympiad Problems #Post-Training #Knowledge Transfer

2025년 11월 17일

[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

본 논문은 시각 질문 답변(VQA) 태스크에서 Small Vision-Language Models (S-VLMs) 의 성능을 향상시키는 것을 목표로 합니다.

#Review #VQA #Small VLMs #Large VLMs #Knowledge Transfer #Pseudo-labeling #Label-Free Learning #Model Parity Alignment #Computational Efficiency

2025년 9월 23일

[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers

본 논문은 대규모 시각-언어 모델(LVLMs)의 성능을 향상시키기 위해 고가의 인간 주석 데이터에 대한 의존성을 줄이는 새로운 자체 개선 프레임워크인 'Panel-of-Peers(PoP)'를 제안합니다.

#Review #Large Vision and Language Models (LVLMs)#Self-Improvement #Peer Learning #Preference Alignment #Reward Modeling #Multimodal Learning #Knowledge Transfer

2025년 9월 3일

[논문리뷰] Code2Video: A Code-centric Paradigm for Educational Video Generation

최근 픽셀 기반 생성 모델들은 전문적인 교육용 비디오 제작에 어려움을 겪습니다. 특히 학문적 지식, 정밀한 시각 구조, 일관된 전환이 필요한데, Code2Video는 이러한 한계를 극복하기 위해 실행 가능한 Python 코드 를 활용한 코드 중심의 에이전트 프레임워크를 제안합니다.

#Review #Educational Video Generation #Code-centric AI #Multi-agent Framework #Manim #Vision-Language Models #Knowledge Transfer #Code Generation #MMMC Benchmark

2025년 10월 2일