[Ultralytics] 학습 중 Multi-GPU 검증 지원Multi-GPU 학습 시 검증도 모든 GPU에서 병렬 수행하도록 개선한 PR 분석#Ultralytics#YOLO#Multi-GPU#Distributed Training#PyTorch2025년 10월 20일댓글 수 로딩 중
[Ray RLlib] 모듈별 루프에서 ALL_MODULES 처리량 메트릭을 루프 밖으로 이동하여 바이어스 제거모듈 배치 루프 내부에서 ALL_MODULES 처리량을 기록하면 타임스탬프가 여러 번 찍혀 처리량이 부풀려지는 문제를 루프 밖에서 합산 기록하도록 수정한 분석.#Ray#Python#Performance#Metrics#RLlib2025년 10월 18일댓글 수 로딩 중
[논문리뷰] pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation이 논문은 기존 few-step 확산 및 흐름 기반 생성 모델의 증류 과정에서 발생하는 품질-다양성 트레이드오프 와 복잡한 훈련 절차 문제를 해결하고자 합니다.#Review#Diffusion Models#Flow Matching#Generative Models#Model Distillation#Imitation Learning#Few-Step Generation#Policy-Based AI#Text-to-Image2025년 10월 17일댓글 수 로딩 중
[pydantic-ai] 병렬 tool call 제한 적용 방식 개선 — 사전 검증으로 전환tool_calls_limit을 개별 tool 실행 시점이 아닌 batch 실행 전에 한번에 검증하도록 변경#Python#Pydantic AI#Concurrency#Bug Fix#Architecture2025년 10월 3일댓글 수 로딩 중
[논문리뷰] Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls본 논문은 Transformer 기반 언어 모델이 다중 자릿수 곱셈과 같은 겉보기에 간단한 알고리즘 태스크를 학습하는 데 실패하는 이유를 탐구합니다.#Review#Transformers#Multiplication#Long-Range Dependencies#Implicit Chain-of-Thought#Attention Mechanisms#Inductive Bias#Reverse Engineering2025년 10월 2일댓글 수 로딩 중
[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.#Review#Vision-Language Models#Object Grounding#Fine-grained Perception#Hybrid Region Encoder#Plug-and-play#Two-stage Training#Visual Reasoning2025년 10월 2일댓글 수 로딩 중
[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.#Review#Vision-Language-Action Models#Reinforcement Learning#World Models#Fine-tuning#Embodied AI#Robotics#Reward Design#Distribution Shift2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned이 논문은 대규모 언어 모델(LLM)의 추론 신뢰성을 향상시키는 프로세스 보상 모델(PRM)을 시각-언어 모델(VLM) 영역으로 확장하고자 합니다.#Review#Vision-Language Models (VLMs)#Process Reward Models (PRMs)#Multimodal Reasoning#Test-Time Scaling (TTS)#Process Supervision#Dataset Construction#Perception Errors#MCTS2025년 10월 2일댓글 수 로딩 중
[논문리뷰] ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction본 논문은 분포 매칭(distribution matching)에서 널리 사용되는 Sliced Wasserstein Distance (SWD) 의 Monte Carlo 추정기가 겪는 높은 분산 문제를 해결하고자 합니다.#Review#Sliced Wasserstein Distance#Reservoir Sampling#Variance Reduction#Distribution Matching#Diffusion Guidance#Color Correction#Monte Carlo Estimation2025년 10월 2일댓글 수 로딩 중
[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.#Review#Environment Setup#LLMs#Reinforcement Learning#Supervised Fine-tuning#On-device AI#Software Engineering#Verifiable Rewards2025년 10월 2일댓글 수 로딩 중
[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Parameter Dynamics#Rank-1 Dominance#Linear Dynamics#SVD#Model Acceleration#Predictability2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Making, not Taking, the Best of N본 논문은 기존 Best-of-N (BON) 방식이 여러 LLM 생성물 중 하나만을 선택하여 잠재적으로 유용한 정보를 버리는 제로섬 게임이라는 문제점을 지적합니다.#Review#LLM Aggregation#Generative Fusion#Best-of-N#Synthetic Data Generation#Test-Time Scaling#Multilingual Models#Ensemble Learning2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation본 연구는 LLM의 RL 기반 자기 개선 과정에서 발생하는 높은 연산 비용과 비효율적인 탐색 예산 할당 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Reinforcement Learning (RL)#Exploration Budget Allocation#Knapsack Problem#Group Relative Policy Optimization (GRPO)#Mathematical Reasoning#Resource Optimization2025년 10월 2일댓글 수 로딩 중
[논문리뷰] JoyAgent-JDGenie: Technical Report on the GAIA본 논문은 LLM 기반 에이전트 시스템들이 복잡한 실세계 태스크를 해결하는 데 있어 견고성, 적응성, 재현성이 부족하다는 문제를 제기합니다. 기존 시스템들이 툴킷 확장, 프롬프트 개선 등 개별적인 측면에만 집중하여 통합 프레임워크가 부재했기 때문입니다.#Review#Generalist Agent#Multi-Agent System#Plan-Execute#ReAct#Hierarchical Memory#Tool Integration#GAIA Benchmark#LLM Agent2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Infusing Theory of Mind into Socially Intelligent LLM Agents본 논문은 대화형 LLM(Large Language Model) 기반 소셜 에이전트가 타인의 정신 상태 이해 능력(Theory of Mind, ToM) 을 통합함으로써 사회적 지능과 목표 달성 능력을 향상시키는 것을 목표로 합니다.#Review#Theory of Mind#Large Language Models#Social Agents#Dialogue Systems#Mental State Modeling#Look-ahead Planning#Supervised Fine-tuning#Sotopia Benchmark2025년 10월 2일댓글 수 로딩 중
[논문리뷰] In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning본 연구는 다중 턴(multi-turn) 추론 과정에서 대규모 언어 모델(LLMs)이 사용자 피드백을 신뢰성 있게 통합하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Feedback#Multi-turn Reasoning#In-place Editing#Token Efficiency#Error Correction#Human-AI Interaction#Reasoning Tasks2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures대규모 언어 모델(LLM)의 불투명한 내부 표현에 대한 제한적인 이해를 극복하고, LLM 벡터 공간 에서 사람이 해석할 수 있는 정보를 디코딩 하는 새로운 패러다임을 제안하는 것을 목표로 합니다. 기존 직접 로짓 기여(DLA) 및 희소 오토인코더(SAE) 와 같은 해석 가능성 방법론의 한계를 극복하고자 합니다.#Review#LLM Interpretability#Vector Symbolic Architectures#Neural Probing#Information Decoding#Hyperdimensional Computing#Latent Representations2025년 10월 2일댓글 수 로딩 중
[논문리뷰] GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness본 논문은 Vision-Language Model (VLM) 기반 GUI 에이전트가 고해상도 스크린샷 시퀀스 및 장기 작업을 처리할 때 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#GUI Agents#KV Cache Compression#Spatio-Temporal Awareness#Vision-Language Models#Efficiency#Attention Sparsity#QR Decomposition2025년 10월 2일댓글 수 로딩 중
[논문리뷰] GEM: A Gym for Agentic LLMs대규모 언어 모델(LLM) 학습 패러다임이 정적 데이터셋에서 경험 기반 학습으로 전환됨에 따라, 에이전트가 복잡한 환경과 상호작용하며 기술을 습득할 수 있도록 돕는 것을 목표로 합니다.#Review#Agentic LLMs#Reinforcement Learning#Environment Simulator#Multi-turn Interactions#Return Batch Normalization#Tool Integration#Benchmarking2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution본 논문은 기존 LLM 에이전트 프레임워크의 고질적인 문제인 비효율적인 순차적 처리 방식 을 해결하여, 복잡한 웹 기반 추론 작업에서 발생하는 과도한 실행 단계와 긴 지연 시간을 단축하는 것을 목표로 합니다. 특히 광범위한 도구 상호작용이 필요한 태스크에서 에이전트의 효율성과 확장성을 근본적으로 개선하고자 합니다.#Review#LLM Agents#Parallel Execution#DAG-based Planning#Tool Orchestration#Web Agents#Reasoning Framework#Efficiency2025년 10월 2일댓글 수 로딩 중