[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.#Review#Large Language Models#LLM Alignment#Game Theory#Reinforcement Learning#Mutual Welfare#Payoff Matrix#Strategic Decision Making#Human-AI Interaction2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI AgentsAI 에이전트가 복잡하고 장기적인 대화형 태스크에서 '대리 시행착오(vicarious trial and error)' 능력을 통해 현재의 한계를 극복하고, 환경을 mentally simulate하여 추론 및 의사결정 성능을 향상시키는 것을 목표로 합니다.#Review#AI Agents#Reinforcement Learning#World Models#Simulation#Reasoning#Language Models#Planning#Interactive AI2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning Tasks#GRPO#Negative Samples#Reward Modeling#Confidence Reweighting#Mathematical Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] DISCO: Diversifying Sample Condensation for Efficient Model Evaluation최신 머신러닝 모델, 특히 대규모 언어 모델(LLM) 의 평가에 소요되는 막대한 시간과 비용(수천 시간의 GPU 사용) 문제를 해결하는 것을 목표로 합니다.#Review#Efficient Evaluation#Sample Condensation#Model Disagreement#Predictive Diversity#Performance Prediction#Large Language Models#Model Signatures#Meta-modeling2025년 10월 13일댓글 수 로딩 중
[논문리뷰] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI본 논문은 물리적 상호작용 데이터 수집의 높은 비용으로 인해 Embodied AI 의 확장이 제한되는 문제를 해결하고자 합니다. 특히, 데스크톱 환경(주로 게임)의 풍부한 센서모터 상호작용을 활용하여 로봇의 Embodied AI 작업을 위한 효과적인 사전 훈련(pretraining) 기반 을 구축하는 것을 목표로 합니다.#Review#Embodied AI#Vision-Action Pretraining#Desktop Data#Inverse Dynamics Model (IDM)#Pseudo-labeling#Robotics#Generalization#Data Compression2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization본 논문은 AI, 특히 System-2 유형의 추론 능력 을 정의하고 측정할 명확한 프레임워크가 부족하다는 문제를 제기합니다. 기존의 평가 방식이 주로 System-1 유형의 패턴 인식 에 초점을 맞춰 진정한 추론 능력을 제대로 평가하지 못하는 한계를 극복하고자 합니다.#Review#Complexity OoD Generalization#System-1 Thinking#System-2 Reasoning#Kolmogorov Complexity#Inductive Biases#Large Language Models (LLMs)#Reasoning Evaluation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.#Review#Code Generation#Human Preference#LLM Evaluation#Execution Feedback#Benchmarking#Crowdsourcing#Software Engineering#Large Language Models2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models본 논문은 기존 멀티모달 학습이 paired datasets 에 크게 의존하는 한계를 해결하고자 합니다.#Review#Unpaired Multimodal Learning#Unimodal Representation#Weight Sharing#Cross-modal Transfer#Fisher Information#Self-supervised Learning#Multimodal Neurons#Data Efficiency2025년 10월 13일댓글 수 로딩 중
[논문리뷰] AutoPR: Let's Automate Your Academic Promotion!최근 학술 연구의 양이 급증하면서 연구자들은 자신의 논문을 효과적으로 홍보하고 가시성 및 인용을 확보하는 데 상당한 시간과 노력을 투자해야 합니다.#Review#Academic Promotion#Large Language Models#Multi-Agent Systems#Scholarly Communication#Multimodal Processing#Benchmark#Content Generation#Social Media Marketing2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols본 연구는 신뢰할 수 없는 LLM 에이전트가 안전 메커니즘을 우회하여 AI 제어 프로토콜을 전복시키는 문제를 다룹니다. 특히, 공격자 모델이 프로토콜과 모니터 모델에 대한 지식을 가진 적응형 공격(adaptive attacks) 에 초점을 맞춰, LLM 모니터를 핵심 실패 지점으로 악용하는 새로운 공격 벡터를 제시합니다.#Review#AI Control Protocols#LLM Monitors#Adaptive Attacks#Prompt Injection#Jailbreaking#Red Teaming#Scalable Oversight2025년 10월 13일댓글 수 로딩 중
[논문리뷰] ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping멀티모달 대규모 추론 모델(MLRMs)이 쉬운 문제에 대해 과도하게 추론하여 비효율적인 반면, 어려운 문제에는 불충분한 탐색으로 해답을 놓치는 불균형을 해결하는 것이 목표입니다. 문제 난이도에 따라 탐색 노력을 동적으로 할당하는 적응형 추론 프레임워크 ARES 를 제시하여 MLRM의 효율성과 성능을 개선하고자 합니다.#Review#Multimodal Reasoning#Adaptive Learning#Reinforcement Learning#Entropy Shaping#Difficulty-Aware#Chain-of-Thought#Token-Level Analysis2025년 10월 13일댓글 수 로딩 중
[논문리뷰] ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall대규모 언어 모델(LLMs)의 지식 편집(KE) 과정에서 다중 홉 사실 회상(multi-hop factual recall) 성능이 크게 저하되는 문제를 해결하고자 합니다.#Review#Knowledge Editing#LLMs#Multi-hop Reasoning#Mechanistic Interpretability#Neuron-level Attribution#Factual Recall#Transformer Networks2025년 10월 13일댓글 수 로딩 중
[논문리뷰] A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 긴 시간 범위의 태스크에서 글로벌 플래닝 능력 부족 으로 인해 겪는 '뇌 없는 시행착오'와 '플래닝 환각' 문제를 해결하고자 합니다. 인간의 개입 없이 효율적이고 효과적으로 플래너를 훈련하여 LLM 에이전트의 플래닝 능력을 향상시키는 것이 주된 연구 목표입니다.#Review#Long-Horizon Tasks#LLM Agents#Global Planning#Reinforcement Learning#Supervised Fine-tuning#Homologous Consensus Filtering#Executor Capability Gain Reward#Plan-and-Execute2025년 10월 13일댓글 수 로딩 중
[triton] AMD: range analysis 버그 수정 및 buffer-ops의 range analysis 의존성 강화tl.assume의 제어 흐름 관계 미고려, make_range 범위 오류 등 range analysis의 근본적 버그를 수정하고 buffer-ops가 올바른 범위 검증을 수행하도록 개선한 분석.#Triton#AMD#Range Analysis#Buffer Operations#Large Tensor#Bug Fix2025년 10월 12일댓글 수 로딩 중
[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다#CUDA Graph#torch.compile#LLM Inference#SGLang2025년 10월 12일댓글 수 로딩 중
[Triton] split_k에 m*n 제약 조건 추가matmul에서 split_k 사용 시 m*n 크기에 대한 제약을 검증하는 테스트와 로직 추가#Triton#Compiler2025년 10월 11일댓글 수 로딩 중
[논문리뷰] When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs본 논문은 Long-Context Language Models (LCLMs) 이 방대한 문맥을 처리할 수 있음에도 불구하고, 복잡한 다중 홉(multi-hop) 추론을 위해 증거를 효과적으로 구조화하고 연결하는 데 어려움 을 겪는 문제를 해결하고자 합니다.#Review#Long-Context LMs#Multi-hop Reasoning#Thought Templates#Retrieval-Augmented Generation#Natural Language Feedback#Knowledge-intensive QA#Reasoning Reuse2025년 10월 10일댓글 수 로딩 중
[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning본 논문은 사용자가 지정한 임의의 공간 및 시간 위치에 패치를 배치하여 비디오를 생성하는 '임의의 시공간 비디오 완성(arbitrary spatio-temporal video completion)' 이라는 새로운 태스크를 제안합니다.#Review#Video Completion#Spatio-Temporal Control#In-Context Conditioning#Video Diffusion Models#RoPE Interpolation#VAE#Unified Framework#Video Generation2025년 10월 10일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.#Review#Video Super-Resolution#Multi-Modal Generation#Latent Diffusion Models#Cascaded Framework#Condition Injection#Text-to-Video#Video Editing#4K Video2025년 10월 10일댓글 수 로딩 중