[논문리뷰] OneHOI: Unifying Human-Object Interaction Generation and Editing본 논문은 HOI(Human-Object Interaction)의 생성과 편집이 서로 분리된 연구 흐름으로 발전해 온 비효율성을 해결하기 위해 통합 프레임워크인 OneHOI를 제안합니다.#Review#Human-Object Interaction#Diffusion Transformer#Image Editing#Unified Framework#Relational Modeling#Spatial Control2026년 4월 16일댓글 수 로딩 중
[논문리뷰] Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3본 논문은 LLM의 수학적 추론 능력을 향상시키기 위한 Inference-Time Optimization 기법들이 실질적인 효과가 있는지 검증하고자 합니다.#Review#LLM#Mathematical Reasoning#Inference-Time Optimization#Majority Voting#Self-Consistency#Diverse Prompting2026년 4월 16일댓글 수 로딩 중
[논문리뷰] MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation본 논문은 기존의 웹 페이지 자동 생성 방식이 가진 전역적 일관성 및 시각적 요소의 통합 문제를 해결하기 위해 MM-WebAgent를 제안한다.#Review#Multimodal Web Agent#Hierarchical Planning#Self-Reflection#Webpage Generation#AIGC2026년 4월 16일댓글 수 로딩 중
[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Long-context#Sparsity#Activation Patterns#Saliency-guided2026년 4월 16일댓글 수 로딩 중
[논문리뷰] LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories본 논문은 Flow Matching 모델을 인간의 선호도에 맞게 정렬(alignment)하는 과정에서 기존 Direct-Gradient 방식들이 가진 고비용 메모리 문제와 그래디언트 폭주(gradient explosion) 문제를 해결하고자 합니다.#Review#Flow Matching#Preference Alignment#Direct-Gradient Method#Leap Trajectory#Trajectory-Similarity Weighting#Gradient Discounting2026년 4월 16일댓글 수 로딩 중
[논문리뷰] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs본 논문은 RAG(Retrieval-Augmented Generation) 환경에서 빈번하게 발생하는 KV cache의 컨텍스트 의존성 및 그로 인한 추론 지연 문제를 해결하는 것을 목표로 합니다.#Review#LLM#KV Cache#RAG#Recomputation-Free#Soft-token Adapter#Self-Supervised Distillation#Attention Dynamics2026년 4월 16일댓글 수 로딩 중
[논문리뷰] Cross-Tokenizer LLM Distillation through a Byte-Level Interface본 논문은 LLM의 핵심적인 제약 사항인 Tokenizer 불일치 문제를 해결하기 위한 범용적인 Cross-Tokenizer Distillation (CTD) 기법을 제안합니다.#Review#Cross-Tokenizer Distillation#Byte-Level Interface#Knowledge Distillation#LLM#Vocabulary Mismatch2026년 4월 16일댓글 수 로딩 중
[논문리뷰] C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences본 논문은 Rubric 생성과 Rubric 기반 검증을 협력적이지만 비판적인 의사소통 과정으로 재정의합니다. 제안 방법론인 C2는 우선 Verifier의 신뢰도를 기준으로 Rubric을 Helpful한 것과 Misleading한 것으로 합성한 후, 이 쌍을 활용하여 Generator를 DPO로 학습시키고 Verifier를 GRPO로 학습시킵니다 .#Review#Reward Modeling#Reinforcement Learning from Human Feedback (RLHF)#Rubric-Augmented Verification#Binary Preferences#Cooperative Communication2026년 4월 16일댓글 수 로딩 중
[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.#vLLM#Arm CPU#BF16#GELU#최적화#성능 개선#LUT2026년 4월 16일댓글 수 로딩 중
[cpython] CPython의 BINARY_OP_EXTEND 최적화: 타입 정보 전파를 통한 성능 개선BINARY_OP_EXTEND에 리스트와 튜플 연산을 추가하고, 타입 정보를 JIT에 전달하여 가드(guard)를 제거함으로써 성능을 최적화했습니다.#CPython#Python Internals#Performance#JIT#Optimization2026년 4월 16일댓글 수 로딩 중
[논문리뷰] Target Policy Optimization본 논문은 기존의 Policy-Gradient 계열 방법론들이 sparse reward 환경에서 학습이 매우 불안정하고 효과적이지 않다는 문제를 해결하고자 합니다.#Review#Target Policy Optimization#Sparse Reward#Policy Gradient#Cross-Entropy#RLVR#Grouped RL2026년 4월 15일댓글 수 로딩 중
[논문리뷰] SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments본 논문은 3D 공간 추론 학습에서 데이터 주석(annotation) 비용과 모델 합의(consensus) 기반 학습의 한계 문제를 해결하고자 합니다.#Review#Spatial Reasoning#Self-Evolution#Vision-Language Models#Deterministic Geometric Environment#Reinforcement Learning2026년 4월 15일댓글 수 로딩 중
[논문리뷰] Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure본 논문은 기존 AI 코딩 에이전트들이 특정 배포 형태(CLI, IDE 플러그인, 웹 앱)와 결합되어 있어, 기업 환경에서 이기종 인프라 간의 재사용이 어렵다는 문제를 해결하고자 합니다.#Review#AI Coding Agents#Embeddable Infrastructure#Decoupled Architecture#Multi-tenant Isolation#Context Compression#Agent Runtime2026년 4월 15일댓글 수 로딩 중
[논문리뷰] Seedance 2.0: Advancing Video Generation for World Complexity본 연구는 기존 비디오 생성 모델이 가졌던 짧은 클립 생성 위주의 한계와 제한적인 제어 능력을 극복하고, 복잡한 실세계 시나리오에 대응하는 강력하고 조작 가능한(controllable) 비디오 합성 기술을 구현하는 데 목적이 있습니다.#Review#Video Generation#Multimodal Foundation Model#Audio-Video Joint Generation#Controllability#Generative AI#Real-world Complexity2026년 4월 15일댓글 수 로딩 중
[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.#Review#RationalRewards#Preference-Anchored Rationalization#Visual Generation#Reasoning-based Reward Model#Reinforcement Learning#Prompt Tuning2026년 4월 15일댓글 수 로딩 중
[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.#Review#AI Agents#Language World Models#Professional Tasks#Environmental Robustness#Fault Injection#Benchmark2026년 4월 15일댓글 수 로딩 중
[논문리뷰] Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents본 논문은 기존의 메모리 기반 self-evolving agent들이 단일 도메인(Single-domain) 내의 메모리 활용에 국한되어, 다양한 도메인을 아우르는 공유 인프라와 프로그래밍 원칙을 충분히 활용하지 못하는 문제를 해결하고자 한다.#Review#Coding Agents#Self-evolving Agents#Memory Transfer Learning#Cross-domain#Meta-knowledge#Abstraction#Transferability2026년 4월 15일댓글 수 로딩 중
[논문리뷰] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents본 연구는 Multimodal Large Language Model(MLLM) 기반 게임 에이전트의 체계적인 평가를 가로막는 표준화된 인터페이스의 부재와 검증 방식의 한계를 극복하기 위해 수행되었습니다.#Review#Multimodal Large Language Model#Game Agent#Benchmark#Standardized Evaluation#Computer-Use Agent#Semantic Action Parsing#Outcome-based Evaluation2026년 4월 15일댓글 수 로딩 중
[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.#Review#Large Language Models#Reinforcement Learning#Pre-train Space#Policy Reincarnation#Negative Sample Reinforcement#Reasoning Enhancement2026년 4월 15일댓글 수 로딩 중
[논문리뷰] Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself본 논문은 사전 학습된 피드포워드 3D 재구성 모델이 테스트 시점에 특정 장면의 기하학적 오류를 스스로 보정하지 못하는 경직된 문제를 해결합니다.#Review#Test-Time Adaptation#Multi-View 3D Reconstruction#Self-Supervision#LoRA#Feature Consistency#Feed-Forward Models2026년 4월 15일댓글 수 로딩 중