[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다.#Review#Image Generation#Agentic Workflow#Self-Evolving#Visual Experience Distillation#Tool-Orchestrated#On-Policy Distillation#Multimodal Agent2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention본 논문은 Linear Attention 기반 모델들에서 메모리 편집의 핵심인 erase(제거)와 write(삽입) 동작이 단일 scalar gate에 의해 묶여 있는 구조적 한계를 해결하고자 합니다.#Review#Linear Attention#Recurrent Neural Networks#Delta Rule#Fast-Weight Memory#Selective State Space#Chunkwise Parallel Training#Long-Context Retrieval2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps본 논문은 Long-context 추론 시 발생하는 full attention의 이차 비용(quadratic cost) 문제를 해결하기 위해 효율적인 스파스(sparse) 구조로의 전환을 제안한다.#Review#Long-context LLM#Sparse Attention#Head Specialization#Dynamic Top-pp Selection#Efficient Inference#Self-distillation2026년 5월 21일댓글 수 로딩 중
[논문리뷰] From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning본 논문은 난도가 높은 추론 문제에 대해 기존의 RLVR 방식이 가지는 효율성 한계를 해결하고자 한다 . 고난도 문제에서는 최종 정답에 도달하는 경로가 매우 희소하여, 모델이 중간 단계에서 올바른 추론을 수행하더라도 이를 학습 신호로 적절히 환원하기 어렵다.#Review#Curriculum Reinforcement Learning#LLM Reasoning#Credit Assignment#Verifiable Rewards#Subproblem Decomposition#RLVR2026년 5월 21일댓글 수 로딩 중
[논문리뷰] FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching본 논문은 비디오 Diffusion 모델의 생성 범위를 학습된 문맥 길이 이상으로 확장하는 과정에서 발생하는 품질 저하와 시간적 일관성 문제를 해결하고자 합니다.#Review#Long Video Generation#Flow Matching#Tweedie Matching#Stochastic Early-Phase Sampling#Inference-time Framework#Diffusion Models2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Diversed Model Discovery via Structured Table Discovery본 논문은 기존의 모델 검색 시스템이 텍스트 중심의 시맨틱 유사도에 과도하게 의존하여 결과의 다양성을 저해하고 비교 가능한 정보를 충분히 제공하지 못하는 문제를 해결하고자 한다.#Review#Model Lake#Model Search#Structured Semantic Search#Table Discovery#Nugget-based Evaluation#Model Cards2026년 5월 21일댓글 수 로딩 중
[논문리뷰] DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards본 논문은 시퀀스 단위의 보상을 토큰 단위의 학습 신호로 변환할 때 발생하는 불투명성을 해결하기 위해 DelTA를 제안합니다. 기존의 RLVR 방식은 응답 전체에 대해 단일 스칼라 보상을 부여하지만, 실제 정책 업데이트는 토큰별로 이루어지므로 Granularity(세분성)의 불일치가 존재합니다.#Review#RLVR#Credit Assignment#Discriminator#Policy-Gradient#Token-Level#Centroid2026년 5월 21일댓글 수 로딩 중
[논문리뷰] DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders본 논문은 RAE의 frozen VFM 인코더가 갖는 낮은 공간적 재구성 능력이 고품질 이미지 생성 및 세밀한 편집을 제한하는 문제를 해결하고자 합니다. 기존의 RAE 모델은 고수준의 의미론적 정보를 잘 유지하지만, VFM 학습 목적 상 색상이나 텍스처와 같은 저수준 세부 정보가 누락되는 경향이 있습니다 .#Review#Representation Autoencoders#Vision Foundation Models#Detail-Condensing Queries#Latent Diffusion Models#Image Tokenizer#Reconstruction-Generation Trade-off2026년 5월 21일댓글 수 로딩 중
[논문리뷰] ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning본 연구는 기존 의료용 LLM 및 agentic 시스템이 이미 정제된 evidence에만 의존하는 수동적 패러다임에 갇혀 있다는 문제의식에서 출발한다.#Review#ClinSeekAgent#Agentic Clinical Reasoning#Multimodal Evidence Seeking#EHR Retrieval#Clinical Decision Support#LLM Agent#Trajectory Distillation2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion본 논문은 현대의 MLLM과 영상 확산 모델(Diffusion Model)이 각각 고도의 추론 능력과 사실적 합성 능력을 갖추고 있음에도 불구하고, 이들을 효과적으로 통합하는 프레임워크가 부족하다는 점에 주목합니다.#Review#Video Diffusion#Multimodal Large Language Models#Latent Semantic Planning#Diffusion Transformer#Video Editing#Chain-of-Thought2026년 5월 21일댓글 수 로딩 중
[논문리뷰] ACC: Compiling Agent Trajectories for Long-Context Training본 연구는 기존 에이전트 학습(SFT)이 도구 응답을 차단함으로써 장거리 컨텍스트 상의 핵심 증거를 활용하지 못하는 Supervision Blind Spot 문제를 해결하고자 합니다.#Review#Agent Trajectories#Long-Context Training#Supervision Blind Spot#Agent Context Compilation#Dependency Modeling#Expert Specialization2026년 5월 21일댓글 수 로딩 중
[LlamaFactory] LlamaFactory의 Triton 기반 Fused MoE 커널 도입: 40% 이상의 성능 향상Triton으로 구현된 Fused MoE 커널을 통해 Mixtral 등 MoE 모델의 학습 속도를 획기적으로 개선합니다.#LlamaFactory#Triton#MoE#DeepLearning#Optimization2026년 5월 20일댓글 수 로딩 중
[sglang] Qwen3.5 및 Qwen3_Next 모델의 NPU 성능 향상을 위한 Triton 커널 퓨전 최적화NPU 환경에서 Qwen3.5 및 Qwen3_Next 모델의 어텐션 레이어 성능을 극대화하는 Triton 커널 퓨전 최적화 분석#NPU#Triton#Kernel Fusion#Optimization#Qwen3.5#Qwen3_Next#LLM2026년 5월 20일댓글 수 로딩 중
[cpython] Tachyon 프로파일러의 성능 한계를 돌파하다: CPython 원격 디버깅 최적화 분석원격 프로세스 메모리 읽기 최적화와 캐시 전략 개선을 통해 Tachyon 프로파일러의 오버헤드를 획기적으로 줄인 사례를 분석합니다.#Python#CPython#Profiling#Performance#Linux#Systems Programming2026년 5월 20일댓글 수 로딩 중
[논문리뷰] iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance기존의 비디오 가상 피팅(VVT) 연구는 주로 피동적인 피사체나 단순한 움직임만을 다루어, 실제 이커머스 라이브 스트리밍 등에서 발생하는 인간-의류 간의 복잡한 상호작용을 포착하지 못한다는 한계가 있습니다.#Review#Video Virtual Try-On#Interactive VVT#Diffusion Transformer#3D Hand Prior#Action-aware Semantic Guidance#Action-aware Constraint Loss2026년 5월 20일댓글 수 로딩 중
[논문리뷰] You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories본 연구는 고비용의 RLVR 학습 과정에서 발생하는 막대한 컴퓨팅 자원 소비 문제를 해결하기 위해 고안되었습니다. 기존의 RLVR은 성능 향상을 위해 방대한 최적화 단계가 필수적이지만, 학습 궤적의 기하학적 구조에 대한 이해가 부족하여 효율적인 최적화가 어려웠습니다.#Review#RLVR#LLMs#Low-rank#Extrapolation#SVD#Training-free#Parameter Trajectories2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining본 논문은 GUI 에이전트의 일반화 성능을 저해하는 대규모 학습 데이터의 부족 문제를 해결하고자 합니다. 기존 연구들은 고비용의 수동 주석 데이터셋이나 제한적인 시뮬레이션 환경에 의존하여 확장성에 한계를 보입니다.#Review#GUI Agent#Pretraining#Interaction Trajectory#Multimodal Large Language Models#Scalable Data Synthesis#Action Grounding2026년 5월 20일댓글 수 로딩 중
[논문리뷰] UniT: Unified Geometry Learning with Group Autoregressive Transformer본 논문은 기존의 Feed-forward 기하학적 인식 모델들이 파편화되어 있다는 문제를 해결하고자 합니다. 현재 연구들은 온라인 스트리밍 인식, 오프라인 다중 뷰 재구성, metric-scale 추정, 긴 시퀀스 확장성 등 각기 다른 Paradigm에 집중하고 있어 통합적인 프레임워크가 부재합니다.#Review#Geometry Perception#Group Autoregressive Transformer#Metric-scale Estimation#Long-horizon Scalability#Multi-modal Fusion#Feed-forward Model2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning본 연구는 UMM 학습 시 이해와 생성 작업 간에 발생하는 아키텍처적 충돌과 이로 인한 성능 트레이드오프 문제를 해결하고자 한다. 기존의 다중 작업 학습(Multi-task learning)은 복잡한 파이프라인과 데이터 균형 조정 기법을 필요로 하며, 종종 한 작업의 성능 향상이 다른 작업의 저하를 초래하는 한계가 있다.#Review#Unified Multimodal Models#Intelligent Image Editing#Instruction Tuning#Data Synthesis#Multi-task Learning#Reasoning-intensive2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Toto 2.0: Time Series Forecasting Enters the Scaling Era본 논문은 TSFM(Time Series Foundation Models)이 NLP나 Vision 모델과 달리 모델 크기가 커져도 예측 성능이 정체되거나 저하되는 Scaling의 불확실성 문제를 해결하고자 합니다.#Review#Time Series Foundation Models#Scaling Laws#Contiguous Patch Masking#u-μP#Quantile Output Head#NorMuon#Observability Metrics2026년 5월 20일댓글 수 로딩 중