Review

[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.

#Review #AI Agents #Software Engineering #LLMs #Code Generation #Benchmark #Contamination Resistance #Long-Horizon Tasks #Enterprise Software

2025년 9월 23일

[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.

#Review #Process Reward Models #Monte Carlo Annotation #Noise Denoising #Robust Learning #Self-Supervision #Mathematical Reasoning #Large Language Models

2025년 9월 23일

[논문리뷰] Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

본 연구는 LLM의 기초적인 기호 추론 능력을 향상시키기 위한 확장 가능한 RLVR (Reinforcement Learning with Verifiable Rewards) 환경인 Reasoning Core 를 소개합니다.

#Review #LLM Reasoning #Symbolic AI #Reinforcement Learning #Procedural Content Generation #Verifiable Rewards #Adaptive Curricula #First-Order Logic #PDDL Planning

2025년 9월 23일

[논문리뷰] Qwen3-Omni Technical Report

본 논문은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티 전반에 걸쳐 단일 멀티모달 모델(Qwen3-Omni) 이 기존 단일 모달 모델과 비교하여 성능 저하 없이 최첨단 성능을 유지 하는 것을 목표로 합니다. 또한, 교차 모달 추론 능력 과 실시간 시청각 상호작용 을 향상시키는 것을 주된 연구 목적으로 삼습니다.

#Review #Multimodal Model #Thinker-Talker Architecture #Mixture-of-Experts #Low-latency #Audio Understanding #Cross-modal Reasoning #State-of-the-Art #Real-time Interaction

2025년 9월 23일

[논문리뷰] QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

본 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위해 양자화-인식(Quantization-Aware) PEFT (Parameter-Efficient Fine-Tuning) 방법을 개발하여, 양자화된 모델의 낮은 비트 환경에서 정확도를 높이고 동시에 훈련 효율성을 개선 하는 것을 목표로 합니다.

#Review #LLM Fine-tuning #Quantization-Aware PEFT #Walsh-Hadamard Transform #Sparse Adaptation #Low-bit Quantization #Parameter-Efficient Learning

2025년 9월 23일

[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.

#Review #Video Insertion #Diffusion Models #Diffusion Transformers #Mask-Free #Data Augmentation #Progressive Training #Preference Optimization #Video Generation

2025년 9월 23일

[논문리뷰] MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

기존 멀티모달 검색 방법론들이 단일 벡터 임베딩의 표현력 한계에 부딪히거나, 다수의 토큰으로 인한 다중 벡터 방식의 계산 비용 문제로 확장성에 제약을 받는 문제를 해결하고자 합니다. 유연한 테스트 시간 임베딩 세분화 제어를 통해 확장 가능하며 높은 정확도를 유지하는 멀티모달 검색 패러다임을 개발하는 것이 주 목표입니다.

#Review #Multimodal Retrieval #Late Interaction #Meta Tokens #Matryoshka Representation Learning #Test-Time Scaling #Vision-Language Models #Dense Retrieval #Efficiency

2025년 9월 23일

[논문리뷰] Mano Report

본 논문은 시각적 복잡성, 동적 환경, 다단계 추론 요구사항으로 인해 어려운 GUI 상호작용 자동화 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Agent #Multi-modal Foundation Model #Reinforcement Learning #Supervised Fine-tuning #Simulated Environment #Data Generation #Error Recovery #Web Automation

2025년 9월 23일

[논문리뷰] LIMI: Less is More for Agency

현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.

#Review #AI Agency #Data Curation #Less Is More #Agentic Intelligence #Foundation Models #Evaluation Benchmark #Efficiency Principle #Large Language Models

2025년 9월 23일

[논문리뷰] GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 기하학적 추론과 같은 시각 집중 태스크에서 자주 발생하는 환각 현상 과 부정확한 추론 문제를 해결하고자 합니다. 이러한 문제의 근본 원인인 MLLM의 시각적 인지 병목 현상 을 정량화하고, 이를 극복하여 추론 훈련의 효과를 극대화하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Geometric Reasoning #Visual Perception #Reinforcement Learning (RL)#Two-stage Training #GeoPQA Benchmark #Perceptual Bottleneck

2025년 9월 23일

[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Policy Optimization #Token Heterogeneity #Adaptive Sampling #Advantage Redistribution #Asymmetric Clipping #Entropy-based RL

2025년 9월 23일

[논문리뷰] From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem

오픈 소스 AI 생태계 내에서 데이터셋, 모델, 그리고 이를 활용하는 소프트웨어 애플리케이션 전반에 걸쳐 발생하는 라이선스 충돌과 '라이선스 드리프트'의 정도를 정량적으로 파악하는 것입니다.

#Review #Open-Source AI #License Compliance #License Drift #AI Supply Chain #Hugging Face #GitHub #LicenseRec #Legal Risk

2025년 9월 23일

[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

본 논문은 최신 대규모 추론 모델(LRMs) 을 자동으로 검증 가능한 텍스트 및 시각 질문 에 대해 오염 없는(contamination-free) 방식으로 평가하는 예비 보고서입니다.

#Review #Large Reasoning Models #LLM Evaluation #Multimodal AI #Reasoning Behaviors #Hallucination #Contamination-Free #AI Safety #Instruction Following

2025년 9월 23일

[논문리뷰] EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

대규모 언어 모델(LLM) 기반의 장기 대화형 질문 답변(LongConvQA) 시스템에서 KV 캐시의 메모리 사용량이 대화 길이에 따라 선형적으로 증가 하는 문제를 해결하는 것이 목표입니다.

#Review #KV Cache Management #Long Conversational QA #LLMs #Memory Efficiency #Episodic Clustering #Block Prefill Eviction #Sensitivity-aware Allocation

2025년 9월 23일

[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward Process

본 논문은 확산 모델의 온라인 강화 학습(RL) 적용 시 발생하는 고유한 문제점, 즉 다루기 어려운 가능도(likelihoods)와 역방향 샘플링 과정의 제약사항을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Online RL #Flow Matching #Forward Process #CFG-free #Image Generation #Negative-Aware FineTuning

2025년 9월 23일

[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

대규모 언어 모델(LLMs)이 서구 문화에 편향된 훈련 데이터로 인해 문화적 적합성과 지역적 다양성 측면에서 부족하다는 문제를 해결하고자 합니다.

#Review #Cultural Adaptation #Large Language Models #Indian Culture #Dataset Creation #CSI #Human Evaluation #LLM Evaluation #Cultural Bias

2025년 9월 23일

[논문리뷰] Cross-Attention is Half Explanation in Speech-to-Text Models

본 논문은 S2T 모델에서 교차 어텐션(cross-attention) 점수가 입력-출력 의존성을 얼마나 잘 설명하는지 체계적으로 분석합니다.

#Review #Cross-attention #Speech-to-Text (S2T)#Explainable AI (XAI)#Saliency Maps #Feature Attribution #Transformer #Context Mixing #Correlation

2025년 9월 23일

[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

훈련 없이 비디오 객체 편집(삽입, 교체, 삭제)을 수행할 때 발생하는 정확한 인버전 실패와 부적절한 특성 대체로 인한 문맥적 충돌 문제를 해결하고, 특히 Diffusion Transformer (DiT) 기반 모델 에서 고품질 및 시간적 일관성을 유지하는 비디오 객체 편집 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Video Object Editing #Training-Free #Diffusion Transformers #Rectified Flow #Adaptive Context Enrichment #Guidance Responsiveness #Temporal Consistency #Image-to-Video

2025년 9월 23일

[논문리뷰] CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

기존 LLM 기반 코드 리뷰(CR) 벤치마크가 겪는 '현실성 격차'(reality gap) 문제를 해결하고자 합니다.

#Review #Code Review #LLMs #Benchmark #Python Projects #End-to-End Evaluation #Context-Awareness #Software Engineering #LLM-as-a-Judge

2025년 9월 23일

[논문리뷰] ByteWrist: A Parallel Robotic Wrist Enabling Flexible and Anthropomorphic Motion for Confined Spaces

이 논문은 기존 로봇 손목이 좁고 제한된 공간에서의 작업 시 겪는 유연성, 컴팩트함, 동적 응답성 한계를 해결하고자 합니다. 특히, 유연하고 인간과 유사한 움직임을 가능하게 하는 동시에, 컴팩트함과 강성을 유지하는 새로운 병렬 로봇 손목 ByteWrist 를 개발하는 것이 주된 연구 목표입니다.

#Review #Robotics #Parallel Manipulator #Robotic Wrist #Confined Space Manipulation #Kinematics #Anthropomorphic Robot #Robot Design

2025년 9월 23일