Review

[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.

#Review #LLM #Unit Test Maintenance #Software Engineering #Code Generation #Test Repair #Test Updating #Benchmark #Mutation Testing #Code Coverage

2026년 2월 1일

[논문리뷰] Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

이 논문은 대규모 언어 모델(LLMs)의 안전성 평가가 단일 시도(single-shot) 또는 저예산 공격에만 초점을 맞춰 실제 위협을 과소평가하는 문제를 해결하고자 합니다.

#Review #LLM Safety #Adversarial Robustness #Best-of-N Sampling #Statistical Estimation #Beta-Binomial Model #Jailbreak #Risk Amplification

2026년 2월 1일

[논문리뷰] SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)에서 이진 보상(binary rewards) 의 한계(최적화 모호성, 학습 비효율성, 정책 취약성)를 해결하고자 합니다.

#Review #Reinforcement Learning #Reward Shaping #Agent Optimization #GUI Automation #Complex Reasoning #Sample Efficiency #Tiered Rewards

2026년 2월 1일

[논문리뷰] Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

본 논문은 Lottery Ticket Hypothesis (LTH) 가 하나의 보편적인 'winning ticket'을 가정하여 실제 데이터의 내재된 이질성을 간과하는 한계를 해결하고자 합니다.

#Review #Pruning #Lottery Ticket Hypothesis #Adaptive Subnetworks #Heterogeneous Data #Model Efficiency #Conditional Computation #Subnetwork Collapse

2026년 2월 1일

[논문리뷰] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

본 논문은 대규모 언어 모델(LLMs), 특히 소형 LLMs가 다중 턴 도구 실행에서 발생하는 실행 오류로부터 취약하고, 오류 발생 시 반복적인 무효 호출에 빠지는 문제를 해결하고자 합니다.

#Review #Tool Use #Execution Errors #Error Recovery #Reinforcement Learning #LLMs #Agentic AI #GRPO #FISSION

2026년 2월 1일

[논문리뷰] Revisiting Diffusion Model Predictions Through Dimensionality

확산 모델(Diffusion Models)에서 데이터의 내재적 차원(intrinsic dimension) 과 주변 차원(ambient dimension) 에 따라 최적의 예측 대상(prediction target: ε, v, x)이 달라지는 현상에 대한 정량적이고 이론적인 설명 을 제공하고, 예측 대상을 데이터 기반으로 자동으로 학습 하는 방법을 개발하는 것이 주된 목표입니다.

#Review #Diffusion Models #Prediction Target #Dimensionality #Latent Space #Pixel Space #Generative Models #Theoretical Analysis #k-Diff

2026년 2월 1일

[논문리뷰] ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

본 연구는 LLM의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 높은 계산 비용 과 추론 비효율성 을 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought #Variational Autoencoder #Visual-Text Compression #LLMs #Multi-modal Reasoning #Computational Efficiency

2026년 2월 1일

[논문리뷰] RM -RF: Reward Model for Run-Free Unit Test Evaluation

본 연구의 핵심 목표는 자동으로 생성된 유닛 테스트의 품질을 컴파일 및 실행 과정 없이 평가할 수 있는 경량 리워드 모델(RM-RF) 을 개발하는 것입니다.

#Review #Unit Test Generation #Reward Model #Reinforcement Learning #Code Coverage #Mutation Testing #Large Language Models #Run-Free Evaluation #Software Engineering Automation

2026년 2월 1일

[논문리뷰] Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

본 논문은 대규모 언어 모델(LLMs)의 확률적 토큰 예측 과정에서 발생하는 논리적 불일치와 보상 해킹 문제를 해결하고, 이를 통해 자연어 추론의 신뢰성과 정확성을 향상시키는 것을 목표로 합니다.

#Review #LLM Reasoning #Formal Verification #Neuro-Symbolic AI #Reinforcement Learning #Supervised Fine-tuning #Logic Consistency #Mathematical Reasoning

2026년 2월 1일

[논문리뷰] PaperBanana: Automating Academic Illustration for AI Scientists

AI 과학자들을 위한 학술 출판용 일러스트레이션(방법론 다이어그램 및 통계 플롯) 생성 과정의 노동 집약적인 병목 현상을 해소하고 자동화하는 것을 목표로 합니다. 이를 통해 연구 워크플로우를 가속화하고 높은 품질의 시각적 커뮤니케이션 도구에 대한 접근성을 민주화하고자 합니다.

#Review #Automated Illustration Generation #Agentic Framework #Vision-Language Model #Image Generation #Methodology Diagrams #Statistical Plots #Academic Publishing #Iterative Refinement

2026년 2월 1일

[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Visual Language Model (VLM)#Robustness #Multi-task Learning #Layout Analysis #OCR #Real-world Scenarios #Parameter Efficiency

2026년 2월 1일

[논문리뷰] MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

본 논문은 LLM 기반 에이전트의 장기적 추론 시 발생하는 제한된 컨텍스트 창 문제를 해결하는 것을 목표로 합니다. 기존 텍스트 기반 메모리 시스템의 균일한 정보 밀도 문제를 극복하고, 시각적 레이아웃을 통해 적응적 정보 밀도 를 구현하여 적은 예산으로도 효과적인 장기적 추론 능력을 향상시키고자 합니다.

#Review #Long-Horizon Reasoning #Multimodal Memory #Visual Layout #Adaptive Information Density #Reinforcement Learning #Context Window #Large Language Models

2026년 2월 1일

[논문리뷰] Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

논문은 LLM의 CoT(Chain-of-Thought) 추론 이 가진 높은 연산 비용과 이산 토큰 샘플링으로 인한 추론 경로 붕괴 문제를 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Planning #Reinforcement Learning #Mathematical Reasoning #Decoupling #Interpretability

2026년 2월 1일

[논문리뷰] FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

본 논문은 확산 언어 모델(dLLMs)의 비자기회귀적 잠재력을 완전히 활용하기 위해 기존 디코딩 전략의 위치 편향 문제 를 해결하고자 합니다. 이를 통해 dLLMs가 임의 순서 생성의 유연성을 발휘하고 전역적 양방향 문맥을 활용하여 출력의 전반적인 품질과 논리적 일관성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Non-Autoregressive Generation #Frequency Domain Analysis #Decoding Strategy #Structure-to-Detail #Fourier Transform #Text Generation

2026년 2월 1일

[논문리뷰] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

본 논문은 정적 이미지에 운전 비디오의 움직임을 적용하여 고품질 애니메이션 비디오를 생성하는 캐릭터 이미지 애니메이션의 두 가지 근본적인 문제점을 해결하고자 합니다.

#Review #Character Animation #Image Animation #Spatiotemporal Learning #In-Context Learning #Diffusion Models #Motion Transfer #Generalization #Video Generation

2026년 2월 1일

[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

본 논문은 Flow Matching Model 의 인간 선호도 정렬 과정에서 발생하는 희소 보상(Sparse Reward) 문제 를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching Models #Dense Reward #Sparse Reward Problem #Preference Alignment #SDE Sampler #GRPO #Text-to-Image Generation

2026년 2월 1일

[논문리뷰] Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

대규모 언어 모델(LLM) 기반 딥 서치 에이전트가 다단계 태스크 수행 중 추론 및 검색 상태를 모니터링하고 조절하는 메커니즘이 부족하여 발생하는 체계적인 실패 문제를 해결하는 것이 목표입니다.

#Review #Deep Search Agent #Meta-Cognitive Monitoring #Hierarchical Monitoring #Large Language Models #Cognitive Neuroscience #Uncertainty Calibration

2026년 2월 1일

[논문리뷰] DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

본 연구는 사전 훈련된 Vision Foundation Model (VFM) 기반의 생성형 오토인코더가 겪는 낮은 재구성 충실도(fidelity) 문제를 해결하고, 동시에 효율적인 이미지 생성 능력을 유지하는 것을 목표로 합니다.

#Review #Autoencoder #DINO #Vision Foundation Models #Image Generation #Image Reconstruction #Spherical Manifold #Diffusion Models #Flow Matching

2026년 2월 1일

[논문리뷰] Continual GUI Agents

본 연구는 GUI(Graphical User Interface) 에이전트가 새로운 도메인이나 해상도 변화와 같은 동적인 디지털 환경(데이터 분포의 변화)에서 성능 저하 없이 지속적으로 학습(continual learning) 할 수 있도록 하는 새로운 태스크인 Continual GUI Agents 를 정의합니다.

#Review #Continual Learning #GUI Agents #Reinforcement Learning #Grounding #Domain Adaptation #Resolution Adaptation #Reward Shaping #Human-Computer Interaction

2026년 2월 1일

[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

논문은 도구-증강 언어 모델 에이전트 훈련의 어려움(수동 개입, 검증 불가능한 시뮬레이션 환경, 불안정한 장기/다중 턴 학습)을 해결하기 위해 완전히 자동화된 종단 간 프레임워크 ASTRA 를 제안합니다.

#Review #LLM Agent #Tool Use #Trajectory Synthesis #Reinforcement Learning #Environment Synthesis #Data Generation #Multi-turn Interaction #Automated Training

2026년 2월 1일