Review

[논문리뷰] Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

본 논문은 대규모 시각-언어 모델(LVLM)에서 시각 토큰 압축이 모델의 강건성(robustness) 에 미치는 보안적 영향을 최초로 체계적으로 탐구합니다.

#Review #LVLM Security #Token Compression #Adversarial Attack #Robustness Degradation #Compression-Aware Attack #Efficiency-Security Trade-off #Black-box Attack

2026년 1월 26일

[논문리뷰] End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

본 논문은 아동-성인 상호작용에서 정확한 전사 및 화자 역할 분리(speaker role diarization)의 어려움을 해결하는 것을 목표로 합니다.

#Review #End-to-End ASR #Speaker Diarization #Child Speech Processing #Whisper Model #Serialized Output Training #Multi-task Learning #State-Machine Decoding

2026년 1월 26일

[논문리뷰] Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

표준 어텐션 메커니즘의 이차적인 복잡도로 인한 대규모 언어 모델(LLM)의 긴 컨텍스트 시나리오에서의 확장성 병목 현상을 해결하고자 합니다.

#Review #Transformer #Sparse Attention #Adaptive Sparsity #Efficient LLM #Attention Router #Long-Context #Hybrid Attention

2026년 1월 26일

[논문리뷰] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

기존 LLM 에이전트 평가 벤치마크들이 주로 국소적인 추론에 집중하고 실제 환경의 복잡한 전역 제약 최적화, 능동적인 정보 탐색, 세부적인 지역 제약 사항을 충분히 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Long-Horizon Planning #Benchmarking #Verifiable Constraints #Tool Use #Constraint Optimization #Information Acquisition #Travel Planning #Shopping Planning

2026년 1월 26일

[논문리뷰] DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal

본 논문은 학술적 동료 심사 과정에서 중요한 단계인 학술 리버탈(rebuttal)에 대한 자동화된 지원이 부족하고, 기존 LLM 기반 접근 방식이 긴 컨텍스트 이해와 설득력 있는 응답 생성에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Academic Rebuttal #LLM Agents #Peer Review Automation #Generative AI #Retrieval-Augmented Generation (RAG)#Strategic Planning #Persuasion

2026년 1월 26일

[논문리뷰] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

본 논문은 LLM(대규모 언어 모델)이 데이터 준비(Data Preparation) 작업에 미치는 변혁적인 영향을 체계적으로 검토하는 것을 목표로 합니다.

#Review #Data Preparation #LLMs #Data Cleaning #Data Integration #Data Enrichment #AI Agents #Semantic Reasoning #Workflow Automation

2026년 1월 26일

[논문리뷰] CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval

본 논문은 일반적인 임베딩 모델이 테이블 검색에서 겪는 의미론적 압축(semantic compression) 및 쿼리-테이블 불일치 문제를 해결하고, 기존 LLM 기반 검색 증강 방법론인 QGpT의 한계(휴리스틱한 부분 테이블 선택 및 합성 쿼리의 불충분한 활용)를 극복하여 테이블 검색 성능을 향상시키는 것을 목표로 합니다.

#Review #Table Retrieval #LLM Supervision #K-means Clustering #Partial Table #Contrastive Learning #Embedding Fine-tuning #Synthetic Query Generation

2026년 1월 26일

[논문리뷰] Agentic Very Long Video Understanding

본 논문은 항상 켜져 있는 개인 AI 비서가 요구하는 매우 긴 비디오 이해의 과제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Video Understanding #Agentic AI #Entity Graph #Multimodal Reasoning #Video Question Answering #EgoLifeQA #Retrieval Augmented Generation

2026년 1월 26일

[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 생성을 위해 외부 전문가 구성 요소(예: 확산 디코더)에 의존하는 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Multimodal AI #Any-to-Any Generation #Unified Model #Speech Generation #Image Generation #Transformer Decoder #Real-time Streaming

2026년 1월 26일

[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.

#Review #Multimodal Agents #Vision-Language Models (VLMs)#Interactive AI #Reinforcement Learning Environments #Benchmark #Decision-Making #Diagnostic Tools #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

표준 Vision-Language-Action (VLA) 모델이 로봇 제어를 위해 VLM 백본을 미세 조정할 때 발생하는 '파멸적 망각(catastrophic forgetting)' 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action (VLA)#Embodied AI #Robotics #Catastrophic Forgetting #Asymmetric Mixture-of-Transformers (AsyMoT)#Generalist VLM #Specialist VLM #Flow-Matching

2026년 1월 25일

[논문리뷰] SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

본 논문은 소프트웨어 개발을 위한 LLM 에이전트가 긴 컨텍스트로 인해 발생하는 높은 API 비용과 지연 시간 문제를 해결하고자 합니다.

#Review #Context Pruning #Coding Agents #Large Language Models (LLMs)#Software Development #Code Comprehension #Efficiency Optimization #Task-Aware Pruning #CRF

2026년 1월 25일

[논문리뷰] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

비디오 Diffusion Transformer의 긴 입력 시퀀스로 인해 발생하는 높은 계산 지연 시간 문제를 해결하고, 기존의 스파스 어텐션 방식이 가진 제한된 스파시티 또는 과도한 학습 오버헤드 의 한계를 극복하고자 합니다.

#Review #Video Diffusion Models #Sparse Attention #Linear Attention #Computational Efficiency #Transformer Tuning #Video Generation #LoRA #Gating Mechanism

2026년 1월 25일

[논문리뷰] Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

본 논문은 반복적인 비디오 편집 과정에서 기존 Video-to-Video (V2V) Diffusion 모델 들이 순차적인 편집 간의 일관성(cross-consistency) 을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video-to-Video Diffusion #Explicit Memory #Multi-turn Video Editing #Cross-consistency #Dynamic Tokenization #Adaptive Token Merging #Video Novel View Synthesis #Text-guided Video Editing

2026년 1월 25일

[논문리뷰] MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

본 논문은 LLM이 보드게임 디자인에 대한 건설적인 비판을 제공하는 데 있어 나타나는 핵심적인 한계를 해결하고자 합니다. 특히, 정적 규칙에서 잠재된 게임플레이 역학을 추론하고 다양한 플레이어 그룹의 주관적인 경험 이질성을 모델링하여, 기존 시스템이 부족했던 사용자 경험 기반의 피드백을 자동화하는 것을 목표로 합니다.

#Review #Large Language Models #Board Games #Virtual Playtester #User Simulation #Persona Modeling #MDA Framework #Human-AI Collaboration #Critique Generation

2026년 1월 25일

[논문리뷰] Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

본 논문은 터키어 법률 도메인에 특화된 언어 모델인 Mecellem 모델을 개발하여, 비영어권 및 전문 도메인(특히 터키어 법률)에서 대규모 언어 모델의 성능 저하 문제를 해결하는 것을 목표로 합니다. 이를 위해, 스크래치 학습된 인코더 모델과 지속적 사전 훈련(CPT)된 디코더 모델 두 가지 접근 방식을 제시합니다.

#Review #Turkish Legal NLP #Domain Adaptation #ModernBERT #Continual Pre-training (CPT)#Embedding Models #Legal LLMs #Retrieval-Augmented Generation (RAG)#Curriculum Learning

2026년 1월 25일

[논문리뷰] LongCat-Flash-Thinking-2601 Technical Report

본 논문은 장기적인 상호작용과 추론이 요구되는 에이전트 태스크 에서 기존 모델들의 한계를 극복하고, 뛰어난 에이전트 추론 능력을 가진 오픈소스 MoE(Mixture-of-Experts) 대규모 언어 모델인 LongCat-Flash-Thinking-2601 을 개발하는 것을 목표로 합니다.

#Review #Agentic AI #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Reinforcement Learning (RL)#Context Management #Scalable Training #Test-Time Reasoning #Open-Source Model

2026년 1월 25일

[논문리뷰] Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

대규모 언어 모델(LLMs)이 겪는 '지식 단절(knowledge cutoff)' 문제와, 지도 미세 조정(SFT)이 새로운 지식 통합 시 추론 능력 향상에 한계가 있으며, 강화 학습(RL)은 온라인 적응에 비실용적으로 비싼 비용 문제를 해결하는 것이 목표입니다.

#Review #LLMs #Continual Adaptation #Reinforcement Learning #Supervised Fine-Tuning #Skill Transfer #Task Arithmetic #Tool Use

2026년 1월 25일

[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning #FP8 Quantization #LLM Training #On-Policy RL #Unified Precision Flow #Training Efficiency #Rollout Acceleration

2026년 1월 25일

[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.

#Review #Deep Research Agents #Inference-Time Verification #Self-Evolving LLM Agents #Rubric-Guided Feedback #Failure Taxonomy #Test-Time Scaling #Supervised Fine-tuning

2026년 1월 25일