Review

[논문리뷰] Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

본 논문은 코드 스위칭 검색 시스템의 성능 평가를 위해 인간이 주석을 단 CSR-L 벤치마크를 구축하고, 11개 작업을 포함하는 CS-MTEB를 통해 그 영향력을 정량적으로 분석하였다. 실험 결과, 쿼리 내 코드 스위칭만으로도 강력한 다국어 모델을 포함한 대부분의 시스템에서 유의미한 성능 저하가 발생함이 확인되었다.

#Review #Information Retrieval #Code-Switching #Benchmark #Embedding Models #Robustness #Late-Interaction #Lexicon-Based Adaptation

2026년 4월 21일

[논문리뷰] CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

본 논문은 사람·물체·텍스트·음성을 입력으로 받는 인간-객체 상호작용(HOI) 비디오 합성에서, 손과 얼굴의 구조적 안정성과 물리적으로 타당한 접촉을 보장하기 위해 Human-Aware MoE와 Spatially-Structured Co-Generation을 결합한 CoInteract을 제안합니다.

#Review #Human-Object Interaction #Diffusion Transformer #Video Synthesis #Mixture of Experts #Physical Consistency #Co-Generation

2026년 4월 21일

[논문리뷰] ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

본 논문은 기존의 단일 사용자 중심 에이전트 시스템이 가진 구조적 한계를 극복하고, 사용자 간의 자율적인 협업을 위한 거버넌스 체계를 구축하고자 합니다.

#Review #Human-Symbiotic #Agent Framework #Identity Governance #Scoped Authorization #Accountability #Cross-User Collaboration

2026년 4월 21일

[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.

#Review #Agentic Workflow #Benchmark #Large Language Models #Visual Programming #Executable Workflow #Task Automation

2026년 4월 21일

[논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

저자들은 다양한 규모의 MRM 및 MLM 백본을 대상으로 CoT와 Non-CoT 프롬프트를 비교 평가하는 방법론을 수행하였습니다. 실험 결과, 17개 중 대다수의 모델에서 CoT 프롬프트를 사용했을 때 시각적 공간 추론 정확도가 평균적으로 하락하는 경향이 관찰되었습니다 .

#Review #Multimodal Reasoning Models #Chain-of-Thought #Visual Spatial Reasoning #Shortcut Learning #Hallucination #No-Image Ablation

2026년 4월 21일

[논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

본 논문은 임의의 불규칙한 Sparse-view로부터 고품질의 대규모 3D 장면을 복원하는 문제를 해결하고자 합니다. 기존의 확산 모델 기반 연구들은 소수의 참조 뷰에만 의존하거나, 3D 기하학적 정보를 명시적으로 통합하지 못해 복잡한 장면에서 일관성을 유지하는 데 한계가 있습니다.

#Review #3D Reconstruction #Video Diffusion Model #Sparse-view #Geometry-Aware #Global Scene Memory

2026년 4월 21일

[논문리뷰] Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

본 논문은 문서 청킹을 텍스트 생성이 아닌 '계획 문제(Planning Problem)'로 재정의하여 W-RAC를 제안합니다. 이 시스템은 세 단계로 구성되는데, 먼저 웹 콘텐츠를 구조화하여 ID를 할당하고, LLM은 오직 ID 리스트 기반의 최적 그룹화 계획만을 수립하며, 마지막으로 로컬에서 ID를 매핑하여 최종 청크를 조립합니다 .

#Review #Retrieval-Augmented Generation #Document Chunking #Web Parsing #Cost-Efficiency #Semantic Planning #Scalability

2026년 4월 19일

[논문리뷰] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

본 논문은 AI 비디오 편집 시스템의 품질을 다차원적으로 객관적이고 표준화하여 평가할 수 있는 체계의 부재 문제를 해결한다. 기존의 비디오 생성 평가 모델들은 편집 특유의 요구사항인 '의도한 편집의 수행 여부'와 '편집 대상 외 영역의 보존 여부'를 충분히 고려하지 못하는 한계가 있다.

#Review #Video Editing #Reward Model #Benchmark #Instruction Following #Human Alignment

2026년 4월 19일

[논문리뷰] TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation

본 논문은 PDAC 세그멘테이션과 같이 전문가 간 의견 불일치가 빈번한 의료 영상 분석에서 기존의 단일 정답 기반 모델이 과도하게 높은 확신(overconfidence)을 보이는 문제를 해결하고자 합니다.

#Review #PDAC #Multi-rater Calibration #Medical Image Segmentation #Isotonic Regression #MHR #Uncertainty Estimation #Deep Ensemble

2026년 4월 19일

[논문리뷰] TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

본 논문은 패치 수준의 증류(distillation) 과정이 정렬 능력을 크게 향상시킨다는 통찰을 바탕으로 TIPSv2 프레임워크를 제안한다. 저자들은 마스킹된 패치뿐만 아니라 모든 패치에 손실을 적용하는 iBOT++ 기법을 통해 학생 모델이 교사 모델의 표현을 더욱 강력하게 학습하도록 유도한다 .

#Review #Vision-Language Pretraining #Patch-Text Alignment #iBOT++#Masked Image Modeling #Distillation #Head-only EMA

2026년 4월 19일

[논문리뷰] Repurposing 3D Generative Model for Autoregressive Layout Generation

본 논문은 텍스트 기반 3D layout 생성 방식이 가진 물리적 불일치와 계산 효율성 문제를 해결하기 위해 LaviGen을 제안한다.

#Review #Autoregressive Layout Generation #3D Generative Models #Diffusion Models #Exposure Bias #Dual-Guidance Self-Rollout

2026년 4월 19일

[논문리뷰] Qwen3.5-Omni Technical Report

본 논문은 기존 멀티모달 모델이 지닌 수동적 인식-반응 패러다임의 한계를 극복하고, 실제 환경에서 요구되는 에이전트적 행위 및 실시간 상호작용 능력을 갖춘 통합 모델을 구현하고자 합니다.

#Review #Omnimodal #Thinker-Talker Architecture #ARIA #Hybrid MoE #Streaming Inference #Audio-Visual Vibe Coding

2026년 4월 19일

[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .

#Review #QuantCode-Bench #Large Language Models #Algorithmic Trading #Backtrader #Code Generation #Agentic Workflow #Domain-Specific Benchmarking

2026년 4월 19일

[논문리뷰] PersonaVLM: Long-Term Personalized Multimodal LLMs

본 논문은 기존 MLLM이 고정된 컨텍스트 윈도우와 'one-size-fits-all' 패러다임에 갇혀, 시간이 지남에 따라 변하는 사용자의 취향과 성격을 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Long-term Personalization #Memory Architecture #Personality Alignment #Agent Framework #Reinforcement Learning

2026년 4월 19일

[논문리뷰] PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

본 논문은 기존 벤치마크들이 실제 과학 연구의 핵심인 탐색적 성격과 절차적 복잡성을 제대로 평가하지 못하는 문제를 해결하고자 한다.

#Review #PRL-Bench #LLMs #Scientific Benchmarks #Physics Research #End-to-End Workflow #Long-horizon Reasoning #Agentic Science

2026년 4월 19일

[논문리뷰] NTIRE 2026 Challenge on Video Saliency Prediction: Methods and Results

본 챌린지에서는 총 2,000개의 다양한 비디오로 구성된 새로운 데이터셋을 활용하였으며, 7개의 최종 팀이 제안한 모델들을 평가했습니다. 우승 팀인 iLearn은 InternVideo2 백본을 공유하고 두 개의 상호 보완적인 디코더를 앙상블(Ensemble)하는 다중 전문가 프레임워크를 제안했습니다 .

#Review #Video Saliency Prediction #Crowdsourcing #Foundation Models #Spatiotemporal Modeling #NTIRE 2026 Challenge

2026년 4월 19일

[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.

#Review #Vision-Language Models #Visual Reasoning #Overthinking #Reinforcement Learning #Chain-of-Thought #Efficiency

2026년 4월 19일

[논문리뷰] Hierarchical Codec Diffusion for Video-to-Speech Generation

본 논문은 기존 VTS 방법론들이 음성의 계층적 구조를 간과함으로써 시각 정보와 음성 특징 간의 효과적인 정렬에 한계를 보이는 문제를 해결하고자 한다.

#Review #Video-to-Speech #Discrete Diffusion Models #Hierarchical Modeling #Audio-Visual Alignment #Residual Vector Quantization #Transformer

2026년 4월 19일

[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

본 논문은 기존의 도구 사용 벤치마크가 실제 생산성 워크플로우의 복잡성을 제대로 반영하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 벤치마크들은 주로 AI가 생성한 쿼리나 가상의 도구에 의존하며, 단기적이고 폐쇄적인 작업에 국한되어 있습니다.

#Review #Autonomous LLM Agents #Agent Evaluation #General AI Assistant #Tool-use #Workflow Management

2026년 4월 19일

[논문리뷰] Elucidating the SNR-t Bias of Diffusion Probabilistic Models

저자들은 SNR-t bias를 완화하기 위해 DCW (Differential Correction in Wavelet domain)를 제안합니다 . 이 방법론은 학습 없이(training-free) 추론 단계에서 적용 가능한 플러그 앤 플레이 방식의 differential correction을 수행합니다.

#Review #Diffusion Probabilistic Models #SNR-t Bias #Differential Correction #Wavelet Domain #Generation Quality #Training-free

2026년 4월 19일