[논문리뷰] Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers본 논문은 코드 스위칭 검색 시스템의 성능 평가를 위해 인간이 주석을 단 CSR-L 벤치마크를 구축하고, 11개 작업을 포함하는 CS-MTEB를 통해 그 영향력을 정량적으로 분석하였다. 실험 결과, 쿼리 내 코드 스위칭만으로도 강력한 다국어 모델을 포함한 대부분의 시스템에서 유의미한 성능 저하가 발생함이 확인되었다.#Review#Information Retrieval#Code-Switching#Benchmark#Embedding Models#Robustness#Late-Interaction#Lexicon-Based Adaptation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation본 논문은 사람·물체·텍스트·음성을 입력으로 받는 인간-객체 상호작용(HOI) 비디오 합성에서, 손과 얼굴의 구조적 안정성과 물리적으로 타당한 접촉을 보장하기 위해 Human-Aware MoE와 Spatially-Structured Co-Generation을 결합한 CoInteract을 제안합니다.#Review#Human-Object Interaction#Diffusion Transformer#Video Synthesis#Mixture of Experts#Physical Consistency#Co-Generation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation본 논문은 기존의 단일 사용자 중심 에이전트 시스템이 가진 구조적 한계를 극복하고, 사용자 간의 자율적인 협업을 위한 거버넌스 체계를 구축하고자 합니다.#Review#Human-Symbiotic#Agent Framework#Identity Governance#Scoped Authorization#Accountability#Cross-User Collaboration2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.#Review#Agentic Workflow#Benchmark#Large Language Models#Visual Programming#Executable Workflow#Task Automation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs저자들은 다양한 규모의 MRM 및 MLM 백본을 대상으로 CoT와 Non-CoT 프롬프트를 비교 평가하는 방법론을 수행하였습니다. 실험 결과, 17개 중 대다수의 모델에서 CoT 프롬프트를 사용했을 때 시각적 공간 추론 정확도가 평균적으로 하락하는 경향이 관찰되었습니다 .#Review#Multimodal Reasoning Models#Chain-of-Thought#Visual Spatial Reasoning#Shortcut Learning#Hallucination#No-Image Ablation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model본 논문은 임의의 불규칙한 Sparse-view로부터 고품질의 대규모 3D 장면을 복원하는 문제를 해결하고자 합니다. 기존의 확산 모델 기반 연구들은 소수의 참조 뷰에만 의존하거나, 3D 기하학적 정보를 명시적으로 통합하지 못해 복잡한 장면에서 일관성을 유지하는 데 한계가 있습니다.#Review#3D Reconstruction#Video Diffusion Model#Sparse-view#Geometry-Aware#Global Scene Memory2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems본 논문은 문서 청킹을 텍스트 생성이 아닌 '계획 문제(Planning Problem)'로 재정의하여 W-RAC를 제안합니다. 이 시스템은 세 단계로 구성되는데, 먼저 웹 콘텐츠를 구조화하여 ID를 할당하고, LLM은 오직 ID 리스트 기반의 최적 그룹화 계획만을 수립하며, 마지막으로 로컬에서 ID를 매핑하여 최종 청크를 조립합니다 .#Review#Retrieval-Augmented Generation#Document Chunking#Web Parsing#Cost-Efficiency#Semantic Planning#Scalability2026년 4월 19일댓글 수 로딩 중
[논문리뷰] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects본 논문은 AI 비디오 편집 시스템의 품질을 다차원적으로 객관적이고 표준화하여 평가할 수 있는 체계의 부재 문제를 해결한다. 기존의 비디오 생성 평가 모델들은 편집 특유의 요구사항인 '의도한 편집의 수행 여부'와 '편집 대상 외 영역의 보존 여부'를 충분히 고려하지 못하는 한계가 있다.#Review#Video Editing#Reward Model#Benchmark#Instruction Following#Human Alignment2026년 4월 19일댓글 수 로딩 중
[논문리뷰] TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation본 논문은 PDAC 세그멘테이션과 같이 전문가 간 의견 불일치가 빈번한 의료 영상 분석에서 기존의 단일 정답 기반 모델이 과도하게 높은 확신(overconfidence)을 보이는 문제를 해결하고자 합니다.#Review#PDAC#Multi-rater Calibration#Medical Image Segmentation#Isotonic Regression#MHR#Uncertainty Estimation#Deep Ensemble2026년 4월 19일댓글 수 로딩 중
[논문리뷰] TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment본 논문은 패치 수준의 증류(distillation) 과정이 정렬 능력을 크게 향상시킨다는 통찰을 바탕으로 TIPSv2 프레임워크를 제안한다. 저자들은 마스킹된 패치뿐만 아니라 모든 패치에 손실을 적용하는 iBOT++ 기법을 통해 학생 모델이 교사 모델의 표현을 더욱 강력하게 학습하도록 유도한다 .#Review#Vision-Language Pretraining#Patch-Text Alignment#iBOT++#Masked Image Modeling#Distillation#Head-only EMA2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Repurposing 3D Generative Model for Autoregressive Layout Generation본 논문은 텍스트 기반 3D layout 생성 방식이 가진 물리적 불일치와 계산 효율성 문제를 해결하기 위해 LaviGen을 제안한다.#Review#Autoregressive Layout Generation#3D Generative Models#Diffusion Models#Exposure Bias#Dual-Guidance Self-Rollout2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Qwen3.5-Omni Technical Report본 논문은 기존 멀티모달 모델이 지닌 수동적 인식-반응 패러다임의 한계를 극복하고, 실제 환경에서 요구되는 에이전트적 행위 및 실시간 상호작용 능력을 갖춘 통합 모델을 구현하고자 합니다.#Review#Omnimodal#Thinker-Talker Architecture#ARIA#Hybrid MoE#Streaming Inference#Audio-Visual Vibe Coding2026년 4월 19일댓글 수 로딩 중
[논문리뷰] QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies본 논문은 400개의 트레이딩 전략 생성 태스크로 구성된 데이터셋을 바탕으로, Compilation, Backtest, Trade, Judge라는 4단계 순차적 검증 파이프라인을 제안한다. 실험은 단일 시도(Single-turn)와 반복 수정이 가능한 Agentic multi-turn 설정에서 진행되었다 .#Review#QuantCode-Bench#Large Language Models#Algorithmic Trading#Backtrader#Code Generation#Agentic Workflow#Domain-Specific Benchmarking2026년 4월 19일댓글 수 로딩 중
[논문리뷰] PersonaVLM: Long-Term Personalized Multimodal LLMs본 논문은 기존 MLLM이 고정된 컨텍스트 윈도우와 'one-size-fits-all' 패러다임에 갇혀, 시간이 지남에 따라 변하는 사용자의 취향과 성격을 반영하지 못하는 한계를 해결하고자 합니다.#Review#Multimodal Large Language Models#Long-term Personalization#Memory Architecture#Personality Alignment#Agent Framework#Reinforcement Learning2026년 4월 19일댓글 수 로딩 중
[논문리뷰] PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research본 논문은 기존 벤치마크들이 실제 과학 연구의 핵심인 탐색적 성격과 절차적 복잡성을 제대로 평가하지 못하는 문제를 해결하고자 한다.#Review#PRL-Bench#LLMs#Scientific Benchmarks#Physics Research#End-to-End Workflow#Long-horizon Reasoning#Agentic Science2026년 4월 19일댓글 수 로딩 중
[논문리뷰] NTIRE 2026 Challenge on Video Saliency Prediction: Methods and Results본 챌린지에서는 총 2,000개의 다양한 비디오로 구성된 새로운 데이터셋을 활용하였으며, 7개의 최종 팀이 제안한 모델들을 평가했습니다. 우승 팀인 iLearn은 InternVideo2 백본을 공유하고 두 개의 상호 보완적인 디코더를 앙상블(Ensemble)하는 다중 전문가 프레임워크를 제안했습니다 .#Review#Video Saliency Prediction#Crowdsourcing#Foundation Models#Spatiotemporal Modeling#NTIRE 2026 Challenge2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.#Review#Vision-Language Models#Visual Reasoning#Overthinking#Reinforcement Learning#Chain-of-Thought#Efficiency2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Hierarchical Codec Diffusion for Video-to-Speech Generation본 논문은 기존 VTS 방법론들이 음성의 계층적 구조를 간과함으로써 시각 정보와 음성 특징 간의 효과적인 정렬에 한계를 보이는 문제를 해결하고자 한다.#Review#Video-to-Speech#Discrete Diffusion Models#Hierarchical Modeling#Audio-Visual Alignment#Residual Vector Quantization#Transformer2026년 4월 19일댓글 수 로딩 중
[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows본 논문은 기존의 도구 사용 벤치마크가 실제 생산성 워크플로우의 복잡성을 제대로 반영하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 벤치마크들은 주로 AI가 생성한 쿼리나 가상의 도구에 의존하며, 단기적이고 폐쇄적인 작업에 국한되어 있습니다.#Review#Autonomous LLM Agents#Agent Evaluation#General AI Assistant#Tool-use#Workflow Management2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Elucidating the SNR-t Bias of Diffusion Probabilistic Models저자들은 SNR-t bias를 완화하기 위해 DCW (Differential Correction in Wavelet domain)를 제안합니다 . 이 방법론은 학습 없이(training-free) 추론 단계에서 적용 가능한 플러그 앤 플레이 방식의 differential correction을 수행합니다.#Review#Diffusion Probabilistic Models#SNR-t Bias#Differential Correction#Wavelet Domain#Generation Quality#Training-free2026년 4월 19일댓글 수 로딩 중