[논문리뷰] WorldMark: A Unified Benchmark Suite for Interactive Video World Models저자들은 Interactive I2V 모델들을 위한 최초의 표준화된 벤치마크인 WorldMark를 제안합니다. 이 프레임워크의 핵심은 모델별 제어 방식을 WASD 표준 액션으로 변환하는 Unified Action-mapping Adapter를 통해 6개 주요 모델을 동일 조건에서 비교하는 것입니다.#Review#Interactive World Models#Image-to-Video#Benchmark#Unified Control Interface#World Consistency#Cross-Model Evaluation2026년 4월 23일댓글 수 로딩 중
[논문리뷰] WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement LearningSunghun Kim이 arXiv에 게시한 'WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#Website Generation#GRPO#Multimodal Reward#React2026년 4월 23일댓글 수 로딩 중
[논문리뷰] VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI AutomationarXiv에 게시된 'VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation' 논문에 대한 자세한 리뷰입니다.#Review#GUI Automation#Agentic Framework#Completeness Verifier#Loop Breaker#Search Agent#Multimodal LLM2026년 4월 23일댓글 수 로딩 중
[논문리뷰] UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling본 논문은 시각적 앵커링을 통해 이질적인 동작들을 공통 잠재 공간으로 정렬하는 UniT를 제안합니다. UniT는 시각적, 동작적, 융합적 세 가지 브랜치로 구성된 트리 브랜치(tri-branch) 아키텍처를 가지며, 모든 브랜치는 Residual Quantization(RQ-VAE)을 통해 공유 코드북(shared codebook)으로 양자화됩니다 .#Review#Humanoid Robotics#Vision-Language-Action Models#Cross-Embodiment Transfer#Latent Action Tokenizer#World Modeling#Visual Anchoring#Cross-Reconstruction2026년 4월 23일댓글 수 로딩 중
[논문리뷰] UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image DetectionarXiv에 게시된 'UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#AI-Generated Image Detection#Image Generation#Co-evolutionary Learning#Unified Architecture#Feature Alignment2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language ModelsNedim Lipka이 arXiv에 게시한 'Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Attribution#Verification#Dual Framework#Hallucination#Confidence Calibration#Natural Language Inference2026년 4월 23일댓글 수 로딩 중
[논문리뷰] TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise ScalearXiv에 게시된 'TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale' 논문에 대한 자세한 리뷰입니다.#Review#Risk Event Discovery#Large Language Models#Incident Management#Signal-to-Noise Ratio#Event Linking#Enterprise Scale2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution ShiftsJimeng Sun이 arXiv에 게시한 'Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts' 논문에 대한 자세한 리뷰입니다.#Review#Test-Time Adaptation#EEG Foundation Models#Distribution Shift#Benchmark#NeuroAdapt-Bench#T3A2026년 4월 23일댓글 수 로딩 중
[논문리뷰] StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity RecognitionSeungmi Lee이 arXiv에 게시한 'StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Facial Identity Recognition#Face Stylization#Perception-Aware#Identity Preservation#Deep Learning#Human-Calibration2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Seeing Fast and Slow: Learning the Flow of Time in VideosAli Farhadi이 arXiv에 게시한 'Seeing Fast and Slow: Learning the Flow of Time in Videos' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Slow-motion#Temporal Super-resolution#Self-supervised Learning#Video Forensics#Time-frequency Scaling2026년 4월 23일댓글 수 로딩 중
[논문리뷰] PersonalAI: A Systematic Comparison of Knowledge Graph Storage and Retrieval Approaches for Personalized LLM agentsarXiv에 게시된 'PersonalAI: A Systematic Comparison of Knowledge Graph Storage and Retrieval Approaches for Personalized LLM agents' 논문에 대한 자세한 리뷰입니다.#Review#GraphRAG#Knowledge Graph#Personalized LLM Agents#Graph Traversal#Question Answering#Memory Framework2026년 4월 23일댓글 수 로딩 중
[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .#Review#Time Series Reasoning#Large Language Models#Vision-Language Models#Chain-of-Thought#Curriculum Learning#Data Taxonomy2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Hybrid Policy Distillation for LLMsPengfei Liu이 arXiv에 게시한 'Hybrid Policy Distillation for LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Knowledge Distillation#Large Language Models#Forward-Reverse KL#Policy Distillation#Logit-level Reweighting#On-policy Sampling2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI본 논문은 EAVAE라는 2단계 학습 프레임워크를 제안한다. 첫 번째 단계에서는 대규모 authorship 데이터에 대해 supervised contrastive learning을 수행하여 기초적인 저자 스타일 표현을 사전 학습한다.#Review#Authorship Attribution#Disentangled Representation Learning#Variational Autoencoder#Explainable AI#Generative AI#Content-Style Entanglement2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Encoder-Free Human Motion Understanding via Structured Motion Descriptions본 논문은 모션을 구조화된 텍스트로 변환하는 결정론적 파이프라인과 이를 처리하는 LLM fine-tuning으로 구성된다. 제안된 SMD는 관절 각도 계산, 전역 궤적 설명, 그리고 이를 결합한 계층적 텍스트 생성 과정을 거치며, 모델이 별도의 인코더 없이 LLM의 사전 학습된 언어 지식을 활용하게 한다 .#Review#Human Motion Understanding#Large Language Models#Structured Motion Description#Biomechanics#LoRA#Motion Question Answering#Motion Captioning2026년 4월 23일댓글 수 로딩 중
[논문리뷰] EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion ModelEDITCRAFTER는 고해상도 이미지의 identity를 보존하는 Tiled DDIM Inversion 모듈과, 고해상도 잠재 공간에서 텍스트 정렬을 최적화하는 NDCFG++ 샘플링 과정을 핵심으로 합니다. 먼저 입력 이미지를 타일 단위로 역전파하여 인버전 잠재 벡터를 생성하고, 이를 결합하여 전체 고해상도 정보를 초기화합니다.#Review#High-Resolution Image Editing#Diffusion Model#Tiled DDIM Inversion#NDCFG++#Tuning-free2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Context Unrolling in Omni Models본 논문은 다양한 모달리티를 원천 학습하여 모델이 스스로 추론 경로를 구조화하도록 유도하는 Context Unrolling 프레임워크를 제안한다. 모델은 작업 관련 컨텍스트를 선택적으로 활성화하여 공유 작업 공간에 투입하며, 이는 최종 예측 전후로 긴밀하게 작동한다 .#Review#Multimodal Foundation Model#Context Unrolling#Unified Architecture#Cross-modal Reasoning#Spatial Intelligence#Mixture-of-Experts2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon TasksarXiv에 게시된 'Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Long-Horizon Tasks#Skill Discovery#Co-Evolution#Skill Bank#Reinforcement Learning2026년 4월 23일댓글 수 로딩 중
[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-TrainingYangzhuo Li이 arXiv에 게시한 'WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training' 논문에 대한 자세한 리뷰입니다.#Review#Spoken Dialogue Models#Post-Training#Reinforcement Learning#Preference Optimization#Modality Alignment#End-to-End#Acoustic Expressiveness2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement LearningarXiv에 게시된 'Visual Reasoning through Tool-supervised Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Tool-supervised RL#Visual Reasoning#Curriculum Learning#ToolsRL2026년 4월 22일댓글 수 로딩 중