[논문리뷰] D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning온라인 밈(meme)에서 암묵적이고 문화적으로 민감한 다크 유머를 이해하고 탐지하는 문제를 해결하는 것을 목표로 합니다. 기존 자원 및 방법론의 부족을 다루기 위해 다중모드 콘텐츠에서 다크 유머의 존재, 타겟 범주 및 강도를 식별하는 포괄적인 프레임워크를 제시합니다.#Review#Dark Humor Detection#Multimodal Reasoning#Vision-Language Models (VLMs)#Iterative Reasoning Refinement#Meme Analysis#Content Moderation#Cross-Modal Attention#Dataset Annotation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool본 연구는 기존 온라인 3D 재구성 방법들이 겪는 재구성 품질과 실시간 성능 간의 절충 문제를 해결하고, 스트리밍 이미지로부터 정밀한 카메라 포즈와 고품질의 포인트 맵을 실시간으로 예측 하는 모델 WinT3R 를 제안하는 것을 목표로 합니다.#Review#Online 3D Reconstruction#Camera Pose Estimation#Streaming Reconstruction#Sliding Window#Camera Token Pool#Real-time Performance#Computer Vision2025년 9월 8일댓글 수 로딩 중
[논문리뷰] WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning본 논문은 Multimodal Large Language Models (MLLMs) 의 상징적 음악 분석 및 추론 능력에 대한 실세계 적용 가능성을 평가하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Symbolic Music Reasoning#Music Score Analysis#Benchmarking#Visual Question Answering#In-the-Wild Data#Music Theory2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Why Language Models Hallucinate본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.#Review#Language Models#Hallucination#Pretraining#Post-training#Evaluation Metrics#Binary Classification#Uncertainty Quantification#Calibration2025년 9월 8일댓글 수 로딩 중
[논문리뷰] U-ARM : Ultra low-cost general teleoperation interface for robot manipulation본 논문은 기존의 고비용 및 복잡한 엔지니어링 요구사항을 가진 로봇 텔레오퍼레이션 시스템의 한계를 극복하고, 대부분의 상용 로봇 팔과 호환되는 초저가, 사용자 친화적, 범용 리더-팔로워 텔레오퍼레이션 인터페이스 인 U-Arm을 개발하는 것을 목표로 합니다.#Review#Teleoperation#Robot Manipulation#Low-Cost Hardware#3D Printing#Leader-Follower System#Data Collection#Robotics Interface#Open Source2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Symbolic Graphics Programming with Large Language Models본 논문은 대규모 언어 모델(LLMs)이 자연어 설명으로부터 정확한 시각적 콘텐츠를 렌더링하는 심볼릭 그래픽 프로그램(SGPs) , 특히 Scalable Vector Graphics (SVGs) 를 생성하는 능력을 탐구합니다.#Review#Symbolic Graphics Programming#Large Language Models#Reinforcement Learning#SVG Generation#Text-to-Image Synthesis#Cross-Modal Alignment#Program Synthesis2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Set Block Decoding is a Language Model Inference Accelerator본 논문은 대규모 언어 모델(LLM) 추론, 특히 디코딩 단계에서 발생하는 높은 계산 및 메모리 비용 문제에 초점을 맞춥니다.#Review#Language Model Inference#Acceleration#Set Block Decoding#Next Token Prediction#Masked Token Prediction#Parallel Decoding#KV-caching#Diffusion Models2025년 9월 8일댓글 수 로딩 중
[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMs본 논문은 대규모 언어 모델(LLM)이 문맥에 따라 재구성된 질문에 얼마나 강건한지 를 평가하고, 현재 사용되는 벤치마크 기반 평가가 모델의 실제 능력을 얼마나 신뢰성 있게 측정하는지 조사하는 것을 목표로 합니다.#Review#LLM Evaluation#Model Robustness#Benchmark Reliability#Paraphrasing#Linguistic Variability#Generalization#Question Answering2025년 9월 8일댓글 수 로딩 중
[논문리뷰] MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting3D CT 영상 진단에서 발생하는 오독(under-reading), 부주의로 인한 인지 오류(inattentional blindness), 그리고 커뮤니케이션 오류를 줄이는 것을 목표로 합니다.#Review#3D CT#Vision-Language Model#Medical Imaging#Diagnostic Error Reduction#Multi-scale Alignment#Semantic Enrichment#Radiology Reporting#Zero-shot Learning2025년 9월 8일댓글 수 로딩 중
[논문리뷰] LuxDiT: Lighting Estimation with Video Diffusion Transformer논문은 단일 이미지 또는 비디오로부터 고품질의 HDR 환경 맵 을 추정하는 오랜 난제를 해결하고자 합니다. 이는 실측 HDR 환경 맵의 희소성, 간접 시각 단서에 대한 의존성, 전역적 컨텍스트 추론 및 고동적 범위(HDR) 출력 복구의 어려움으로 인해 발생합니다.#Review#Lighting Estimation#HDR Environment Map#Diffusion Models#Video Transformer#Low-Rank Adaptation#Generative Models#Synthetic Data2025년 9월 8일댓글 수 로딩 중
[논문리뷰] LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation본 논문은 복잡한 실제 시나리오를 시뮬레이션하는 고충실도 3D 가상 환경 을 생성하는 데 초점을 맞추어, sim-to-real 격차 를 줄이고 풍부한 데이터를 효율적으로 수집하는 것을 목표로 합니다.#Review#Multimodal LLM#3D World Generation#Unreal Engine 5#Procedural Content Generation#Interactive Environments#Sim-to-Real#Spatial Understanding#Multimodal Input2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Bootstrapping Task Spaces for Self-Improvement본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement#Autocurriculum#Task-Space Exploration#Inference-Time Iteration#Policy Optimization2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Behavioral Fingerprinting of Large Language Models현재 대규모 언어 모델(LLM) 벤치마크들이 모델의 성능 지표에만 치중하여 미묘한 행동 특성을 포착하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#Behavioral Evaluation#Model Alignment#Sycophancy#World Model Brittleness#Metacognition#Personality Profiling2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding본 논문은 장시간 비디오 이해의 난제를 해결하고자 합니다.#Review#Long Video Understanding#Reinforcement Learning#Multi-Turn Reasoning#MLLMs#Video Segment Selection#Bi-level Reward#Question Answering2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Transition Models: Rethinking the Generative Learning Objective본 논문은 반복적인 확산 모델의 높은 품질과 효율적인 소수 단계 모델의 성능 포화 사이의 근본적인 딜레마를 해결하고자 합니다.#Review#Generative Models#Diffusion Models#Training Objective#Continuous-Time Dynamics#State Transition#Few-Step Generation#Scalable Training#Image Generation2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Towards a Unified View of Large Language Model Post-Training본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Post-Training#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient#Unified Framework#Hybrid Algorithms#Bias-Variance Tradeoff2025년 9월 5일댓글 수 로딩 중
[논문리뷰] NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings논문은 기존 NER(Named Entity Recognition) 시스템의 한계, 즉 고정된 유형 스키마와 대량의 레이블링 데이터 의존성을 극복하고자 합니다.#Review#Named Entity Retrieval#Zero-Shot Learning#Type-Aware Embeddings#Large Language Models (LLMs)#Contrastive Learning#Internal Representations#Information Retrieval2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?본 논문은 대규모 언어 모델(LLMs)이 지도 미세 조정(SFT) 과정에서 학습한 표준화된 패턴과 상충하는 지시를 따르는 데 어려움을 겪는 ' 인지적 관성 ' 문제를 해결하고자 합니다.#Review#LLMs#Instruction Following#Benchmark#Cognitive Inertia#Out-of-Distribution#Supervised Fine-Tuning#Evaluation#Robustness2025년 9월 5일댓글 수 로딩 중
[논문리뷰] From Editor to Dense Geometry Estimator본 논문은 기존의 텍스트-투-이미지(T2I) 생성 모델보다 Diffusion Transformer (DiT) 기반의 이미지 편집 모델이 단안 밀집 기하학 추정(depth 및 normal) 작업에 더 적합한 파운데이션 모델임을 증명하고, 이를 기반으로 FE2E 라는 새로운 프레임워크를 개발하여 제한된 훈련 데이터로도 뛰어난 제로샷 성능을 달성하는 것을 목표로 합니다.#Review#Dense Geometry Estimation#Diffusion Transformer#Image Editing#Zero-shot Learning#Depth Estimation#Normal Estimation#Flow Matching#Logarithmic Quantization2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Few-step Flow for 3D Generation via Marginal-Data Transport Distillation본 연구는 플로우 기반 3D 생성 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다.#Review#3D Generation#Flow-based Models#Model Distillation#Few-step Sampling#Marginal-Data Transport#Velocity Matching#Velocity Distillation2025년 9월 5일댓글 수 로딩 중