[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?본 논문은 베트남어 다중 양식 시험 문제에 대한 Vision Language Models (VLMs) 의 성능을 평가하는 것을 목표로 합니다. 주로 영어 데이터로 훈련된 VLMs가 저자원 언어인 베트남어 환경에서 실제 교차 언어 복합 양식 추론 을 효과적으로 처리할 수 있는지 조사하고자 합니다.#Review#Vision Language Models#Multimodal AI#Vietnamese Language#Educational Assessment#Low-Resource Languages#Cross-Lingual Reasoning#ViExam#Human-in-the-Loop2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization본 논문은 기존 3D 편집 방식의 주요 한계인 방대한 장면별 최적화(per-scene optimization) 필요성 을 제거하고, 단일 또는 소수의 입력 이미지로부터 멀티-뷰 일관성(multi-view consistent) 을 유지하는 고품질 3D 편집을 목표로 합니다.#Review#3D Editing#Multi-View Consistency#Diffusion Models#Sparse Input#Zero-Shot Learning#Scene Completion#Gaussian Splatting2025년 8월 21일댓글 수 로딩 중
[논문리뷰] RynnEC: Bringing MLLMs into Embodied World본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.#Review#Multi-modal Large Language Models#Embodied AI#Embodied Cognition#Video Understanding#Instance Segmentation#Spatial Reasoning#Robotics2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation본 논문은 멀티모달 추천 시스템의 주요 문제점인 데이터 희소성을 해결하고, 기존 대조 학습(Contrastive Learning) 방법의 두 가지 한계를 극복하는 것을 목표로 합니다.#Review#Multi-modal Recommendation#Contrastive Learning#Graph Neural Network#Homography Relations#Meta-network#Orthogonal Constraint#Data Sparsity2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs본 연구는 확산 기반 대규모 언어 모델(dLLM) 의 효율적인 배포를 저해하는 막대한 파라미터 규모 및 높은 자원 요구량을 해결하고자 합니다.#Review#Diffusion LLMs#Post-training Quantization (PTQ)#Model Compression#Activation Outliers#Quantization Methods#Efficient Deployment#Large Language Models2025년 8월 21일댓글 수 로딩 중
[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#On-Policy RL#Off-Policy Experts#Dynamic Weighting#LLM Alignment#Reasoning2025년 8월 21일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.#Review#Hybrid Architecture#Mamba-Transformer#Reasoning LLM#Model Compression#Knowledge Distillation#Long Context#High Throughput#FP8 Training#Instruction Following2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder 를 제안합니다.#Review#LLM#Point Clouds#3D Reconstruction#Structured Mesh#Blender Python#Shape Editing#Part-based Representation#Large Language Model2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.#Review#Large Language Models#Benchmarking#Model Context Protocol#Tool Use#Real-World Applications#Agent Evaluation#Long Context#Unknown Tools2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer본 논문은 컴퓨터 비전에서 발생하는 객체의 지역적 스케일 변화 문제를 해결하고, 모델의 지역적 스케일 일관성(local scale consistency) 을 향상시키는 것을 목표로 합니다.#Review#Scale Equivariance#Deep Equilibrium Models#Canonicalization#Computer Vision#Image Classification#Semantic Segmentation#Latent Representation#Monotone Scaling2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell본 논문은 완전 동형 암호(FHE) 프레임워크, 특히 TFHE 와 같은 3세대 스킴에서 Levenshtein(편집) 거리 계산의 높은 연산 비용 을 획기적으로 줄이는 것을 목표로 합니다. 금융 및 유전체학과 같이 민감한 데이터의 프라이버시를 보존하면서 문자열 유사도 계산을 효율적으로 수행하는 것이 주된 연구 목적입니다.#Review#Fully Homomorphic Encryption (FHE)#TFHE#Levenshtein Distance#Programmable Bootstrapping (PBS)#Privacy-Preserving Computation#String Similarity2025년 8월 21일댓글 수 로딩 중
[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.#Review#LLM Agents#Future Prediction#Live Benchmark#Dynamic Evaluation#Data Contamination#Tool Use#Web Search#Financial Forecasting#Misinformation2025년 8월 21일댓글 수 로딩 중
[논문리뷰] From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models기존 금융 LLM 벤치마크의 단일 점수 평가 방식(score flattening) 과 불균형한 개념 커버리지(coverage imbalance) 로 인해 모델의 실제 지식 수준과 한계를 파악하기 어렵다는 문제를 해결하고자 합니다.#Review#Financial LLMs#Cognitive Diagnosis Model#LLM Evaluation#Knowledge Assessment#Matrix Factorization#CPA-QKA#Interpretability2025년 8월 21일댓글 수 로딩 중
[논문리뷰] From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery이 논문은 AI 시스템이 단순한 계산 도구에서 자율적인 연구 파트너로 진화하는 'Agentic Science' 패러다임을 제안하고 포지셔닝합니다.#Review#Agentic AI#Autonomous Scientific Discovery#AI for Science#Large Language Models#Multi-agent Systems#Scientific Workflow Automation#Natural Sciences2025년 8월 21일댓글 수 로딩 중
[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.#Review#LLM Optimization#Self-Verification#Dual Learning#Preference Optimization#Self-Supervised Learning#Mathematical Reasoning#Multilingual Translation#RLHF2025년 8월 21일댓글 수 로딩 중
[논문리뷰] ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents본 논문은 기존 HAR(Human Activity Recognition) 시스템의 낮은 일반화 능력 , 제한적인 제로샷 기능 , 해석 불가능성 이라는 세 가지 주요 한계를 해결하고자 합니다.#Review#Zero-shot HAR#LLM Agents#Time-Series Analysis#Knowledge Base#Retrieval-Augmented Generation#Multi-sensor Fusion#Interpretability2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.#Review#Text-Guided Editing#Color Editing#Diffusion Transformers#Training-Free#Multi-Modal AI#Attention Control#Image Manipulation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.#Review#Flow Matching#Reinforcement Learning#Human Preference Alignment#GRPO#Temporal Credit Assignment#Generative AI#Text-to-Image2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Semantic IDs for Joint Generative Search and Recommendation본 논문은 대규모 언어 모델(LLM)을 활용한 통합 검색 및 추천 시스템 구축을 위해, 항목을 LLM 친화적인 이산 토큰(Semantic ID)으로 효과적으로 표현하는 방법을 제시하고, 공동 태스크에서의 성능 최적화를 목표로 합니다. 특히, 기존의 분리된 시스템을 통합할 때 발생하는 성능 충돌 문제를 해결하고자 합니다.#Review#Generative Models#Search and Recommendation#Semantic IDs#Bi-Encoder#Quantization#Multi-Task Learning#Retrieval Augmented Generation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Radiance Fields in XR: A Survey on How Radiance Fields are Envisioned and Addressed for XR Research이 논문은 NeRF 및 3DGS 와 같은 Radiance Field (RF) 기술이 확장 현실(XR) 분야에서 어떻게 구상되고(envisioned) 실제로 구현되었는지(addressed) 사이의 연구 격차를 체계적으로 분석하는 것을 목표로 합니다.#Review#Radiance Fields#XR#NeRF#3D Gaussian Splatting#View Synthesis#Systematic Review#Immersive Technology2025년 8월 20일댓글 수 로딩 중