최신 포스트

[논문리뷰] Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

본 논문은 기존 3D 편집 방식의 주요 한계인 방대한 장면별 최적화(per-scene optimization) 필요성 을 제거하고, 단일 또는 소수의 입력 이미지로부터 멀티-뷰 일관성(multi-view consistent) 을 유지하는 고품질 3D 편집을 목표로 합니다.

#Review #3D Editing #Multi-View Consistency #Diffusion Models #Sparse Input #Zero-Shot Learning #Scene Completion #Gaussian Splatting

2025년 8월 21일

[논문리뷰] RynnEC: Bringing MLLMs into Embodied World

본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.

#Review #Multi-modal Large Language Models #Embodied AI #Embodied Cognition #Video Understanding #Instance Segmentation #Spatial Reasoning #Robotics

2025년 8월 21일

[논문리뷰] Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

본 논문은 멀티모달 추천 시스템의 주요 문제점인 데이터 희소성을 해결하고, 기존 대조 학습(Contrastive Learning) 방법의 두 가지 한계를 극복하는 것을 목표로 합니다.

#Review #Multi-modal Recommendation #Contrastive Learning #Graph Neural Network #Homography Relations #Meta-network #Orthogonal Constraint #Data Sparsity

2025년 8월 21일

[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

본 연구는 확산 기반 대규모 언어 모델(dLLM) 의 효율적인 배포를 저해하는 막대한 파라미터 규모 및 높은 자원 요구량을 해결하고자 합니다.

#Review #Diffusion LLMs #Post-training Quantization (PTQ)#Model Compression #Activation Outliers #Quantization Methods #Efficient Deployment #Large Language Models

2025년 8월 21일

[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #On-Policy RL #Off-Policy Experts #Dynamic Weighting #LLM Alignment #Reasoning

2025년 8월 21일

[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.

#Review #Hybrid Architecture #Mamba-Transformer #Reasoning LLM #Model Compression #Knowledge Distillation #Long Context #High Throughput #FP8 Training #Instruction Following

2025년 8월 21일

[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder 를 제안합니다.

#Review #LLM #Point Clouds #3D Reconstruction #Structured Mesh #Blender Python #Shape Editing #Part-based Representation #Large Language Model

2025년 8월 21일

[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Large Language Models #Benchmarking #Model Context Protocol #Tool Use #Real-World Applications #Agent Evaluation #Long Context #Unknown Tools

2025년 8월 21일

[논문리뷰] Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

본 논문은 컴퓨터 비전에서 발생하는 객체의 지역적 스케일 변화 문제를 해결하고, 모델의 지역적 스케일 일관성(local scale consistency) 을 향상시키는 것을 목표로 합니다.

#Review #Scale Equivariance #Deep Equilibrium Models #Canonicalization #Computer Vision #Image Classification #Semantic Segmentation #Latent Representation #Monotone Scaling

2025년 8월 21일

[논문리뷰] Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell

본 논문은 완전 동형 암호(FHE) 프레임워크, 특히 TFHE 와 같은 3세대 스킴에서 Levenshtein(편집) 거리 계산의 높은 연산 비용 을 획기적으로 줄이는 것을 목표로 합니다. 금융 및 유전체학과 같이 민감한 데이터의 프라이버시를 보존하면서 문자열 유사도 계산을 효율적으로 수행하는 것이 주된 연구 목적입니다.

#Review #Fully Homomorphic Encryption (FHE)#TFHE #Levenshtein Distance #Programmable Bootstrapping (PBS)#Privacy-Preserving Computation #String Similarity

2025년 8월 21일

[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.

#Review #LLM Agents #Future Prediction #Live Benchmark #Dynamic Evaluation #Data Contamination #Tool Use #Web Search #Financial Forecasting #Misinformation

2025년 8월 21일

[논문리뷰] From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

기존 금융 LLM 벤치마크의 단일 점수 평가 방식(score flattening) 과 불균형한 개념 커버리지(coverage imbalance) 로 인해 모델의 실제 지식 수준과 한계를 파악하기 어렵다는 문제를 해결하고자 합니다.

#Review #Financial LLMs #Cognitive Diagnosis Model #LLM Evaluation #Knowledge Assessment #Matrix Factorization #CPA-QKA #Interpretability

2025년 8월 21일

[논문리뷰] From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

이 논문은 AI 시스템이 단순한 계산 도구에서 자율적인 연구 파트너로 진화하는 'Agentic Science' 패러다임을 제안하고 포지셔닝합니다.

#Review #Agentic AI #Autonomous Scientific Discovery #AI for Science #Large Language Models #Multi-agent Systems #Scientific Workflow Automation #Natural Sciences

2025년 8월 21일

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.

#Review #LLM Optimization #Self-Verification #Dual Learning #Preference Optimization #Self-Supervised Learning #Mathematical Reasoning #Multilingual Translation #RLHF

2025년 8월 21일

[논문리뷰] ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

본 논문은 기존 HAR(Human Activity Recognition) 시스템의 낮은 일반화 능력 , 제한적인 제로샷 기능 , 해석 불가능성 이라는 세 가지 주요 한계를 해결하고자 합니다.

#Review #Zero-shot HAR #LLM Agents #Time-Series Analysis #Knowledge Base #Retrieval-Augmented Generation #Multi-sensor Fusion #Interpretability

2025년 8월 20일

[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.

#Review #Text-Guided Editing #Color Editing #Diffusion Transformers #Training-Free #Multi-Modal AI #Attention Control #Image Manipulation

2025년 8월 20일

[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.

#Review #Flow Matching #Reinforcement Learning #Human Preference Alignment #GRPO #Temporal Credit Assignment #Generative AI #Text-to-Image

2025년 8월 20일

[논문리뷰] Semantic IDs for Joint Generative Search and Recommendation

본 논문은 대규모 언어 모델(LLM)을 활용한 통합 검색 및 추천 시스템 구축을 위해, 항목을 LLM 친화적인 이산 토큰(Semantic ID)으로 효과적으로 표현하는 방법을 제시하고, 공동 태스크에서의 성능 최적화를 목표로 합니다. 특히, 기존의 분리된 시스템을 통합할 때 발생하는 성능 충돌 문제를 해결하고자 합니다.

#Review #Generative Models #Search and Recommendation #Semantic IDs #Bi-Encoder #Quantization #Multi-Task Learning #Retrieval Augmented Generation

2025년 8월 20일

[논문리뷰] Radiance Fields in XR: A Survey on How Radiance Fields are Envisioned and Addressed for XR Research

이 논문은 NeRF 및 3DGS 와 같은 Radiance Field (RF) 기술이 확장 현실(XR) 분야에서 어떻게 구상되고(envisioned) 실제로 구현되었는지(addressed) 사이의 연구 격차를 체계적으로 분석하는 것을 목표로 합니다.

#Review #Radiance Fields #XR #NeRF #3D Gaussian Splatting #View Synthesis #Systematic Review #Immersive Technology

2025년 8월 20일

[논문리뷰] Prompt Orchestration Markup Language

이 논문은 대규모 언어 모델(LLM) 프롬프트의 구조화, 데이터 통합, 형식 민감성 및 개발 도구의 부족이라는 현재의 과제를 해결하고자 합니다.

#Review #Prompt Engineering #Large Language Models #Markup Language #Structured Prompting #IDE Support #Multimodal Data #Styling System #Development Toolkit

2025년 8월 20일