Review

[논문리뷰] Deep Think with Confidence

본 논문은 LLM의 추론 태스크에서 self-consistency (다수결 투표) 방식의 한계점인 정확도 저하 및 높은 연산 오버헤드를 해결하는 것을 목표로 합니다. 특히, 추론 과정의 효율성과 성능을 동시에 향상시키기 위해 저품질 추론 경로를 동적으로 필터링 하는 방법을 제시합니다.

#Review #LLM Reasoning #Confidence Filtering #Self-Consistency #Test-Time Optimization #Computational Efficiency #Adaptive Sampling #Early Stopping #Majority Voting

2025년 8월 22일

[논문리뷰] ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling

기존 파라메트릭 인체 모델(예: SMPL-X)이 겪는 골격 및 표면 간의 원치 않는 상관관계, 제한된 표현력, 그리고 미세한 속성 제어의 어려움을 해결하는 것을 목표로 합니다.

#Review #Parametric Human Model #3D Human Modeling #Shape-Skeleton Decoupling #Pose Correctives #Single Image Mesh Fitting #Expressive Modeling #Goliath Dataset

2025년 8월 22일

[논문리뷰] A Survey on Large Language Model Benchmarks

본 논문은 대규모 언어 모델(LLM) 평가 벤치마크의 현재 상태와 발전 과정을 체계적으로 검토하고, 기존 벤치마크의 한계를 분석하며, 향후 벤치마크 혁신을 위한 설계 패러다임을 제시하는 것을 목표로 합니다. LLM의 기능 측정과 기술 혁신 촉진이라는 핵심 역할을 하는 벤치마크의 중요성을 강조합니다.

#Review #LLM Benchmarks #Evaluation #Systematic Review #General Capabilities #Domain-Specific Benchmarks #Target-Specific Benchmarks #Data Contamination #AI Ethics

2025년 8월 22일

[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.

#Review #Multilingual Benchmark #Commonsense Reasoning #LLM Evaluation #Reasoning Taxonomy #Benchmark Scaling #Data Synthesis #Cultural Nuances

2025년 8월 21일

[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?

본 논문은 베트남어 다중 양식 시험 문제에 대한 Vision Language Models (VLMs) 의 성능을 평가하는 것을 목표로 합니다. 주로 영어 데이터로 훈련된 VLMs가 저자원 언어인 베트남어 환경에서 실제 교차 언어 복합 양식 추론 을 효과적으로 처리할 수 있는지 조사하고자 합니다.

#Review #Vision Language Models #Multimodal AI #Vietnamese Language #Educational Assessment #Low-Resource Languages #Cross-Lingual Reasoning #ViExam #Human-in-the-Loop

2025년 8월 21일

[논문리뷰] Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

본 논문은 기존 3D 편집 방식의 주요 한계인 방대한 장면별 최적화(per-scene optimization) 필요성 을 제거하고, 단일 또는 소수의 입력 이미지로부터 멀티-뷰 일관성(multi-view consistent) 을 유지하는 고품질 3D 편집을 목표로 합니다.

#Review #3D Editing #Multi-View Consistency #Diffusion Models #Sparse Input #Zero-Shot Learning #Scene Completion #Gaussian Splatting

2025년 8월 21일

[논문리뷰] RynnEC: Bringing MLLMs into Embodied World

본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.

#Review #Multi-modal Large Language Models #Embodied AI #Embodied Cognition #Video Understanding #Instance Segmentation #Spatial Reasoning #Robotics

2025년 8월 21일

[논문리뷰] Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

본 논문은 멀티모달 추천 시스템의 주요 문제점인 데이터 희소성을 해결하고, 기존 대조 학습(Contrastive Learning) 방법의 두 가지 한계를 극복하는 것을 목표로 합니다.

#Review #Multi-modal Recommendation #Contrastive Learning #Graph Neural Network #Homography Relations #Meta-network #Orthogonal Constraint #Data Sparsity

2025년 8월 21일

[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

본 연구는 확산 기반 대규모 언어 모델(dLLM) 의 효율적인 배포를 저해하는 막대한 파라미터 규모 및 높은 자원 요구량을 해결하고자 합니다.

#Review #Diffusion LLMs #Post-training Quantization (PTQ)#Model Compression #Activation Outliers #Quantization Methods #Efficient Deployment #Large Language Models

2025년 8월 21일

[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #On-Policy RL #Off-Policy Experts #Dynamic Weighting #LLM Alignment #Reasoning

2025년 8월 21일

[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.

#Review #Hybrid Architecture #Mamba-Transformer #Reasoning LLM #Model Compression #Knowledge Distillation #Long Context #High Throughput #FP8 Training #Instruction Following

2025년 8월 21일

[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder 를 제안합니다.

#Review #LLM #Point Clouds #3D Reconstruction #Structured Mesh #Blender Python #Shape Editing #Part-based Representation #Large Language Model

2025년 8월 21일

[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Large Language Models #Benchmarking #Model Context Protocol #Tool Use #Real-World Applications #Agent Evaluation #Long Context #Unknown Tools

2025년 8월 21일

[논문리뷰] Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

본 논문은 컴퓨터 비전에서 발생하는 객체의 지역적 스케일 변화 문제를 해결하고, 모델의 지역적 스케일 일관성(local scale consistency) 을 향상시키는 것을 목표로 합니다.

#Review #Scale Equivariance #Deep Equilibrium Models #Canonicalization #Computer Vision #Image Classification #Semantic Segmentation #Latent Representation #Monotone Scaling

2025년 8월 21일

[논문리뷰] Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell

본 논문은 완전 동형 암호(FHE) 프레임워크, 특히 TFHE 와 같은 3세대 스킴에서 Levenshtein(편집) 거리 계산의 높은 연산 비용 을 획기적으로 줄이는 것을 목표로 합니다. 금융 및 유전체학과 같이 민감한 데이터의 프라이버시를 보존하면서 문자열 유사도 계산을 효율적으로 수행하는 것이 주된 연구 목적입니다.

#Review #Fully Homomorphic Encryption (FHE)#TFHE #Levenshtein Distance #Programmable Bootstrapping (PBS)#Privacy-Preserving Computation #String Similarity

2025년 8월 21일

[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.

#Review #LLM Agents #Future Prediction #Live Benchmark #Dynamic Evaluation #Data Contamination #Tool Use #Web Search #Financial Forecasting #Misinformation

2025년 8월 21일

[논문리뷰] From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

기존 금융 LLM 벤치마크의 단일 점수 평가 방식(score flattening) 과 불균형한 개념 커버리지(coverage imbalance) 로 인해 모델의 실제 지식 수준과 한계를 파악하기 어렵다는 문제를 해결하고자 합니다.

#Review #Financial LLMs #Cognitive Diagnosis Model #LLM Evaluation #Knowledge Assessment #Matrix Factorization #CPA-QKA #Interpretability

2025년 8월 21일

[논문리뷰] From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

이 논문은 AI 시스템이 단순한 계산 도구에서 자율적인 연구 파트너로 진화하는 'Agentic Science' 패러다임을 제안하고 포지셔닝합니다.

#Review #Agentic AI #Autonomous Scientific Discovery #AI for Science #Large Language Models #Multi-agent Systems #Scientific Workflow Automation #Natural Sciences

2025년 8월 21일

[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.

#Review #LLM Optimization #Self-Verification #Dual Learning #Preference Optimization #Self-Supervised Learning #Mathematical Reasoning #Multilingual Translation #RLHF

2025년 8월 21일

[논문리뷰] ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

본 논문은 기존 HAR(Human Activity Recognition) 시스템의 낮은 일반화 능력 , 제한적인 제로샷 기능 , 해석 불가능성 이라는 세 가지 주요 한계를 해결하고자 합니다.

#Review #Zero-shot HAR #LLM Agents #Time-Series Analysis #Knowledge Base #Retrieval-Augmented Generation #Multi-sensor Fusion #Interpretability

2025년 8월 20일