Review

[논문리뷰] WGAST: Weakly-Supervised Generative Network for Daily 10 m Land Surface Temperature Estimation via Spatio-Temporal Fusion

현재 원격 감지 위성은 지표면 온도(LST) 데이터의 공간 및 시간 해상도 간 트레이드오프 문제를 겪고 있으며, 특히 일별 10m 해상도 LST 추정은 어렵습니다.

#Review #Spatio-Temporal Fusion #Land Surface Temperature #Generative Adversarial Network #Weakly-Supervised Learning #Remote Sensing #Deep Learning

2025년 8월 13일

[논문리뷰] VertexRegen: Mesh Generation with Continuous Level of Detail

기존 자동회귀 메쉬 생성 모델들이 부분-완료 방식으로 동작하여, 유효한 메쉬를 얻기 위해 전체 시퀀스를 생성해야만 하고 중간 단계에서는 불완전한 구조를 생성하는 문제를 해결하고자 합니다.

#Review #Mesh Generation #Level of Detail (LOD)#Progressive Meshes #Vertex Split #Autoregressive Models #Transformer #3D Graphics

2025년 8월 13일

[논문리뷰] UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

본 논문은 Masked Generative Transformers (MGTs)를 사용한 텍스트-이미지(T2I) 생성 시 발생하는 조합적 충실도(compositional fidelity) 문제를 해결하고, 특히 속성 바인딩(attribute binding) 오류를 개선하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Masked Generative Transformers #Compositional Generation #Attention Guidance #Unmasking Strategy #Contrastive Learning #Training-Free #Attribute Binding

2025년 8월 13일

[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning

대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.

#Review #Curriculum Learning #Reinforcement Learning #Large Language Models #Reasoning Efficiency #Token Budget Control #Group Relative Policy Optimization #Chain-of-Thought

2025년 8월 13일

[논문리뷰] Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

이 논문은 로봇의 능숙한 파지(dexterous grasping) 시 기존 연구들이 간과했던 어포던스 인식(affordance-aware) 위치 설정 및 인간과 유사한 자세 의 중요성에 주목합니다.

#Review #Robotic Dexterous Grasping #Affordance-Aware #Human-like Priors #Reinforcement Learning #Vision-Language Models #Two-Stage Training #Manipulation

2025년 8월 13일

[논문리뷰] TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

본 연구는 저자원 언어(LRL) 기계 번역(MT) 모델의 성능 향상을 위해, 고품질의 주제 다양성(topic-diverse) 을 가진 병렬 데이터를 자동으로 생성하는 방법을 제시합니다. 기존의 병렬 데이터 부족 문제를 해결하고, 특히 LLM이 LRL 번역에서 부진한 한계를 극복하고자 합니다.

#Review #Low-Resource MT #Data Augmentation #Large Language Models (LLMs)#Back-Translation #In-Context Learning (ICL)#Fine-Tuning #Topic-Guided Generation #Parallel Data Synthesis

2025년 8월 13일

[논문리뷰] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

본 논문은 확산 언어 모델(dLLMs)이 텍스트를 생성하는 반복적인 디노이징 과정에서 '시간적 진동(temporal oscillation)' 이라는 중요한 현상을 규명하고, 이를 활용하여 모델 성능을 개선하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Temporal Oscillation #Self-Consistency Voting #Reinforcement Learning #Temporal Semantic Entropy #Text Generation

2025년 8월 13일

[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Test-Time Scaling #Reinforcement Learning #Region Consistency #Spatial Voting #Self-Supervised Learning #Vision-Language Models

2025년 8월 13일

[논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents

본 논문은 상업용 컴퓨터 사용 에이전트(CUA) 시스템의 핵심 세부 정보가 비공개인 현 상황에서, 연구 커뮤니티가 CUA의 역량, 한계, 위험을 연구할 수 있는 포괄적인 오픈 소스 프레임워크 를 제공하는 것을 목표로 합니다. 특히, 대규모 CUA 데이터 및 기초 모델 을 확장하기 위한 개방형 기반을 구축하고자 합니다.

#Review #Computer-Use Agents #Vision-Language Models #Chain-of-Thought Reasoning #Large-scale Dataset #Open-source Framework #Desktop Automation #Agent Evaluation

2025년 8월 13일

[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

본 연구는 자연스러운 음성 의사소통에 필수적인 웃음, 호흡, 감탄사 등의 비언어적 발성(paralinguistic vocalizations) 이 기존 ASR 및 TTS 시스템에서 간과되는 문제를 해결하고자 합니다.

#Review #Paralinguistic Vocalizations #Speech Recognition #Text-to-Speech #Speech Synthesis #Data Annotation #Mandarin Speech #Expressive Speech

2025년 8월 13일

[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World Generation

본 논문은 단일 이미지 또는 텍스트 프롬프트로부터 전방위 탐색 가능한 3D 세계 를 생성하는 것을 목표로 합니다. 기존 방식의 좁은 시야각, 불일치성 및 제한적인 데이터셋 문제를 해결하여, 고품질의 기하학적으로 일관된 3D 환경을 넓은 범위로 생성하고자 합니다.

#Review #3D World Generation #Panoramic Video Generation #3D Reconstruction #Diffusion Models #Gaussian Splatting #Dataset #Camera Control

2025년 8월 13일

[논문리뷰] HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

이 논문은 기업 환경에서 로컬(사내 문서/지식 그래프) 및 웹 지식 소스 를 동시에 활용하는 딥 서치 시스템의 필요성에 주목합니다.

#Review #Hierarchical Reinforcement Learning #Deep Search #Multi-source RAG #Agentic AI #Knowledge Integration #Enterprise Search #Large Reasoning Models

2025년 8월 13일

[논문리뷰] GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

대규모 언어 모델(LLM)의 연속 학습 시 발생하는 파국적 망각(catastrophic forgetting) 문제를 해결하는 것이 주된 목표입니다. 특히, LLM이 기존의 일반적인 능력과 이전에 학습한 하위 태스크에서의 성능을 동시에 유지하면서 새로운 태스크를 효율적이고 안정적으로 학습할 수 있는 방안을 모색합니다.

#Review #Continual Learning #Large Language Models (LLMs)#Catastrophic Forgetting #Replay #Knowledge Distillation #Activation States #Anti-forgetting #Threshold-based Margin Loss

2025년 8월 13일

[논문리뷰] Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

본 논문은 대규모 언어 모델(LLMs)의 효율적인 도구 사용(tool use) 학습을 위한 강화 학습(RL) 프레임워크 부재 문제를 해결하고자 합니다. 특히, 안정적인 훈련 환경 구축의 어려움과 검증 가능한 보상 메커니즘의 부재가 LLM의 도구 사용 능력 발전을 저해하는 핵심 과제로 지적됩니다.

#Review #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#Automated Environment Generation #Feedback-Driven Training #Reward Mechanism #Contextual Understanding

2025년 8월 13일

[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.

#Review #Large Language Models #Diplomacy Game #Multi-agent Systems #Strategic Reasoning #LLM Evaluation #Prompt Engineering #Behavioral Analysis #Game AI

2025년 8월 13일

[논문리뷰] DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition

본 논문은 Encoder-Decoder 기반 자동 음성 인식(ASR) 모델의 내부 언어 모델(ILM) 견고성을 향상시켜 도메인 내외(in- and out-of-domain) 환경에서의 일반화 성능을 개선 하는 것을 목표로 합니다.

#Review #Speech Recognition #Encoder-Decoder #Regularization #Decoder-Centric #Intermediate Supervision #Out-of-Domain Generalization #Internal Language Model

2025년 8월 13일

[논문리뷰] Cut2Next: Generating Next Shot via In-Context Tuning

본 논문은 기존 비디오 생성 모델이 간과했던 영화적 내러티브 흐름과 편집 패턴(예: Shot/Reverse Shot , Cut-Out , Cutaway )을 준수하면서, 선행 샷에 영화적으로 일관성 있는 다음 샷을 생성 하는 새로운 태스크인 Next Shot Generation (NSG) 을 제안합니다.

#Review #Next Shot Generation #In-Context Tuning #Diffusion Transformer #Cinematic Continuity #Hierarchical Prompting #Video Generation #Shot Editing

2025년 8월 13일

[논문리뷰] CharacterShot: Controllable and Consistent 4D Character Animation

본 논문은 단일 캐릭터 이미지와 2D 포즈 시퀀스를 입력으로 받아, 사용자가 제어할 수 있는 동적인 3D 캐릭터(4D 캐릭터 애니메이션)를 생성하는 프레임워크인 CharacterShot 을 제안합니다.

#Review #4D Character Animation #Diffusion Models #Gaussian Splatting #Pose Control #Multi-view Synthesis #Temporal Consistency #Character Dataset

2025년 8월 13일

[논문리뷰] Bridging Theory and Practice in Quantum Game Theory: Optimized Implementation of the Battle of the Sexes with Error Mitigation on NISQ Hardware

본 논문은 양자 게임 이론의 'Battle of the Sexes' 게임을 실제 NISQ(Noisy Intermediate-Scale Quantum) 하드웨어 에 구현하는 과정에서 발생하는 노이즈, 디코히어런스, 제한된 큐비트 연결성 문제를 해결하고자 합니다.

#Review #Quantum Game Theory #NISQ Hardware #Error Mitigation #Battle of the Sexes #Qiskit #Quantum Computing #Strategic Coordination #Payoff Maximization

2025년 8월 13일

[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them

대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.

#Review #Bias Mitigation #LLMs #Mechanistic Interpretability #Fine-tuning #Attention Steering #Stereotype Analysis #Safety Alignment

2025년 8월 13일