Review

[논문리뷰] TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

휴머노이드 로봇 분야에서 대규모 데이터 수집의 비효율성 과 기존 텔레오퍼레이션 시스템의 한계 를 극복하는 것입니다.

#Review #Humanoid Robotics #Data Collection #Teleoperation #Full-Body Control #Visuomotor Policy Learning #VR #Portable MoCap-Free

2025년 11월 9일

[논문리뷰] Step-Audio-EditX Technical Report

이 논문은 표현력이 풍부하고 반복적인 음성 편집(감정, 말하기 스타일, 운율 포함)과 강력한 제로샷 텍스트-음성 변환(TTS) 기능을 제공하는 최초의 오픈소스 LLM 기반 오디오 모델인 Step-Audio-EditX 를 제안합니다.

#Review #LLM-based Audio Model #Audio Editing #Text-to-Speech (TTS)#Zero-shot Learning #Large-Margin Data #Reinforcement Learning (RLHF)#Emotion Control #Speaking Style Transfer

2025년 11월 9일

[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.

#Review #LLMs #RLVR #Length Regularization #Mathematical Reasoning #Data Curation #Model Efficiency #Emergent Brevity

2025년 11월 9일

[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.

#Review #Robotics #Real-robot Evaluation #Embodied AI #Vision-Language-Action Models #Benchmarking #Online Testing System #Robotics Control #Large-scale Evaluation

2025년 11월 9일

[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMs

대규모 언어 모델(LLMs)이 인간 지능의 핵심 요소인 유연하고 다면적인 추론 능력(논리적 추론, 공간 인식, 제약 조건 만족)을 평가하는 데 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #LLM Reasoning #Generative AI #Benchmark #Logical Deduction #Spatial Reasoning #Constraint Satisfaction #Hallucination Cascade #Self-Correction

2025년 11월 9일

[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

본 논문은 비디오 생성 분야에서 Direct Preference Optimization (DPO) 의 효율성을 유지하면서, 기존 방법론이 가진 비싼 데이터 구축, 불안정한 훈련, 과도한 메모리 소비라는 고유한 비디오 태스크의 난제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Direct Preference Optimization #SFT Regularization #GT-Pair #Memory Optimization #Diffusion Models #I2V #T2V

2025년 11월 9일

[논문리뷰] LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context

본 연구는 중국어 환경에서 대규모 언어 모델(LLMs)의 안전성 평가를 위한 동적(dynamic) 이며 문화적으로 적합한(culturally-relevant) 벤치마크인 LiveSecBench 를 제안하는 것을 목표로 합니다.

#Review #LLM Safety #AI Safety Benchmark #Chinese Context #Dynamic Evaluation #Cultural Relevance #Adversarial Robustness #ELO Rating System

2025년 11월 9일

[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw

현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Evaluation #Spatial Reasoning #Benchmark #Generative AI #Visual Perception #Spatial Imagination #Code Generation

2025년 11월 9일

[논문리뷰] Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

본 논문은 LLM(Large Language Model)의 내부 작동 원리를 이론적으로 설명하기 위해 비트(bits) 대신 토큰(token) 기반의 새로운 의미론적 정보 이론 프레임워크 를 구축하는 것을 목표로 합니다.

#Review #Semantic Information Theory #Large Language Models #Directed Information #Rate-Distortion Function #Granger Causality #Token Embedding #Transformer Architecture #Variational Inference

2025년 11월 9일

[논문리뷰] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

논문은 사전 훈련된 Vision-Language-Action (VLA) 모델이 로봇 액션 태스크에 미세 조정될 때 발생하는 시각 표현의 퇴화(degradation) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #OOD Generalization #Representation Alignment #Fine-tuning #Robotics #Visual Representations #Attention Maps #t-SNE

2025년 11월 9일

[논문리뷰] Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

본 논문은 심도 추정 및 에고-모션 학습을 위한 기존의 자율학습(unsupervised learning) 프레임워크가 모션 구성요소(회전, 병진)를 불분명하게 처리하여 신뢰성과 견고성이 저하되는 문제를 해결하고자 합니다.

#Review #Self-supervised Learning #Depth Estimation #Ego-Motion Estimation #Motion Component Discrimination #Geometric Constraints #Optical Flow #PoseNet #DepthNet

2025년 11월 9일

[논문리뷰] CodeClash: Benchmarking Goal-Oriented Software Engineering

본 논문은 기존의 고립된 코딩 벤치마크가 아닌, 고수준의 목표 지향적 소프트웨어 개발(goal-oriented software engineering) 환경에서 언어 모델(LM)의 성능을 평가하는 도전 과제를 해결하고자 합니다.

#Review #Software Engineering Benchmarking #Language Models #AI Agents #Goal-Oriented Development #Competitive Programming #Code Evolution #Strategic Reasoning #Autonomous Systems

2025년 11월 9일

[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

본 연구는 기존 멀티모달 대규모 언어 모델(MLLM)이 실제 복잡한 차트 이해 작업에서 겪는 한계(제한된 차트 유형 및 복잡성, 낮은 질문 복잡성, 해석력 부족 등)를 해결하고자 합니다.

#Review #Chart Comprehension #Visual Reasoning #Data Generation #Code-Driven Pipeline #Multimodal LLMs #Retrieval-Augmented Generation #Reinforcement Learning #Synthetic Data

2025년 11월 9일

[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

대규모 멀티모달 모델(LMM)이 이미지 인코더에서 생성되는 막대한 수의 시각 토큰으로 인해 겪는 심각한 추론 비효율성 문제를 해결하는 것이 주된 목표입니다.

#Review #Large Multimodal Models #Visual Token Compression #Token Pruning #Benchmark #Efficiency #Inference Latency #Multimodal LLMs

2025년 11월 9일

[논문리뷰] Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

fMRI 뇌 활동 기록을 통해 사람이 본 이미지를 충실하게 재구성하는 것을 목표로 합니다. 기존 확산 모델 기반 방법론들이 실제 본 이미지에 대한 시각적 충실도 및 의미적 정확도가 부족 하다는 한계를 극복하고, 구조적으로나 의미론적으로 더욱 유사한 재구성을 달성하고자 합니다.

#Review #fMRI #Image Reconstruction #Brain-Computer Interface #Transformer #Diffusion Models #Neural Decoding #Cross-Subject Learning #Deep Image Prior

2025년 11월 9일

[논문리뷰] BRAINS: A Retrieval-Augmented System for Alzheimer's Detection and Monitoring

본 연구는 특히 진단 도구에 대한 접근성이 제한된 지역에서, 조기 및 정확한 알츠하이머병(AD) 탐지의 중요성이 커지는 문제에 대응합니다. 대규모 언어 모델(LLMs) 의 강력한 추론 능력과 사례 기반 추론 을 결합하여 AD 진단 및 모니터링을 위한 확장 가능하고 설명 가능한 시스템을 개발하는 것을 목표로 합니다.

#Review #Alzheimer's Disease #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Clinical Decision Support #Multimodal Data Fusion #Cognitive Decline Detection #Early Diagnosis

2025년 11월 9일

[논문리뷰] AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda

본 연구는 일반적인 대규모 언어 모델(LLM)이 아유르베다와 같이 깊은 문화적, 언어적, 전문 지식을 요구하는 특수 의학 도메인에서 일관되게 저조한 성능을 보이는 문제를 해결하고자 합니다.

#Review #Ayurveda LLM #Domain Adaptation #Bilingual Language Model #Instruction Tuning #Medical AI #Knowledge-Grounded QA #Traditional Medicine

2025년 11월 9일

[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Vision-Language Models #Multimodal Benchmark #Rebus Puzzles #In-Context Learning #Reasoning #ControlNet #Prompt Engineering

2025년 11월 9일

[논문리뷰] World Simulation with Video Foundation Models for Physical AI

본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.

#Review #Physical AI #World Simulation #Video Foundation Models #Flow Matching #Reinforcement Learning #Robotics #Autonomous Driving #Synthetic Data Generation

2025년 11월 9일

[논문리뷰] Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers

본 연구는 이질적인 검색기(retriever)로부터 얻은 후보군들을 융합할 때, 기존의 랭크 기반 융합 방식들이 콘텐츠를 무시하고 랭크나 스코어 신호에만 의존하는 한계를 극복하고자 합니다.

#Review #Video Retrieval #Vision-Language Models (VLMs)#Zero-Shot Learning #List-wise Reranking #Rank Fusion #Prompt Engineering #S-Grid #Multimodal Retrieval

2025년 11월 9일