[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.#Review#Multimodal AI#Code Generation#SVG#Visual Representation#Benchmark#Large Vision-Language Models#Agentic AI#Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] The Collaboration GapAI 에이전트 기반 시스템에서 독립적으로 개발된 에이전트 간의 효과적인 협업 능력 이 부족하다는 문제인 ' 협업 격차(Collaboration Gap) '를 파악하고 정량화하는 것을 목표로 합니다.#Review#AI Collaboration#Multi-Agent Systems#Large Language Models (LLMs)#Maze Solving#Heterogeneous Agents#Collaboration Gap#Relay Inference#Agentic AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data논문은 복잡한 질문, 노이즈가 있는 데이터, 제한된 수치 연산 능력으로 인해 대규모 언어 모델(LLM) 이 테이블 질의응답(TQA) 에서 저조한 성능을 보이는 문제를 해결합니다. 특히, 다단계(multi-hop) 수치 추론 과 지저분한 테이블 데이터 처리의 어려움을 극복하여 LLM의 성능을 향상시키는 것을 목표로 합니다.#Review#Tabular Data#Numerical Reasoning#Large Language Models (LLMs)#Table Question Answering (TQA)#Program-of-Thoughts (PoT)#Data Sanitization#Query Decomposition#Multi-hop Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System휴머노이드 로봇 분야에서 대규모 데이터 수집의 비효율성 과 기존 텔레오퍼레이션 시스템의 한계 를 극복하는 것입니다.#Review#Humanoid Robotics#Data Collection#Teleoperation#Full-Body Control#Visuomotor Policy Learning#VR#Portable MoCap-Free2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Step-Audio-EditX Technical Report이 논문은 표현력이 풍부하고 반복적인 음성 편집(감정, 말하기 스타일, 운율 포함)과 강력한 제로샷 텍스트-음성 변환(TTS) 기능을 제공하는 최초의 오픈소스 LLM 기반 오디오 모델인 Step-Audio-EditX 를 제안합니다.#Review#LLM-based Audio Model#Audio Editing#Text-to-Speech (TTS)#Zero-shot Learning#Large-Margin Data#Reinforcement Learning (RLHF)#Emotion Control#Speaking Style Transfer2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.#Review#LLMs#RLVR#Length Regularization#Mathematical Reasoning#Data Curation#Model Efficiency#Emergent Brevity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies본 논문은 학습 기반 로봇 제어 알고리즘, 특히 Vision-Language-Action (VLA) 모델 의 대규모, 재현성 및 확장 가능한 실제 로봇 평가를 위한 도전 과제를 해결하는 것을 목표로 합니다.#Review#Robotics#Real-robot Evaluation#Embodied AI#Vision-Language-Action Models#Benchmarking#Online Testing System#Robotics Control#Large-scale Evaluation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMs대규모 언어 모델(LLMs)이 인간 지능의 핵심 요소인 유연하고 다면적인 추론 능력(논리적 추론, 공간 인식, 제약 조건 만족)을 평가하는 데 있어 기존 벤치마크의 한계를 해결하고자 합니다.#Review#LLM Reasoning#Generative AI#Benchmark#Logical Deduction#Spatial Reasoning#Constraint Satisfaction#Hallucination Cascade#Self-Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation본 논문은 비디오 생성 분야에서 Direct Preference Optimization (DPO) 의 효율성을 유지하면서, 기존 방법론이 가진 비싼 데이터 구축, 불안정한 훈련, 과도한 메모리 소비라는 고유한 비디오 태스크의 난제를 해결하는 것을 목표로 합니다.#Review#Video Generation#Direct Preference Optimization#SFT Regularization#GT-Pair#Memory Optimization#Diffusion Models#I2V#T2V2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context본 연구는 중국어 환경에서 대규모 언어 모델(LLMs)의 안전성 평가를 위한 동적(dynamic) 이며 문화적으로 적합한(culturally-relevant) 벤치마크인 LiveSecBench 를 제안하는 것을 목표로 합니다.#Review#LLM Safety#AI Safety Benchmark#Chinese Context#Dynamic Evaluation#Cultural Relevance#Adversarial Robustness#ELO Rating System2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs본 논문은 LLM(Large Language Model)의 내부 작동 원리를 이론적으로 설명하기 위해 비트(bits) 대신 토큰(token) 기반의 새로운 의미론적 정보 이론 프레임워크 를 구축하는 것을 목표로 합니다.#Review#Semantic Information Theory#Large Language Models#Directed Information#Rate-Distortion Function#Granger Causality#Token Embedding#Transformer Architecture#Variational Inference2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization논문은 사전 훈련된 Vision-Language-Action (VLA) 모델이 로봇 액션 태스크에 미세 조정될 때 발생하는 시각 표현의 퇴화(degradation) 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#OOD Generalization#Representation Alignment#Fine-tuning#Robotics#Visual Representations#Attention Maps#t-SNE2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning본 논문은 심도 추정 및 에고-모션 학습을 위한 기존의 자율학습(unsupervised learning) 프레임워크가 모션 구성요소(회전, 병진)를 불분명하게 처리하여 신뢰성과 견고성이 저하되는 문제를 해결하고자 합니다.#Review#Self-supervised Learning#Depth Estimation#Ego-Motion Estimation#Motion Component Discrimination#Geometric Constraints#Optical Flow#PoseNet#DepthNet2025년 11월 9일댓글 수 로딩 중
[논문리뷰] CodeClash: Benchmarking Goal-Oriented Software Engineering본 논문은 기존의 고립된 코딩 벤치마크가 아닌, 고수준의 목표 지향적 소프트웨어 개발(goal-oriented software engineering) 환경에서 언어 모델(LM)의 성능을 평가하는 도전 과제를 해결하고자 합니다.#Review#Software Engineering Benchmarking#Language Models#AI Agents#Goal-Oriented Development#Competitive Programming#Code Evolution#Strategic Reasoning#Autonomous Systems2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension본 연구는 기존 멀티모달 대규모 언어 모델(MLLM)이 실제 복잡한 차트 이해 작업에서 겪는 한계(제한된 차트 유형 및 복잡성, 낮은 질문 복잡성, 해석력 부족 등)를 해결하고자 합니다.#Review#Chart Comprehension#Visual Reasoning#Data Generation#Code-Driven Pipeline#Multimodal LLMs#Retrieval-Augmented Generation#Reinforcement Learning#Synthetic Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models대규모 멀티모달 모델(LMM)이 이미지 인코더에서 생성되는 막대한 수의 시각 토큰으로 인해 겪는 심각한 추론 비효율성 문제를 해결하는 것이 주된 목표입니다.#Review#Large Multimodal Models#Visual Token Compression#Token Pruning#Benchmark#Efficiency#Inference Latency#Multimodal LLMs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Brain-IT: Image Reconstruction from fMRI via Brain-Interaction TransformerfMRI 뇌 활동 기록을 통해 사람이 본 이미지를 충실하게 재구성하는 것을 목표로 합니다. 기존 확산 모델 기반 방법론들이 실제 본 이미지에 대한 시각적 충실도 및 의미적 정확도가 부족 하다는 한계를 극복하고, 구조적으로나 의미론적으로 더욱 유사한 재구성을 달성하고자 합니다.#Review#fMRI#Image Reconstruction#Brain-Computer Interface#Transformer#Diffusion Models#Neural Decoding#Cross-Subject Learning#Deep Image Prior2025년 11월 9일댓글 수 로딩 중
[논문리뷰] BRAINS: A Retrieval-Augmented System for Alzheimer's Detection and Monitoring본 연구는 특히 진단 도구에 대한 접근성이 제한된 지역에서, 조기 및 정확한 알츠하이머병(AD) 탐지의 중요성이 커지는 문제에 대응합니다. 대규모 언어 모델(LLMs) 의 강력한 추론 능력과 사례 기반 추론 을 결합하여 AD 진단 및 모니터링을 위한 확장 가능하고 설명 가능한 시스템을 개발하는 것을 목표로 합니다.#Review#Alzheimer's Disease#Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Clinical Decision Support#Multimodal Data Fusion#Cognitive Decline Detection#Early Diagnosis2025년 11월 9일댓글 수 로딩 중
[논문리뷰] AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda본 연구는 일반적인 대규모 언어 모델(LLM)이 아유르베다와 같이 깊은 문화적, 언어적, 전문 지식을 요구하는 특수 의학 도메인에서 일관되게 저조한 성능을 보이는 문제를 해결하고자 합니다.#Review#Ayurveda LLM#Domain Adaptation#Bilingual Language Model#Instruction Tuning#Medical AI#Knowledge-Grounded QA#Traditional Medicine2025년 11월 9일댓글 수 로딩 중