Review

[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.

#Review #AI Agents #Benchmarking #Scientific Research #LLM Evaluation #Agentic AI #Tool Use #Reproducibility #Cost-Aware Evaluation

2025년 10월 27일

[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Reasoning Models #LLM-as-a-judge #MQM #Fine-tuning #Thinking Calibration #Computational Efficiency #Meta-evaluation

2025년 10월 27일

[논문리뷰] ARC-Encoder: learning compressed text representations for large language models

본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 처리로 인한 추론 비용 증가와 컨텍스트 창 제한 문제를 해결하고자 합니다. 특히, 디코더 모델의 아키텍처를 수정하거나 파인튜닝하지 않고도 컨텍스트를 압축하여 LLM의 일반적인 능력을 유지하면서 효율성을 높이는 것을 목표로 합니다.

#Review #Context Compression #Large Language Models #Encoder-Decoder Architecture #Text Representation #In-Context Learning #Parameter Efficiency #Retrieval-Augmented Generation

2025년 10월 27일

[논문리뷰] ALICE-LRI: A General Method for Lossless Range Image Generation for Spinning LiDAR Sensors without Calibration Metadata

본 논문은 회전형 LiDAR 센서 로부터 제조사 보정 메타데이터 없이 손실 없는 레인지 이미지(Range Image)를 생성 하는 범용적인 방법을 제시하는 것을 목표로 합니다.

#Review #LiDAR #Range Image #Lossless Projection #Sensor Calibration #Intrinsic Parameters #Point Cloud Reconstruction #Hough Transform #Weighted Least Squares

2025년 10월 27일

[논문리뷰] A Definition of AGI

본 논문은 모호한 AGI(인공 일반 지능) 개념을 명확히 정의하고, 현재의 특수화된 AI와 인간 수준의 인지 능력 간의 격차를 해소하기 위한 정량적 프레임워크 를 제시하는 것을 목표로 합니다. 잘 교육받은 성인의 인지적 다재다능함과 숙련도에 필적하는 AI를 AGI로 정의하며, 이를 측정 가능한 기준으로 설정하고자 합니다.

#Review #AGI Definition #Cognitive Assessment #Cattell-Horn-Carroll Theory #AI Evaluation #Multimodal AI #Cognitive Domains #Psychometrics

2025년 10월 27일

[논문리뷰] Thought Communication in Multiagent Collaboration

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템(MAS)에서 자연어 통신의 내재적 한계(손실, 모호성)를 극복하고자 합니다.

#Review #Multiagent Systems #LLM Communication #Latent Variable Models #Identifiability Theory #Thought Communication #Sparse Autoencoder #Prefix Tuning

2025년 10월 24일

[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)

이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Legal Information Retrieval #Embedding Models #Benchmark Dataset #Natural Language Processing #Retrieval-Augmented Generation #Jurisdictional Diversity #Legal Tech

2025년 10월 24일

[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.

#Review #3D Asset Generation #Simulation-Ready Assets #Diffusion Models #Physically Based Rendering (PBR)#Embodied AI #Robotic Simulation #Image-to-3D #Foundation Model

2025년 10월 24일

[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision

본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.

#Review #LLM Agents #Self-play #Reinforcement Learning #Search Agents #Supervision-Free Training #Retrieval-Augmented Generation (RAG)#Task Generation #Curriculum Learning

2025년 10월 24일

[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.

#Review #Knowledge Editing #Audio-Language Models #Auditory Attributes #Benchmark #Reliability #Generality #Locality #Portability

2025년 10월 24일

[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.

#Review #Video Reasoning #Spatio-Temporal Grounding #Large Multimodal Models #Reinforcement Learning #Chain-of-Thought #Visual Evidence #Dataset Curation

2025년 10월 24일

[논문리뷰] Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall

본 논문은 이산 확산 모델(Discrete Diffusion Models)의 주요 한계점인 '샘플링 벽(sampling wall) 문제' 를 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Sampling Wall #Loopholing #Self-Conditioning #Non-Autoregressive Generation #Text Generation #Language Modeling #Reasoning Tasks

2025년 10월 24일

[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas

이 논문은 기존 개인화된 생성 모델의 상호작용적 공간 제어 부족 과 다중 피사체 합성의 확장성 한계 를 해결하고자 합니다.

#Review #Text-to-Image Generation #Personalization #Diffusion Models #Interactive Control #Multi-Subject Composition #Layered Canvas #Spatial Control #Image Editing

2025년 10월 24일

[논문리뷰] Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

본 논문은 대규모 오디오-언어 모델(LALMs)의 안전성 취약성을 탐구하며, 특히 화자의 감정 변화 가 모델의 안전성 정렬에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다.

#Review #LALM Safety #Speaker Emotion #Safety Alignment #Jailbreaking #Audio-Language Models #Emotional Variation #Unsafe Rate #Non-refusal Rate

2025년 10월 24일

[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.

#Review #LLM Evaluation #Reward Hacking #Benchmark Reliability #Test Exploitation #Prompt Engineering #LLM Safety #Code Generation

2025년 10월 24일

[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1

본 논문은 학술 논문을 바탕으로 고품질의 대화형 프로젝트 웹페이지를 자동으로 생성 하는 새로운 태스크를 제안하고 해결하고자 합니다.

#Review #Human-Agent Collaboration #Project Page Generation #Multi-Agent System #LLM #VLM #Webpage Automation #PageBench #Scientific Communication #Cost-Effective AI

2025년 10월 24일

[논문리뷰] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

현재 텍스트-투-비디오(T2V) 모델들이 단일 클립 생성에는 뛰어나지만, 스토리텔링의 본질인 다중 샷(multi-shot) 내러티브 를 일관성 있게 생성하는 데 실패하는 '내러티브 격차'를 해소하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Multi-Shot Video #Narrative Coherence #Diffusion Models #Self-Attention #Cinematic AI #Video Consistency #Directorial Control

2025년 10월 24일

[논문리뷰] From Masks to Worlds: A Hitchhiker's Guide to World Models

이 논문은 '진정한 월드 모델'을 구축하기 위한 명확한 로드맵을 제시하며, 단순한 모델 목록을 나열하는 것을 넘어선다.

#Review #World Models #Generative AI #Multimodal Learning #Masked Modeling #Interactive AI #Memory Systems #Autonomous Agents #AI Roadmap

2025년 10월 24일

[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.

#Review #Reinforcement Learning #LLM Alignment #Human Values #Reward Shaping #Value-Weighted Reward #Termination Policy #RLVR

2025년 10월 24일

[논문리뷰] Emergence of Linear Truth Encodings in Language Models

언어 모델(LM)에서 참/거짓 진술을 선형적으로 구분하는 '진실 부공간'이 왜, 그리고 어떻게 출현하는지 그 기계론적 원리 를 밝히는 것이 주요 목표입니다. 이는 LM의 환각 현상(hallucinations) 완화 에 기여할 수 있는 근본적인 이해를 제공하고자 합니다.

#Review #Language Models #Truth Encoding #Linear Subspaces #Mechanistic Interpretability #Transformer Models #Learning Dynamics #Truth Co-occurrence Hypothesis #Hallucinations

2025년 10월 24일