[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.#Review#AI Agents#Benchmarking#Scientific Research#LLM Evaluation#Agentic AI#Tool Use#Reproducibility#Cost-Aware Evaluation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.#Review#Machine Translation Evaluation#Large Reasoning Models#LLM-as-a-judge#MQM#Fine-tuning#Thinking Calibration#Computational Efficiency#Meta-evaluation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] ARC-Encoder: learning compressed text representations for large language models본 논문은 대규모 언어 모델(LLM)의 긴 컨텍스트 처리로 인한 추론 비용 증가와 컨텍스트 창 제한 문제를 해결하고자 합니다. 특히, 디코더 모델의 아키텍처를 수정하거나 파인튜닝하지 않고도 컨텍스트를 압축하여 LLM의 일반적인 능력을 유지하면서 효율성을 높이는 것을 목표로 합니다.#Review#Context Compression#Large Language Models#Encoder-Decoder Architecture#Text Representation#In-Context Learning#Parameter Efficiency#Retrieval-Augmented Generation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] ALICE-LRI: A General Method for Lossless Range Image Generation for Spinning LiDAR Sensors without Calibration Metadata본 논문은 회전형 LiDAR 센서 로부터 제조사 보정 메타데이터 없이 손실 없는 레인지 이미지(Range Image)를 생성 하는 범용적인 방법을 제시하는 것을 목표로 합니다.#Review#LiDAR#Range Image#Lossless Projection#Sensor Calibration#Intrinsic Parameters#Point Cloud Reconstruction#Hough Transform#Weighted Least Squares2025년 10월 27일댓글 수 로딩 중
[논문리뷰] A Definition of AGI본 논문은 모호한 AGI(인공 일반 지능) 개념을 명확히 정의하고, 현재의 특수화된 AI와 인간 수준의 인지 능력 간의 격차를 해소하기 위한 정량적 프레임워크 를 제시하는 것을 목표로 합니다. 잘 교육받은 성인의 인지적 다재다능함과 숙련도에 필적하는 AI를 AGI로 정의하며, 이를 측정 가능한 기준으로 설정하고자 합니다.#Review#AGI Definition#Cognitive Assessment#Cattell-Horn-Carroll Theory#AI Evaluation#Multimodal AI#Cognitive Domains#Psychometrics2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Thought Communication in Multiagent Collaboration본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템(MAS)에서 자연어 통신의 내재적 한계(손실, 모호성)를 극복하고자 합니다.#Review#Multiagent Systems#LLM Communication#Latent Variable Models#Identifiability Theory#Thought Communication#Sparse Autoencoder#Prefix Tuning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.#Review#Legal Information Retrieval#Embedding Models#Benchmark Dataset#Natural Language Processing#Retrieval-Augmented Generation#Jurisdictional Diversity#Legal Tech2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.#Review#3D Asset Generation#Simulation-Ready Assets#Diffusion Models#Physically Based Rendering (PBR)#Embodied AI#Robotic Simulation#Image-to-3D#Foundation Model2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.#Review#LLM Agents#Self-play#Reinforcement Learning#Search Agents#Supervision-Free Training#Retrieval-Augmented Generation (RAG)#Task Generation#Curriculum Learning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.#Review#Knowledge Editing#Audio-Language Models#Auditory Attributes#Benchmark#Reliability#Generality#Locality#Portability2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.#Review#Video Reasoning#Spatio-Temporal Grounding#Large Multimodal Models#Reinforcement Learning#Chain-of-Thought#Visual Evidence#Dataset Curation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall본 논문은 이산 확산 모델(Discrete Diffusion Models)의 주요 한계점인 '샘플링 벽(sampling wall) 문제' 를 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion Models#Sampling Wall#Loopholing#Self-Conditioning#Non-Autoregressive Generation#Text Generation#Language Modeling#Reasoning Tasks2025년 10월 24일댓글 수 로딩 중
[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas이 논문은 기존 개인화된 생성 모델의 상호작용적 공간 제어 부족 과 다중 피사체 합성의 확장성 한계 를 해결하고자 합니다.#Review#Text-to-Image Generation#Personalization#Diffusion Models#Interactive Control#Multi-Subject Composition#Layered Canvas#Spatial Control#Image Editing2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations본 논문은 대규모 오디오-언어 모델(LALMs)의 안전성 취약성을 탐구하며, 특히 화자의 감정 변화 가 모델의 안전성 정렬에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다.#Review#LALM Safety#Speaker Emotion#Safety Alignment#Jailbreaking#Audio-Language Models#Emotional Variation#Unsafe Rate#Non-refusal Rate2025년 10월 24일댓글 수 로딩 중
[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.#Review#LLM Evaluation#Reward Hacking#Benchmark Reliability#Test Exploitation#Prompt Engineering#LLM Safety#Code Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1본 논문은 학술 논문을 바탕으로 고품질의 대화형 프로젝트 웹페이지를 자동으로 생성 하는 새로운 태스크를 제안하고 해결하고자 합니다.#Review#Human-Agent Collaboration#Project Page Generation#Multi-Agent System#LLM#VLM#Webpage Automation#PageBench#Scientific Communication#Cost-Effective AI2025년 10월 24일댓글 수 로딩 중
[논문리뷰] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives현재 텍스트-투-비디오(T2V) 모델들이 단일 클립 생성에는 뛰어나지만, 스토리텔링의 본질인 다중 샷(multi-shot) 내러티브 를 일관성 있게 생성하는 데 실패하는 '내러티브 격차'를 해소하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Multi-Shot Video#Narrative Coherence#Diffusion Models#Self-Attention#Cinematic AI#Video Consistency#Directorial Control2025년 10월 24일댓글 수 로딩 중
[논문리뷰] From Masks to Worlds: A Hitchhiker's Guide to World Models이 논문은 '진정한 월드 모델'을 구축하기 위한 명확한 로드맵을 제시하며, 단순한 모델 목록을 나열하는 것을 넘어선다.#Review#World Models#Generative AI#Multimodal Learning#Masked Modeling#Interactive AI#Memory Systems#Autonomous Agents#AI Roadmap2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.#Review#Reinforcement Learning#LLM Alignment#Human Values#Reward Shaping#Value-Weighted Reward#Termination Policy#RLVR2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Emergence of Linear Truth Encodings in Language Models언어 모델(LM)에서 참/거짓 진술을 선형적으로 구분하는 '진실 부공간'이 왜, 그리고 어떻게 출현하는지 그 기계론적 원리 를 밝히는 것이 주요 목표입니다. 이는 LM의 환각 현상(hallucinations) 완화 에 기여할 수 있는 근본적인 이해를 제공하고자 합니다.#Review#Language Models#Truth Encoding#Linear Subspaces#Mechanistic Interpretability#Transformer Models#Learning Dynamics#Truth Co-occurrence Hypothesis#Hallucinations2025년 10월 24일댓글 수 로딩 중