Review

[논문리뷰] AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

본 연구는 기존 아랍어 대규모 언어 모델(LLM) 평가 벤치마크들이 사실적 지식과 일반 추론에 치중하여 심층적인 언어학적 이해도 를 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #Arabic LLMs #Linguistic Benchmark #Human Annotation #Natural Language Understanding #Grammar Evaluation #Morphology Analysis #Syntax Assessment #Reading Comprehension

2025년 11월 18일

[논문리뷰] Agent READMEs: An Empirical Study of Context Files for Agentic Coding

본 연구는 AI 코딩 에이전트의 작동 방식을 정의하고 안내하는 에이전트 컨텍스트 파일(Agent Context Files) 에 대한 체계적인 이해가 부족한 문제를 해결하고자 합니다.

#Review #Agentic Coding #Context Files #READMEs for Agents #Empirical Study #Software Engineering #Documentation Maintenance #Non-functional Requirements #LLMs

2025년 11월 18일

[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.

#Review #LLM Agents #Reinforcement Learning #Markov Decision Process #Tool Use #Multi-turn Interaction #Policy Optimization #Reward Shaping #Agent Framework

2025년 11월 18일

[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

기존 벤치마크의 성능 포화 , 협소한 분야 집중 , 단순화된 답변 형식 , 그리고 데이터 오염 문제로 인해 최신 대규모 언어 모델(LLMs)의 진정한 역량을 평가하기 어렵다는 문제를 해결하고자 합니다.

#Review #Benchmark #LLMs #Scientific Reasoning #Multidisciplinary #AI4S #Data Contamination #Evaluation #LRM-as-Judge

2025년 11월 18일

[논문리뷰] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

본 논문은 기존 텍스트 프롬프트, 참조 이미지, LoRA 기반 스타일 생성 방식이 겪는 스타일 일관성 부족, 창의성 한계, 복잡한 스타일 표현 문제를 해결하고자 합니다.

#Review #Code-to-Style Generation #Discrete Style Space #Style Codebook #Autoregressive Model #Diffusion Models #Visual Stylization #Generative AI

2025년 11월 18일

[논문리뷰] A Brain Wave Encodes a Thousand Tokens: Modeling Inter-Cortical Neural Interactions for Effective EEG-based Emotion Recognition

본 논문은 기존 EEG 기반 감정 인식 모델들이 간과했던 뇌의 상이한 피질 영역 간의 동적 상호작용을 해결하고자 합니다.

#Review #EEG #Emotion Recognition #Transformer Architecture #Inter-Cortical Neural Interactions #Multi-Head Attention #Brain-Computer Interface #Affective Computing

2025년 11월 18일

[논문리뷰] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

본 논문은 언어 중심의 접근 방식을 통해 멀티모달 이해, 추론 및 생성 능력을 통합하는 Uni-MoE-2.0-Omni 라는 효율적인 옴니모달 대규모 모델을 개발하는 것을 목표로 합니다.

#Review #Omnimodal Large Models #Mixture-of-Experts (MoE)#Language-Centric AI #Multimodal Understanding #Multimodal Generation #Progressive Training #Omni-Modality 3D RoPE

2025년 11월 17일

[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

본 논문은 기존 Segment Anything Model (SAM) 계열의 모델들이 가지는 세분화(granularity) 제어의 한계를 극복하고, 인간의 주석 없이 모든 세분화 수준에서 연속적이고 제어 가능한 객체 분할 을 가능하게 하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #Segmentation #Granularity Control #SAM #Foundation Models #Unsupervised Learning #Image Segmentation #Video Segmentation

2025년 11월 17일

[논문리뷰] UFO^3: Weaving the Digital Agent Galaxy

이 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 단일 운영체제나 기기에 국한되어 복잡한 크로스-디바이스 워크플로우를 수동으로 처리해야 하는 한계를 극복하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Cross-Device Orchestration #LLM-Powered Agents #Task Constellation #Directed Acyclic Graph (DAG)#Agent Interaction Protocol (AIP)#Fault Tolerance #Asynchronous Execution

2025년 11월 17일

[논문리뷰] TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

본 논문은 기존의 이미지-투-비디오(I2V) 생성 모델 평가 벤치마크가 시각적 충실도와 시간적 일관성에 집중하여 고차원적인 추론 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generative Models #Visual Reasoning #Benchmarking #Image-to-Video #TiViBench #VideoTPO #Prompt Optimization

2025년 11월 17일

[논문리뷰] Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Vision-Language Models(VLM)이 테스트 시점의 도메인 변화(OOD)에 취약하여 성능이 저하되는 문제를 해결하고, 기존 Test-Time Adaptation(TTA) 방법론의 높은 계산 비용과 메모리 사용량, 그리고 frozen encoder 수정의 필요성 같은 제약을 극복하는 효율적이고 비침습적인 프레임워크를 개발하는 것이 목표입니다.

#Review #Vision-Language Models #Test-Time Adaptation #Zero-Shot Generalization #Spectral Decomposition #Latent Space Steering #SVD #Out-of-Distribution

2025년 11월 17일

[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.

#Review #Model Souping #Large Language Models #Weighted Averaging #Benchmark Optimization #State-of-the-Art #Category Experts #Parameter Averaging #Post-training

2025년 11월 17일

[논문리뷰] SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 텍스트-이미지 상호작용에서 발생하는 구성적 안전 위험 과 취약한 안전 인식을 해결하고자 합니다.

#Review #Multimodal Safety Alignment #Rule-Governed RL #Self-Rewarded Learning #MLLM Safety #Policy Optimization #Safety Benchmarking #Compositional Robustness

2025년 11월 17일

[논문리뷰] Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

본 논문은 기존 3D MLLM(Multimodal Large Language Model)이 3D 객체를 개별 부품으로 인식하고 조작하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #3D Multimodal LLM #Part-aware #3D Generation #3D Editing #3D Understanding #Bounding Box #Structured Program #Dual-encoder

2025년 11월 17일

[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Physics Reasoning #Agentic AI #Olympiad Problems #Post-Training #Knowledge Transfer

2025년 11월 17일

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.

#Review #Earth Observation #Foundation Model #Multimodal Learning #Self-supervised Learning #Latent Image Modeling #Vision Transformer #Spatio-temporal

2025년 11월 17일

[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #Direct Preference Optimization #World Model #Reward Learning #Robotics #Embodied AI #Flow-Matching

2025년 11월 17일

[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.

#Review #Research Agent #Tool-Augmented Reasoning #Interaction Scaling #Large Language Models #Reinforcement Learning #Context Management #Open-Source AI

2025년 11월 17일

[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

본 연구는 현미경 이미지 분석을 위한 대규모 고품질 멀티모달 질의응답(VQA) 데이터셋의 부족 이라는 문제점을 해결하여, 멀티모달 대규모 언어 모델(MLLM)의 현미경 과학 추론 능력을 향상시키는 것을 목표로 합니다. 기존 데이터셋의 제한된 규모와 낮은 난이도로 인한 MLLM 학습의 한계를 극복하고자 합니다.

#Review #Microscopy VQA #Multimodal LLM #Weak Supervision #Graph Neural Networks #Dataset Generation #Biomedical Imaging #Scientific Reasoning #Cross-Modal Consistency

2025년 11월 17일

[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.

#Review #LLM Agents #Software Engineering #Long-Context #Interactive Benchmark #Tool Usage #Memory Management #Bias-Free Evaluation #Multi-Turn

2025년 11월 17일