Review

[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them

대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.

#Review #Bias Mitigation #LLMs #Mechanistic Interpretability #Fine-tuning #Attention Steering #Stereotype Analysis #Safety Alignment

2025년 8월 13일

[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Agentic Search #Asynchronous RL #Long-Horizon Planning #Tool Use #Data Synthesis

2025년 8월 13일

[논문리뷰] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

기존 코드 생성 벤치마크의 한계(수동 어노테이션 의존, Python 중심, 난이도 및 다양성 부족)를 해결하고, LLM의 코드 생성 능력을 포괄적으로 평가하기 위해 높은 난이도를 가진 다국어 코드 생성 데이터셋을 수동 어노테이션 없이 자동으로 생성하는 방법론 을 개발하는 것입니다.

#Review #코드 생성 #대규모 언어 모델 #코드 벤치마크 #다국어 프로그래밍 #자동화된 데이터 생성 #샌드박스 평가 #멀티모달 AI

2025년 8월 13일

[논문리뷰] Aryabhata: An exam-focused language model for JEE Math

본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.

#Review #Language Model #Math Reasoning #JEE #Supervised Fine-Tuning #Reinforcement Learning #Model Merging #Chain-of-Thought #Curriculum Learning

2025년 8월 13일

[논문리뷰] Adversarial Video Promotion Against Text-to-Video Retrieval

본 논문은 텍스트-비디오 검색(T2VR) 모델의 간과된 취약점인 적대적 비디오 프로모션 공격 을 탐구합니다.

#Review #Adversarial Attack #Video Promotion #Text-to-Video Retrieval #Modality Refinement #Black-box Attack #Video Manipulation #Transferability

2025년 8월 13일

[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking

본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.

#Review #Agentic Search #LLM #Benchmark #Information Seeking #Structured Output #Evaluation Metrics #Multi-agent Systems

2025년 8월 12일

[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.

#Review #Audio-Language Models #Jailbreak Attack #Adversarial Audio #Reinforcement Learning #Projected Gradient Descent #Native Payload Discovery #Multimodal AI Safety

2025년 8월 12일

[논문리뷰] VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

본 논문은 기존 벤치마크의 영어 단일 언어 및 단일 페이지 제한을 넘어, 다국어 장문 문서 에서 질문 기반 멀티모달 검색(multimodal retrieval) 을 평가하기 위한 새로운 벤치마크인 VisR-Bench 를 제안합니다.

#Review #Multimodal Retrieval #Retrieval-Augmented Generation #Long Document Understanding #Multilingual NLP #Visual QA #Benchmark #MLLMs #Table Understanding

2025년 8월 12일

[논문리뷰] UserBench: An Interactive Gym Environment for User-Centric Agents

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 사용자의 모호하고, 변화하며, 간접적으로 표현되는 목표 에 대해 능동적으로 협력하는 능력을 평가하고자 합니다.

#Review #User-Centric AI #LLM Evaluation #Interactive Agents #Gym Environment #Preference Elicitation #Multi-turn Dialogue #Tool Use

2025년 8월 12일

[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.

#Review #Self-Rewarding LLMs #Direct Preference Optimization (DPO)#Preference Learning #Generative AI #Gradient Collapse #LLM Alignment #Iterative Optimization

2025년 8월 12일

[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

본 연구는 음성으로 표현된 수학 방정식과 문장을 LaTeX 형식으로 변환하는 도전적인 문제를 해결하고자 합니다. 기존 연구의 한계점(예: 이중 ASR 전사 의존성, 고립된 방정식에 대한 초점, 제한적인 데이터셋, 다국어 지원 부족)을 극복하고, 확장 가능하고 실제 적용 가능한 솔루션을 제공하는 것을 목표로 합니다.

#Review #Speech-to-LaTeX #ASR #Language Models #Multimodal AI #Dataset Creation #Mathematical Expression Recognition #LaTeX Generation

2025년 8월 12일

[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.

#Review #Robot Learning #Generalization #Shortcut Learning #Dataset Diversity #Dataset Fragmentation #Data Augmentation #Imitation Learning

2025년 8월 12일

[논문리뷰] Reinforcement Learning in Vision: A Survey

본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.

#Review #Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation #Vision-Language-Action (VLA) Models #Policy Optimization #Reward Modeling

2025년 8월 12일

[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Passage Ranking #Reasoning Models #Large Language Models #Data Synthesis #Reinforcement Learning #Listwise Reranking #Information Retrieval

2025년 8월 12일

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일

[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.

#Review #Embodied AI #Agent Reasoning #LLM #Benchmarking #Tool Use #Multi-Agent Systems #Physical Interaction #Constraint Reasoning

2025년 8월 12일

[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

본 논문은 기존 비디오 생성 모델들이 개별 효과에 특화된 LoRA 훈련으로 인해 복합 시각 효과(multi-VFX)를 동시적이고 공간적으로 제어하는 데 한계가 있다는 문제를 해결합니다.

#Review #Visual Effects #Video Generation #LoRA #Mixture of Experts #Spatial Control #Diffusion Models #Multi-VFX

2025년 8월 12일

[논문리뷰] MolmoAct: Action Reasoning Models that can Reason in Space

기존 로봇 파운데이션 모델들이 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 의미론적 기반이 부족한 문제를 해결하는 것을 목표로 합니다.

#Review #Robotics #Action Reasoning #Vision-Language Models #Spatial Planning #Depth Perception #Trajectory Generation #Explainable AI

2025년 8월 12일

[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

대규모 MoE 기반 LLM(예: DeepSeek-V3-0324 , Kimi-K2-Instruct )의 막대한 메모리 요구사항으로 인한 배포 병목 현상을 해결하고자 합니다.

#Review #Mixture-of-Experts (MoE)#LLM Compression #Matrix Decomposition #Parameter Efficiency #Deep Learning #Memory Optimization

2025년 8월 12일

[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Sparse Attention #LLMs #Reasoning Tasks #Efficiency #Training-Free #Global Locality #KV Cache Optimization

2025년 8월 12일