[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.#Review#Bias Mitigation#LLMs#Mechanistic Interpretability#Fine-tuning#Attention Steering#Stereotype Analysis#Safety Alignment2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Agentic Search#Asynchronous RL#Long-Horizon Planning#Tool Use#Data Synthesis2025년 8월 13일댓글 수 로딩 중
[논문리뷰] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators기존 코드 생성 벤치마크의 한계(수동 어노테이션 의존, Python 중심, 난이도 및 다양성 부족)를 해결하고, LLM의 코드 생성 능력을 포괄적으로 평가하기 위해 높은 난이도를 가진 다국어 코드 생성 데이터셋을 수동 어노테이션 없이 자동으로 생성하는 방법론 을 개발하는 것입니다.#Review#코드 생성#대규모 언어 모델#코드 벤치마크#다국어 프로그래밍#자동화된 데이터 생성#샌드박스 평가#멀티모달 AI2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Aryabhata: An exam-focused language model for JEE Math본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.#Review#Language Model#Math Reasoning#JEE#Supervised Fine-Tuning#Reinforcement Learning#Model Merging#Chain-of-Thought#Curriculum Learning2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Adversarial Video Promotion Against Text-to-Video Retrieval본 논문은 텍스트-비디오 검색(T2VR) 모델의 간과된 취약점인 적대적 비디오 프로모션 공격 을 탐구합니다.#Review#Adversarial Attack#Video Promotion#Text-to-Video Retrieval#Modality Refinement#Black-box Attack#Video Manipulation#Transferability2025년 8월 13일댓글 수 로딩 중
[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.#Review#Agentic Search#LLM#Benchmark#Information Seeking#Structured Output#Evaluation Metrics#Multi-agent Systems2025년 8월 12일댓글 수 로딩 중
[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.#Review#Audio-Language Models#Jailbreak Attack#Adversarial Audio#Reinforcement Learning#Projected Gradient Descent#Native Payload Discovery#Multimodal AI Safety2025년 8월 12일댓글 수 로딩 중
[논문리뷰] VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding본 논문은 기존 벤치마크의 영어 단일 언어 및 단일 페이지 제한을 넘어, 다국어 장문 문서 에서 질문 기반 멀티모달 검색(multimodal retrieval) 을 평가하기 위한 새로운 벤치마크인 VisR-Bench 를 제안합니다.#Review#Multimodal Retrieval#Retrieval-Augmented Generation#Long Document Understanding#Multilingual NLP#Visual QA#Benchmark#MLLMs#Table Understanding2025년 8월 12일댓글 수 로딩 중
[논문리뷰] UserBench: An Interactive Gym Environment for User-Centric Agents본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 사용자의 모호하고, 변화하며, 간접적으로 표현되는 목표 에 대해 능동적으로 협력하는 능력을 평가하고자 합니다.#Review#User-Centric AI#LLM Evaluation#Interactive Agents#Gym Environment#Preference Elicitation#Multi-turn Dialogue#Tool Use2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.#Review#Self-Rewarding LLMs#Direct Preference Optimization (DPO)#Preference Learning#Generative AI#Gradient Collapse#LLM Alignment#Iterative Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences본 연구는 음성으로 표현된 수학 방정식과 문장을 LaTeX 형식으로 변환하는 도전적인 문제를 해결하고자 합니다. 기존 연구의 한계점(예: 이중 ASR 전사 의존성, 고립된 방정식에 대한 초점, 제한적인 데이터셋, 다국어 지원 부족)을 극복하고, 확장 가능하고 실제 적용 가능한 솔루션을 제공하는 것을 목표로 합니다.#Review#Speech-to-LaTeX#ASR#Language Models#Multimodal AI#Dataset Creation#Mathematical Expression Recognition#LaTeX Generation2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.#Review#Robot Learning#Generalization#Shortcut Learning#Dataset Diversity#Dataset Fragmentation#Data Augmentation#Imitation Learning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning in Vision: A Survey본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.#Review#Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation#Vision-Language-Action (VLA) Models#Policy Optimization#Reward Modeling2025년 8월 12일댓글 수 로딩 중
[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Passage Ranking#Reasoning Models#Large Language Models#Data Synthesis#Reinforcement Learning#Listwise Reranking#Information Retrieval2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#LLM Reasoning#Policy Optimization#Normalization#Clipping#Loss Aggregation#Overlong Filtering2025년 8월 12일댓글 수 로딩 중
[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.#Review#Embodied AI#Agent Reasoning#LLM#Benchmarking#Tool Use#Multi-Agent Systems#Physical Interaction#Constraint Reasoning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation본 논문은 기존 비디오 생성 모델들이 개별 효과에 특화된 LoRA 훈련으로 인해 복합 시각 효과(multi-VFX)를 동시적이고 공간적으로 제어하는 데 한계가 있다는 문제를 해결합니다.#Review#Visual Effects#Video Generation#LoRA#Mixture of Experts#Spatial Control#Diffusion Models#Multi-VFX2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MolmoAct: Action Reasoning Models that can Reason in Space기존 로봇 파운데이션 모델들이 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 의미론적 기반이 부족한 문제를 해결하는 것을 목표로 합니다.#Review#Robotics#Action Reasoning#Vision-Language Models#Spatial Planning#Depth Perception#Trajectory Generation#Explainable AI2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs대규모 MoE 기반 LLM(예: DeepSeek-V3-0324 , Kimi-K2-Instruct )의 막대한 메모리 요구사항으로 인한 배포 병목 현상을 해결하고자 합니다.#Review#Mixture-of-Experts (MoE)#LLM Compression#Matrix Decomposition#Parameter Efficiency#Deep Learning#Memory Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Sparse Attention#LLMs#Reasoning Tasks#Efficiency#Training-Free#Global Locality#KV Cache Optimization2025년 8월 12일댓글 수 로딩 중