[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.#Review#Agentic Search#LLM#Benchmark#Information Seeking#Structured Output#Evaluation Metrics#Multi-agent Systems2025년 8월 12일댓글 수 로딩 중
[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.#Review#Audio-Language Models#Jailbreak Attack#Adversarial Audio#Reinforcement Learning#Projected Gradient Descent#Native Payload Discovery#Multimodal AI Safety2025년 8월 12일댓글 수 로딩 중
[논문리뷰] VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding본 논문은 기존 벤치마크의 영어 단일 언어 및 단일 페이지 제한을 넘어, 다국어 장문 문서 에서 질문 기반 멀티모달 검색(multimodal retrieval) 을 평가하기 위한 새로운 벤치마크인 VisR-Bench 를 제안합니다.#Review#Multimodal Retrieval#Retrieval-Augmented Generation#Long Document Understanding#Multilingual NLP#Visual QA#Benchmark#MLLMs#Table Understanding2025년 8월 12일댓글 수 로딩 중
[논문리뷰] UserBench: An Interactive Gym Environment for User-Centric Agents본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 사용자의 모호하고, 변화하며, 간접적으로 표현되는 목표 에 대해 능동적으로 협력하는 능력을 평가하고자 합니다.#Review#User-Centric AI#LLM Evaluation#Interactive Agents#Gym Environment#Preference Elicitation#Multi-turn Dialogue#Tool Use2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.#Review#Self-Rewarding LLMs#Direct Preference Optimization (DPO)#Preference Learning#Generative AI#Gradient Collapse#LLM Alignment#Iterative Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences본 연구는 음성으로 표현된 수학 방정식과 문장을 LaTeX 형식으로 변환하는 도전적인 문제를 해결하고자 합니다. 기존 연구의 한계점(예: 이중 ASR 전사 의존성, 고립된 방정식에 대한 초점, 제한적인 데이터셋, 다국어 지원 부족)을 극복하고, 확장 가능하고 실제 적용 가능한 솔루션을 제공하는 것을 목표로 합니다.#Review#Speech-to-LaTeX#ASR#Language Models#Multimodal AI#Dataset Creation#Mathematical Expression Recognition#LaTeX Generation2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.#Review#Robot Learning#Generalization#Shortcut Learning#Dataset Diversity#Dataset Fragmentation#Data Augmentation#Imitation Learning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning in Vision: A Survey본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.#Review#Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation#Vision-Language-Action (VLA) Models#Policy Optimization#Reward Modeling2025년 8월 12일댓글 수 로딩 중
[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Passage Ranking#Reasoning Models#Large Language Models#Data Synthesis#Reinforcement Learning#Listwise Reranking#Information Retrieval2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#LLM Reasoning#Policy Optimization#Normalization#Clipping#Loss Aggregation#Overlong Filtering2025년 8월 12일댓글 수 로딩 중
[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.#Review#Embodied AI#Agent Reasoning#LLM#Benchmarking#Tool Use#Multi-Agent Systems#Physical Interaction#Constraint Reasoning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation본 논문은 기존 비디오 생성 모델들이 개별 효과에 특화된 LoRA 훈련으로 인해 복합 시각 효과(multi-VFX)를 동시적이고 공간적으로 제어하는 데 한계가 있다는 문제를 해결합니다.#Review#Visual Effects#Video Generation#LoRA#Mixture of Experts#Spatial Control#Diffusion Models#Multi-VFX2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MolmoAct: Action Reasoning Models that can Reason in Space기존 로봇 파운데이션 모델들이 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 의미론적 기반이 부족한 문제를 해결하는 것을 목표로 합니다.#Review#Robotics#Action Reasoning#Vision-Language Models#Spatial Planning#Depth Perception#Trajectory Generation#Explainable AI2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs대규모 MoE 기반 LLM(예: DeepSeek-V3-0324 , Kimi-K2-Instruct )의 막대한 메모리 요구사항으로 인한 배포 병목 현상을 해결하고자 합니다.#Review#Mixture-of-Experts (MoE)#LLM Compression#Matrix Decomposition#Parameter Efficiency#Deep Learning#Memory Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Sparse Attention#LLMs#Reasoning Tasks#Efficiency#Training-Free#Global Locality#KV Cache Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.#Review#Reasoning LLMs#Reinforcement Learning#PPO#Gradient Clipping#Supervised Fine-tuning#Math Reasoning#Code Generation#Policy Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts본 논문은 기존 MoE (Mixture of Experts) LLM의 한계인 고정된 파라미터 활성화와 이로 인한 비효율적인 계산 문제를 해결하는 것을 목표로 합니다.#Review#Mixture of Experts#LLMs#MoE Architecture#Dynamic Activation#Adjugate Experts#Upcycling Strategy#Load Balancing2025년 8월 12일댓글 수 로딩 중
[논문리뷰] GLiClass: Generalist Lightweight Model for Sequence Classification Tasks본 연구는 기존 제로샷 텍스트 분류 모델(생성형 LLM, 크로스 인코더, 임베딩 기반 모델)의 한계점, 즉 계산 비효율성, 지시 불일치, 확장성 부족 등을 해결하고자 합니다.#Review#Sequence Classification#Zero-shot Learning#Few-shot Learning#Transformer#Multi-label Classification#PPO#GLiNER#Computational Efficiency2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control이 논문은 기존 flow-기반 이미지 편집 모델이 대규모 형상 변환(large-scale shape transformations) 시 목표 형상 변화를 달성하지 못하거나 비-타겟 영역을 의도치 않게 변경하는 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Shape Transformation#Rectified Flow#Trajectory Divergence Map#Region Control#Generative Models#Diffusion Models2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System본 연구는 최신 LLM 기반 에이전트 팩트체킹 시스템 이 잘못된 정보를 확산시키거나 진실을 훼손할 수 있는 포이즈닝 공격에 취약함을 지적합니다. 기존 공격 방식은 이러한 정교한 시스템의 클레임 분해 및 교차 검증 메커니즘에 효과적이지 못합니다.#Review#Adversarial Attack#Poisoning Attack#Fact-checking#LLM Agent#Retrieval Augmented Generation#Misinformation#System Security2025년 8월 12일댓글 수 로딩 중