[논문리뷰] CoAct-1: Computer-using Agents with Coding as Actions이 논문은 복잡하고 장기적인 컴퓨터 사용 태스크에서 GUI(Graphical User Interface) 기반 자율 에이전트의 효율성과 신뢰성 문제를 해결하는 것을 목표로 합니다.#Review#AI Agent#Multi-agent System#GUI Automation#Programmatic Control#Code Generation#OSWorld Benchmark#Hybrid AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability본 논문은 대규모 멀티모달 모델(LMMs)이 결함 있는 입력을 수동적으로 수용하여 잘못된 추론을 유발하는 문제를 해결하고자 합니다.#Review#Large Multimodal Models#Input Scrutiny#Error Detection#Faulty Inputs#Evaluation Framework#Modality Preference#Cross-Modal Inconsistency2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?이 논문은 현재 문서 검색 증강 생성(RAG) 시스템 의 평가 벤치마크가 실제 세계의 복잡성과 한계를 제대로 반영하지 못하는 문제점을 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Multimodal LLMs#Benchmark Evaluation#Document Understanding#Multi-hop Reasoning#Information Retrieval#Evaluation Dataset2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.#Review#Large Language Models#Well-being Concepts#LLM Evaluation#Principle-Guided Evaluation#LLM-as-a-Judge#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents본 연구는 웹 에이전트가 인간의 인지 추론과 유사하게 동작하도록, 충분한 지식을 습득하여 효과적인 추론 능력을 갖추는 것을 목표로 합니다. 특히, Bloom의 교육 분류학 에서 영감을 받아 지식 내용 학습과 인지 과정이라는 두 가지 필수 단계로 웹 에이전트의 역량을 분해하여 해결하고자 합니다.#Review#Web Agent#Cognitive Reasoning#Knowledge-Induced#Large Multimodal Models (LMMs)#Bloom's Taxonomy#Chain-of-Thought (CoT)#Web-CogDataset#Web-CogBench2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Software Engineering#Multi-Turn Interaction#Long Context#DAPO#Autonomous Agents#SWE-BENCH2025년 8월 7일댓글 수 로딩 중
[논문리뷰] The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models텍스트-투-이미지(txt2img) 확산 모델이 학습 과정에서 명시적인 지침 없이도 회화에서 콘텐츠와 스타일 개념을 내부적으로 어떻게 인코딩하고 분리하는지 탐구하는 것입니다.#Review#Text-to-Image Generation#Diffusion Models#Cross-Attention Analysis#Content-Style Disentanglement#Artistic Style Transfer#Explainable AI#SDXL2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.#Review#Social Intelligence#Reinforcement Learning#Reward Design#Large Language Models#Utterance-level Rewards#Multi-dimensional Rewards#Partial Observability#SOTOPIA2025년 8월 7일댓글 수 로딩 중
[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering본 논문은 과도한 잔향, 왜곡, 클리핑, 음색 불균형 등 다양한 오디오 품질 문제를 해결하는 통합적이고 텍스트 제어 가능한 음악 복원 및 마스터링 모델 을 개발하는 것을 목표로 합니다.#Review#Music Restoration#Audio Mastering#Generative Models#Flow Matching#Text-to-Audio#Audio Quality Enhancement#Multi-task Learning#Dataset Creation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation텍스트-3D(T23D) 생성 과정에서 발생하는 '블라인드 시행착오' 프롬프트 문제와 그로 인한 예측 불가능한 결과 및 비효율적인 워크플로우를 해결하는 것이 주 목표입니다.#Review#Text-to-3D Generation#Prompt Engineering#Visual Analytics#Human-Computer Interaction#Multi-modal Large Language Models#3D Model Evaluation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management본 논문은 대규모 언어 모델(LLMs)이 긴 컨텍스트를 처리할 때 발생하는 사전 간섭(proactive interference) 문제와 이로 인한 성능 저하를 해결하고자 합니다.#Review#Large Language Models#Active Context Management#Proactive Interference#Tool Augmentation#Working Memory#Context Curation#Long Context2025년 8월 7일댓글 수 로딩 중
[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.#Review#Computer Use Agent#Self-Evolving#Reinforcement Learning#Curriculum Learning#Vision-Language Models#Experiential Learning#Specialist-to-Generalist2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.#Review#Root Cause Analysis#Large Language Models#5G Wireless Networks#Supervised Fine-Tuning#Reinforcement Learning#Chain-of-Thought#TeleLogs Dataset2025년 8월 7일댓글 수 로딩 중
[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Capability Collapse#Hybrid Policy Optimization#Multiple Importance Sampling#Exploration#Math Reasoning#Out-of-Distribution2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference본 논문은 현재 AI 학술 대회의 중앙 집중식 모델 이 급격한 성장으로 인해 비정상적이고 지속 불가능한 상태 에 도달했음을 진단합니다. 과학적 지식 확산, 형평성, 커뮤니티 복지와 같은 본질적인 목표를 위협하는 구조적 위기 를 데이터 기반으로 분석하고, 이에 대한 근본적인 해결책을 제시하는 것을 목표로 합니다.#Review#AI Conferences#Sustainability#Peer Review#Community Building#Environmental Impact#Mental Health#Centralized Model#Decentralized Model2025년 8월 7일댓글 수 로딩 중
[논문리뷰] OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets의료 및 생명 과학 분야에서 비정형 텍스트로부터 구조화된 정보를 추출하는 데 필수적인 Named Entity Recognition (NER) 의 성능과 효율성을 개선하는 것을 목표로 합니다.#Review#Biomedical NER#Transformer#Domain Adaptation#LoRA#Open-Source#Named Entity Recognition#Healthcare AI2025년 8월 7일댓글 수 로딩 중
[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio Captions본 논문은 기존 대규모 오디오 언어 모델(LALM)이 직면한 폐쇄형 데이터 의존성, 일반화 및 접근성 한계, 그리고 자동 음성 인식(ASR) 기반 사전 훈련의 비효율성을 해결하고자 합니다.#Review#Audio-Language Model#General Audio Captions#Audio Understanding#Speech Recognition#Efficient Inference#Public Datasets#Multimodality#Data Curation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.#Review#LLMs#Instruction Following#Reasoning#Reinforcement Learning#Supervised Fine-tuning#Entropy Regularization#Self-Checking#Previewing2025년 8월 7일댓글 수 로딩 중
[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.#Review#LLM#KV Cache Optimization#Model Pruning#Efficient Decoding#Memory Optimization#Static Sparsity#Transformer2025년 8월 7일댓글 수 로딩 중
[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-Thought본 연구는 멀티모달 대규모 언어 모델(MLLM)이 웹페이지 디자인을 코드로 변환하는 과정에서 레이아웃을 정확하게 유지하지 못하는 문제 를 해결하고자 합니다. 특히 복잡한 레이아웃을 가진 실제 웹페이지 디자인의 경우 MLLM의 한계로 인해 레이아웃 정보가 손실되는 문제를 개선하는 것이 주된 목표입니다.#Review#Design-to-Code#Webpage Generation#Multimodal Large Language Models (MLLMs)#Layout Preservation#Chain-of-Thought (CoT)#UI Automation#Code Generation2025년 8월 7일댓글 수 로딩 중