Review

[논문리뷰] CoAct-1: Computer-using Agents with Coding as Actions

이 논문은 복잡하고 장기적인 컴퓨터 사용 태스크에서 GUI(Graphical User Interface) 기반 자율 에이전트의 효율성과 신뢰성 문제를 해결하는 것을 목표로 합니다.

#Review #AI Agent #Multi-agent System #GUI Automation #Programmatic Control #Code Generation #OSWorld Benchmark #Hybrid AI

2025년 8월 8일

[논문리뷰] Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability

본 논문은 대규모 멀티모달 모델(LMMs)이 결함 있는 입력을 수동적으로 수용하여 잘못된 추론을 유발하는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models #Input Scrutiny #Error Detection #Faulty Inputs #Evaluation Framework #Modality Preference #Cross-Modal Inconsistency

2025년 8월 8일

[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

이 논문은 현재 문서 검색 증강 생성(RAG) 시스템 의 평가 벤치마크가 실제 세계의 복잡성과 한계를 제대로 반영하지 못하는 문제점을 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Multimodal LLMs #Benchmark Evaluation #Document Understanding #Multi-hop Reasoning #Information Retrieval #Evaluation Dataset

2025년 8월 8일

[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?

본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.

#Review #Large Language Models #Well-being Concepts #LLM Evaluation #Principle-Guided Evaluation #LLM-as-a-Judge #Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation

2025년 8월 8일

[논문리뷰] Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

본 연구는 웹 에이전트가 인간의 인지 추론과 유사하게 동작하도록, 충분한 지식을 습득하여 효과적인 추론 능력을 갖추는 것을 목표로 합니다. 특히, Bloom의 교육 분류학 에서 영감을 받아 지식 내용 학습과 인지 과정이라는 두 가지 필수 단계로 웹 에이전트의 역량을 분해하여 해결하고자 합니다.

#Review #Web Agent #Cognitive Reasoning #Knowledge-Induced #Large Multimodal Models (LMMs)#Bloom's Taxonomy #Chain-of-Thought (CoT)#Web-CogDataset #Web-CogBench

2025년 8월 7일

[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Software Engineering #Multi-Turn Interaction #Long Context #DAPO #Autonomous Agents #SWE-BENCH

2025년 8월 7일

[논문리뷰] The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

텍스트-투-이미지(txt2img) 확산 모델이 학습 과정에서 명시적인 지침 없이도 회화에서 콘텐츠와 스타일 개념을 내부적으로 어떻게 인코딩하고 분리하는지 탐구하는 것입니다.

#Review #Text-to-Image Generation #Diffusion Models #Cross-Attention Analysis #Content-Style Disentanglement #Artistic Style Transfer #Explainable AI #SDXL

2025년 8월 7일

[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence

본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.

#Review #Social Intelligence #Reinforcement Learning #Reward Design #Large Language Models #Utterance-level Rewards #Multi-dimensional Rewards #Partial Observability #SOTOPIA

2025년 8월 7일

[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

본 논문은 과도한 잔향, 왜곡, 클리핑, 음색 불균형 등 다양한 오디오 품질 문제를 해결하는 통합적이고 텍스트 제어 가능한 음악 복원 및 마스터링 모델 을 개발하는 것을 목표로 합니다.

#Review #Music Restoration #Audio Mastering #Generative Models #Flow Matching #Text-to-Audio #Audio Quality Enhancement #Multi-task Learning #Dataset Creation

2025년 8월 7일

[논문리뷰] Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

텍스트-3D(T23D) 생성 과정에서 발생하는 '블라인드 시행착오' 프롬프트 문제와 그로 인한 예측 불가능한 결과 및 비효율적인 워크플로우를 해결하는 것이 주 목표입니다.

#Review #Text-to-3D Generation #Prompt Engineering #Visual Analytics #Human-Computer Interaction #Multi-modal Large Language Models #3D Model Evaluation

2025년 8월 7일

[논문리뷰] Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

본 논문은 대규모 언어 모델(LLMs)이 긴 컨텍스트를 처리할 때 발생하는 사전 간섭(proactive interference) 문제와 이로 인한 성능 저하를 해결하고자 합니다.

#Review #Large Language Models #Active Context Management #Proactive Interference #Tool Augmentation #Working Memory #Context Curation #Long Context

2025년 8월 7일

[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.

#Review #Computer Use Agent #Self-Evolving #Reinforcement Learning #Curriculum Learning #Vision-Language Models #Experiential Learning #Specialist-to-Generalist

2025년 8월 7일

[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.

#Review #Root Cause Analysis #Large Language Models #5G Wireless Networks #Supervised Fine-Tuning #Reinforcement Learning #Chain-of-Thought #TeleLogs Dataset

2025년 8월 7일

[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Capability Collapse #Hybrid Policy Optimization #Multiple Importance Sampling #Exploration #Math Reasoning #Out-of-Distribution

2025년 8월 7일

[논문리뷰] Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

본 논문은 현재 AI 학술 대회의 중앙 집중식 모델 이 급격한 성장으로 인해 비정상적이고 지속 불가능한 상태 에 도달했음을 진단합니다. 과학적 지식 확산, 형평성, 커뮤니티 복지와 같은 본질적인 목표를 위협하는 구조적 위기 를 데이터 기반으로 분석하고, 이에 대한 근본적인 해결책을 제시하는 것을 목표로 합니다.

#Review #AI Conferences #Sustainability #Peer Review #Community Building #Environmental Impact #Mental Health #Centralized Model #Decentralized Model

2025년 8월 7일

[논문리뷰] OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

의료 및 생명 과학 분야에서 비정형 텍스트로부터 구조화된 정보를 추출하는 데 필수적인 Named Entity Recognition (NER) 의 성능과 효율성을 개선하는 것을 목표로 합니다.

#Review #Biomedical NER #Transformer #Domain Adaptation #LoRA #Open-Source #Named Entity Recognition #Healthcare AI

2025년 8월 7일

[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio Captions

본 논문은 기존 대규모 오디오 언어 모델(LALM)이 직면한 폐쇄형 데이터 의존성, 일반화 및 접근성 한계, 그리고 자동 음성 인식(ASR) 기반 사전 훈련의 비효율성을 해결하고자 합니다.

#Review #Audio-Language Model #General Audio Captions #Audio Understanding #Speech Recognition #Efficient Inference #Public Datasets #Multimodality #Data Curation

2025년 8월 7일

[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.

#Review #LLMs #Instruction Following #Reasoning #Reinforcement Learning #Supervised Fine-tuning #Entropy Regularization #Self-Checking #Previewing

2025년 8월 7일

[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.

#Review #LLM #KV Cache Optimization #Model Pruning #Efficient Decoding #Memory Optimization #Static Sparsity #Transformer

2025년 8월 7일

[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 웹페이지 디자인을 코드로 변환하는 과정에서 레이아웃을 정확하게 유지하지 못하는 문제 를 해결하고자 합니다. 특히 복잡한 레이아웃을 가진 실제 웹페이지 디자인의 경우 MLLM의 한계로 인해 레이아웃 정보가 손실되는 문제를 개선하는 것이 주된 목표입니다.

#Review #Design-to-Code #Webpage Generation #Multimodal Large Language Models (MLLMs)#Layout Preservation #Chain-of-Thought (CoT)#UI Automation #Code Generation

2025년 8월 7일