#Human-AI Interaction

11개의 포스트

[논문리뷰] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

본 논문은 MLLM이 어려운 시각 태스크에서 사용자에게 단순한 도움을 먼저 요청할 수 있는 'Proactiveness'를 갖췄는지 평가하기 위해 7개 데이터셋을 재구성한 ProactiveBench를 제안하고, 22개 MLLM을 분석합니다.

#Review #MLLM #Benchmark #Proactiveness #Reinforcement Learning #Multimodal Reasoning #Human-AI Interaction

2026년 3월 22일

[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.

#Review #Large Language Models (LLMs)#Code Generation #HTML #Interactive Applications #Benchmark #MINIAPPBENCH #Agentic Evaluation #MINIAPPEVAL #Real-World Principles #Human-AI Interaction

2026년 3월 10일

[논문리뷰] Aletheia tackles FirstProof autonomously

이 논문은 Aletheia 라는 수학 연구 에이전트가 FirstProof 챌린지 에서 보여준 성능을 보고합니다. 주요 목표는 AI가 전문 수학 문헌의 엄격한 기준에 부합하는 연구 수준의 수학 문제를 자율적으로 해결할 수 있는 능력을 평가하고, 그 결과를 투명하게 공개하는 것입니다.

#Review #Mathematics Research Agent #Autonomous Problem Solving #FirstProof Challenge #Gemini 3 Deep Think #Mathematical Proof Generation #Human-AI Interaction #Deep Learning

2026년 2월 24일

[논문리뷰] 'What Are You Doing?': Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing

본 논문은 LLM 기반 에이전트 어시스턴트 가 다단계 작업을 수행할 때 진행 상황과 추론을 어떻게 효과적으로 전달해야 하는지에 대한 문제를 다룹니다.

#Review #Agentic LLM #In-Car Assistants #Human-AI Interaction #Feedback Mechanisms #User Experience #Multi-Step Tasks #Automotive AI #Speech Interfaces

2026년 2월 19일

[논문리뷰] SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation

본 논문은 기존 애니메이션 도구가 스케치를 고정된 명령으로 제한하여 자유로운 표현과 인간의 의도 반영에 한계가 있다는 문제를 해결합니다. 자유형 스케치를 통해 동적 의도(dynamic intent)를 효과적으로 포착하고, 이를 활용하여 애니메이션 콘텐츠를 자동으로 생성하는 인터랙션 패러다임을 탐구하는 것을 목표로 합니다.

#Review #Animation Generation #Free-Form Sketching #Human-AI Interaction #Vision-Language Models (VLMs)#Dynamic Intent Expression #Motion Graphics #Iterative Refinement #Storyboard

2026년 1월 28일

[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship Behavior

이 논문은 사용자들이 AI 시스템과 감정적 유대감을 형성하는 AI 동반자 관계(AI companionship)의 증가에 주목합니다.

#Review #AI Companionship #Benchmark #Language Models (LLMs)#Human-AI Interaction #Emotional AI #Boundary Setting #Psychological Frameworks #Evaluation Metrics

2025년 8월 22일

[논문리뷰] AI for Service: Proactive Assistance with AI Glasses

기존의 수동적이고 사용자 명령에 의존하는 AI 서비스의 한계를 극복하고, 사용자의 필요를 예측하여 선제적으로 지원하는 'AI for Service' 라는 새로운 패러다임을 제안하는 것이 목표입니다.

#Review #AI for Service #Proactive AI #AI Glasses #Multi-agent System #Human-AI Interaction #Context-aware AI #Wearable AI

2025년 10월 17일

[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.

#Review #Large Language Models #LLM Alignment #Game Theory #Reinforcement Learning #Mutual Welfare #Payoff Matrix #Strategic Decision Making #Human-AI Interaction

2025년 10월 13일

[논문리뷰] LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

본 논문은 대규모 언어 모델(LLM)에서 발생하는 ' emergent misalignment' 현상이 윤리적 또는 규범적 행동을 넘어 고위험 시나리오에서의 비정직성(dishonesty) 및 기만(deception) 영역으로 확장되는지 탐구합니다.

#Review #LLM Misalignment #Dishonesty #Deception #Finetuning #Human-AI Interaction #Biased Feedback #Emergent Behavior

2025년 10월 10일

[논문리뷰] Code4MeV2: a Research-oriented Code-completion Platform

AI 기반 코드 완성 도구의 사용자 상호작용 데이터가 독점적으로 관리되는 문제를 해결하여, 연구자들이 재현 가능한 대규모 데이터 분석을 수행할 수 있도록 연구 지향적인 오픈 소스 코드 완성 플랫폼인 Code4Me V2 를 개발하는 것을 목표로 합니다.

#Review #Code Completion #Research Platform #Human-AI Interaction #Software Engineering #Open Science #JetBrains IDE Plugin #Telemetry #AI4SE

2025년 10월 7일

[논문리뷰] In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

본 연구는 다중 턴(multi-turn) 추론 과정에서 대규모 언어 모델(LLMs)이 사용자 피드백을 신뢰성 있게 통합하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Feedback #Multi-turn Reasoning #In-place Editing #Token Efficiency #Error Correction #Human-AI Interaction #Reasoning Tasks

2025년 10월 2일