[논문리뷰] World Models for Policy Refinement in StarCraft II본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.#Review#StarCraft II#World Model#Policy Refinement#Large Language Models#Reinforcement Learning#Partial Observability#Structured Text Representation#Game AI2026년 2월 19일댓글 수 로딩 중
[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark기존 이미지 편집 벤치마크의 한계, 즉 단일 객체 속성 변환에만 집중 하고 멀티 객체 상호작용 및 게임 세계 시나리오를 간과 하며 텍스트 기반 평가의 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Reasoning-based AI#Benchmark#Multimodal Learning#Chain-of-Thought (CoT)#Dual-Reference Evaluation#Generative Models#Game AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models대규모 언어 모델(LLM)이 복잡한 추론 작업에는 능숙하지만, 인간 아이들이 쉽게 수행하는 간단한 상호작용 작업에서는 어려움을 겪는 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Game AI#Procedural Knowledge#Declarative Knowledge#Explainable AI#Strategic Decision-Making2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.#Review#Large Language Models#Diplomacy Game#Multi-agent Systems#Strategic Reasoning#LLM Evaluation#Prompt Engineering#Behavioral Analysis#Game AI2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games논문은 OpenAI의 ChatGPT Atlas 에이전트 가 웹 환경에서 상호작용하는 능력을, 특히 웹 기반 게임을 통해 평가하는 것을 목표로 합니다.#Review#Web Agent#Large Language Models#Multimodal AI#Browser Automation#Game AI#ChatGPT Atlas#Performance Evaluation#Human-Computer Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks온라인 게임과 같이 지식이 지속적으로 업데이트되고 사용자 관심사가 변화하는 동적 도메인에서 RAG 시스템을 평가할 표준화된 벤치마크가 부재합니다.#Review#Retrieval Augmented Generation (RAG)#Dynamic Benchmarks#Game AI#User Interest Drift#Knowledge Evolution#Automated Benchmark Generation#Authenticity#Large Language Models (LLMs)2025년 10월 30일댓글 수 로딩 중