#Strategic Reasoning

3개의 포스트

[논문리뷰] CodeClash: Benchmarking Goal-Oriented Software Engineering

본 논문은 기존의 고립된 코딩 벤치마크가 아닌, 고수준의 목표 지향적 소프트웨어 개발(goal-oriented software engineering) 환경에서 언어 모델(LM)의 성능을 평가하는 도전 과제를 해결하고자 합니다.

#Review #Software Engineering Benchmarking #Language Models #AI Agents #Goal-Oriented Development #Competitive Programming #Code Evolution #Strategic Reasoning #Autonomous Systems

2025년 11월 9일

[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.

#Review #Large Language Models #Diplomacy Game #Multi-agent Systems #Strategic Reasoning #LLM Evaluation #Prompt Engineering #Behavioral Analysis #Game AI

2025년 8월 13일

[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Vision-Language Models (VLMs)의 훈련이 고비용의 수동 주석 데이터셋 에 과도하게 의존하여 확장성과 모델의 능력 발전을 제약하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Self-Play #Reinforcement Learning #Gamification #Data Efficiency #Strategic Reasoning #Multimodal AI #Self-Improvement

2025년 10월 1일