[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5Yutao Wu이 arXiv에 게시한 'A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5' 논문에 대한 자세한 리뷰입니다.2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation ModelsarXiv에 게시된 'Scaling Spatial Intelligence with Multimodal Foundation Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 20일댓글 수 로딩 중
[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?arXiv에 게시된 'R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?' 논문에 대한 자세한 리뷰입니다.2025년 10월 13일댓글 수 로딩 중
[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine ValidityJohn P Dickerson이 arXiv에 게시한 'When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity' 논문에 대한 자세한 리뷰입니다.2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Has GPT-5 Achieved Spatial Intelligence? An Empirical StudyRuisi Wang이 arXiv에 게시한 'Has GPT-5 Achieved Spatial Intelligence? An Empirical Study' 논문에 대한 자세한 리뷰입니다.2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?Junjie Yang이 arXiv에 게시한 'Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?' 논문에 대한 자세한 리뷰입니다.2025년 8월 8일댓글 수 로딩 중