[논문리뷰] Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short본 논문은 RLVR의 고질적인 문제인 Non-diverse reward group으로 인한 학습 신호 소실과 컴퓨팅 자원 낭비를 해결하는 것을 목표로 합니다.#Review#Reasoning Arena#RLVR#Trace Tournament#Bradley-Terry Model#Non-diverse Reward Group#Adaptive Routing2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment본 연구는 DPO와 RLHF 간의 이론적 동치성이 모든 경우에 성립하는 것이 아니라, 특정 가정에 의존하는 조건부 동치성임을 밝힙니다.#Review#DPO#RLHF#Constrained Preference Optimization#Bradley-Terry Model#Alignment#Soft Margin Ranking#Absolute Advantage2026년 5월 20일댓글 수 로딩 중
[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.#Review#Text-to-Video Retrieval#LLM#Chain-of-Thought#Explainable AI#Multimodal Retrieval#Bradley-Terry Model#Video Annotation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Fortytwo: Swarm Inference with Peer-Ranked Consensus중앙 집중식 AI 추론의 확장성 및 신뢰성 한계를 해결하기 위해, 분산형 AI 시스템 에서 swarm intelligence 와 peer-ranked consensus 를 활용하여 높은 정확도, 확장성, 견고성을 갖춘 추론 프로토콜을 개발하는 것을 목표로 합니다.#Review#Decentralized AI#Swarm Intelligence#AI Inference#Consensus Mechanism#Peer-Ranking#Bradley-Terry Model#Reputation System#Sybil Defense2025년 10월 30일댓글 수 로딩 중