#Bradley-Terry Model

4개의 포스트

[논문리뷰] Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

본 논문은 RLVR의 고질적인 문제인 Non-diverse reward group으로 인한 학습 신호 소실과 컴퓨팅 자원 낭비를 해결하는 것을 목표로 합니다.

#Review #Reasoning Arena #RLVR #Trace Tournament #Bradley-Terry Model #Non-diverse Reward Group #Adaptive Routing

2026년 6월 8일

[논문리뷰] Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

본 연구는 DPO와 RLHF 간의 이론적 동치성이 모든 경우에 성립하는 것이 아니라, 특정 가정에 의존하는 조건부 동치성임을 밝힙니다.

#Review #DPO #RLHF #Constrained Preference Optimization #Bradley-Terry Model #Alignment #Soft Margin Ranking #Absolute Advantage

2026년 5월 20일

[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.

#Review #Text-to-Video Retrieval #LLM #Chain-of-Thought #Explainable AI #Multimodal Retrieval #Bradley-Terry Model #Video Annotation

2025년 9월 29일

[논문리뷰] Fortytwo: Swarm Inference with Peer-Ranked Consensus

중앙 집중식 AI 추론의 확장성 및 신뢰성 한계를 해결하기 위해, 분산형 AI 시스템 에서 swarm intelligence 와 peer-ranked consensus 를 활용하여 높은 정확도, 확장성, 견고성을 갖춘 추론 프로토콜을 개발하는 것을 목표로 합니다.

#Review #Decentralized AI #Swarm Intelligence #AI Inference #Consensus Mechanism #Peer-Ranking #Bradley-Terry Model #Reputation System #Sybil Defense

2025년 10월 30일