본문으로 건너뛰기

#Alignment

22개의 포스트

[논문리뷰] Trajectory-Refined Distillation

댓글 수 로딩 중

[논문리뷰] RobotValues: Evaluating Household Robots When Human Values Conflict

댓글 수 로딩 중

[논문리뷰] Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

댓글 수 로딩 중

[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

댓글 수 로딩 중

[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

댓글 수 로딩 중

[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

댓글 수 로딩 중

[논문리뷰] AI & Human Co-Improvement for Safer Co-Superintelligence

댓글 수 로딩 중

[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

댓글 수 로딩 중