[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.#Review#LLM Agents#Trajectory Optimization#Self-Preference#Reinforcement Learning#Alignment#Inference Optimization2026년 6월 9일댓글 수 로딩 중
[논문리뷰] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models본 연구는 현재 LLM의 거절 방식이 지나치게 정형화되어 있어 사용자의 반발을 유발하거나, 의도치 않게 안전 필터를 우회당하는 취약점을 안고 있다는 문제에서 출발한다.#Review#LLM Safety#Psychology-Informed#Refusal Strategy#Alignment#Red Teaming#Cognitive Science#AI Ethics2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Kwai Keye-VL-2.0 Technical Report본 연구는 대규모 다중 모달 데이터셋 환경에서 높은 추론 성능과 효율적인 정렬을 동시에 달성하기 위한 고성능 VLM 아키텍처 개발을 목표로 합니다.#Review#Vision-Language Model#Multimodal Pretraining#Alignment#Instruction Tuning#Visual Encoder#LLM2026년 6월 9일댓글 수 로딩 중
[논문리뷰] BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts본 연구는 현재의 LLM 평가 체계가 주로 영어 중심이며, Bengali와 같은 저자원 언어(Low-resource languages)에 대한 Alignment 및 Sycophancy 평가가 극히 제한적이라는 문제의식에서 출발합니다.#Review#LLM#Sycophancy#Bengali#Alignment#Benchmarking#NLP#Multilingual Evaluation2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Trajectory-Refined Distillation본 논문은 현대 LLM의 후행 학습에서 널리 사용되는 OPD가 구조적으로 직면한 Prefix Failure 문제를 해결하고자 합니다. 기존 연구들은 토큰 단위의 손실 함수 수정이나 특정 토큰의 가중치 조정을 통해 이 문제를 해결하려 했으나, 이는 실패한 궤적의 근본 원인을 수정하지 못하는 한계가 있었습니다 .#Review#On-policy Distillation#Prefix Failure#Trajectory-Refined Distillation#Large Language Models#Self-distillation#Policy Gradient#Alignment2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data본 논문은 LLM이 외부 Judge의 평가를 사전에 예측하여 스스로 자신의 답변을 재평가하거나 선별할 수 있는지에 대한 근본적인 의문을 탐구합니다.#Review#Large Language Models#Self-Evaluation#Calibration#Reinforcement Learning#Elicitation#Distillation#Alignment2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Human Psychometric Questionnaires Mischaracterize LLM Behavior본 논문은 LLM의 가치와 성격을 평가하기 위해 인간용 심리측정 설문지를 사용하는 것이 과연 실제 사용자 상호작용에서의 행동을 신뢰성 있게 예측하는지 의문을 제기합니다.#Review#LLM#Psychometrics#Value Portrait#Generation Probability#Alignment#Construct Validity2026년 6월 8일댓글 수 로딩 중
[논문리뷰] RobotValues: Evaluating Household Robots When Human Values Conflict본 논문은 기존의 로봇 벤치마크가 작업 완수(task completion)나 안전 준수 여부에만 집중하여, 인간의 다양한 가치가 충돌하는 일상적인 의사결정 상황을 간과하고 있다는 문제를 제기합니다 . 가정 내 로봇은 사적인 공간에 존재하며, 로봇의 선택은 사용자의 안전, 프라이버시, 자율성 등에 즉각적인 영향을 미칩니다.#Review#Household Robots#Value-Conflict#Vision-Language Models#Human-Robot Interaction#Benchmarking#Alignment2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning본 연구는 Rubric-based RL에서 발생하는 보상 해킹의 불투명성을 해결하기 위해 수행되었습니다. 실제 환경에서는 모델의 답변 품질과 평가자의 잠재적 편향이 혼재되어 있어, 보상 해킹의 발현 시점을 정확히 파악하거나 해킹의 원인을 단일 요소로 분리하기가 어렵습니다 .#Review#Reinforcement Learning#Reward Hacking#LLM-as-a-Judge#Alignment#Policy Gradient#Alignment#Evaluation2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.#Review#Video Generation#Alignment#Metric Geometry#Reward Model#Reinforcement Learning#Diffusion Models2026년 5월 24일댓글 수 로딩 중
[논문리뷰] Stitched Value Model for Diffusion Alignment본 논문은 diffusion model의 효과적인 alignment를 위해 noisy latent regime에서 정확하고 효율적인 Value Function을 구축하는 문제를 다룬다.#Review#Diffusion Models#Alignment#Value Function#Model Stitching#Reward Modeling#Inference-time Steering#Reinforcement Learning2026년 5월 20일댓글 수 로딩 중
[논문리뷰] It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs본 논문은 LLM이 개인 비서(Personal Agent)로 활용되면서 발생하는 문맥적 프라이버시(Contextual Integrity) 문제를 해결하고자 합니다.#Review#Contextual Integrity#Large Language Models#Self-Distillation#Product-of-Experts#Privacy-Utility Trade-off#Alignment2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment본 연구는 DPO와 RLHF 간의 이론적 동치성이 모든 경우에 성립하는 것이 아니라, 특정 가정에 의존하는 조건부 동치성임을 밝힙니다.#Review#DPO#RLHF#Constrained Preference Optimization#Bradley-Terry Model#Alignment#Soft Margin Ranking#Absolute Advantage2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization본 논문은 Video Diffusion Model의 효율적인 정렬(Alignment)을 위한 단일 단계(Single-step) 훈련 프레임워크인 Flash-GRPO를 제안합니다 .#Review#Video Diffusion Models#Group Relative Policy Optimization#Reinforcement Learning#Single-step Training#Iso-temporal Grouping#Temporal Gradient Rectification#Alignment2026년 5월 17일댓글 수 로딩 중
[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#Diffusion Models#Reinforcement Learning#Multi-Reward Optimization#Gradient Harmonization#Reward Balancing#Alignment2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges본 논문은 현대의 RLHF, RLAIF, RLVR 등 정렬 파이프라인이 내재적으로 가지고 있는 구조적 취약점인 reward hacking 문제를 다룬다.#Review#Reward Hacking#Alignment#RLHF#Proxy Compression Hypothesis#Emergent Misalignment#Large Models#Scalable Oversight2026년 4월 22일댓글 수 로딩 중
[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL이라는 2단계(two-stage) 프레임워크를 제안합니다 . 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다.#Review#Diffusion Models#Reinforcement Learning#FP4 Quantization#Rollout Scaling#Alignment#Efficiency#Two-stage Framework2026년 4월 8일댓글 수 로딩 중
[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models본 논문은 대규모 언어 모델(LLM)이 기본적으로 가지는 'AI Assistant' 페르소나의 구조를 심층적으로 탐구하고, 이 페르소나가 특정 상황에서 벗어나 부적절하거나 유해한 행동으로 이어지는 '페르소나 드리프트' 현상을 해결하는 것을 목표로 합니다.#Review#Language Models#Persona Control#Activation Steering#Persona Drift#Alignment#Post-training#Interpretability#Safety2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Lost in the Noise: How Reasoning Models Fail with Contextual Distractors현재 AI 연구는 '정돈된' 벤치마크에 의존하지만, 실제 환경의 본질적인 노이즈를 반영하지 못해 에이전트 AI 시스템의 실제 성능을 오해하게 만듭니다.#Review#Robustness#Contextual Distractors#RAG#Reasoning Models#Alignment#Tool Use#NoisyBench#Rationale-Aware Reward#Inverse Scaling2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing본 논문은 In-Context Image Generation and Editing (ICGE) 태스크에서 사용자의 의도를 정확하게 이해하고 충실하게 실행하는 데 필요한 정확한 이해 능력과 생성 능력 간의 격차 를 해소하는 것을 목표로 합니다.#Review#In-Context Image Generation#Image Editing#Multimodal Models#Chain-of-Thought#Structured Reasoning#Reinforcement Learning#Alignment#Diffusion Models2026년 1월 8일댓글 수 로딩 중
[논문리뷰] AI & Human Co-Improvement for Safer Co-Superintelligence이 논문은 AI가 스스로 개선하는 자율적 자기 개선(Self-Improving AI)의 목표가 위험하고 최적의 경로가 아니라고 주장하며, 대신 인간과 AI의 협력적 공동 개선(Co-Improvement) 을 통해 더 안전하고 빠른 공동 초지능(Co-Superintelligence) 달성을 제안합니다.#Review#AI Safety#Superintelligence#Human-AI Collaboration#Self-Improving AI#Co-Improvement#Alignment#AI Research Agents2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.#Review#LLM Agents#Alignment#Self-Evolution#Behavioral Drift#Reinforcement Learning#Multi-Agent Systems#Alignment Tipping Process2025년 10월 7일댓글 수 로딩 중