[논문리뷰] Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors이 논문은 로봇의 능숙한 파지(dexterous grasping) 시 기존 연구들이 간과했던 어포던스 인식(affordance-aware) 위치 설정 및 인간과 유사한 자세 의 중요성에 주목합니다.#Review#Robotic Dexterous Grasping#Affordance-Aware#Human-like Priors#Reinforcement Learning#Vision-Language Models#Two-Stage Training#Manipulation2025년 8월 13일댓글 수 로딩 중
[논문리뷰] TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation본 연구는 저자원 언어(LRL) 기계 번역(MT) 모델의 성능 향상을 위해, 고품질의 주제 다양성(topic-diverse) 을 가진 병렬 데이터를 자동으로 생성하는 방법을 제시합니다. 기존의 병렬 데이터 부족 문제를 해결하고, 특히 LLM이 LRL 번역에서 부진한 한계를 극복하고자 합니다.#Review#Low-Resource MT#Data Augmentation#Large Language Models (LLMs)#Back-Translation#In-Context Learning (ICL)#Fine-Tuning#Topic-Guided Generation#Parallel Data Synthesis2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models본 논문은 확산 언어 모델(dLLMs)이 텍스트를 생성하는 반복적인 디노이징 과정에서 '시간적 진동(temporal oscillation)' 이라는 중요한 현상을 규명하고, 이를 활용하여 모델 성능을 개선하는 것을 목표로 합니다.#Review#Diffusion Language Models#Temporal Oscillation#Self-Consistency Voting#Reinforcement Learning#Temporal Semantic Entropy#Text Generation2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.#Review#GUI Grounding#Test-Time Scaling#Reinforcement Learning#Region Consistency#Spatial Voting#Self-Supervised Learning#Vision-Language Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents본 논문은 상업용 컴퓨터 사용 에이전트(CUA) 시스템의 핵심 세부 정보가 비공개인 현 상황에서, 연구 커뮤니티가 CUA의 역량, 한계, 위험을 연구할 수 있는 포괄적인 오픈 소스 프레임워크 를 제공하는 것을 목표로 합니다. 특히, 대규모 CUA 데이터 및 기초 모델 을 확장하기 위한 개방형 기반을 구축하고자 합니다.#Review#Computer-Use Agents#Vision-Language Models#Chain-of-Thought Reasoning#Large-scale Dataset#Open-source Framework#Desktop Automation#Agent Evaluation2025년 8월 13일댓글 수 로딩 중
[논문리뷰] NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations본 연구는 자연스러운 음성 의사소통에 필수적인 웃음, 호흡, 감탄사 등의 비언어적 발성(paralinguistic vocalizations) 이 기존 ASR 및 TTS 시스템에서 간과되는 문제를 해결하고자 합니다.#Review#Paralinguistic Vocalizations#Speech Recognition#Text-to-Speech#Speech Synthesis#Data Annotation#Mandarin Speech#Expressive Speech2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World Generation본 논문은 단일 이미지 또는 텍스트 프롬프트로부터 전방위 탐색 가능한 3D 세계 를 생성하는 것을 목표로 합니다. 기존 방식의 좁은 시야각, 불일치성 및 제한적인 데이터셋 문제를 해결하여, 고품질의 기하학적으로 일관된 3D 환경을 넓은 범위로 생성하고자 합니다.#Review#3D World Generation#Panoramic Video Generation#3D Reconstruction#Diffusion Models#Gaussian Splatting#Dataset#Camera Control2025년 8월 13일댓글 수 로딩 중
[논문리뷰] HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches이 논문은 기업 환경에서 로컬(사내 문서/지식 그래프) 및 웹 지식 소스 를 동시에 활용하는 딥 서치 시스템의 필요성에 주목합니다.#Review#Hierarchical Reinforcement Learning#Deep Search#Multi-source RAG#Agentic AI#Knowledge Integration#Enterprise Search#Large Reasoning Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay대규모 언어 모델(LLM)의 연속 학습 시 발생하는 파국적 망각(catastrophic forgetting) 문제를 해결하는 것이 주된 목표입니다. 특히, LLM이 기존의 일반적인 능력과 이전에 학습한 하위 태스크에서의 성능을 동시에 유지하면서 새로운 태스크를 효율적이고 안정적으로 학습할 수 있는 방안을 모색합니다.#Review#Continual Learning#Large Language Models (LLMs)#Catastrophic Forgetting#Replay#Knowledge Distillation#Activation States#Anti-forgetting#Threshold-based Margin Loss2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments본 논문은 대규모 언어 모델(LLMs)의 효율적인 도구 사용(tool use) 학습을 위한 강화 학습(RL) 프레임워크 부재 문제를 해결하고자 합니다. 특히, 안정적인 훈련 환경 구축의 어려움과 검증 가능한 보상 메커니즘의 부재가 LLM의 도구 사용 능력 발전을 저해하는 핵심 과제로 지적됩니다.#Review#Large Language Models (LLMs)#Tool Use#Reinforcement Learning (RL)#Automated Environment Generation#Feedback-Driven Training#Reward Mechanism#Contextual Understanding2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.#Review#Large Language Models#Diplomacy Game#Multi-agent Systems#Strategic Reasoning#LLM Evaluation#Prompt Engineering#Behavioral Analysis#Game AI2025년 8월 13일댓글 수 로딩 중
[논문리뷰] DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition본 논문은 Encoder-Decoder 기반 자동 음성 인식(ASR) 모델의 내부 언어 모델(ILM) 견고성을 향상시켜 도메인 내외(in- and out-of-domain) 환경에서의 일반화 성능을 개선 하는 것을 목표로 합니다.#Review#Speech Recognition#Encoder-Decoder#Regularization#Decoder-Centric#Intermediate Supervision#Out-of-Domain Generalization#Internal Language Model2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Cut2Next: Generating Next Shot via In-Context Tuning본 논문은 기존 비디오 생성 모델이 간과했던 영화적 내러티브 흐름과 편집 패턴(예: Shot/Reverse Shot , Cut-Out , Cutaway )을 준수하면서, 선행 샷에 영화적으로 일관성 있는 다음 샷을 생성 하는 새로운 태스크인 Next Shot Generation (NSG) 을 제안합니다.#Review#Next Shot Generation#In-Context Tuning#Diffusion Transformer#Cinematic Continuity#Hierarchical Prompting#Video Generation#Shot Editing2025년 8월 13일댓글 수 로딩 중
[논문리뷰] CharacterShot: Controllable and Consistent 4D Character Animation본 논문은 단일 캐릭터 이미지와 2D 포즈 시퀀스를 입력으로 받아, 사용자가 제어할 수 있는 동적인 3D 캐릭터(4D 캐릭터 애니메이션)를 생성하는 프레임워크인 CharacterShot 을 제안합니다.#Review#4D Character Animation#Diffusion Models#Gaussian Splatting#Pose Control#Multi-view Synthesis#Temporal Consistency#Character Dataset2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Bridging Theory and Practice in Quantum Game Theory: Optimized Implementation of the Battle of the Sexes with Error Mitigation on NISQ Hardware본 논문은 양자 게임 이론의 'Battle of the Sexes' 게임을 실제 NISQ(Noisy Intermediate-Scale Quantum) 하드웨어 에 구현하는 과정에서 발생하는 노이즈, 디코히어런스, 제한된 큐비트 연결성 문제를 해결하고자 합니다.#Review#Quantum Game Theory#NISQ Hardware#Error Mitigation#Battle of the Sexes#Qiskit#Quantum Computing#Strategic Coordination#Payoff Maximization2025년 8월 13일댓글 수 로딩 중
[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.#Review#Bias Mitigation#LLMs#Mechanistic Interpretability#Fine-tuning#Attention Steering#Stereotype Analysis#Safety Alignment2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Agentic Search#Asynchronous RL#Long-Horizon Planning#Tool Use#Data Synthesis2025년 8월 13일댓글 수 로딩 중
[논문리뷰] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators기존 코드 생성 벤치마크의 한계(수동 어노테이션 의존, Python 중심, 난이도 및 다양성 부족)를 해결하고, LLM의 코드 생성 능력을 포괄적으로 평가하기 위해 높은 난이도를 가진 다국어 코드 생성 데이터셋을 수동 어노테이션 없이 자동으로 생성하는 방법론 을 개발하는 것입니다.#Review#코드 생성#대규모 언어 모델#코드 벤치마크#다국어 프로그래밍#자동화된 데이터 생성#샌드박스 평가#멀티모달 AI2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Aryabhata: An exam-focused language model for JEE Math본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.#Review#Language Model#Math Reasoning#JEE#Supervised Fine-Tuning#Reinforcement Learning#Model Merging#Chain-of-Thought#Curriculum Learning2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Adversarial Video Promotion Against Text-to-Video Retrieval본 논문은 텍스트-비디오 검색(T2VR) 모델의 간과된 취약점인 적대적 비디오 프로모션 공격 을 탐구합니다.#Review#Adversarial Attack#Video Promotion#Text-to-Video Retrieval#Modality Refinement#Black-box Attack#Video Manipulation#Transferability2025년 8월 13일댓글 수 로딩 중