[논문리뷰] CRISP: Persistent Concept Unlearning via Sparse Autoencoders본 논문은 대규모 언어 모델(LLMs)에서 불필요하거나 유해한 지식을 영구적으로 제거(Persistent Concept Unlearning) 하면서도 모델의 일반적인 유용성과 생성 품질을 유지하는 것을 목표로 합니다.#Review#Concept Unlearning#Sparse Autoencoders (SAEs)#LLMs#Parameter-Efficient Fine-Tuning#Model Interpretability#Safety-Critical AI#Feature Suppression#WMDP Benchmark2025년 8월 25일댓글 수 로딩 중
[논문리뷰] CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning본 논문은 LLM의 추론 능력 향상을 목표로, 기존 SFT(Supervised Fine-Tuning) 방식의 제한된 일반화 능력과 RL(Reinforcement Learning) 기반 방식의 불안정한 추론 경로 샘플링 및 주석된 CoT(Chain-of-Thought) 활용 부족 이라는 두 가지 주요 한계를 해결하고자 합니다.#Review#LLM Reasoning#Contrastive Learning#Reinforcement Learning#Fine-tuning#Chain-of-Thought (CoT)#Annotated Data#Model Stability2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Self-Play#Variational Problem Synthesis#Policy Entropy#Pass@k#Reasoning Benchmarks2025년 8월 25일댓글 수 로딩 중
[논문리뷰] AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications본 논문은 대규모 언어 모델(LLM) 기반 에이전트 애플리케이션 구축 시 발생하는 유연하고 효율적인 도구 기반 에이전트-환경 상호작용의 어려움을 해결하고자 합니다. 이를 위해 AgentScope 1.0 이라는 개발자 중심 프레임워크를 제시하여, 복잡한 에이전트 애플리케이션 개발을 위한 포괄적인 지원을 목표로 합니다.#Review#LLM Agents#Agentic Applications#ReAct Paradigm#Framework#Tool Use#Multi-Agent Systems#Developer Experience#Evaluation2025년 8월 25일댓글 수 로딩 중
[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.#Review#Competitive Programming#LLM Evaluation#Code Reasoning#Benchmark#Test Case Generation#Programming Competitions#Algorithmic Problems2025년 8월 25일댓글 수 로딩 중
[논문리뷰] aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI ScientistsAI가 생성한 과학 연구 콘텐츠가 파편화된 출판 생태계와 확장성 없는 인간 중심의 동료 검토 시스템으로 인해 확산에 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#AI Agents#Open Access#Scientific Discovery#Peer Review#LLMs#Multi-agent Systems#Prompt Injection#Iterative Refinement2025년 8월 22일댓글 수 로딩 중
[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding본 논문은 기존 Video-LLM의 한계인 불명확한 시간 인코딩, 프레임 수준의 낮은 연속성, 그리고 관심 엔티티에 대한 언어-비전 정렬 불일치를 극복하는 것을 목표로 합니다. 특히 긴 비디오에서 발생하는 이벤트의 정밀한 시간적 위치 파악과 엔티티 수준의 견고한 정렬을 통해 비디오 이해 능력을 향상시키고자 합니다.#Review#Video-LLM#Diffusion Model#Temporal Grounding#Object Segmentation#Long Video Understanding#Multimodal AI#Video Question Answering2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.#Review#Video Generation#Foundation Model#Diffusion Model#Transformer#Text-to-Video#Image-to-Video#Super-Resolution#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds본 연구는 극도로 희소한 입력(전면 및 후면 이미지 단 두 장)만으로 3D 인체 가우시안을 재구성하는 도전적인 문제를 해결하고자 합니다. 기존 방법론의 고비용 데이터 수집 및 긴 처리 시간의 한계를 극복하고, 사용자 친화적인 방식으로 디지털 휴먼 생성을 위한 문턱을 낮추는 것을 목표로 합니다.#Review#3D Human Reconstruction#Gaussian Splatting#Sparse View#Two-Image Input#Real-time Inference#Point Cloud Prediction#Feed-forward Network2025년 8월 22일댓글 수 로딩 중
[논문리뷰] SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass본 논문의 핵심 목표는 단일 장면 이미지와 객체 마스크를 입력으로 받아, 최적화나 에셋 검색 과정 없이 하나의 피드포워드 패스 만으로 다수의 3D 에셋(기하학적 구조, 텍스처, 공간 배치 포함)을 동시에 효율적으로 생성하는 것입니다.#Review#3D Scene Generation#Single-Image Input#Feedforward Networks#Diffusion Models#Geometric Modeling#Texture Synthesis#Transformer#Feature Aggregation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.#Review#GUI Automation#Multimodal Agents#Foundational Models#Reinforcement Learning#Large Language Models#Cross-Platform#Self-Supervised Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries본 논문은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하는 데 필수적인 도구 호출(tool calling) 기능의 평가에 중점을 둡니다.#Review#AI Agents#Tool Use#Model Context Protocol (MCP)#Benchmarking#Large Language Models (LLMs)#Real-world Tasks#Evaluation#Error Analysis2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Model본 논문은 과학 분야에서 오픈 소스 파운데이션 모델과 클로즈드 소스 모델 간의 성능 격차를 줄이고자 합니다.#Review#Multimodal Foundation Model#Scientific AI#Reinforcement Learning#Mixture-of-Experts (MoE)#Dynamic Tokenizer#Data Curation#Low-Resource Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship Behavior이 논문은 사용자들이 AI 시스템과 감정적 유대감을 형성하는 AI 동반자 관계(AI companionship)의 증가에 주목합니다.#Review#AI Companionship#Benchmark#Language Models (LLMs)#Human-AI Interaction#Emotional AI#Boundary Setting#Psychological Frameworks#Evaluation Metrics2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Process Reward Models#Financial Reasoning#Domain Specialization#RLHF#Best-of-N Selection#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] 'Does the cafe entrance look accessible? Where is the door?' Towards Geospatial AI Agents for Visual Inquiries본 논문은 기존 지도 시스템이 구조화된 GIS 데이터에 의존하여 시각적-공간적 질의(예: '카페 입구가 접근 가능한가요?', '문은 어디에 있고 어떻게 생겼나요?')에 답변하는 데 한계가 있음을 지적합니다.#Review#Geospatial AI#Multimodal AI Agents#Visual Question Answering#Accessibility#Street View Imagery#Spatial Reasoning#Human-Computer Interaction2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Deep Think with Confidence본 논문은 LLM의 추론 태스크에서 self-consistency (다수결 투표) 방식의 한계점인 정확도 저하 및 높은 연산 오버헤드를 해결하는 것을 목표로 합니다. 특히, 추론 과정의 효율성과 성능을 동시에 향상시키기 위해 저품질 추론 경로를 동적으로 필터링 하는 방법을 제시합니다.#Review#LLM Reasoning#Confidence Filtering#Self-Consistency#Test-Time Optimization#Computational Efficiency#Adaptive Sampling#Early Stopping#Majority Voting2025년 8월 22일댓글 수 로딩 중
[논문리뷰] ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling기존 파라메트릭 인체 모델(예: SMPL-X)이 겪는 골격 및 표면 간의 원치 않는 상관관계, 제한된 표현력, 그리고 미세한 속성 제어의 어려움을 해결하는 것을 목표로 합니다.#Review#Parametric Human Model#3D Human Modeling#Shape-Skeleton Decoupling#Pose Correctives#Single Image Mesh Fitting#Expressive Modeling#Goliath Dataset2025년 8월 22일댓글 수 로딩 중
[논문리뷰] A Survey on Large Language Model Benchmarks본 논문은 대규모 언어 모델(LLM) 평가 벤치마크의 현재 상태와 발전 과정을 체계적으로 검토하고, 기존 벤치마크의 한계를 분석하며, 향후 벤치마크 혁신을 위한 설계 패러다임을 제시하는 것을 목표로 합니다. LLM의 기능 측정과 기술 혁신 촉진이라는 핵심 역할을 하는 벤치마크의 중요성을 강조합니다.#Review#LLM Benchmarks#Evaluation#Systematic Review#General Capabilities#Domain-Specific Benchmarks#Target-Specific Benchmarks#Data Contamination#AI Ethics2025년 8월 22일댓글 수 로딩 중
[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.#Review#Multilingual Benchmark#Commonsense Reasoning#LLM Evaluation#Reasoning Taxonomy#Benchmark Scaling#Data Synthesis#Cultural Nuances2025년 8월 21일댓글 수 로딩 중