최신 포스트

[논문리뷰] Spacer: Towards Engineered Scientific Inspiration

Spacer는 기존 LLM의 한계인 제한된 창의성과 문맥 의존성을 극복하여 외부 개입 없이 창의적이고 사실에 기반한 과학적 개념을 생성하는 것을 목표로 합니다.

#Review #Scientific Discovery #Large Language Models (LLMs)#Decontextualization #Keyword Graph #Multi-Agent System #Scientific Ideation #Research Automation #Inspiration Engine

2025년 8월 27일

[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.

#Review #Deep Research Agents #LLM Evaluation #Academic Survey #Factual Accuracy #Citation Verification #Report Generation #Benchmark #Hallucination

2025년 8월 27일

[논문리뷰] QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

본 논문은 대규모 언어 모델(LLM)의 환각 발생률 증가 문제를 해결하고자 합니다. 기존의 사후 필터링 방식 대신, 입력 쿼리의 17가지 언어학적 특징 을 활용하는 밴딧 프레임워크 를 통해 쿼리 재작성 전략을 설계하여, LLM이 환각을 생성하지 않도록 사전에 유도하는 것을 목표로 합니다.

#Review #Hallucination Mitigation #Large Language Models #Contextual Bandits #Query Rewriting #Semantic Features #No-Regret Learning

2025년 8월 27일

[논문리뷰] Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

이 논문은 기존 3D 장면 재구성 모델(예: NeRF, Gaussian Splatting)이 시각적 외형에만 집중하고 물리적 속성 예측에는 한계가 있는 문제를 해결하고자 합니다.

#Review #3D Physics Prediction #Supervised Learning #CLIP Features #Neural Radiance Fields #Material Point Method #PIXIEVERSE Dataset #Zero-Shot Generalization

2025년 8월 27일

[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparsity #Scaling Laws #Reasoning Tasks #Memorization #Large Language Models #Generalization Gap #Top-k Routing

2025년 8월 27일

[논문리뷰] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

기존 비디오 아바타 모델이 오디오 리듬에 국한된 물리적 애니메이션만 생성하는 한계를 넘어, 감정, 의도, 문맥을 깊이 이해하여 의미론적으로 일관되고 표현력이 풍부한 캐릭터 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Video Avatar Generation #Cognitive Simulation #Multimodal Large Language Models (MLLMs)#Diffusion Transformers (DiT)#Multimodal Fusion #Human Motion Synthesis #Contextual Animation

2025년 8월 27일

[논문리뷰] ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models

기존 3D 인페인팅 방법론들이 다중 뷰 2D 이미지 인페인팅에 의존하여 발생하는 뷰 간 불일치, 흐릿한 텍스처, 공간 불연속성 문제를 해결하고자 합니다. 이를 극복하고 비디오 확산 모델 의 시공간적 일관성 유지 능력을 활용하여 고품질의 일관된 3D 객체 완성 및 편집을 목표로 합니다.

#Review #3D Inpainting #Multi-view Consistency #Video Diffusion Models #3D Object Completion #Generative Models #LoRA #3D Gaussian Splatting

2025년 8월 27일

[논문리뷰] MovieCORE: COgnitive REasoning in Movies

본 논문은 기존의 비디오 질의응답(VQA) 데이터셋이 표면적인 이해에 머무는 한계를 극복하고, 영화 콘텐츠에 대한 깊이 있는 인지적 이해 와 System-2 사고 를 유도하는 새로운 VQA 데이터셋 MovieCORE 를 제안합니다.

#Review #Video Question Answering (VQA)#Cognitive Reasoning #System-2 Thinking #Multi-agent LLMs #Dataset Creation #Movie Understanding #Cinematic Content #Agentic Enhancement

2025년 8월 27일

[논문리뷰] FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

기존 메시 생성 방식이 토큰 시퀀스 내의 정점(vertex) 중복 사용으로 인해 발생하는 비효율성(과도한 토큰 길이, 느린 생성 프로세스)을 해결하고, 정점과 면(face)을 분리하여 처리 함으로써 고품질의 예술적 메시를 더욱 효율적이고 빠르게 생성 하는 것을 목표로 합니다.

#Review #3D Mesh Generation #Component Decoupling #Autoregressive Models #Bidirectional Transformer #Fidelity Enhancement #Prediction Filtering #Token Efficiency #Artistic Meshes

2025년 8월 27일

[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

본 논문은 LLM의 과학 문제 해결 능력에 있어 깊은 도메인 지식 과 복잡한 추론 능력 의 필요성을 강조하며, 이를 종합적으로 평가할 수 있는 통일된 벤치마크의 부재와 지식 및 추론의 역할을 체계적으로 분리하여 연구하는 방법론의 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Scientific Reasoning #Knowledge Retrieval #Reasoning Probing #Benchmarks #Chain-of-Thought #Fine-tuning

2025년 8월 27일

[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

본 논문은 법률 전문가가 아닌 일반인(예: 원고)을 위한 법률 청구 생성(Legal Claim Generation) 문제에 주목하여, 주어진 사건의 사실(fact)을 바탕으로 청구 내용을 자동으로 생성하는 것을 목표로 합니다.

#Review #Legal AI #Natural Language Processing #Claim Generation #Chinese Legal Dataset #Factuality #Clarity #Large Language Models #Zero-shot Evaluation

2025년 8월 27일

[논문리뷰] CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

기존 확산 모델이 낮은 해상도 데이터로 훈련되어 고해상도 시각 콘텐츠 생성 시 반복적인 패턴이나 흐릿함, 품질 저하 문제를 겪는 한계를 해결합니다.

#Review #Diffusion Models #High-Resolution Generation #Image Generation #Video Generation #UNet Architecture #DiT Architecture #Scale Fusion #LoRA Fine-tuning

2025년 8월 27일

[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.

#Review #Large Language Models #Condensed Matter Physics #Benchmark #Scientific Reasoning #Evaluation Metric #Expression Edit Distance #Problem Solving

2025년 8월 27일

[논문리뷰] Autoregressive Universal Video Segmentation Model

현재 단편화된 비디오 분할 태스크들을 단일 아키텍처 로 통합하고, 프롬프트 기반(prompted) 및 비프롬프트 기반(unprompted) 비디오 분할을 아우르는 범용 모델을 개발하는 것이 목표입니다.

#Review #Video Segmentation #Autoregressive Model #Universal Model #State Space Models #Mamba #Parallel Training #Streaming Video #Deep Learning

2025년 8월 27일

[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #Chain of Thought #Multimodal LLMs #Stage-Aware Rewards #Semantic Reasoning #Generative AI

2025년 8월 26일

[논문리뷰] UQ: Assessing Language Models on Unsolved Questions

AI 연구의 진전을 이끄는 벤치마크가 난이도와 현실성 을 동시에 갖추지 못하는 문제점을 해결하고자 합니다.

#Review #LLM Evaluation #Unsolved Questions #AI Benchmark #Oracle-Free Validation #Generator-Validator Gap #Community Evaluation #Stack Exchange

2025년 8월 26일

[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.

#Review #Speech Tokenizer #Diffusion Model #Text-to-Speech #Speech Language Modeling #Low Bitrate Codec #End-to-End Training #Binary Spherical Quantization

2025년 8월 26일

[논문리뷰] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

본 논문은 기존 Text-to-Image (T2I) 모델들이 리터럴한 프롬프트 해석을 넘어 내포된 의미(implicit meaning) 와 맥락적 뉘앙스(contextual nuances) 를 이해하는 추론 능력에 한계가 있음을 지적합니다.

#Review #Text-to-Image Generation #Reasoning Benchmark #Idiom Interpretation #Textual Image Design #Entity Reasoning #Scientific Reasoning #Multimodal LLM Evaluation

2025년 8월 26일

[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods

이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.

#Review #Visually-Guided Image Editing #Multimodal Models #Benchmark #Hallucination #Diffusion Models #Autoregressive Models #Evaluation Metrics

2025년 8월 26일

[논문리뷰] ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

본 논문은 금융 보고서나 의료 기록과 같이 유연하고 복잡한 레이아웃(계층적 헤더, 병합된 셀 등)을 가진 반정형 테이블(semi-structured table) 에 대한 질의응답(QA) 문제를 해결하는 것을 목표로 합니다.

#Review #Semi-structured Tables #Question Answering #LLMs #Hierarchical Orthogonal Tree #Table Layout Understanding #Pipeline Generation #Verification Mechanism

2025년 8월 26일