Review

[논문리뷰] UQ: Assessing Language Models on Unsolved Questions

AI 연구의 진전을 이끄는 벤치마크가 난이도와 현실성 을 동시에 갖추지 못하는 문제점을 해결하고자 합니다.

#Review #LLM Evaluation #Unsolved Questions #AI Benchmark #Oracle-Free Validation #Generator-Validator Gap #Community Evaluation #Stack Exchange

2025년 8월 26일

[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.

#Review #Speech Tokenizer #Diffusion Model #Text-to-Speech #Speech Language Modeling #Low Bitrate Codec #End-to-End Training #Binary Spherical Quantization

2025년 8월 26일

[논문리뷰] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

본 논문은 기존 Text-to-Image (T2I) 모델들이 리터럴한 프롬프트 해석을 넘어 내포된 의미(implicit meaning) 와 맥락적 뉘앙스(contextual nuances) 를 이해하는 추론 능력에 한계가 있음을 지적합니다.

#Review #Text-to-Image Generation #Reasoning Benchmark #Idiom Interpretation #Textual Image Design #Entity Reasoning #Scientific Reasoning #Multimodal LLM Evaluation

2025년 8월 26일

[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods

이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.

#Review #Visually-Guided Image Editing #Multimodal Models #Benchmark #Hallucination #Diffusion Models #Autoregressive Models #Evaluation Metrics

2025년 8월 26일

[논문리뷰] ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

본 논문은 금융 보고서나 의료 기록과 같이 유연하고 복잡한 레이아웃(계층적 헤더, 병합된 셀 등)을 가진 반정형 테이블(semi-structured table) 에 대한 질의응답(QA) 문제를 해결하는 것을 목표로 합니다.

#Review #Semi-structured Tables #Question Answering #LLMs #Hierarchical Orthogonal Tree #Table Layout Understanding #Pipeline Generation #Verification Mechanism

2025년 8월 26일

[논문리뷰] PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs

기존 학술 포스터 자동 생성 방식은 미학적 원칙을 간과하여 수동 수정이 많이 필요하다는 문제에 직면합니다.

#Review #Multi-Agent LLMs #Academic Poster Generation #Aesthetic Design #Layout Optimization #Typography #Color Palette #VLM-as-Judge #Content Fidelity

2025년 8월 26일

[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.

#Review #LLMs as Judges #NLG Evaluation #Measurement Theory #Validity #Reliability #Evaluation Bias #Scalability #Responsible AI

2025년 8월 26일

[논문리뷰] MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

본 논문은 극도로 희소한(sparse-view) 이미지 로부터 정확한 3D 장면의 표면을 재구성하는 문제를 해결하고자 합니다.

#Review #Sparse-View #Surface Reconstruction #Gaussian Splatting #2DGS #Novel View Synthesis #Generalizable #Mesh Extraction #3D Vision

2025년 8월 26일

[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusion

본 논문은 기존 Text-to-3D 생성 모델이 Out-of-Domain (OOD) 또는 희귀 개념을 처리할 때 겪는 기하학적 불일치, 부정확한 결과 및 현실성 부족 문제를 해결하고자 합니다. 텍스트 프롬프트만으로는 생성하기 어려운 새로운 객체에 대해 일관되고 정확하며 충실한 멀티뷰 출력 을 생성하는 것을 목표로 합니다.

#Review #Retrieval Augmented Generation #Multiview Diffusion #Text-to-3D Generation #Out-of-Domain #Image Retrieval #3D Consistency #Diffusion Models #Hybrid Training

2025년 8월 26일

[논문리뷰] MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment

본 논문은 영어 중심의 기존 VLM 벤치마크의 한계를 해결하고, 특히 페르시아어와 같은 저자원 언어에서 과학, 추론, 인간 수준의 이해 능력을 평가하기 위한 최초의 종합적인 멀티모달-멀티링구얼 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Multimodal Language Models #Multilingual Benchmarking #Persian Language #Educational Assessment #Vision-Language Models #Cultural Nuance #Reasoning Tasks

2025년 8월 26일

[논문리뷰] Limitations of Normalization in Attention Mechanism

본 연구는 어텐션 메커니즘에서 사용되는 정규화, 특히 소프트맥스(softmax) 의 근본적인 한계를 밝히는 것을 목표로 합니다.

#Review #Attention Mechanism #Normalization #Softmax #Transformer Models #Gradient Sensitivity #Token Separability #Context Length #GPT-2

2025년 8월 26일

[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Inference Efficiency #Vision-Language Models #Open-Source #Versatility #Reasoning

2025년 8월 26일

[논문리뷰] German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German

이 논문은 독일어 텍스트를 다양한 독해 수준에 맞춰 재작성하는 Readability-Controlled Paraphrasing 분야의 중요한 격차를 해소하고자 합니다.

#Review #Text Simplification #Paraphrasing #Readability Control #German NLP #Dataset Generation #LLM Distillation #Multi-level Text Generation #Accessibility

2025년 8월 26일

[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning

본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.

#Review #Compositional Visual Reasoning #Multimodal AI #Vision-Language Models #Large Language Models #Chain-of-Thought #Tool Learning #Agentic AI #Survey

2025년 8월 26일

[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Bottleneck #Instructional Scaffolding #Rubric-based Rewards #General Reasoning #RL with Verifiable Rewards #Policy Optimization

2025년 8월 26일

[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.

#Review #Reasoning Depth #Cellular Automata #Transformer Architectures #Recurrence #Adaptive Computation Time #Chain-of-Thought #Reinforcement Learning #Generalization

2025년 8월 26일

[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference

본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.

#Review #LLM Inference #Tensor Parallelism #KV Cache Optimization #Latent Attention #Memory Efficiency #Decoding Speedup #Prefill/Decode Separation #Reparameterization

2025년 8월 25일

[논문리뷰] Selective Contrastive Learning for Weakly Supervised Affordance Grounding

본 논문은 약지도 어포던스 그라운딩(Weakly Supervised Affordance Grounding, WSAG) 에서 모델이 어포던스 관련 부위 대신 일반적인 클래스 패턴에 집중하는 한계를 극복하고자 합니다.

#Review #Weakly Supervised Learning #Affordance Grounding #Contrastive Learning #CLIP #Part Discovery #Object Localization #DINO #Generative Models

2025년 8월 25일

[논문리뷰] Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics

본 논문은 3D 인체 포즈 및 형태 추정에서 널리 사용되지만 계산 비용이 높은 SMPLify 의 반복적 최적화 과정을 데이터 기반 신경망 으로 대체하여, 최적화 없이 빠른 시간 내에 인버스 키네마틱스(IK) 문제를 해결하는 것을 목표로 합니다.

#Review #Inverse Kinematics #Human Pose Estimation #SMPL Model #Neural Networks #Optimization-Free #Residual Learning #Data-Driven

2025년 8월 25일

[논문리뷰] Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

본 논문은 상업용 블랙박스 LLM에 대한 효과적인 탈옥(jailbreak) 공격 방법론을 개발하고, 기존 레드팀 데이터셋의 부적절한 프롬프트(Benign, Non-obvious Harmful, Non-Triggering harmful-response) 문제를 해결하여 LLM 평가의 정확성을 높이는 것을 목표로 합니다.

#Review #LLM Jailbreaking #Red Teaming #Malicious Content Detection #Developer Messages #D-Attack #DH-CoT #Adversarial Attacks #Dataset Cleaning

2025년 8월 25일