[논문리뷰] ST-Raptor: LLM-Powered Semi-Structured Table Question Answering본 논문은 금융 보고서나 의료 기록과 같이 유연하고 복잡한 레이아웃(계층적 헤더, 병합된 셀 등)을 가진 반정형 테이블(semi-structured table) 에 대한 질의응답(QA) 문제를 해결하는 것을 목표로 합니다.#Review#Semi-structured Tables#Question Answering#LLMs#Hierarchical Orthogonal Tree#Table Layout Understanding#Pipeline Generation#Verification Mechanism2025년 8월 26일댓글 수 로딩 중
[논문리뷰] PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs기존 학술 포스터 자동 생성 방식은 미학적 원칙을 간과하여 수동 수정이 많이 필요하다는 문제에 직면합니다.#Review#Multi-Agent LLMs#Academic Poster Generation#Aesthetic Design#Layout Optimization#Typography#Color Palette#VLM-as-Judge#Content Fidelity2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.#Review#LLMs as Judges#NLG Evaluation#Measurement Theory#Validity#Reliability#Evaluation Bias#Scalability#Responsible AI2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting본 논문은 극도로 희소한(sparse-view) 이미지 로부터 정확한 3D 장면의 표면을 재구성하는 문제를 해결하고자 합니다.#Review#Sparse-View#Surface Reconstruction#Gaussian Splatting#2DGS#Novel View Synthesis#Generalizable#Mesh Extraction#3D Vision2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusion본 논문은 기존 Text-to-3D 생성 모델이 Out-of-Domain (OOD) 또는 희귀 개념을 처리할 때 겪는 기하학적 불일치, 부정확한 결과 및 현실성 부족 문제를 해결하고자 합니다. 텍스트 프롬프트만으로는 생성하기 어려운 새로운 객체에 대해 일관되고 정확하며 충실한 멀티뷰 출력 을 생성하는 것을 목표로 합니다.#Review#Retrieval Augmented Generation#Multiview Diffusion#Text-to-3D Generation#Out-of-Domain#Image Retrieval#3D Consistency#Diffusion Models#Hybrid Training2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment본 논문은 영어 중심의 기존 VLM 벤치마크의 한계를 해결하고, 특히 페르시아어와 같은 저자원 언어에서 과학, 추론, 인간 수준의 이해 능력을 평가하기 위한 최초의 종합적인 멀티모달-멀티링구얼 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Multimodal Language Models#Multilingual Benchmarking#Persian Language#Educational Assessment#Vision-Language Models#Cultural Nuance#Reasoning Tasks2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Limitations of Normalization in Attention Mechanism본 연구는 어텐션 메커니즘에서 사용되는 정규화, 특히 소프트맥스(softmax) 의 근본적인 한계를 밝히는 것을 목표로 합니다.#Review#Attention Mechanism#Normalization#Softmax#Transformer Models#Gradient Sensitivity#Token Separability#Context Length#GPT-22025년 8월 26일댓글 수 로딩 중
[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Inference Efficiency#Vision-Language Models#Open-Source#Versatility#Reasoning2025년 8월 26일댓글 수 로딩 중
[논문리뷰] German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German이 논문은 독일어 텍스트를 다양한 독해 수준에 맞춰 재작성하는 Readability-Controlled Paraphrasing 분야의 중요한 격차를 해소하고자 합니다.#Review#Text Simplification#Paraphrasing#Readability Control#German NLP#Dataset Generation#LLM Distillation#Multi-level Text Generation#Accessibility2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.#Review#Compositional Visual Reasoning#Multimodal AI#Vision-Language Models#Large Language Models#Chain-of-Thought#Tool Learning#Agentic AI#Survey2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Bottleneck#Instructional Scaffolding#Rubric-based Rewards#General Reasoning#RL with Verifiable Rewards#Policy Optimization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.#Review#Reasoning Depth#Cellular Automata#Transformer Architectures#Recurrence#Adaptive Computation Time#Chain-of-Thought#Reinforcement Learning#Generalization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.#Review#LLM Inference#Tensor Parallelism#KV Cache Optimization#Latent Attention#Memory Efficiency#Decoding Speedup#Prefill/Decode Separation#Reparameterization2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Selective Contrastive Learning for Weakly Supervised Affordance Grounding본 논문은 약지도 어포던스 그라운딩(Weakly Supervised Affordance Grounding, WSAG) 에서 모델이 어포던스 관련 부위 대신 일반적인 클래스 패턴에 집중하는 한계를 극복하고자 합니다.#Review#Weakly Supervised Learning#Affordance Grounding#Contrastive Learning#CLIP#Part Discovery#Object Localization#DINO#Generative Models2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics본 논문은 3D 인체 포즈 및 형태 추정에서 널리 사용되지만 계산 비용이 높은 SMPLify 의 반복적 최적화 과정을 데이터 기반 신경망 으로 대체하여, 최적화 없이 빠른 시간 내에 인버스 키네마틱스(IK) 문제를 해결하는 것을 목표로 합니다.#Review#Inverse Kinematics#Human Pose Estimation#SMPL Model#Neural Networks#Optimization-Free#Residual Learning#Data-Driven2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts본 논문은 상업용 블랙박스 LLM에 대한 효과적인 탈옥(jailbreak) 공격 방법론을 개발하고, 기존 레드팀 데이터셋의 부적절한 프롬프트(Benign, Non-obvious Harmful, Non-Triggering harmful-response) 문제를 해결하여 LLM 평가의 정확성을 높이는 것을 목표로 합니다.#Review#LLM Jailbreaking#Red Teaming#Malicious Content Detection#Developer Messages#D-Attack#DH-CoT#Adversarial Attacks#Dataset Cleaning2025년 8월 25일댓글 수 로딩 중
[논문리뷰] InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles본 연구는 LLM이 인간의 개별적인 추론 스타일, 특히 사회적 맥락에서 사람들의 행동과 의도를 해석하고 적용하는 능력을 평가하는 것을 목표로 합니다.#Review#LLM Evaluation#Human Reasoning Styles#Social Deduction Games#Theory of Mind#Adaptive Reasoning#Avalon Game#Cognitive Grounding2025년 8월 25일댓글 수 로딩 중
[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.#Review#Agentic RAG#Medical Diagnosis#Reinforcement Learning#Traceable AI#Large Language Models#Clinical Decision Support#Out-of-Distribution Generalization#Reward Design2025년 8월 25일댓글 수 로딩 중
[논문리뷰] EgoTwin: Dreaming Body and View in First Person본 논문은 egocentric video 생성 분야의 미개척 영역을 탐구하며, 특히 카메라 착용자의 모션과 시점이 일관되고 인과적으로 연결된 방식으로 egocentric video와 인간 모션을 공동 생성하는 새로운 태스크를 제시합니다.#Review#Egocentric Video Generation#Human Motion Synthesis#Diffusion Transformers#Multimodal Generation#Viewpoint Alignment#Causal Interplay#First-Person Vision2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Do What? Teaching Vision-Language-Action Models to Reject the Impossible본 논문은 Vision-Language-Action (VLA) 모델이 존재하지 않는 객체나 조건('false-premise instructions')을 참조하는 명령을 받았을 때 이를 인식하고, 해석하며, 적절히 응답하는 능력이 부족하다는 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#False Premise Detection#Instruction Following#Human-Robot Interaction#Clarification#Instruction Tuning2025년 8월 25일댓글 수 로딩 중