[논문리뷰] UQ: Assessing Language Models on Unsolved QuestionsAI 연구의 진전을 이끄는 벤치마크가 난이도와 현실성 을 동시에 갖추지 못하는 문제점을 해결하고자 합니다.#Review#LLM Evaluation#Unsolved Questions#AI Benchmark#Oracle-Free Validation#Generator-Validator Gap#Community Evaluation#Stack Exchange2025년 8월 26일댓글 수 로딩 중
[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.#Review#Speech Tokenizer#Diffusion Model#Text-to-Speech#Speech Language Modeling#Low Bitrate Codec#End-to-End Training#Binary Spherical Quantization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation본 논문은 기존 Text-to-Image (T2I) 모델들이 리터럴한 프롬프트 해석을 넘어 내포된 의미(implicit meaning) 와 맥락적 뉘앙스(contextual nuances) 를 이해하는 추론 능력에 한계가 있음을 지적합니다.#Review#Text-to-Image Generation#Reasoning Benchmark#Idiom Interpretation#Textual Image Design#Entity Reasoning#Scientific Reasoning#Multimodal LLM Evaluation2025년 8월 26일댓글 수 로딩 중
[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.#Review#Visually-Guided Image Editing#Multimodal Models#Benchmark#Hallucination#Diffusion Models#Autoregressive Models#Evaluation Metrics2025년 8월 26일댓글 수 로딩 중
[논문리뷰] ST-Raptor: LLM-Powered Semi-Structured Table Question Answering본 논문은 금융 보고서나 의료 기록과 같이 유연하고 복잡한 레이아웃(계층적 헤더, 병합된 셀 등)을 가진 반정형 테이블(semi-structured table) 에 대한 질의응답(QA) 문제를 해결하는 것을 목표로 합니다.#Review#Semi-structured Tables#Question Answering#LLMs#Hierarchical Orthogonal Tree#Table Layout Understanding#Pipeline Generation#Verification Mechanism2025년 8월 26일댓글 수 로딩 중
[논문리뷰] PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs기존 학술 포스터 자동 생성 방식은 미학적 원칙을 간과하여 수동 수정이 많이 필요하다는 문제에 직면합니다.#Review#Multi-Agent LLMs#Academic Poster Generation#Aesthetic Design#Layout Optimization#Typography#Color Palette#VLM-as-Judge#Content Fidelity2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.#Review#LLMs as Judges#NLG Evaluation#Measurement Theory#Validity#Reliability#Evaluation Bias#Scalability#Responsible AI2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting본 논문은 극도로 희소한(sparse-view) 이미지 로부터 정확한 3D 장면의 표면을 재구성하는 문제를 해결하고자 합니다.#Review#Sparse-View#Surface Reconstruction#Gaussian Splatting#2DGS#Novel View Synthesis#Generalizable#Mesh Extraction#3D Vision2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusion본 논문은 기존 Text-to-3D 생성 모델이 Out-of-Domain (OOD) 또는 희귀 개념을 처리할 때 겪는 기하학적 불일치, 부정확한 결과 및 현실성 부족 문제를 해결하고자 합니다. 텍스트 프롬프트만으로는 생성하기 어려운 새로운 객체에 대해 일관되고 정확하며 충실한 멀티뷰 출력 을 생성하는 것을 목표로 합니다.#Review#Retrieval Augmented Generation#Multiview Diffusion#Text-to-3D Generation#Out-of-Domain#Image Retrieval#3D Consistency#Diffusion Models#Hybrid Training2025년 8월 26일댓글 수 로딩 중
[논문리뷰] MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment본 논문은 영어 중심의 기존 VLM 벤치마크의 한계를 해결하고, 특히 페르시아어와 같은 저자원 언어에서 과학, 추론, 인간 수준의 이해 능력을 평가하기 위한 최초의 종합적인 멀티모달-멀티링구얼 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Multimodal Language Models#Multilingual Benchmarking#Persian Language#Educational Assessment#Vision-Language Models#Cultural Nuance#Reasoning Tasks2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Limitations of Normalization in Attention Mechanism본 연구는 어텐션 메커니즘에서 사용되는 정규화, 특히 소프트맥스(softmax) 의 근본적인 한계를 밝히는 것을 목표로 합니다.#Review#Attention Mechanism#Normalization#Softmax#Transformer Models#Gradient Sensitivity#Token Separability#Context Length#GPT-22025년 8월 26일댓글 수 로딩 중
[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Inference Efficiency#Vision-Language Models#Open-Source#Versatility#Reasoning2025년 8월 26일댓글 수 로딩 중
[논문리뷰] German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German이 논문은 독일어 텍스트를 다양한 독해 수준에 맞춰 재작성하는 Readability-Controlled Paraphrasing 분야의 중요한 격차를 해소하고자 합니다.#Review#Text Simplification#Paraphrasing#Readability Control#German NLP#Dataset Generation#LLM Distillation#Multi-level Text Generation#Accessibility2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.#Review#Compositional Visual Reasoning#Multimodal AI#Vision-Language Models#Large Language Models#Chain-of-Thought#Tool Learning#Agentic AI#Survey2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Bottleneck#Instructional Scaffolding#Rubric-based Rewards#General Reasoning#RL with Verifiable Rewards#Policy Optimization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.#Review#Reasoning Depth#Cellular Automata#Transformer Architectures#Recurrence#Adaptive Computation Time#Chain-of-Thought#Reinforcement Learning#Generalization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.#Review#LLM Inference#Tensor Parallelism#KV Cache Optimization#Latent Attention#Memory Efficiency#Decoding Speedup#Prefill/Decode Separation#Reparameterization2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Selective Contrastive Learning for Weakly Supervised Affordance Grounding본 논문은 약지도 어포던스 그라운딩(Weakly Supervised Affordance Grounding, WSAG) 에서 모델이 어포던스 관련 부위 대신 일반적인 클래스 패턴에 집중하는 한계를 극복하고자 합니다.#Review#Weakly Supervised Learning#Affordance Grounding#Contrastive Learning#CLIP#Part Discovery#Object Localization#DINO#Generative Models2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics본 논문은 3D 인체 포즈 및 형태 추정에서 널리 사용되지만 계산 비용이 높은 SMPLify 의 반복적 최적화 과정을 데이터 기반 신경망 으로 대체하여, 최적화 없이 빠른 시간 내에 인버스 키네마틱스(IK) 문제를 해결하는 것을 목표로 합니다.#Review#Inverse Kinematics#Human Pose Estimation#SMPL Model#Neural Networks#Optimization-Free#Residual Learning#Data-Driven2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts본 논문은 상업용 블랙박스 LLM에 대한 효과적인 탈옥(jailbreak) 공격 방법론을 개발하고, 기존 레드팀 데이터셋의 부적절한 프롬프트(Benign, Non-obvious Harmful, Non-Triggering harmful-response) 문제를 해결하여 LLM 평가의 정확성을 높이는 것을 목표로 합니다.#Review#LLM Jailbreaking#Red Teaming#Malicious Content Detection#Developer Messages#D-Attack#DH-CoT#Adversarial Attacks#Dataset Cleaning2025년 8월 25일댓글 수 로딩 중