최신 포스트

[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.

#Review #Reproducibility #Paper-Code Discrepancy #Code Alignment #LLM Evaluation #Synthetic Data Generation #Quality Assurance #Scientific Automation

2026년 1월 20일

[논문리뷰] PRiSM: Benchmarking Phone Realization in Speech Models

기존 음소 인식(PR) 평가 방식이 표면적인 전사 정확도에만 초점을 맞추고, 실제 음성 모델의 음소적 능력과 표현의 미묘한 품질을 포착하지 못하며, 연구 간 비교가 어렵다는 문제를 해결하고자 합니다.

#Review #Phone Recognition #Speech Models #Benchmarking #Phonetic Analysis #Cross-lingual Speech #LALMs #Intrinsic Evaluation #Extrinsic Evaluation

2026년 1월 20일

[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright Auditing

본 논문은 LLM(Large Language Model) 학습 데이터의 저작권 감사에서 MIA(Membership Inference Attack) 가 신뢰할 수 있는 기술적 증거로 사용될 수 있는지 여부를 조사합니다.

#Review #Membership Inference Attacks #Copyright Auditing #Large Language Models #Adversarial Robustness #Paraphrasing #Sparse Autoencoders #Semantic Preservation #LLM Security

2026년 1월 20일

[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

기존 비디오 커스터마이징 방법론들이 레퍼런스 비디오의 풍부한 시공간 정보를 충분히 활용하지 못하여, 유연성과 일반화가 제한되는 문제를 해결하고자 합니다.

#Review #Video Transfer #Diffusion Models #Spatio-temporal Learning #Multimodal Alignment #Appearance Consistency #Temporal Control #Video Generation

2026년 1월 20일

[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.

#Review #Reward Models #LLM Memory Management #Benchmarking #Long Context #Evaluation Metrics #Generative RMs #Memory Management Patterns

2026년 1월 20일

[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.

#Review #OCR #Vision-Language Model #End-to-End Learning #Multilingual #Reinforcement Learning #Document Understanding #Bounding Box Prediction #Task Arithmetic Merging

2026년 1월 20일

[논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

본 논문은 LLM의 불투명한 의사결정 과정으로 인해 고위험 도메인에서의 적용이 어려운 문제를 해결하고자 합니다.

#Review #LLM Explainability #Causal Inference #Structural Counterfactuals #Concept-Based Explanations #Evaluation Benchmark #Faithfulness #SCM

2026년 1월 20일

[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning

픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Visual Generalization #Distribution Shift #Benchmarking #JAX #Controlled Environments #PPO

2026년 1월 20일

[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.

#Review #Multimodal LLMs #Future Forecasting #Audio-Visual Reasoning #Benchmark #Instruction Tuning #Omni-Modal #Causal Reasoning

2026년 1월 20일

[논문리뷰] Fundamental Limitations of Favorable Privacy-Utility Guarantees for DP-SGD

이 논문은 차등 프라이버시(DP)를 적용한 확률적 경사하강법(DP-SGD)의 근본적인 한계를 f-차등 프라이버시(f-DP) 프레임워크 하에서 분석하는 것을 목표로 합니다.

#Review #Differential Privacy (DP)#DP-SGD #f-differential privacy #Privacy-Utility Trade-off #Shuffled Sampling #Poisson Subsampling #Gaussian Noise #Worst-Case Adversary

2026년 1월 20일

[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

Vision-and-Language Navigation (VLN)에서 기존 Chain-of-Thought (CoT) 추론 방식의 한계, 즉 공간 접지 부족, 희소한 주석에 대한 과적합, 또는 상상된 시각적 관찰 생성으로 인한 심각한 토큰 팽창 문제로 실시간 내비게이션이 비실용적인 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Navigation #Chain-of-Thought Reasoning #Multimodal AI #Implicit Reasoning #Visual AutoRegressor #Embodied AI #Long-Horizon Planning

2026년 1월 20일

[논문리뷰] Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

논문은 다양한 로봇 플랫폼에 걸쳐 견고한 Cross-Embodiment Generalization 을 달성하기 위한 Human-Centric Robot Learning 패러다임을 제안합니다.

#Review #Robot Learning #Cross-Embodiment Generalization #Vision-Language-Action Models #Human-Centric Learning #Unified Action Space #Mixture-of-Flow #Real-Time Deployment #Large-Scale Datasets

2026년 1월 20일

[논문리뷰] Aligning Agentic World Models via Knowledgeable Experience Learning

본 논문은 대규모 언어 모델(LLMs) 기반 에이전트 월드 모델이 겪는 '물리적 환각(physical hallucinations)' 문제를 해결하고자 합니다.

#Review #Agentic AI #World Models #Experience Learning #LLMs #Physical Hallucinations #Embodied AI #Predictive Coding #Knowledge Repository

2026년 1월 20일

[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search

본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Retriever Training #Passage Utility Modeling #Iterative Optimization #Reinforcement Learning #Large Language Models

2026년 1월 20일

[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.

#Review #LLM-based Issue Resolution #Software Engineering #Autonomous Agents #Code Generation #Benchmarking #Reinforcement Learning #Supervised Fine-tuning #Multimodal LLMs

2026년 1월 20일

[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다.

#Review #Low-Resource NLP #Semantic Relations #Dataset Generation #Turkish Language #LLM #FastText Embeddings #Agglomerative Clustering #Synonyms #Antonyms #Co-hyponyms

2026년 1월 20일

[논문리뷰] A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification

본 논문은 프로덕션 LLM 시스템에서 안전성 검토 및 기타 분류 태스크를 위해 별도의 모델을 사용하는 방식이 야기하는 추론 지연 시간, VRAM 사용량, 운영 복잡성 증가 문제를 해결하고자 합니다.

#Review #LLM Orchestration #Lightweight Probes #Token-Layer Aggregation #Hidden States #Single-Pass Classification #Safety Moderation #Sentiment Analysis

2026년 1월 20일

[Loki] 자식 할당자가 반환한 메모리의 조기 해제 방지

Grafana Loki의 메모리 할당자에서 자식 할당자가 부모에게 반환한 메모리가 부모의 Reset 시 Go 런타임으로 조기 해제되는 버그를 3상태 비트맵 도입으로 수정한 PR을 분석합니다.

#Grafana Loki #Memory Management #Go #Allocator #Bug Fix

2026년 1월 20일

[Loki] 부모-자식 메모리 할당자 도입으로 계층적 메모리 수명 관리

쿼리 엔진의 메모리 할당자에 부모-자식 관계를 추가하여 할당/해제 수명을 계층적으로 관리하는 최적화 분석.

#Loki #Go #Performance #Memory Management #Allocator

2026년 1월 20일

[Grafana Loki] dataobj pageReader의 메모리 할당을 Reclaim과 Bitmap 직접 전달로 최적화

pageReader.read()에서 Reset 대신 Reclaim을 사용하고, presence 비트맵을 직접 전달하여 불필요한 할당을 줄인 dataobj 읽기 경로 최적화 분석.

#Grafana Loki #Go #Performance #Memory Allocation #Data Object

2026년 1월 20일