[논문리뷰] A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation논문은 기존 과학적 추론 벤치마크가 최종 답변의 정확성과 과정의 일관성에만 초점을 맞추고, 인간 추론의 기저에 있는 메모리 기반 메커니즘 , 즉 앵커(기초 지식)와 어트랙터(경험 기반 템플릿)의 활성화 및 통합을 간과하는 문제를 해결하고자 합니다.#Review#Scientific Reasoning#Memory-Driven AI#Benchmarking#Large Language Models (LLMs)#Anchor-Attractor Activation#Episodic Memory#Knowledge Retrieval2026년 1월 14일댓글 수 로딩 중
[Loki] Plain 디코더 벤치마크 추가 및 코드 개선Loki dataobj의 plain bytes 디코더에 체계적인 벤치마크를 추가하고, 불필요한 조건 체크를 제거하여 디코딩 성능을 개선한 PR 분석.#Grafana Loki#Go#Benchmarking#Decoder#Data Object#Performance2026년 1월 14일댓글 수 로딩 중
[Grafana Loki] pkg/dataobj를 위한 실험적 arena 스타일 메모리 패키지 도입메모리 영역을 회수하고 재사용할 수 있는 arena 스타일 Allocator와 비트맵/버퍼 유틸리티를 새로 도입한 분석.#Grafana Loki#Go#Memory Management#Arena Allocator#Performance#Bitmap2026년 1월 14일댓글 수 로딩 중
[Grafana Loki] 델타 디코더 벤치마크 개선 및 Decode 메서드 성능 측정 추가단일 값 decode 벤치마크를 배치 단위 Decode 메서드 벤치마크로 재작성하고, 처리량 메트릭과 errors.Is 최적화를 추가한 분석.#Grafana Loki#Go#Performance#Benchmark#Encoding2026년 1월 14일댓글 수 로딩 중
[논문리뷰] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory기존 Vision-Language-Action (VLA) 모델이 복잡하고 장기적인 내비게이션 태스크에서 부족했던 명시적 추론 능력 과 영구적인 기억 구조 의 부재를 해결하는 것을 목표로 합니다.#Review#Embodied Navigation#VLA Model#Adaptive Reasoning#Chain-of-Thought (CoT)#Linguistic Memory#Reinforcement Learning#Sim-to-Real Transfer#Multi-task Learning2026년 1월 13일댓글 수 로딩 중
[논문리뷰] User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale기존 멀티턴 도구 사용(tool-use) 데이터셋의 한계(정적, 사전 정의된 도구셋, 단일 샷 위주)를 극복하고, 실제 인간-에이전트 협업의 반복적이고 점진적인 특성을 반영하는 확장 가능한 고품질 멀티턴 대화 데이터 생성 프레임워크 를 개발하는 것이 목표입니다.#Review#Multi-Turn Dialogue Generation#Tool Use#Autonomous Agents#Large Reasoning Models#User Simulation#Synthetic Data Generation#SQL-based Tools#Agentic Benchmarks2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking본 논문은 기존 벤치마크가 클레임 검증에만 초점을 맞춰 LLM의 사실 확인 워크플로우 전반(클레임 추출 및 증거 검색 포함)을 간과하는 문제를 해결하고자 합니다.#Review#Fact-Checking#Large Language Models (LLMs)#Benchmarking#Multi-agent System#Stage-wise Evaluation#Claim Evolution#Trustworthy AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 신뢰성을 높이기 위해, 도구 사용 환경에서 발생하는 verbalized calibration(언어화된 확신) 의 문제를 분석하고 완화하는 것을 목표로 합니다.#Review#LLM Agents#Calibration#Tool Use#Reinforcement Learning#Miscalibration#Overconfidence#Trustworthy AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Solar Open Technical ReportSolar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Korean LLM#Synthetic Data Generation#Curriculum Learning#Reinforcement Learning#Tokenizer Optimization#Multilingual AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge DevicesDiffusion Transformer (DiT) 모델은 최첨단 이미지 생성 품질을 제공하지만, 높은 계산 및 메모리 비용으로 인해 엣지 디바이스 에서의 배포가 비실용적인 문제를 해결하는 것이 목표입니다.#Review#Diffusion Transformers#Edge AI#Efficient Image Generation#Sparse Attention#Elastic Training#Knowledge Distillation#Mobile AI#High-Fidelity2026년 1월 13일댓글 수 로딩 중
[논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands기존 GUI 에이전트들이 주로 이산적인 클릭 예측에 의존하여 연속적이고 자유로운 형태의 드래그(예: 그림 그리기, 캡차 풀이)와 같이 즉각적인 시각적 인지와 조정이 필요한 복잡한 GUI 상호작용을 수행하기 어렵다는 문제를 해결합니다.#Review#GUI Automation#Flow-based Generative Models#Continuous Control#Vision-Language Models#Human-Computer Interaction#ScreenDrag Benchmark#Dexterous Manipulation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Motion Attribution for Video Generation본 논문은 비디오 생성 모델에서 생성된 비디오의 움직임(motion) 에 영향을 미치는 훈련 클립을 식별하는 것을 목표로 합니다.#Review#Motion Attribution#Video Generation#Diffusion Models#Gradient-based Attribution#Temporal Dynamics#Motion Masking#Fine-tuning#Data Curation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Ministral 3본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.#Review#Large Language Models#Model Distillation#Pruning#Parameter-Efficient AI#Multimodal LLMs#Instruction Tuning#Reinforcement Learning from Human Feedback#Open-Source AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.#Review#Executive Memory#LLM Agents#Reasoning#Context Management#Tool-Augmented Agents#Memory Management#Trajectory Folding#Preference Optimization2026년 1월 13일댓글 수 로딩 중
[논문리뷰] MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences자율 소프트웨어 엔지니어링(SWE) 에이전트가 GitHub와 같은 플랫폼에 축적된 방대한 인간 경험을 효과적으로 활용하지 못하는 '닫힌 세계' 한계를 해결하는 것이 목표입니다.#Review#Code Agents#Software Engineering#Experiential Memory#GitHub Data#Experience Governance#Agentic Search#LLM Applications#Bug Fixing2026년 1월 13일댓글 수 로딩 중
[논문리뷰] KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions이 논문은 기존의 LLM 메모리 벤치마크가 단순한 정보 검색에 치우쳐 '인물 이해(Person Understanding)'를 직접적으로 측정하지 못하는 문제를 해결하고자 합니다.#Review#Person Understanding#Lifelong Digital Companions#Memory Benchmarking#Autobiographical Narratives#Cognitive Stream#Flashback Handling#LLM Evaluation#Hierarchical Reasoning2026년 1월 13일댓글 수 로딩 중
[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.#Review#RLVR#LLMs#Reasoning#Judge-then-Generate#Quality-Efficiency#Discriminative Supervision#Mathematical Reasoning#Backtracking Reduction2026년 1월 13일댓글 수 로딩 중
[논문리뷰] EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs본 논문은 LLM의 반복적인 자가 훈련 과정에서 발생하는 과도한 자신감(overconfidence) 및 신뢰도 저하(calibration cost) 문제를 해결하여, 모델이 '무엇을 모르는지'를 알게 함으로써 더 나은 추론 능력을 갖추는 것을 목표로 합니다.#Review#LLM Reasoning#Model Calibration#Epistemic Uncertainty#Self-Training#Supervised Fine-tuning#Confidence-Informed Self-Consistency#Model Collapse2026년 1월 13일댓글 수 로딩 중
[논문리뷰] End-to-End Video Character Replacement without Structural Guidance본 논문은 기존 비디오 캐릭터 교체 방법론이 페어링된 데이터 부족과 per-frame segmentation masks 및 explicit structural guidance (e.g., skeleton, depth) 에 의존하여 일반화 및 시각적 일관성 측면에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Video Character Replacement#Diffusion Models#In-Context Learning#Reinforcement Learning#Structural Guidance#Video Editing#Data Generation Pipeline2026년 1월 13일댓글 수 로딩 중
[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Open-Ended Tasks#Relative Ranking#Tournament-based Ranking#Discriminative Collapse#Reward Modeling#Benchmarks2026년 1월 13일댓글 수 로딩 중