[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale본 논문은 산업 규모의 저장소에서 작동할 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent (CCA) 를 제시하여, 기존 오픈소스 에이전트의 확장성 및 장기 컨텍스트/메모리 한계를 극복하고, 독점 에이전트의 투명성, 확장성, 제어 가능성 부족 문제를 해결하는 것을 목표로 합니다.#Review#AI Agent#Software Engineering#Open-Source#LLM#Orchestrator#Context Management#Long-term Memory#Meta-agent2025년 12월 11일댓글 수 로딩 중
[논문리뷰] LongCat-Image Technical Report컴퓨터 비전 분야에서 다국어 텍스트 렌더링, 사실주의, 배포 효율성, 개발자 접근성 등 기존 주요 모델들의 핵심 과제를 해결하고자 합니다. LongCat-Image 는 브루트 포스 스케일링에 대한 의존성에서 벗어나 최첨단 성능과 효율성 간의 최적의 균형을 이루는 경량 오픈소스 기반 모델을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Diffusion Model#Multilingual Text Rendering#Photorealism#Efficiency#Open-Source2025년 12월 8일댓글 수 로딩 중
[논문리뷰] HunyuanVideo 1.5 Technical Report경량화되면서도 강력한 오픈소스 비디오 생성 모델 Hunyuan Video 1.5 를 개발하여, 8.3억 파라미터로 최첨단 시각 품질과 움직임 일관성을 달성하고, 소비자용 GPU에서 효율적인 추론을 가능하게 하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformer#Sparse Attention#Super-Resolution#Open-Source#Multimodal Understanding#Training Optimization#Efficient Inference2025년 11월 24일댓글 수 로딩 중
[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.#Review#Computer Use Agents#Vision-Language Models#Cross-Platform Data#GUI Automation#Data Scaling#Open-Source#Task Completion#GUI Grounding2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Wan-Animate: Unified Character Animation and Replacement with Holistic Replication논문은 캐릭터 애니메이션과 교체를 위한 통합 프레임워크 를 제시하여, 동작, 표정, 환경 상호작용에 대한 총체적인 제어 를 고품질로 달성하는 것을 목표로 합니다. 기존 오픈소스 솔루션의 성능 및 기능적 한계를 극복하고, 다양한 시나리오에서 일관성과 표현력을 갖춘 캐릭터 비디오 생성을 가능하게 하고자 합니다.#Review#Character Animation#Video Replacement#Diffusion Models#Transformer#DiT#Relighting LoRA#Holistic Replication#Open-Source2025년 9월 18일댓글 수 로딩 중
[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Inference Efficiency#Vision-Language Models#Open-Source#Versatility#Reasoning2025년 8월 26일댓글 수 로딩 중
[논문리뷰] OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets의료 및 생명 과학 분야에서 비정형 텍스트로부터 구조화된 정보를 추출하는 데 필수적인 Named Entity Recognition (NER) 의 성능과 효율성을 개선하는 것을 목표로 합니다.#Review#Biomedical NER#Transformer#Domain Adaptation#LoRA#Open-Source#Named Entity Recognition#Healthcare AI2025년 8월 7일댓글 수 로딩 중