DeepOCR:开源Deepseek-OCR复现项目,以令牌压缩实现高效多场景OCR
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目,核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM(窗口注意力)与CLIP(全局注...
在机器学习与深度学习的训练过程中,损失函数(Loss Function)扮演着核心角色。它通过量化模型预测值与真实值之间的差异,为模型优化提供明确方向。本文AI铺子将系统阐述损...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
ROCK(Reinforcement Open Construction Kit)是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架,基于客户端-服务器架构,提供沙箱环境的构...
2025年11月27日晚,人工智能领域迎来里程碑式突破——中国AI公司DeepSeek在Hugging Face平台正式开源全球首个达到国际数学奥林匹克竞赛(IMO)金牌水平的数学推理模型DeepS...
Local Dream是一个专注于Android平台的开源AI图像生成项目,核心目标是让用户在移动设备上无需依赖云端算力,即可本地运行Stable Diffusion模型完成各类图像创作。区别于需...
Ruyi是Ruyi-Models项目的核心图像到视频(Image-to-Video, i2v)生成模型,由CreateAI团队开发并开源,旨在为用户提供“低门槛、高性能、高自由度”的视频生成解决方案。不...
批量归一化(Batch Normalization, BN)作为一种关键技术,通过规范化中间层输入分布,显著提升了训练速度与模型稳定性。本文AI铺子将从技术原理、数学推导、工程实现及实际...
Chart-GPT是一款开源的AI驱动型数据可视化工具,其核心定位是“将文本描述快速转化为高质量图表”,让用户无需掌握复杂的图表制作技能(如Excel、Tableau操作),也无需手动...
PaintsChainer是一款开源的线稿自动上色工具,其核心定位是“基于深度学习的线稿半自动色彩填充解决方案”。该项目由Preferred Networks(日本知名AI企业,简称PFN)主导开...
