MOSS-Speech:复旦大学开源的端到端语音大模型,无文本引导实现自然语音交互
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
ROCK(Reinforcement Open Construction Kit)是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架,基于客户端-服务器架构,提供沙箱环境的构...
2025年11月27日晚,人工智能领域迎来里程碑式突破——中国AI公司DeepSeek在Hugging Face平台正式开源全球首个达到国际数学奥林匹克竞赛(IMO)金牌水平的数学推理模型DeepS...
Local Dream是一个专注于Android平台的开源AI图像生成项目,核心目标是让用户在移动设备上无需依赖云端算力,即可本地运行Stable Diffusion模型完成各类图像创作。区别于需...
Ruyi是Ruyi-Models项目的核心图像到视频(Image-to-Video, i2v)生成模型,由CreateAI团队开发并开源,旨在为用户提供“低门槛、高性能、高自由度”的视频生成解决方案。不...
批量归一化(Batch Normalization, BN)作为一种关键技术,通过规范化中间层输入分布,显著提升了训练速度与模型稳定性。本文AI铺子将从技术原理、数学推导、工程实现及实际...
Chart-GPT是一款开源的AI驱动型数据可视化工具,其核心定位是“将文本描述快速转化为高质量图表”,让用户无需掌握复杂的图表制作技能(如Excel、Tableau操作),也无需手动...
PaintsChainer是一款开源的线稿自动上色工具,其核心定位是“基于深度学习的线稿半自动色彩填充解决方案”。该项目由Preferred Networks(日本知名AI企业,简称PFN)主导开...
MiMo-Embodied是小米公司具身智能团队推出的一款开源跨具身视觉语言模型(Vision-Language Model, VLM),于2025年正式发布。作为全球首个整合自动驾驶与具身AI两大关键领域...
VibeThinker-1.5B是一款仅1.5B参数的开源小参数量密集型模型,核心突破在于通过“频谱到信号原理”和两阶段多样性探索蒸馏+强化学习优化,打破了“小模型缺乏强推理能力”的...
