Ming-UniAudio:开源统一语音处理框架,支持语音理解、生成与编辑的端到端模型
Ming-UniAudio是一个创新的开源框架,旨在统一语音理解、生成和编辑任务。通过基于VAE框架和因果Transformer架构的统一连续语音tokenizer(MingTok-Audio),它能够有效整合...
Ming-UniAudio是一个创新的开源框架,旨在统一语音理解、生成和编辑任务。通过基于VAE框架和因果Transformer架构的统一连续语音tokenizer(MingTok-Audio),它能够有效整合...
Code2Video是由新加坡国立大学Show Lab开发的开源教育视频生成框架,核心以代码驱动实现教育类视频的自动化生成,适用于数学(欧拉公式、傅里叶级数等)、计算机科学(神经...
openpilot 是由 Comma AI 开发的开源自动驾驶平台,旨在为 300 多种支持车辆提供高级驾驶辅助功能。该项目通过软件升级方式,将普通车辆转变为智能驾驶车辆,支持自适应巡航...
AI_NovelGenerator 是一款基于大语言模型(LLM)的开源长篇小说创作辅助工具,旨在帮助作者高效生成情节连贯、设定统一的小说内容。该工具集成了小说设定工坊、智能章节生成...
AIMangaStudio 是一个基于 AI 技术的漫画制作工具,旨在帮助创作者快速生成漫画脚本、设计角色、布局分镜,并最终导出完整的漫画作品。本项目集成了 Google GenAI 等先进 A...
EchoCare 是一个面向超声临床应用的完全开源基础模型,基于大规模无标注超声影像数据集 EchoAtlas 训练而成。该数据集覆盖全球 5 大洲 23 个临床中心、38 种不同超声设备,...
RoboBrain-X0 是一个突破性的跨实体机器人智能框架,旨在克服单机器人系统在异构实体迁移中的局限性。它通过统一的动作词汇表和先进的动作令牌化技术,实现了在不同机器人平...
Open WebUI 是一个开源的自托管 AI 平台,提供了丰富的功能和灵活的扩展性。它支持多种 LLM 运行器,包括 Ollama 和 OpenAI 兼容 API,内置 RAG 推理引擎,可用于构建自定义...
Stagehand 是由 Browserbase 开发的 AI 浏览器自动化框架,它创新性地将确定性代码操作与 AI 自然语言指令相结合,使开发者能够构建更灵活、可靠的浏览器自动化流程。
browser-use 是一个创新的开源项目,它将大型语言模型 (LLM) 与浏览器自动化技术相结合,实现了通过自然语言指令控制浏览器的功能。该项目使用 Playwright 作为浏览器自动化...