VibeVoice-ASR:微软开源的AI语音转文本工具,单遍处理60分钟长音频
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
手把手教你部署阿里通义万相Wan2.2-TI2V-5B视频生成模型!本教程涵盖Miniconda环境搭建、ComfyUI安装、模型文件下载(wan2.2_ti2v_5B_fp16.safetensors等)、工作流导入及J...
Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型,核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程,以及语音克隆效果差、延迟高的...
ALwrity是一款基于Python和React构建的开源AI驱动数字营销平台,它整合了AI内容生成、SEO分析、多平台适配、事实核查等核心能力,适配博客、LinkedIn、社交媒体等多场景内容...
本文提供B站开源工业级零样本文本转语音模型IndexTTS2的完整本地部署教程,涵盖Ubuntu系统环境搭建、依赖安装、模型下载、国内镜像加速技巧及WebUI可视化界面启动步骤。支持...
Fabric是由Daniel Miessler开发的开源AI增强框架,主打命令行原生交互,通过Pattern模式实现AI提示词的工程化管理与复用,支持多主流LLM模型与服务商适配,能将AI能力无缝集...
深度解析 MiniCPM-V 4.5 多模态大模型,手把手教你完成本地部署。支持高精度 OCR 与长视频理解,基于 Ubuntu 环境,适配 GGUF 量化,轻松在消费级硬件运行视觉语言模型。
AgentCPM-GUI是一款面向安卓系统的开源设备端GUI(图形用户界面)智能代理,核心能力是接收用户自然语言指令与智能手机屏幕截图,通过对GUI元素的识别、理解与推理,自主生...
Engram是由DeepSeek AI开源的大语言模型条件记忆模块,作为混合专家(MoE)之外的互补稀疏性方案,它将经典N-gram嵌入现代化,实现了O(1)时间复杂度的知识查找。该模块通过...
FantasyWorld 是由高德地图(AMAP)与北京邮电大学联合研发的开源 3D 世界建模框架,核心围绕几何一致的世界建模目标,通过在冻结的视频基础模型上增设可训练的几何分支,实...
