AI铺子如何帮助商家提高销售额?
在数字化浪潮中,实体商业与人工智能的深度融合正重塑零售业态。以"AI铺子"为代表的智能零售解决方案,通过数据驱动、场景重构和服务升级,为商家开辟了精准化运营的新路径...
在数字化浪潮中,实体商业与人工智能的深度融合正重塑零售业态。以"AI铺子"为代表的智能零售解决方案,通过数据驱动、场景重构和服务升级,为商家开辟了精准化运营的新路径...
Kaleido是由智谱AI、合肥工业大学、清华大学等机构联合研发的开源多主体参考视频生成模型,该模型支持512P分辨率视频生成,提供完整的训练、推理代码及预训练权重,适配Pyt...
PosterCopilot是由南京大学PRLab、LibLib.ai与中国科学院自动化研究所联合开发的开源多模态海报设计框架,该框架基于大型多模态模型(LMMs)构建,创新采用三阶段训练范式,...
GLM-TTS是由智谱AI团队开源的一款基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,其核心设计理念是将大语言模型的语义理解能力与语音合成技术相结合,突破传统T...
GLM-ASR 是由智谱 AI 团队开源的一款轻量级高性能语音识别项目,核心模型为 GLM-ASR-Nano-2512,参数规模仅 1.5B,却在多项语音识别基准测试中表现优于 OpenAI Whisper V3。...
Mistral Vibe是由Mistral AI打造的一款开源命令行(CLI)编码助手,它以自然语言对话为核心交互方式,深度整合代码库分析、文件操作、命令执行等能力,为开发者提供一站式的...
InkSight是谷歌研究院开源的一款离线手写内容转在线数字墨水的AI系统,基于视觉ViT与mT5编码器-解码器架构,融合阅读与写作先验知识构建多任务训练框架,可直接将照片中的手...
VibeVoice是微软开源的一款高性能语音AI研究框架,聚焦于解决传统文本转语音(TTS)系统在长文本处理、多说话人一致性及自然对话生成方面的技术痛点。该框架支持最长90分钟...
CosyVoice是由阿里通义实验室打造的开源TTS项目,其核心定位是面向“野外”真实场景的高质量、高灵活性语音合成框架。作为基于LLM架构的TTS工具,CosyVoice不仅支持基础的文...
LuoGen-agent 是 LuoGen-AI 团队开源的商业级爆款视频自动化生成智能体,集成智能文案处理、高保真语音克隆、数字人口播合成、多平台自动发布等全流程能力,基于 Whisper、...