StreamDiffusionV2:开源实时交互式高帧率视频生成系统
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
如何将ELMo有效集成到下游任务中仍存在策略分歧:特征拼接(Feature Ensemble)与微调(Fine-tuning)作为两种主流方法,在实现方式、性能表现及适用场景上存在本质差异。本...
Maya1-Text-to-Speech(以下简称Maya1)是一款基于深度学习构建的开源文本转语音(TTS)系统,主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...
AnyTalker是由香港科技大学研发并开源的一款专注于“音频驱动多人人说话视频生成”的技术框架。不同于传统单一人脸动画生成工具,该框架核心解决了“多人交互场景下视频生成...
Claude-Mem 是一款专为 Claude Code 打造的开源持久化记忆插件,核心目标是解决 AI 代码助手跨会话上下文丢失的痛点。该工具通过钩子架构、混合搜索技术与轻量化数据库存储...
因果推理与可解释人工智能(XAI)。前者通过构建变量间的因果关系网络,揭示“为何发生”的底层机制;后者则通过模型内在结构或后处理技术,将复杂决策转化为人类可理解的逻...
GLM-TTS是由智谱AI团队开源的一款基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,其核心设计理念是将大语言模型的语义理解能力与语音合成技术相结合,突破传统T...
InkSight是谷歌研究院开源的一款离线手写内容转在线数字墨水的AI系统,基于视觉ViT与mT5编码器-解码器架构,融合阅读与写作先验知识构建多任务训练框架,可直接将照片中的手...
通用AI助手“灵光”近日宣布推出全新核心能力——科普动画生成,该功能聚焦教育科普场景,通过将抽象复杂的科学原理转化为直观生动的动态动画,打造“会动的数字黑板板书”...
12月9日消息,蚂蚁集团旗下全模态通用AI助手灵光正式推出网页版,用户可通过浏览器直接访问,在电脑端体验其核心功能,“灵光对话”和“灵光闪应用”,进一步提升了工作与学...
