TeleStyle:中国电信开源的零样本高保真图像视频风格迁移框架
TeleStyle是由中国电信人工智能研究院(Tele-AI) 开源的内容保留式图像与视频双模态风格迁移模型,基于Qwen-Image-Edit基座与DiT架构构建,在不微调、不针对特定风格训练的...
TeleStyle是由中国电信人工智能研究院(Tele-AI) 开源的内容保留式图像与视频双模态风格迁移模型,基于Qwen-Image-Edit基座与DiT架构构建,在不微调、不针对特定风格训练的...
玄武CLI是由清昴智能开源的国产算力原生大模型命令行管理工具,被业内称为“国产版 Ollama”。它提供一套轻量化、无依赖、开箱即用的大模型部署与运行平台,让使用者在不掌...
GLM-OCR是智谱AI开源的轻量级多模态文档OCR模型,核心定位是小参数、高精度、易部署、全场景覆盖的专业级文档理解与文字提取工具。它基于GLM-V视觉-语言编码器-解码器架构构...
SoulX-FlashTalk是由Soul AI Lab(Soul App人工智能实验室)联合东华大学研发并开源的实时音频驱动数字人无限流式生成模型,核心定位是解决传统数字人生成技术中“高画质必...
Qwen3-Coder是阿里巴巴集团通义千问团队研发并开源的代理式AI编程专用大模型,它并非简单的代码补全工具,而是以“编程智能体”为核心定位,能够自主规划多步骤任务、理解跨...
PaddleSpeech是基于百度飞桨(PaddlePaddle)深度学习框架打造的开源一站式语音与音频全功能处理工具包,该项目的核心定位是降低语音技术的使用与开发门槛,打通从数据处理...
AionUi 是由 iOfficeAI 团队开发的免费、开源、本地化跨平台桌面应用,项目底层基于 Electron 框架构建,采用 TypeScript 全栈开发,核心价值是将各类命令行 AI 工具的复杂...
MLX-Audio是基于苹果MLX框架深度开发、专为Apple Silicon M系列芯片优化的开源音频处理库,完整覆盖文本转语音、语音转文本、语音转语音三大核心能力,支持多语言、多主流模...
2026年2月,SpaceX正式收购xAI,合并后新实体估值达1.25万亿美元。马斯克宣布构建“太空-地面一体化AI生态”,利用星链卫星与星舰火箭打造轨道数据中心,解决地面算力能源瓶...
Peekaboo 是一款基于 macOS 系统的开源自动化工具,融合 CLI(命令行界面)与 MCP 服务器双重运行模式,依托多厂商 AI 模型实现高精度屏幕捕获、自然语言驱动的 GUI 自动化...