Lynx:字节跳动开源高保真个性化视频生成模型
Lynx是字节跳动Intelligent Creation团队开发的开源高保真个性化视频生成模型,基于Diffusion Transformer(DiT)架构,通过ID-adapter(身份保留)和Ref-adapter(空间细节...
Lynx是字节跳动Intelligent Creation团队开发的开源高保真个性化视频生成模型,基于Diffusion Transformer(DiT)架构,通过ID-adapter(身份保留)和Ref-adapter(空间细节...
OpenPPT是必优科技基于ChatPPT核心服务开源的Web端在线AI PPT生成创作工具,覆盖PPT从“新建/导入”“编辑”“美化排版”“播放”“演讲”到“导出下载”的全流程服务。其支...
xLLM 是京东开源的一款高性能大语言模型推理框架,专为国产 AI 加速器优化,采用服务 - 引擎解耦架构,实现高效的企业级部署。该框架通过全图流水线执行、动态形状图优化、...
JoySafety 是京东正式开源的企业级大模型安全防护框架,旨在解决生成式人工智能应用落地过程中的各类安全风险。该框架在京东内部已广泛应用于多个业务场景,包括 AI 导购、...
Dolphin是字节跳动推出的一款多模态文档图像解析框架,采用"分析-解析"两阶段范式,通过异构锚点提示技术实现高精度文档理解。该框架能够有效识别和解析文档中的文本段落、...
Qwen3-ASR-Toolkit是一个专为Qwen-ASR API设计的高性能Python命令行工具包。它通过智能音频分割和并行处理,突破了API的3分钟时长限制,支持超长音频和视频的高效转录。该工...
StableAvatar 是一个专注于音频驱动的无限长度虚拟人视频生成的开源项目,能够基于参考图像和音频,合成具有身份一致性、自然音频同步的长视频,无需依赖人脸交换或修复等后...
OpenUI 是一个开源前端UI界面代码生成工具,它利用大语言模型的能力,通过文本描述或截图输入,自动生成高质量的前端 UI 界面代码。该工具支持多种前端框架输出,兼容多个主...
Context7 MCP 是一个开源的 Model Context Protocol 服务器,旨在解决大语言模型(LLM)在生成代码时面临的信息过时和上下文不足问题。它为 AI 编程工具提供实时、版本特定的...
Hunyuan3D-Part是腾讯混元团队开源的3D形状部件分割与生成框架,包含P3-SAM和X-Part两个核心组件,实现从3D模型到语义部件分割和高保真结构分解的完整流程。该项目适用于3D...
Onyx 是一个功能丰富的自托管 Chat UI 平台,可与任何大型语言模型 (LLM) 配合使用。它提供了强大的代理系统、检索增强生成 (RAG)、网络搜索、代码解释器等功能,支持私有化...
LongCat-Flash-Chat 是美团开源的一款高性能大语言模型聊天系统,基于 LongCat-Flash 大模型架构构建。该项目旨在提供一个高性能、低延迟、可扩展的大语言模型聊天解决方案...
HumanLayer 是一款开源的 API 与 SDK 工具集,旨在为 AI 智能体(Agent)提供人类监督能力,支持 AI 在执行高风险操作(如发送邮件、修改私人数据等)时触发人类审批、获取...
AudioFly是由科大讯飞开源的文本驱动音频生成模型,基于Latent Diffusion Model架构构建,具备10亿参数规模。该模型可依据文本描述合成采样率为44.1kHz的高质量音效,在单事...
FLM-Audio 是一款开源的音频 - 语言融合模型,作为 RoboEgo/FLM-Ego 的子版本,具备原生全双工能力,可同时实现监听、说话与内部独白构建,支持中英文双语言环境下的低延迟...