Vidi2:字节跳动开源的多模态视频理解与生成模型
Vidi2是字节跳动智能创作与编辑团队研发的开源大型多模态视频理解与生成模型,作为初代Vidi的迭代升级版本,新增细粒度时空定位(STG)和视频问答(Video QA)核心能力,可...
Vidi2是字节跳动智能创作与编辑团队研发的开源大型多模态视频理解与生成模型,作为初代Vidi的迭代升级版本,新增细粒度时空定位(STG)和视频问答(Video QA)核心能力,可...
Frappe Builder是一款基于Frappe生态打造的开源低代码可视化网站构建工具,它提供类Figma的直观编辑体验,支持响应式设计、Frappe CMS数据集成、自定义脚本与样式,搭配一键...
激活函数是神经网络中至关重要的组成部分,它通过引入非线性特性使网络能够学习复杂的模式。选择合适的激活函数直接影响模型的收敛速度、泛化能力及最终性能。本文AI铺子将...
AgentEvolver是阿里通义实验室开源的AI智能体自进化系统,通过自我提问、自我导航、自我归因三大核心机制,解决传统强化学习(RL)任务稀缺、探索低效、样本利用率低的痛点...
Parallax是一款开源的分布式模型服务框架,由AI技术公司Gradient开发并开源。其核心定位是“让用户在任何地方构建自己的AI集群”,解决传统LLM推理依赖高配置单节点或中心化...
很多人会好奇:AI没有眼睛,怎么“看”懂照片里的内容?其实,CV的本质不是让机器“看见”,而是让机器“理解”——把图像转化成计算机能处理的数字,再通过算法提取关键信...
Cognee是一个面向AI代理(AI Agents)设计的开源内存工具与平台,从本质来看,Cognee并非简单的数据存储工具,而是一套完整的“数据结构化-知识关联-智能检索”解决方案:它...
EasyVoice是一款免费开源的智能文本转语音解决方案,专注于解决超长文本转换、多角色配音等核心需求,支持10万字以上小说一键转为有声书,具备流式传输、自动字幕生成、多语...
本文深入浅出地讲解神经网络的基本原理,带你从零理解AI的核心技术。通过讲解神经元结构、前向传播与反向传播机制,解析激活函数、权重、损失函数等关键概念,揭示神经网络...
AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目,其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型,实现对语音、音乐、通用声音的“理...
