AudioGPT:开源多模态音频处理工具,一站式实现语音、音乐、声音生成与理解

原创 发布日期:
34

一、AudioGPT是什么?

AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目,其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型,实现对语音、音乐、通用声音的“理解”(如语音识别、声音检测)与“生成”(如文本转音频、文本转歌唱),同时延伸至视觉相关的Talking Head(会说话的头部)合成任务。

该项目以开源仓库的形式提供完整实现,包含核心代码、预训练模型下载脚本、环境依赖配置文件及详细运行指南,旨在降低音频处理技术的使用门槛,让开发者无需从零搭建模型,即可快速调用各类音频相关功能。与单一功能的音频工具不同,AudioGPT的核心优势在于“多任务集成”:将语音合成、语音识别、音频生成、声音提取等分散的音频能力整合到统一框架中,形成“输入-处理-输出”的全流程支持,覆盖从文本、图像到音频、视觉的多模态交互场景。

简单来说,AudioGPT就像一个“音频工具箱”,但比传统工具箱更智能——它基于AI模型驱动,无需手动调整复杂参数,即可完成从基础音频处理到高阶内容生成的各类任务,且所有功能均开源免费,支持二次开发与定制化改造。

二、功能特色

AudioGPT的功能覆盖四大核心领域,每个领域包含多个具体任务,所有任务均基于成熟的开源基础模型构建,部分任务处于持续优化中(标记为WIP,即Work In Progress)。以下是其完整功能矩阵,通过表格形式清晰呈现:

表1:AudioGPT核心功能矩阵

功能大类 具体任务 支持基础模型 状态 功能描述
语音(Speech) 文本转语音(Text-to-Speech) FastSpeech、SyntaSpeech、VITS 支持(开发中) 将文字内容转化为自然流畅的语音,支持多种音色与语速调节(部分模型支持)
  语音风格迁移(Style Transfer) GenerSpeech 支持 将一段语音的音色、语调风格迁移到另一段语音中,保持内容不变
  语音识别(Speech Recognition) whisper、Conformer 支持 将音频中的语音内容转化为文本,支持多语言识别(whisper模型特性)
  语音增强(Speech Enhancement) ConvTasNet 支持(开发中) 去除语音中的噪音、回声等干扰,提升语音清晰度与可懂度
  语音分离(Speech Separation) TF-GridNet 支持(开发中) 从混合音频(如多人对话、语音+背景音)中分离出目标语音轨道
  语音翻译(Speech Translation) Multi-decoder 开发中 直接将一种语言的语音转化为另一种语言的语音或文本(暂未完全开放)
  单声道转双声道(Mono-to-Binaural) NeuralWarp 支持 将单声道音频(仅一个声道)转化为双声道音频(左右声道),提升空间听觉体验
歌唱(Sing) 文本转歌唱(Text-to-Sing) DiffSinger、VISinger 支持(开发中) 将文字内容转化为歌唱形式的音频,还原旋律与歌词的匹配度
音频(Audio) 文本转音频(Text-to-Audio) Make-An-Audio 支持 根据文本描述生成对应的环境音、音效或音乐片段(如“雨声+钢琴声”“森林鸟鸣”)
  音频修复(Audio Inpainting) Make-An-Audio 支持 填补音频中的缺失片段(如音频中间的杂音、断音),生成与上下文连贯的内容
  图像转音频(Image-to-Audio) Make-An-Audio 支持 根据图像内容生成对应的音频(如“海边日落图”生成海浪声+风声)
  声音检测(Sound Detection) Audio-transformer 支持 识别音频中包含的声音类型(如人声、汽车鸣笛、动物叫声等)
  目标声音检测(Target Sound Detection) TSDNet 支持 从复杂混合音频中检测指定目标声音的存在与位置(如在街道噪音中检测警笛声)
  声音提取(Sound Extraction) LASSNet 支持 从混合音频中提取指定类型的声音(如从电影片段中提取背景音乐,去除人声)
Talking Head 头部合成(Talking Head Synthesis) GeneFace 支持(开发中) 根据语音内容生成对应的头部动态视频(如虚拟人嘴唇同步、头部轻微晃动)

除了上述核心任务覆盖,AudioGPT还具备以下三大特色:

1. 多模态融合能力

突破单一音频处理的局限,实现“文本→音频”“图像→音频”“语音→视觉(Talking Head)”的跨模态交互。例如:输入一张“暴雨中的城市街道”图片,可生成对应的雨声、车辆行驶声、远处雷声的混合音频;输入一段文本“温柔的女声朗读诗歌”,既能生成语音音频,也可搭配Talking Head功能生成同步的虚拟人朗读视频。

2. 开源可定制,无功能限制

所有核心代码、模型调用逻辑均完全开源,开发者可根据需求修改模型参数、整合新的基础模型,或定制化开发专属功能(如为文本转语音添加方言音色、为声音提取增加特定目标类型)。项目不限制商业使用(遵循LICENSE协议),企业与个人均可自由部署与二次开发。

3. 轻量化部署,依赖清晰

项目提供详细的环境配置文件(requirements.txt)与预训练模型下载脚本(download.sh),无需复杂的环境配置流程,支持本地服务器、PC端等多种部署场景。核心脚本(audio-chatgpt.py)封装了各类任务的调用逻辑,开发者可通过简单命令快速调用指定功能,无需关注底层模型细节。

三、技术细节

1. 项目架构设计

AudioGPT的核心架构为“模块化集成框架”,整体分为三层:接口层、模型层、数据层,各层职责清晰,便于维护与扩展:

  • 接口层:以audio-chatgpt.py为核心入口,提供统一的任务调用接口,支持通过命令行或脚本参数指定任务类型(如文本转语音、声音提取)、输入输出路径、模型选择等。接口层负责解析用户指令,调度对应的功能模块,返回处理结果。

  • 模型层:整合各类开源基础模型,每个任务对应一个或多个成熟模型(如语音识别对应whisper、Conformer),模型调用逻辑封装在各自的功能目录中(如audio_to_text/对应语音识别任务)。模型层支持动态加载预训练权重,通过download.sh脚本统一管理模型下载与更新。

  • 数据层:负责处理输入输出数据,支持常见音频格式(如WAV、MP3)、文本格式(TXT、JSON)、图像格式(JPG、PNG)的解析与转换。数据层内置数据预处理逻辑(如音频采样率统一、文本格式标准化),确保输入数据符合模型要求。

2. 核心技术模块解析

项目的核心功能通过多个子目录实现,每个目录对应一类任务,以下是关键模块的技术细节:

(1)语音处理模块(NeuralSeq、audio_to_text、mono2binaural)

  • NeuralSeq目录:集成FastSpeech、SyntaSpeech、VITS等文本转语音模型,以及GenerSpeech语音风格迁移模型。其中:

    • FastSpeech:基于Transformer的非自回归语音合成模型,优势是合成速度快,支持语速、音调调节;

    • VITS:结合变分自编码器(VAE)与生成对抗网络(GAN)的语音合成模型,合成语音自然度高,支持多音色生成;

    • GenerSpeech:专注于语音风格迁移,通过提取源语音的风格特征(如音色、语调),将其迁移到目标语音中,保持语音内容不变。

  • audio_to_text目录:封装语音识别与语音翻译任务,核心依赖whisper与Conformer模型:

    • whisper:OpenAI开源的多语言语音识别模型,支持100+语言的语音转文本,支持不同精度模型(tiny、base、large等),兼顾速度与准确率;

    • Conformer:基于Transformer与CNN混合架构的语音识别模型,在长语音、复杂噪音环境下表现更优。

  • mono2binaural/src目录:实现单声道转双声道功能,核心模型为NeuralWarp。该模型通过学习双声道音频的空间特征,将单声道音频映射到双声道空间,提升听觉的沉浸感,适用于耳机、音响等播放场景。

(2)音频生成模块(text_to_audio/Make_An_Audio)

该模块是AudioGPT的核心音频生成单元,集成Make-An-Audio模型,支持文本转音频、音频修复、图像转音频三大任务:

  • Make-An-Audio:基于扩散模型(Diffusion Model)的多模态音频生成模型,能够理解文本描述或图像内容,生成对应的音频。其核心优势是生成音频的多样性与连贯性,支持复杂场景描述(如“清晨森林中,鸟鸣与溪流声混合,伴有远处的风声”)。

  • 技术原理:通过文本编码器(如BERT)将文本/图像信息转化为语义向量,输入扩散模型中,逐步生成符合语义的音频波形,最终输出目标音频文件。

(3)声音检测与提取模块(audio_detection、sound_extraction)

  • audio_detection目录:包含声音检测与目标声音检测任务,核心模型为Audio-transformer与TSDNet:

    • Audio-transformer:基于Transformer的声音分类模型,通过提取音频的频谱特征,识别声音类型(如人声、环境音、音乐);

    • TSDNet:目标声音检测模型,支持在混合音频中定位指定目标声音的时间区间(如在10秒音频中检测第3-5秒的警笛声)。

  • sound_extraction目录:基于LASSNet模型实现声音提取功能。LASSNet是一种基于深度学习的声源分离模型,通过构建多尺度特征提取网络,分离混合音频中的目标声源(如从电影片段中提取背景音乐,去除人声),支持单目标或多目标提取。

(4)Talking Head模块(未单独列目录,集成于核心脚本)

基于GeneFace模型实现头部合成功能,GeneFace是一款高保真Talking Head生成模型,核心技术是“语音-面部动作映射”:

  • 通过提取输入语音的韵律特征(如语速、音调、停顿),映射到对应的面部动作(如嘴唇开合、面部肌肉微动);

  • 支持基于真实人脸图像生成头部动态视频,或生成虚拟人头部动画,动画与语音同步度高,适用于虚拟主播、视频配音等场景。

3. 依赖与环境要求

项目的运行依赖Python及多个开源库,具体依赖清单可参考requirements.txt,核心依赖包括:

  • Python 3.7+

  • PyTorch 1.8+(深度学习框架,用于模型训练与推理)

  • Hugging Face Transformers(模型加载与调用)

  • FFmpeg(音频格式转换与处理)

  • NumPy、SciPy(数值计算与信号处理)

  • OpenCV(图像处理,用于Talking Head任务)

  • Whisper(语音识别模型依赖)

环境配置流程简单,无需复杂的编译步骤,通过pip install -r requirements.txt即可一键安装所有依赖(部分依赖可能需要根据操作系统调整,如FFmpeg需单独安装)。

4. 预训练模型管理

项目的预训练模型通过download.sh脚本统一管理,支持自动下载各类任务的预训练权重,包括:

  • 语音合成模型(FastSpeech、VITS等)

  • 语音识别模型(whisper各精度权重、Conformer)

  • 音频生成模型(Make-An-Audio)

  • 声音检测与提取模型(Audio-transformer、TSDNet、LASSNet)

  • Talking Head模型(GeneFace)

模型下载完成后,会自动存储到指定目录(默认在项目根目录的models/文件夹下),核心脚本会自动读取模型路径,无需手动配置。

5. 仓库核心文件/目录功能表

文件/目录名称 核心功能 适用场景
audio-chatgpt.py 核心入口脚本,统一调度各类任务 所有任务的调用入口
download.sh 预训练模型下载脚本 首次部署时下载模型
requirements.txt 环境依赖配置文件 环境搭建时安装依赖
run.md 详细运行指南 开发者查看部署与调用步骤
README.md 项目概述、功能清单、致谢 快速了解项目核心信息
NeuralSeq/ 语音合成、语音风格迁移模型集成 文本转语音、语音风格迁移任务
audio_to_text/ 语音识别、语音翻译模型集成 音频转文本、语音翻译任务
text_to_audio/Make_An_Audio/ 音频生成模型集成 文本转音频、音频修复、图像转音频任务
audio_detection/ 声音检测、目标声音检测模型集成 声音类型识别、目标声音定位任务
sound_extraction/ 声音提取模型集成 混合音频中目标声音提取任务
mono2binaural/src/ 单声道转双声道模型集成 音频声道转换任务
assets/ 示例数据、提示词模板 新手测试功能时使用

四、应用场景

基于AudioGPT的多任务覆盖能力,其应用场景广泛,涵盖内容创作、媒体处理、智能交互、教育、影视游戏等多个领域,以下是具体场景示例:

1. 内容创作领域

  • 自媒体音频制作:博主可通过“文本转语音”功能将文案转化为语音旁白,搭配“文本转音频”生成背景音(如轻音乐、环境音),快速制作播客、短视频配音内容;

  • 音乐创作辅助:音乐创作者可通过“文本转歌唱”功能将歌词转化为歌唱片段,或通过“文本转音频”生成乐器音效(如钢琴、吉他旋律),辅助音乐初稿制作;

  • 广告音频制作:广告公司可快速生成产品宣传语音(文本转语音)、背景音效(文本转音频),无需专业配音演员与录音设备,降低制作成本。

2. 媒体处理领域

  • 音频修复:影视公司可通过“音频修复”功能修复老旧影片的音频片段(如去除杂音、填补断音),提升影片音质;

  • 声音提取:视频创作者可从电影、电视剧片段中提取背景音乐、台词(声音提取功能),用于二次创作(需遵守版权规定);

  • 多语言字幕生成:通过“语音识别”功能将视频中的语音转化为文本,再结合第三方翻译工具,快速生成多语言字幕,适用于跨境视频传播。

3. 智能交互领域

  • 智能音箱/机器人语音交互:开发者可集成“语音识别”(接收用户语音指令)与“文本转语音”(生成机器人回复语音)功能,构建智能交互系统;

  • 语音助手定制:企业可基于“语音风格迁移”功能,为语音助手定制专属音色(如品牌代言人音色),提升品牌辨识度;

  • 实时语音翻译:待“语音翻译”任务成熟后,可应用于跨境会议、旅游场景,实现实时语音互译。

4. 教育领域

  • 语音教学素材制作:教师可通过“文本转语音”功能生成标准的课文朗读、单词发音音频,用于语言教学;

  • 听力素材优化:将模糊的听力素材通过“语音增强”功能去除噪音,提升素材清晰度,帮助学生更好地练习听力;

  • 虚拟教师:结合“Talking Head”与“文本转语音”功能,生成虚拟教师形象,实现自动化教学视频录制。

5. 影视游戏领域

  • 游戏音效生成:游戏开发者可通过“文本转音频”功能生成游戏场景音效(如爆炸声、脚步声、环境音),或通过“图像转音频”为游戏场景图生成对应的音效;

  • 虚拟角色语音与形象同步:通过“文本转语音”生成虚拟角色语音,搭配“Talking Head”功能生成同步的角色头部动画,提升游戏沉浸感;

  • 影视配音辅助:为影视角色快速生成临时配音(文本转语音),用于前期剪辑测试,或为小成本影片提供配音解决方案。

6. 其他场景

  • 音频监控:通过“目标声音检测”功能,在商场、医院等场所监控特定声音(如火灾警报、婴儿哭声),实现智能预警;

  • 无障碍辅助:为视觉障碍者提供“图像转音频”功能(描述图像内容),或为听觉障碍者提供“语音识别”功能(转化语音为文本);

  • 科研实验:研究人员可基于项目的开源代码,快速搭建音频处理实验环境,测试新的模型或算法,加速研究进程。

AudioGPT:开源多模态音频处理工具,一站式实现语音、音乐、声音生成与理解

五、使用方法

1. 环境准备

(1)硬件要求

  • 处理器:CPU支持多线程运算(推荐i5及以上),或GPU(NVIDIA显卡,支持CUDA 10.2+,推荐显存4GB及以上,加速模型推理);

  • 内存:至少8GB(推荐16GB,处理大型音频文件时更流畅);

  • 存储空间:至少10GB(用于存储预训练模型、输入输出文件)。

(2)软件环境配置

  1. 安装Python 3.7+:从Python官网(https://www.python.org/)下载对应操作系统的Python版本,安装时勾选“Add Python to PATH”;

  2. 安装FFmpeg:

    • Windows系统:从FFmpeg官网(https://ffmpeg.org/)下载压缩包,解压后将“bin”目录添加到系统环境变量;

    • Linux/Mac系统:通过命令行安装(Linux:sudo apt-get install ffmpeg;Mac:brew install ffmpeg);

  3. 克隆项目仓库: 打开命令行终端,执行以下命令克隆项目到本地:

    git clone https://github.com/AIGC-Audio/AudioGPT.git
    cd AudioGPT
  4. 安装依赖包: 执行以下命令,通过requirements.txt安装所有依赖:

    pip install -r requirements.txt

    若安装过程中出现依赖冲突,可尝试创建虚拟环境后重新安装:

    # 创建虚拟环境
    python -m venv audiogpt-env
    # 激活虚拟环境(Windows)
    audiogpt-env\Scripts\activate
    # 激活虚拟环境(Linux/Mac)
    source audiogpt-env/bin/activate
    # 安装依赖
    pip install -r requirements.txt

2. 下载预训练模型

项目提供download.sh脚本用于统一下载预训练模型,执行以下命令:

# Linux/Mac系统
bash download.sh
# Windows系统(需使用Git Bash或WSL终端)
bash download.sh

脚本会自动下载所有支持任务的预训练模型,存储到项目根目录的models/文件夹下。若部分模型下载失败,可手动访问脚本中指定的模型链接下载,然后放置到对应目录(具体路径可参考download.sh中的注释)。

3. 核心功能调用示例

AudioGPT的所有功能通过audio-chatgpt.py脚本调用,支持通过命令行参数指定任务类型、输入输出路径等。以下是常见任务的调用示例:

(1)文本转语音(Text-to-Speech)

功能:将文本文件转化为语音音频。

python audio-chatgpt.py --task tts --input text_input.txt --output speech_output.wav --model VITS
  • 参数说明:

    • --task tts:指定任务为文本转语音;

    • --input text_input.txt:输入文本文件路径(文件内容为待合成的文本,如“大家好,我是AudioGPT生成的语音”);

    • --output speech_output.wav:输出音频文件路径(支持WAV、MP3格式);

    • --model VITS:指定使用VITS模型(可选FastSpeech、SyntaSpeech)。

(2)语音识别(Speech Recognition)

功能:将音频文件转化为文本。

python audio-chatgpt.py --task asr --input speech_input.wav --output text_output.txt --model whisper --language zh
  • 参数说明:

    • --task asr:指定任务为语音识别;

    • --input speech_input.wav:输入音频文件路径;

    • --output text_output.txt:输出文本文件路径;

    • --model whisper:指定使用whisper模型(可选Conformer);

    • --language zh:指定语言为中文(whisper支持多语言,可改为en、ja等)。

(3)文本转音频(Text-to-Audio)

功能:根据文本描述生成环境音/音效。

python audio-chatgpt.py --task text2audio --input "暴雨中的城市街道,雨声混合着车辆行驶声" --output audio_output.wav --model Make-An-Audio
  • 参数说明:

    • --task text2audio:指定任务为文本转音频;

    • --input "xxx":直接输入文本描述(也可指定文本文件路径);

    • --output audio_output.wav:输出音频文件路径。

(4)声音提取(Sound Extraction)

功能:从混合音频中提取指定类型的声音(如提取背景音乐)。

python audio-chatgpt.py --task sound_extraction --input mixed_audio.wav --output extracted_music.wav --target music --model LASSNet
  • 参数说明:

    • --task sound_extraction:指定任务为声音提取;

    • --input mixed_audio.wav:输入混合音频文件路径;

    • --output extracted_music.wav:输出提取后的音频文件路径;

    • --target music:指定提取目标为音乐(可选voice、environment等);

    • --model LASSNet:指定使用LASSNet模型。

(5)Talking Head合成

功能:根据语音生成头部动态视频。

python audio-chatgpt.py --task talking_head --input speech_input.wav --image face_input.jpg --output talking_head_video.mp4 --model GeneFace
  • 参数说明:

    • --task talking_head:指定任务为Talking Head合成;

    • --input speech_input.wav:输入语音音频文件路径;

    • --image face_input.jpg:输入人脸图像文件路径(支持正面清晰人脸);

    • --output talking_head_video.mp4:输出视频文件路径;

    • --model GeneFace:指定使用GeneFace模型。

4. 更多任务调用说明

其他任务(如语音风格迁移、音频修复、图像转音频等)的调用方式与上述示例类似,核心是通过--task参数指定任务类型,具体支持的任务类型可参考下表:

任务名称 --task参数值 必需参数 可选参数
语音风格迁移 style_transfer --input(源语音)、--reference(参考风格语音)、--output --model(GenerSpeech)
语音增强 speech_enhancement --input(待增强音频)、--output --model(ConvTasNet)
单声道转双声道 mono2binaural --input(单声道音频)、--output --model(NeuralWarp)
音频修复 audio_inpainting --input(待修复音频)、--output --model(Make-An-Audio)
图像转音频 image2audio --input(图像文件)、--output --model(Make-An-Audio)
目标声音检测 target_sound_detection --input(混合音频)、--output(检测结果文件)、--target(目标声音类型) --model(TSDNet)

更详细的参数说明可参考项目的run.md文件,或执行以下命令查看帮助文档:

python audio-chatgpt.py --help

六、常见问题解答(FAQ)

1. 依赖安装失败怎么办?

  • 问题原因:可能是Python版本不兼容、网络问题导致依赖包下载失败,或部分依赖包需要特定系统环境。

  • 解决方案:

    • 确认Python版本为3.7+,推荐使用3.8或3.9版本;

    • 更换国内PyPI镜像源(如清华源、阿里云源)安装依赖:

      pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
    • 若某个依赖包安装失败(如torch),可手动下载对应版本的whl文件安装(参考PyTorch官网:https://pytorch.org/get-started/locally/);

    • Windows系统若提示“找不到FFmpeg”,需确认FFmpeg已添加到系统环境变量,或重启终端后重试。

2. 预训练模型下载不了或下载缓慢?

  • 问题原因:网络波动、模型服务器限速等。

  • 解决方案:

    • 检查网络连接,确保能正常访问GitHub、Hugging Face等平台;

    • 若使用download.sh下载失败,可打开脚本,找到对应模型的下载链接,手动下载后放置到models/目录下的对应文件夹(脚本中有路径注释);

    • 国内用户可使用代理工具加速下载,或通过国内镜像源(如Hugging Face镜像)获取模型。

3. 运行脚本时提示“模型文件不存在”?

  • 问题原因:预训练模型未下载成功,或模型路径配置错误。

  • 解决方案:

    • 检查models/目录下是否存在对应模型的权重文件(如VITS模型的权重文件通常为vits.pth);

    • 若模型文件存在,确认脚本中指定的模型路径与实际路径一致(可查看audio-chatgpt.py中模型加载的相关代码);

    • 重新运行download.sh脚本,确保模型下载完整。

4. 部分任务显示“WIP”,无法使用怎么办?

  • 问题原因:标记为“WIP”的任务(如语音翻译、文本转歌唱)仍处于开发中,核心功能未完全实现。

  • 解决方案:

    • 关注项目GitHub仓库的更新,后续版本会完善这些任务;

    • 若急需使用,可查看对应任务的模型官方仓库,手动集成到AudioGPT中(需具备一定的开发能力)。

5. 生成的音频/视频质量不佳怎么办?

  • 问题原因:模型参数未优化、输入数据格式不符合要求,或硬件性能不足。

  • 解决方案:

    • 更换其他支持的模型(如文本转语音从FastSpeech换为VITS);

    • 优化输入数据(如文本转语音的输入文本避免过长,语音识别的输入音频采样率统一为16kHz);

    • 若使用CPU运行,可切换到GPU(需安装CUDA版本的PyTorch),提升模型推理精度与速度;

    • 调整模型参数(如文本转语音的语速、音调,可在audio-chatgpt.py中修改对应代码)。

6. 能否在Windows系统上运行?

  • 可以。Windows系统需使用Git Bash、WSL(Windows Subsystem for Linux)或PowerShell终端,确保已安装Python、FFmpeg,并配置好环境变量。部分Shell命令(如bash download.sh)需在Git Bash中执行,若遇到兼容性问题,可参考run.md中的Windows专属说明。

七、相关链接

八、总结

AudioGPT是一款聚焦音频领域的开源多模态处理工具,通过模块化集成数十种成熟基础模型,一站式覆盖语音合成、语音识别、音频生成、声音提取、Talking Head合成等核心任务,实现了从文本、图像到音频、视觉的跨模态交互。项目以“开源可定制、部署简单、功能全面”为核心优势,提供清晰的环境配置流程、预训练模型下载脚本与统一的任务调用接口,降低了音频处理技术的使用门槛,适用于内容创作、媒体处理、智能交互、教育等多个实际场景。无论是无需专业技术的创作者,还是需要快速搭建实验环境的研究人员,抑或是寻求二次开发的企业开发者,均可通过该项目高效实现各类音频相关需求。作为一款开源项目,AudioGPT整合了业界先进的音频处理技术,无需商业授权,支持灵活定制,为音频领域的技术落地与创新提供了强大的工具支持。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐