AudioGPT:开源多模态音频处理工具,一站式实现语音、音乐、声音生成与理解
一、AudioGPT是什么?
AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目,其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型,实现对语音、音乐、通用声音的“理解”(如语音识别、声音检测)与“生成”(如文本转音频、文本转歌唱),同时延伸至视觉相关的Talking Head(会说话的头部)合成任务。
该项目以开源仓库的形式提供完整实现,包含核心代码、预训练模型下载脚本、环境依赖配置文件及详细运行指南,旨在降低音频处理技术的使用门槛,让开发者无需从零搭建模型,即可快速调用各类音频相关功能。与单一功能的音频工具不同,AudioGPT的核心优势在于“多任务集成”:将语音合成、语音识别、音频生成、声音提取等分散的音频能力整合到统一框架中,形成“输入-处理-输出”的全流程支持,覆盖从文本、图像到音频、视觉的多模态交互场景。
简单来说,AudioGPT就像一个“音频工具箱”,但比传统工具箱更智能——它基于AI模型驱动,无需手动调整复杂参数,即可完成从基础音频处理到高阶内容生成的各类任务,且所有功能均开源免费,支持二次开发与定制化改造。
二、功能特色
AudioGPT的功能覆盖四大核心领域,每个领域包含多个具体任务,所有任务均基于成熟的开源基础模型构建,部分任务处于持续优化中(标记为WIP,即Work In Progress)。以下是其完整功能矩阵,通过表格形式清晰呈现:
表1:AudioGPT核心功能矩阵
| 功能大类 | 具体任务 | 支持基础模型 | 状态 | 功能描述 |
|---|---|---|---|---|
| 语音(Speech) | 文本转语音(Text-to-Speech) | FastSpeech、SyntaSpeech、VITS | 支持(开发中) | 将文字内容转化为自然流畅的语音,支持多种音色与语速调节(部分模型支持) |
| 语音风格迁移(Style Transfer) | GenerSpeech | 支持 | 将一段语音的音色、语调风格迁移到另一段语音中,保持内容不变 | |
| 语音识别(Speech Recognition) | whisper、Conformer | 支持 | 将音频中的语音内容转化为文本,支持多语言识别(whisper模型特性) | |
| 语音增强(Speech Enhancement) | ConvTasNet | 支持(开发中) | 去除语音中的噪音、回声等干扰,提升语音清晰度与可懂度 | |
| 语音分离(Speech Separation) | TF-GridNet | 支持(开发中) | 从混合音频(如多人对话、语音+背景音)中分离出目标语音轨道 | |
| 语音翻译(Speech Translation) | Multi-decoder | 开发中 | 直接将一种语言的语音转化为另一种语言的语音或文本(暂未完全开放) | |
| 单声道转双声道(Mono-to-Binaural) | NeuralWarp | 支持 | 将单声道音频(仅一个声道)转化为双声道音频(左右声道),提升空间听觉体验 | |
| 歌唱(Sing) | 文本转歌唱(Text-to-Sing) | DiffSinger、VISinger | 支持(开发中) | 将文字内容转化为歌唱形式的音频,还原旋律与歌词的匹配度 |
| 音频(Audio) | 文本转音频(Text-to-Audio) | Make-An-Audio | 支持 | 根据文本描述生成对应的环境音、音效或音乐片段(如“雨声+钢琴声”“森林鸟鸣”) |
| 音频修复(Audio Inpainting) | Make-An-Audio | 支持 | 填补音频中的缺失片段(如音频中间的杂音、断音),生成与上下文连贯的内容 | |
| 图像转音频(Image-to-Audio) | Make-An-Audio | 支持 | 根据图像内容生成对应的音频(如“海边日落图”生成海浪声+风声) | |
| 声音检测(Sound Detection) | Audio-transformer | 支持 | 识别音频中包含的声音类型(如人声、汽车鸣笛、动物叫声等) | |
| 目标声音检测(Target Sound Detection) | TSDNet | 支持 | 从复杂混合音频中检测指定目标声音的存在与位置(如在街道噪音中检测警笛声) | |
| 声音提取(Sound Extraction) | LASSNet | 支持 | 从混合音频中提取指定类型的声音(如从电影片段中提取背景音乐,去除人声) | |
| Talking Head | 头部合成(Talking Head Synthesis) | GeneFace | 支持(开发中) | 根据语音内容生成对应的头部动态视频(如虚拟人嘴唇同步、头部轻微晃动) |
除了上述核心任务覆盖,AudioGPT还具备以下三大特色:
1. 多模态融合能力
突破单一音频处理的局限,实现“文本→音频”“图像→音频”“语音→视觉(Talking Head)”的跨模态交互。例如:输入一张“暴雨中的城市街道”图片,可生成对应的雨声、车辆行驶声、远处雷声的混合音频;输入一段文本“温柔的女声朗读诗歌”,既能生成语音音频,也可搭配Talking Head功能生成同步的虚拟人朗读视频。
2. 开源可定制,无功能限制
所有核心代码、模型调用逻辑均完全开源,开发者可根据需求修改模型参数、整合新的基础模型,或定制化开发专属功能(如为文本转语音添加方言音色、为声音提取增加特定目标类型)。项目不限制商业使用(遵循LICENSE协议),企业与个人均可自由部署与二次开发。
3. 轻量化部署,依赖清晰
项目提供详细的环境配置文件(requirements.txt)与预训练模型下载脚本(download.sh),无需复杂的环境配置流程,支持本地服务器、PC端等多种部署场景。核心脚本(audio-chatgpt.py)封装了各类任务的调用逻辑,开发者可通过简单命令快速调用指定功能,无需关注底层模型细节。
三、技术细节
1. 项目架构设计
AudioGPT的核心架构为“模块化集成框架”,整体分为三层:接口层、模型层、数据层,各层职责清晰,便于维护与扩展:
接口层:以
audio-chatgpt.py为核心入口,提供统一的任务调用接口,支持通过命令行或脚本参数指定任务类型(如文本转语音、声音提取)、输入输出路径、模型选择等。接口层负责解析用户指令,调度对应的功能模块,返回处理结果。模型层:整合各类开源基础模型,每个任务对应一个或多个成熟模型(如语音识别对应whisper、Conformer),模型调用逻辑封装在各自的功能目录中(如
audio_to_text/对应语音识别任务)。模型层支持动态加载预训练权重,通过download.sh脚本统一管理模型下载与更新。数据层:负责处理输入输出数据,支持常见音频格式(如WAV、MP3)、文本格式(TXT、JSON)、图像格式(JPG、PNG)的解析与转换。数据层内置数据预处理逻辑(如音频采样率统一、文本格式标准化),确保输入数据符合模型要求。
2. 核心技术模块解析
项目的核心功能通过多个子目录实现,每个目录对应一类任务,以下是关键模块的技术细节:
(1)语音处理模块(NeuralSeq、audio_to_text、mono2binaural)
NeuralSeq目录:集成FastSpeech、SyntaSpeech、VITS等文本转语音模型,以及GenerSpeech语音风格迁移模型。其中:
FastSpeech:基于Transformer的非自回归语音合成模型,优势是合成速度快,支持语速、音调调节;
VITS:结合变分自编码器(VAE)与生成对抗网络(GAN)的语音合成模型,合成语音自然度高,支持多音色生成;
GenerSpeech:专注于语音风格迁移,通过提取源语音的风格特征(如音色、语调),将其迁移到目标语音中,保持语音内容不变。
audio_to_text目录:封装语音识别与语音翻译任务,核心依赖whisper与Conformer模型:
whisper:OpenAI开源的多语言语音识别模型,支持100+语言的语音转文本,支持不同精度模型(tiny、base、large等),兼顾速度与准确率;
Conformer:基于Transformer与CNN混合架构的语音识别模型,在长语音、复杂噪音环境下表现更优。
mono2binaural/src目录:实现单声道转双声道功能,核心模型为NeuralWarp。该模型通过学习双声道音频的空间特征,将单声道音频映射到双声道空间,提升听觉的沉浸感,适用于耳机、音响等播放场景。
(2)音频生成模块(text_to_audio/Make_An_Audio)
该模块是AudioGPT的核心音频生成单元,集成Make-An-Audio模型,支持文本转音频、音频修复、图像转音频三大任务:
Make-An-Audio:基于扩散模型(Diffusion Model)的多模态音频生成模型,能够理解文本描述或图像内容,生成对应的音频。其核心优势是生成音频的多样性与连贯性,支持复杂场景描述(如“清晨森林中,鸟鸣与溪流声混合,伴有远处的风声”)。
技术原理:通过文本编码器(如BERT)将文本/图像信息转化为语义向量,输入扩散模型中,逐步生成符合语义的音频波形,最终输出目标音频文件。
(3)声音检测与提取模块(audio_detection、sound_extraction)
audio_detection目录:包含声音检测与目标声音检测任务,核心模型为Audio-transformer与TSDNet:
Audio-transformer:基于Transformer的声音分类模型,通过提取音频的频谱特征,识别声音类型(如人声、环境音、音乐);
TSDNet:目标声音检测模型,支持在混合音频中定位指定目标声音的时间区间(如在10秒音频中检测第3-5秒的警笛声)。
sound_extraction目录:基于LASSNet模型实现声音提取功能。LASSNet是一种基于深度学习的声源分离模型,通过构建多尺度特征提取网络,分离混合音频中的目标声源(如从电影片段中提取背景音乐,去除人声),支持单目标或多目标提取。
(4)Talking Head模块(未单独列目录,集成于核心脚本)
基于GeneFace模型实现头部合成功能,GeneFace是一款高保真Talking Head生成模型,核心技术是“语音-面部动作映射”:
通过提取输入语音的韵律特征(如语速、音调、停顿),映射到对应的面部动作(如嘴唇开合、面部肌肉微动);
支持基于真实人脸图像生成头部动态视频,或生成虚拟人头部动画,动画与语音同步度高,适用于虚拟主播、视频配音等场景。
3. 依赖与环境要求
项目的运行依赖Python及多个开源库,具体依赖清单可参考requirements.txt,核心依赖包括:
Python 3.7+
PyTorch 1.8+(深度学习框架,用于模型训练与推理)
Hugging Face Transformers(模型加载与调用)
FFmpeg(音频格式转换与处理)
NumPy、SciPy(数值计算与信号处理)
OpenCV(图像处理,用于Talking Head任务)
Whisper(语音识别模型依赖)
环境配置流程简单,无需复杂的编译步骤,通过pip install -r requirements.txt即可一键安装所有依赖(部分依赖可能需要根据操作系统调整,如FFmpeg需单独安装)。
4. 预训练模型管理
项目的预训练模型通过download.sh脚本统一管理,支持自动下载各类任务的预训练权重,包括:
语音合成模型(FastSpeech、VITS等)
语音识别模型(whisper各精度权重、Conformer)
音频生成模型(Make-An-Audio)
声音检测与提取模型(Audio-transformer、TSDNet、LASSNet)
Talking Head模型(GeneFace)
模型下载完成后,会自动存储到指定目录(默认在项目根目录的models/文件夹下),核心脚本会自动读取模型路径,无需手动配置。
5. 仓库核心文件/目录功能表
| 文件/目录名称 | 核心功能 | 适用场景 |
|---|---|---|
| audio-chatgpt.py | 核心入口脚本,统一调度各类任务 | 所有任务的调用入口 |
| download.sh | 预训练模型下载脚本 | 首次部署时下载模型 |
| requirements.txt | 环境依赖配置文件 | 环境搭建时安装依赖 |
| run.md | 详细运行指南 | 开发者查看部署与调用步骤 |
| README.md | 项目概述、功能清单、致谢 | 快速了解项目核心信息 |
| NeuralSeq/ | 语音合成、语音风格迁移模型集成 | 文本转语音、语音风格迁移任务 |
| audio_to_text/ | 语音识别、语音翻译模型集成 | 音频转文本、语音翻译任务 |
| text_to_audio/Make_An_Audio/ | 音频生成模型集成 | 文本转音频、音频修复、图像转音频任务 |
| audio_detection/ | 声音检测、目标声音检测模型集成 | 声音类型识别、目标声音定位任务 |
| sound_extraction/ | 声音提取模型集成 | 混合音频中目标声音提取任务 |
| mono2binaural/src/ | 单声道转双声道模型集成 | 音频声道转换任务 |
| assets/ | 示例数据、提示词模板 | 新手测试功能时使用 |
四、应用场景
基于AudioGPT的多任务覆盖能力,其应用场景广泛,涵盖内容创作、媒体处理、智能交互、教育、影视游戏等多个领域,以下是具体场景示例:
1. 内容创作领域
自媒体音频制作:博主可通过“文本转语音”功能将文案转化为语音旁白,搭配“文本转音频”生成背景音(如轻音乐、环境音),快速制作播客、短视频配音内容;
音乐创作辅助:音乐创作者可通过“文本转歌唱”功能将歌词转化为歌唱片段,或通过“文本转音频”生成乐器音效(如钢琴、吉他旋律),辅助音乐初稿制作;
广告音频制作:广告公司可快速生成产品宣传语音(文本转语音)、背景音效(文本转音频),无需专业配音演员与录音设备,降低制作成本。
2. 媒体处理领域
音频修复:影视公司可通过“音频修复”功能修复老旧影片的音频片段(如去除杂音、填补断音),提升影片音质;
声音提取:视频创作者可从电影、电视剧片段中提取背景音乐、台词(声音提取功能),用于二次创作(需遵守版权规定);
多语言字幕生成:通过“语音识别”功能将视频中的语音转化为文本,再结合第三方翻译工具,快速生成多语言字幕,适用于跨境视频传播。
3. 智能交互领域
智能音箱/机器人语音交互:开发者可集成“语音识别”(接收用户语音指令)与“文本转语音”(生成机器人回复语音)功能,构建智能交互系统;
语音助手定制:企业可基于“语音风格迁移”功能,为语音助手定制专属音色(如品牌代言人音色),提升品牌辨识度;
实时语音翻译:待“语音翻译”任务成熟后,可应用于跨境会议、旅游场景,实现实时语音互译。
4. 教育领域
语音教学素材制作:教师可通过“文本转语音”功能生成标准的课文朗读、单词发音音频,用于语言教学;
听力素材优化:将模糊的听力素材通过“语音增强”功能去除噪音,提升素材清晰度,帮助学生更好地练习听力;
虚拟教师:结合“Talking Head”与“文本转语音”功能,生成虚拟教师形象,实现自动化教学视频录制。
5. 影视游戏领域
游戏音效生成:游戏开发者可通过“文本转音频”功能生成游戏场景音效(如爆炸声、脚步声、环境音),或通过“图像转音频”为游戏场景图生成对应的音效;
虚拟角色语音与形象同步:通过“文本转语音”生成虚拟角色语音,搭配“Talking Head”功能生成同步的角色头部动画,提升游戏沉浸感;
影视配音辅助:为影视角色快速生成临时配音(文本转语音),用于前期剪辑测试,或为小成本影片提供配音解决方案。
6. 其他场景
音频监控:通过“目标声音检测”功能,在商场、医院等场所监控特定声音(如火灾警报、婴儿哭声),实现智能预警;
无障碍辅助:为视觉障碍者提供“图像转音频”功能(描述图像内容),或为听觉障碍者提供“语音识别”功能(转化语音为文本);
科研实验:研究人员可基于项目的开源代码,快速搭建音频处理实验环境,测试新的模型或算法,加速研究进程。

五、使用方法
1. 环境准备
(1)硬件要求
处理器:CPU支持多线程运算(推荐i5及以上),或GPU(NVIDIA显卡,支持CUDA 10.2+,推荐显存4GB及以上,加速模型推理);
内存:至少8GB(推荐16GB,处理大型音频文件时更流畅);
存储空间:至少10GB(用于存储预训练模型、输入输出文件)。
(2)软件环境配置
安装Python 3.7+:从Python官网(https://www.python.org/)下载对应操作系统的Python版本,安装时勾选“Add Python to PATH”;
安装FFmpeg:
Windows系统:从FFmpeg官网(https://ffmpeg.org/)下载压缩包,解压后将“bin”目录添加到系统环境变量;
Linux/Mac系统:通过命令行安装(Linux:
sudo apt-get install ffmpeg;Mac:brew install ffmpeg);克隆项目仓库: 打开命令行终端,执行以下命令克隆项目到本地:
git clone https://github.com/AIGC-Audio/AudioGPT.git cd AudioGPT
安装依赖包: 执行以下命令,通过requirements.txt安装所有依赖:
pip install -r requirements.txt
若安装过程中出现依赖冲突,可尝试创建虚拟环境后重新安装:
# 创建虚拟环境 python -m venv audiogpt-env # 激活虚拟环境(Windows) audiogpt-env\Scripts\activate # 激活虚拟环境(Linux/Mac) source audiogpt-env/bin/activate # 安装依赖 pip install -r requirements.txt
2. 下载预训练模型
项目提供download.sh脚本用于统一下载预训练模型,执行以下命令:
# Linux/Mac系统 bash download.sh # Windows系统(需使用Git Bash或WSL终端) bash download.sh
脚本会自动下载所有支持任务的预训练模型,存储到项目根目录的models/文件夹下。若部分模型下载失败,可手动访问脚本中指定的模型链接下载,然后放置到对应目录(具体路径可参考download.sh中的注释)。
3. 核心功能调用示例
AudioGPT的所有功能通过audio-chatgpt.py脚本调用,支持通过命令行参数指定任务类型、输入输出路径等。以下是常见任务的调用示例:
(1)文本转语音(Text-to-Speech)
功能:将文本文件转化为语音音频。
python audio-chatgpt.py --task tts --input text_input.txt --output speech_output.wav --model VITS
参数说明:
--task tts:指定任务为文本转语音;--input text_input.txt:输入文本文件路径(文件内容为待合成的文本,如“大家好,我是AudioGPT生成的语音”);--output speech_output.wav:输出音频文件路径(支持WAV、MP3格式);--model VITS:指定使用VITS模型(可选FastSpeech、SyntaSpeech)。
(2)语音识别(Speech Recognition)
功能:将音频文件转化为文本。
python audio-chatgpt.py --task asr --input speech_input.wav --output text_output.txt --model whisper --language zh
参数说明:
--task asr:指定任务为语音识别;--input speech_input.wav:输入音频文件路径;--output text_output.txt:输出文本文件路径;--model whisper:指定使用whisper模型(可选Conformer);--language zh:指定语言为中文(whisper支持多语言,可改为en、ja等)。
(3)文本转音频(Text-to-Audio)
功能:根据文本描述生成环境音/音效。
python audio-chatgpt.py --task text2audio --input "暴雨中的城市街道,雨声混合着车辆行驶声" --output audio_output.wav --model Make-An-Audio
参数说明:
--task text2audio:指定任务为文本转音频;--input "xxx":直接输入文本描述(也可指定文本文件路径);--output audio_output.wav:输出音频文件路径。
(4)声音提取(Sound Extraction)
功能:从混合音频中提取指定类型的声音(如提取背景音乐)。
python audio-chatgpt.py --task sound_extraction --input mixed_audio.wav --output extracted_music.wav --target music --model LASSNet
参数说明:
--task sound_extraction:指定任务为声音提取;--input mixed_audio.wav:输入混合音频文件路径;--output extracted_music.wav:输出提取后的音频文件路径;--target music:指定提取目标为音乐(可选voice、environment等);--model LASSNet:指定使用LASSNet模型。
(5)Talking Head合成
功能:根据语音生成头部动态视频。
python audio-chatgpt.py --task talking_head --input speech_input.wav --image face_input.jpg --output talking_head_video.mp4 --model GeneFace
参数说明:
--task talking_head:指定任务为Talking Head合成;--input speech_input.wav:输入语音音频文件路径;--image face_input.jpg:输入人脸图像文件路径(支持正面清晰人脸);--output talking_head_video.mp4:输出视频文件路径;--model GeneFace:指定使用GeneFace模型。
4. 更多任务调用说明
其他任务(如语音风格迁移、音频修复、图像转音频等)的调用方式与上述示例类似,核心是通过--task参数指定任务类型,具体支持的任务类型可参考下表:
| 任务名称 | --task参数值 | 必需参数 | 可选参数 |
|---|---|---|---|
| 语音风格迁移 | style_transfer | --input(源语音)、--reference(参考风格语音)、--output | --model(GenerSpeech) |
| 语音增强 | speech_enhancement | --input(待增强音频)、--output | --model(ConvTasNet) |
| 单声道转双声道 | mono2binaural | --input(单声道音频)、--output | --model(NeuralWarp) |
| 音频修复 | audio_inpainting | --input(待修复音频)、--output | --model(Make-An-Audio) |
| 图像转音频 | image2audio | --input(图像文件)、--output | --model(Make-An-Audio) |
| 目标声音检测 | target_sound_detection | --input(混合音频)、--output(检测结果文件)、--target(目标声音类型) | --model(TSDNet) |
更详细的参数说明可参考项目的run.md文件,或执行以下命令查看帮助文档:
python audio-chatgpt.py --help
六、常见问题解答(FAQ)
1. 依赖安装失败怎么办?
问题原因:可能是Python版本不兼容、网络问题导致依赖包下载失败,或部分依赖包需要特定系统环境。
解决方案:
确认Python版本为3.7+,推荐使用3.8或3.9版本;
更换国内PyPI镜像源(如清华源、阿里云源)安装依赖:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
若某个依赖包安装失败(如torch),可手动下载对应版本的whl文件安装(参考PyTorch官网:https://pytorch.org/get-started/locally/);
Windows系统若提示“找不到FFmpeg”,需确认FFmpeg已添加到系统环境变量,或重启终端后重试。
2. 预训练模型下载不了或下载缓慢?
问题原因:网络波动、模型服务器限速等。
解决方案:
检查网络连接,确保能正常访问GitHub、Hugging Face等平台;
若使用
download.sh下载失败,可打开脚本,找到对应模型的下载链接,手动下载后放置到models/目录下的对应文件夹(脚本中有路径注释);国内用户可使用代理工具加速下载,或通过国内镜像源(如Hugging Face镜像)获取模型。
3. 运行脚本时提示“模型文件不存在”?
问题原因:预训练模型未下载成功,或模型路径配置错误。
解决方案:
检查
models/目录下是否存在对应模型的权重文件(如VITS模型的权重文件通常为vits.pth);若模型文件存在,确认脚本中指定的模型路径与实际路径一致(可查看
audio-chatgpt.py中模型加载的相关代码);重新运行
download.sh脚本,确保模型下载完整。
4. 部分任务显示“WIP”,无法使用怎么办?
问题原因:标记为“WIP”的任务(如语音翻译、文本转歌唱)仍处于开发中,核心功能未完全实现。
解决方案:
关注项目GitHub仓库的更新,后续版本会完善这些任务;
若急需使用,可查看对应任务的模型官方仓库,手动集成到AudioGPT中(需具备一定的开发能力)。
5. 生成的音频/视频质量不佳怎么办?
问题原因:模型参数未优化、输入数据格式不符合要求,或硬件性能不足。
解决方案:
更换其他支持的模型(如文本转语音从FastSpeech换为VITS);
优化输入数据(如文本转语音的输入文本避免过长,语音识别的输入音频采样率统一为16kHz);
若使用CPU运行,可切换到GPU(需安装CUDA版本的PyTorch),提升模型推理精度与速度;
调整模型参数(如文本转语音的语速、音调,可在
audio-chatgpt.py中修改对应代码)。
6. 能否在Windows系统上运行?
可以。Windows系统需使用Git Bash、WSL(Windows Subsystem for Linux)或PowerShell终端,确保已安装Python、FFmpeg,并配置好环境变量。部分Shell命令(如
bash download.sh)需在Git Bash中执行,若遇到兼容性问题,可参考run.md中的Windows专属说明。
七、相关链接
项目GitHub仓库:https://github.com/AIGC-Audio/AudioGPT
八、总结
AudioGPT是一款聚焦音频领域的开源多模态处理工具,通过模块化集成数十种成熟基础模型,一站式覆盖语音合成、语音识别、音频生成、声音提取、Talking Head合成等核心任务,实现了从文本、图像到音频、视觉的跨模态交互。项目以“开源可定制、部署简单、功能全面”为核心优势,提供清晰的环境配置流程、预训练模型下载脚本与统一的任务调用接口,降低了音频处理技术的使用门槛,适用于内容创作、媒体处理、智能交互、教育等多个实际场景。无论是无需专业技术的创作者,还是需要快速搭建实验环境的研究人员,抑或是寻求二次开发的企业开发者,均可通过该项目高效实现各类音频相关需求。作为一款开源项目,AudioGPT整合了业界先进的音频处理技术,无需商业授权,支持灵活定制,为音频领域的技术落地与创新提供了强大的工具支持。
版权及免责申明:本文由@AI铺子原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/audiogpt.html

