首页 > 人工智能 > 深度学习

人工智能语音入门

视频课 24集全次学习

￥298.00

有效期：永久有效

课程详情
课程目录

适合人群：

本课程适合零基础想入门AI语音的开发者、对语音识别/语音合成感兴趣的初学者、数据科学/人工智能方向的学生、以及希望将语音技术应用到产品中的工程师。无论你是完全不了解语音技术的小白，还是有一定Python基础想学习AI语音应用，本课程都将带你从语音信号基础开始，系统掌握语音识别、语音合成等核心技术的原理与实战。

你将会学到：

学员将系统掌握语音信号处理基础（采样/量化/时频域）、语音特征提取（MFCC）、语音识别基本原理（声学模型/语言模型）、语音合成技术（TTS）、端到端语音识别框架、主流语音工具库使用等核心技能，具备使用Python进行语音识别和语音合成开发的基础能力。

课程简介：

1. 为什么要学习本课程？

人工智能语音技术正在深刻改变人机交互方式。从智能音箱、语音助手到自动字幕、语音翻译，AI语音已经融入日常生活。掌握AI语音技术能够带来显著的价值提升：

应用广泛：智能客服、语音搜索、语音输入、无障碍辅助
技术前沿：端到端语音识别、大模型语音交互
就业热门：语音算法工程师需求旺盛
入门门槛低：借助开源工具，快速上手语音应用开发

然而，很多学习者在入门AI语音时遇到以下问题：

语音信号处理概念抽象（采样率、频域、傅里叶变换）
传统语音识别流程复杂（GMM-HMM难以理解）
端到端模型（RNN-T、Transformer）门槛较高
缺乏实战经验，不知道如何快速上手语音应用

本课程定位 “入门” ，从语音信号基础讲起，结合Python代码实战，帮你快速建立AI语音技术的知识体系。

2. 课程特点

零基础友好：从声音是什么、如何数字化讲起
理论与实践结合：每个概念都有Python代码实现
经典方法到深度学习：从MFCC到端到端识别全覆盖
主流工具库：librosa、SpeechRecognition、whisper、TTS
实战项目：语音识别、语音合成、语音命令识别

3. 主体大纲与设计思路

课程分为六大模块，共24节视频课：

模块一：语音技术概述与信号基础（4节）

人工智能语音技术概述（ASR/TTS/语音唤醒/声纹识别）
声音的物理基础（频率/振幅/音色）
语音数字化：采样、量化、编码
时域与频域、傅里叶变换直观理解

模块二：语音特征提取（4节）

预加重、分帧、加窗
短时傅里叶变换（STFT）与频谱图
MFCC特征提取原理与实现
Python音频处理库librosa实战

模块三：传统语音识别（4节）

语音识别系统架构（声学模型/语言模型/词典）
GMM-HMM声学模型原理
语言模型：N-gram
解码与WFST（加权有限状态转换器）

模块四：深度学习语音识别（4节）

端到端语音识别概述（CTC/RNN-T/Attention）
开源语音识别工具实战（SpeechRecognition/Whisper）
语音识别效果评估（WER/CER）
中文语音识别实践

模块五：语音合成（TTS）（4节）

语音合成技术概述（拼接合成/参数合成/端到端合成）
Tacotron + WaveNet/WaveGlow原理
开源TTS工具实战（TTS/Edge TTS）
语音合成效果评估与调优

模块六：实战项目与总结（4节）

实战一：实时语音识别系统
实战二：语音命令词识别
实战三：文本转语音应用
课程总结——AI语音进阶路线

课时1第1节：人工智能语音技术概述（ASR/TTS/语音唤醒/声纹识别）

课时2第2节：声音的物理基础（频率/振幅/音色）

课时3第3节：语音数字化——采样、量化、编码

课时4第4节：时域与频域、傅里叶变换直观理解

课时5第5节：预加重、分帧、加窗

课时6第6节：短时傅里叶变换（STFT）与频谱图

课时7第7节：MFCC特征提取原理与实现

课时8第8节：Python音频处理库librosa实战

课时9第9节：语音识别系统架构（声学模型/语言模型/词典）

课时10第10节：GMM-HMM声学模型原理

课时11第11节：语言模型——N-gram

课时12第12节：解码与WFST（加权有限状态转换器）

课时13第13节：端到端语音识别概述（CTC/RNN-T/Attention）

课时14第14节：开源语音识别工具实战（SpeechRecognition/Whisper）

课时15第15节：语音识别效果评估（WER/CER）

课时16第16节：中文语音识别实践

课时17第17节：语音合成技术概述（拼接合成/参数合成/端到端合成）

课时18第18节：Tacotron + WaveNet/WaveGlow原理

课时19第19节：开源TTS工具实战（TTS/Edge TTS）

课时20第20节：语音合成效果评估与调优

课时21第21节：实战一——实时语音识别系统

课时22第22节：实战二——语音命令词识别

课时23第23节：实战三——文本转语音应用

课时24第24节：课程总结——AI语音进阶路线

精选好课

CSS层叠样式表基础教程
20集全

Copyright © 2026 深圳市福灵科技有限公司版权所有　粤ICP备2026010772号-1