首页 > 人工智能 > 深度学习

人工智能语音入门

视频课 24集全 次学习
  • ¥298.00
  • 有效期:永久有效课程自购买之日起永久有效,该课程后续更新内容将免费参加学习。
    • 课程详情
    • 课程目录

    适合人群:

    本课程适合零基础想入门AI语音的开发者、对语音识别/语音合成感兴趣的初学者、数据科学/人工智能方向的学生、以及希望将语音技术应用到产品中的工程师。无论你是完全不了解语音技术的小白,还是有一定Python基础想学习AI语音应用,本课程都将带你从语音信号基础开始,系统掌握语音识别、语音合成等核心技术的原理与实战。


    你将会学到:

    学员将系统掌握语音信号处理基础(采样/量化/时频域)、语音特征提取(MFCC)、语音识别基本原理(声学模型/语言模型)、语音合成技术(TTS)、端到端语音识别框架、主流语音工具库使用等核心技能,具备使用Python进行语音识别和语音合成开发的基础能力。


    课程简介:

    1. 为什么要学习本课程?

    人工智能语音技术正在深刻改变人机交互方式。从智能音箱、语音助手到自动字幕、语音翻译,AI语音已经融入日常生活。掌握AI语音技术能够带来显著的价值提升:

    • 应用广泛:智能客服、语音搜索、语音输入、无障碍辅助

    • 技术前沿:端到端语音识别、大模型语音交互

    • 就业热门:语音算法工程师需求旺盛

    • 入门门槛低:借助开源工具,快速上手语音应用开发

    然而,很多学习者在入门AI语音时遇到以下问题:

    • 语音信号处理概念抽象(采样率、频域、傅里叶变换)

    • 传统语音识别流程复杂(GMM-HMM难以理解)

    • 端到端模型(RNN-T、Transformer)门槛较高

    • 缺乏实战经验,不知道如何快速上手语音应用

    本课程定位 “入门” ,从语音信号基础讲起,结合Python代码实战,帮你快速建立AI语音技术的知识体系。

    2. 课程特点

    • 零基础友好:从声音是什么、如何数字化讲起

    • 理论与实践结合:每个概念都有Python代码实现

    • 经典方法到深度学习:从MFCC到端到端识别全覆盖

    • 主流工具库:librosa、SpeechRecognition、whisper、TTS

    • 实战项目:语音识别、语音合成、语音命令识别

    3. 主体大纲与设计思路

    课程分为六大模块,共24节视频课:

    模块一:语音技术概述与信号基础(4节)

    • 人工智能语音技术概述(ASR/TTS/语音唤醒/声纹识别)

    • 声音的物理基础(频率/振幅/音色)

    • 语音数字化:采样、量化、编码

    • 时域与频域、傅里叶变换直观理解

    模块二:语音特征提取(4节)

    • 预加重、分帧、加窗

    • 短时傅里叶变换(STFT)与频谱图

    • MFCC特征提取原理与实现

    • Python音频处理库librosa实战

    模块三:传统语音识别(4节)

    • 语音识别系统架构(声学模型/语言模型/词典)

    • GMM-HMM声学模型原理

    • 语言模型:N-gram

    • 解码与WFST(加权有限状态转换器)

    模块四:深度学习语音识别(4节)

    • 端到端语音识别概述(CTC/RNN-T/Attention)

    • 开源语音识别工具实战(SpeechRecognition/Whisper)

    • 语音识别效果评估(WER/CER)

    • 中文语音识别实践

    模块五:语音合成(TTS)(4节)

    • 语音合成技术概述(拼接合成/参数合成/端到端合成)

    • Tacotron + WaveNet/WaveGlow原理

    • 开源TTS工具实战(TTS/Edge TTS)

    • 语音合成效果评估与调优

    模块六:实战项目与总结(4节)

    • 实战一:实时语音识别系统

    • 实战二:语音命令词识别

    • 实战三:文本转语音应用

    • 课程总结——AI语音进阶路线


    精选好课