冯建元,声网 Agora 音频算法专家、Illinois Institute of Technology 博士,曾为伊利诺伊大学芝加哥分校特聘研究员。硕博阶段研发了一系列包括毛细流体力学建模、智能电网系统、人工智能胰岛系统等多个专业的应用,并在 IEEE、AIChE、Journal of Process Control 等一线期刊上发表了 20 多篇论文。
2018 年回国,在工业智能化改造方向创业一年之后,加入声网(实时音视频 PaaS 服务的开创者和引领者,实时音视频分钟数月均用量超 500 亿分钟)。之后研发了一系列实时声音美化、实时空间音频渲染、实时变声、实时修音、实时语音变歌唱等算法,并先后带领团队完成并商用了 50 多种可实时使用的美声音效效果。
随后他又对实时音频链路进行了 AI 化改造,包括基于深度学习的降噪、音频编解码、音频丢包补偿、回声消除、音源分离、啸叫检测、音乐检测等算法的实现与落地商用,以及把这些算法和不同的业务场景相结合来提高实时音频质量。同时,他也是国内第一个基于深度学习的语音编解码器 Silver 的发明人。
在新冠疫情的催化下,线上互动已经成为人们工作和生活中的必要交流方式,这催生了很多音频技术的进一步完善。比如说,在这些场景中,延迟必须控制在毫秒级别内,实时互动技术成为决定整体体验的关键。
其中,音频承载的信息密度是巨大的,语言、音乐都需要音频作为载体进行传播。但往往一个音频采样点的错误,人耳就能明显地感知到。那么像噪声、回声、网络抖动等问题,就更需要专业的处理了。
而在未来,可预测的是,人工智能领域在音频技术上会有进一步的突破。Facebook 改名 Meta 进军元宇宙,音频播客 Clubhouse 等纯音频社交方式的流行,以及 TWS 耳机支持了空间音频渲染和主动降噪等等都是线索。
当大型线上互动、娱乐、会议、教育等行业万象都在朝着音视频实时互联互通的方向转变,市场对于专业音频技术专家、音频工程师的需求缺口必定随之增大。
同时,音频也是一个跨专业领域的有趣学科,它与计算机、信号处理、声学、音乐、语言学等都有交集,你过往的经历都可能派上用处。所以,无论你是否是专业的音频工程师,有没有强大的技术背景和积累,都不要紧。只要你有想法转行音频领域,甚至只要你有兴趣学习,这门课程都能给你创造新的机会。
基于此,我们邀请到了声网 Agora 音频算法专家冯建元老师联合开发课程。通过学习,你能知晓音频处理的全套链路和音频发展的脉络、方向,而关于音频技术学习中的重要原理及常见问题的解决方案,你也能一探究竟。这些知识不但可以让你用于职业工作,也可以加强你对生活中声音的感知,从而知道应该听什么、怎么听。甚至怎么去让声音发生变化,从而为你打开“百万调音师”的潘多拉宝盒。
整个专栏共分为以下六个部分:
音频基础:从音频的基础知识着手,带你了解音频是如何产生的,听觉是怎么感知语音和音乐的,以及如何评价音频质量的好坏。
音频降噪:重点介绍噪声的分类,教你如何用五大降噪算法对不同类型的噪声降噪,以及如何将 AI 技术运用到降噪中。让你了解到音频处理算法中的前沿方向。
回声消除:带你了解实时音频互动链路中回声产生的原因以及回声消除算法的基本原理,并通过两个案例带你动手改进回声消除算法。
音频网络传输:带你了解音频编解码器的原理及其选择,掌握音频抗弱网策略,从而使你对整个音频链路有一个完整的认识。
空间音频:带你了解VR/AR音频中常见的空间音频是如何渲染的,从而实现“声临其境”和听音辩位。
音频特效生成与算法:揭秘音效制作的基本原理,以及通过探究 AI 变声算法原理,带你看看 AI 在音频领域究竟还有哪些有意思的应用。