音频知识详解(一)

如题所述

第1个回答 2022-06-18

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于 音频文件 。 音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程 ，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音，所以音频文件的采样率一般在40~50KHZ，比如最常见的CD音质采样率44.1KHZ。

采样：波是无限光滑的，采样的过程就是从波中抽取某些点的频率值，就是 把模拟信号数字化 。如下图所示：

采样频率 ：单位时间内对模拟信号的采样次数。采样频率越高，声音的还原就越真实越自然，当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。8KHz - 电话所用采样率, 对于人的说话已经足够，22.05KHz只能达到FM广播的声音品质(适用于语音和中等品质的音乐)，44.1KHz则是是最常见的采样率标准，理论上的CD音质界限，48KHz则更加精确一些(对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值)。

采样位数(也成量化级、样本尺寸、量化数据位数) ：每个采样点能够表示的数据范围。采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。8位字长量化（低品质）和16位字长量化（高品质），16 bit 是最常见的采样精度。

量化：将采样后离散信号的幅度用二进制数表示出来的过程称为量化。（日常生活所说的量化，就是设定一个范围或者区间，然后看获取到的数据在这个条件内的收集出来）。

PCM ： PCM（Pulse Code Modulation），即脉冲编码调制，对声音进行采样、量化过程，未经过任何编码和压缩处理。

编码：采样和量化后的信号还不是数字信号，需要将它转化为数字编码脉冲，这一过程称为编码。模拟音频进采样、量化和编码后形成的二进制序列就是数字音频信号。

声道数 ：声道数是指支持能不同发声的音响的个数，它是衡量音响设备的重要指标之一。

码率：(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量，代表了压缩质量。 比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等，越高代表着声音音质越好。MP3中的数据有ID3和音频数据组成，ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。

音频帧 ：音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的。

模拟信号 -> 输入设备（传递电压值）-> 声卡（经过采样跟量化（即设置声音大小等各种值））-> 磁盘（文件） -> 声卡 -> 输出设备 -> 模拟信号

我们声音在物理上用波形表示，那么我们将这些波形称作为 模拟信号 。而我们计算机磁盘只能存储（01010101）的格式。我们将模拟信号转换成能够被磁盘存储的格式（010101）称之为 数字信号 。这个转换的过程我们叫 模数转换 。

我们发出来的声音（模拟信号）是连续的，我们如果要一直的对模拟信号进行转化，产生的数字信号会很大。那么我们就要采样，而采样精度就是每秒计算机对模拟信号进行采样的次数。最常见的采样精度就是上面提到的44.1khz/s,这个是经过大师们多年研究得出的数据，低于这个数据，效果就会很差，而高于这个数据，效果的差距不是很明显。

采样后就是变成了（0101010110100101...），那声音的音量是有大小的，那这串数据，怎样表示声音的大小呢？这就涉及到了比特率，它是指在一个数据流中每秒钟能通过的信息量。比特率就是将声音的大小划分为多少等级。举例下：8比特，在二进制中，表示有8位，表示的十进制的值就是0（00000000）～256（11111111），那每个数值就代表着一个声音大小。

经过采样、量化、编码后转化成数字信号，然后存储为文件。

文件是用来装数字信号的 ，文件包括了比特率、采样率、声道、编码方式、以及被编码过后的数字信号。

文件格式 就是制造者自己规定的一种名称，在每个文件格式都会特定支持几种编码格式。 打个比方就是文件就是一个容器，里面可以装不同的水，有的可以装一种，有的可以装好几种。

经过采样后的数字信号很大，有时候我们不需要这么大的，所以我们就要进行编码压缩，当然压缩技术都是有损的。在不大影响音频的效果的情况下，舍弃掉一些高频或者低频的数据。

编码格式 可以理解为每种音频格式不同的编解码方式。

封装格式就是文件格式，编码就是编码格式。

了解了基础概念之后我们就可以列出一个经典的音频播放流程（以MP3为例）：

在iOS系统中apple对上述的流程进行了封装并提供了不同层次的接口（图片引自官方文档）。

下面对其中的中高层接口进行功能说明：

可以看到apple提供的接口类型非常丰富，可以满足各种类别类需求：

https://msching.github.io/ 大神之作
https://www.jianshu.com/p/5c5e95d89c4f 写的相当不错
https://www.jianshu.com/p/423726cc9090 知识点很全
https://www.jianshu.com/p/b3db09fb69dc 总结的挺好
https://www.jianshu.com/p/a75f2411225f 有点专业，了解一部分
http://blog.csdn.net/liusandian/article/details/52488078 概念很清晰易懂

相似回答

音频基本知识答：采样频率是指单位时间内对声音模拟信号的采样次数，采样率类似于视频的帧数，比如电影的采样率是24Hz，当我们把采样到的一个个静止的画面再以采样率同样的速度回放时，看到的就是连续的画面，同样的道理，把以44.1kHz采样率纪录的cd以同样的速率播放时，就能听到连续的声音，显然，这个采样率越高，听到的...

音视频硬解码篇——音视频基础知识答：位数越多，音频还原度越高，音质更为纯净，最终被编码成二进制的0和1。声音的维度通过声道数来衡量，单声道一个通道，双声道和立体声则默认为两个或四个，立体声带来的空间感丰富了听觉体验。

音频基础知识答：下图为音频编解码器性能对比,横坐标是码率,纵坐标是音频的采样大小等级划分(比如采样大小为8bit是窄带音频,采样大小为16bit是宽带音频)。 AAC(Advanced Audio Coding)编解码器应用范围特别广,编解码的音频质量高保真,它出现的目的是取代mp3格式,因为mp3是有损压缩,对音频质量有一定损耗,而AAC对于原始数据的损耗就会小...

什么是数字音频?数字音频质量的因素有哪些?答：对于熟悉电脑音频来说还不够，我们还得了解几个关于数字音频的基本知识：1、采样率简单地说就是通过波形采样的方法记录1秒钟长度的声音，需要多少个数据。44KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。原则上采样率越高，声音的质量越好。2、压缩率通常指音乐文件压缩前和压缩后大小...

音频原理答：直观理解：一段连续的声音如下一段声音我们等间隔地对其采样最终，我们真正采样到的音频如下如下图可见，采样频率越高，我们获得的声音品质越好。2.2 量化位数我们不可能获得所有时间下声音的强度，因此声音是等时间间隔、离散采样的。同样，采样获得的数据不可能无限的精确，如数字为63.2222222…....

大家正在搜

dante音频详解音频转接头和音频线哪个稳定音响一分二音频接头知识音频音频基础知识关于科学知识的音频知识音频app 耳机音频一分二电脑音频麦克风二转一