更易理解用图像概念去解释音质名词

- 三频与结像

去年笔者写过一篇《iMP3 adb玩音频(1)：音质名词的解释》，虽然使用尽可能通俗的语言去描述，但文字形式的表达多少还是枯燥与不易理解。后来笔者也在思考，认为在很多方面，声音与图像的道理是相似的，所以为何不用更直观的图像概念去表示音频概念呢？

视觉与听觉都是我们感知事物的重要方式，但中国有句俗话叫“耳听为虚眼见为实”，大概就是说我们更倚重眼睛看到的事物，并且对视觉体验的要求往往要比听觉体验更高，比如白纸黑字总要比口头约定更有效力，比如我们挑选手机，手机屏幕的尺寸、分辨率、画质都是重中之重，但手机的音质却鲜有关注，再比如花1万块买个单反相机与花1万块买个耳机，在大众看来前者是有追求、有品味，而后者则是神经病、败家子。

于是话题也就来了，既然对于照片、影像我们的感触更直接，判断的标准也更客观更统一，那么如果用画质的概念去形容音质，通过一些照片去比较，就可以更容易的理解某某音质名词究竟是怎么的含义，所以也就有了这篇文章。

三频

三频是指低频、中频、高频，有的器材低音很震撼，大概可以说它低频好；有些器材听起来很亮丽，从某种程度上也可以说是高频好。从真实的角度说三频分布均匀是最好的，但有些器材为了一些特殊听感与个性的需要，可能会刻意增强或削弱某一频段的表现，比如让低音残废或者高频暗淡。正如上面图片中锐腾塞克斯风的黑、白、棕三对耳塞，就是在三频的组成比例上下文章，有的注重均衡，有的注重低频，有的注重高频，于是造成了声音上的较大区别。

显示屏幕的域

两块屏幕两种不同的颜表现

在图像中，三原大概相当于声音里的三频，域范围大概相当于声音里的频率响应范围，所以显示屏幕的域越广越好，而耳机、音箱同样是频率响应范围越广越优秀。在显示器的评测文章中我们基本都会看到有域测试，消费级显示器的域表现通常不是很好，颜有偏颇，例如有些显示器红表现不够好，有些绿表现不够好，而我们看到的整体画面就会

偏，比如偏黄、偏蓝等等。音频器材也是同样的道理，比如一款正规的耳机往往会有频率响应曲线图，三频的多少分布上总会有所不同。但实际要求上却也有不同，比如一个三频不均衡的耳机，依然可能是一个声音好听的耳机。但是显示屏幕如果彩有偏差，那应该不会是一个好的显示屏幕。

结像

不少耳机发烧友的听感文章里都会有结像这个词语，而结像是什么，是个很抽象、不容易理解的概念。如果用相机、照片的概念来表述，你可以把它理解为对焦，结像好的声音就相当于一张对焦清晰的照片。

对焦失败（结像不好）

对焦成功（结像好）

比如上面两张照片，一张是对焦失败的，一张是对焦成功的，拍摄的主体看上去一个模糊一个清晰。另外唠叨一句，这两张可不是手抖模糊，而是魅族MX4手机相机优化很糟糕，经常出现不会对焦与跑焦的情况，所以拍出来的大部分都是废片。

而结像好与坏，就与上面的两张照片类似，一首音乐如果你用某套器材听起来声音模糊、发虚，形体感不强，那就是结像不好，就像那张对焦失败的照片。所以对焦好坏对于照片还是至关重要，没对好焦的照片就是一张废片；而结像不够好的音频器材，也是废材，都没有什么卵用。

解析

高解析

低解析

解析比较容易理解一种素质，就是指声音的清晰度、对细节信息的还原能力，一方面与录音的质量、音乐文件的无损程度有关，一方面也与播放器、耳机的好坏有关系。在听较好质量的音乐时，耳机、播放器的好坏之分，很大的已经也是它的解析强弱。在图像中也有解析这个概念，意思也很相近，就是图片的清晰度、细节表现，它的好坏同样与图片本身的质量，以及显示屏幕的好坏有关系。

原图

锐化带来的高解析错觉，画面生硬，有细节损失

但是，一些时候解析也容易“作假”，解析好一般可以理解为某个地方的细节突出与明显，但这种突出可能是通过刻意制造出来的，比如声音薄、低音少的耳机，就会显得好似解析高，但实际上这是减少声音信息的内容，达到突出少量细节的目的，但是这样的声音初听也许觉得很惊艳，但听一会就会感觉出来声音假、不耐听。照片也可以经过锐化处理，让解析看起来似乎更好，但过度锐化会让照片丢失细节，看起来假、不耐看，这与耳机的假解析是类似的。

人声

适合人声的器材应该类似这张照片，适当的突出人物而弱化背景

大多数人听音乐，听的都是流行歌曲，所以人声表现好坏，往往关系到一款播放器、耳机的评价。怎么算人声好，一般说来大概就是人声距离近、清晰，如果再加一些音染就更好了，但是人声距离近、人声突出，也就意味着背景音乐会相对不突出，或者说容易被耳朵忽略。如果用照片的概念做比喻的话，也就是人像照片，一般都会用大光圈，把背景虚化掉，这样

人物就会显得显眼。而音染，就相当于照片中的PS，比如磨皮呀、美白呀、瘦脸呀，所以听歌曲听到的人声，往往比歌手真人原汁原味出来的好听很多。同理那些美妙绝伦的人像题材照片，照片中人往往也比真人看起来漂亮的多。

无论是流行歌曲，还是人像题材的影视作品，很多时候追求的并不是100%的真实，而是加入了很多修饰、润，一种高于现实的美。并且也正得益于过多的美化处理，它们对器材，比如耳机、音箱，或者是显示图像的显示屏幕的性能要求并不高，我们用普通的耳机听歌曲一样好听，用普通显示器显示美女照片一样美丽。相反，有时候太好的耳机听流行歌曲，因为解析过高、信息量太大，反而感觉出来录音中的不足，并听到很多影响人声的额外声音，反而不那么好听。

信息量与声场

信息量从字面上很容易理解，就是所包含的信息的多少，但是在音质描述里，也比较容易与解析混淆。它究竟与解析有怎么样的区别，下面笔者用2张图来表现一下。

有一定景深，画面信息量较多

浅景深，画面信息量较少

表示听的词语

这两张照片拍摄的是同样的内容情景，但是景深不一样，上面的一张景深深一些，所以后面盒子上的文字大致还是能辨认出来。下面的照片景深浅，所以虚化的比较严重，后面盒子的文字完全无法辨别。如果抛开照片的拍摄意图、美感，单纯的以这两张照片所记录的信息量多少来说，无疑是上面那张景深深的照片信息更多，照片文件的大小也是深景深的那张大一些。

而解析呢，两张照片的主题都是小房子，小房子前面的部分也都是清晰的，所以就不能说景深浅的照片没有景深深的照片解析高，两张应该是同样细节表现力，解析是相同水平。但由于拍摄参数的不同，整张照片内容的信息量是不同的，这样就理解了吧。

还有，照片中的景深，也有些类似音质里里面声场的纵深，纵深不够好，声音听起来就比较平面，纵深好的话，那么听起来就显得深邃，层次感强。但是和照片景深不同的是，音频里面基本都是纵深越深越好。

另外，照片的信息量的大小，也不只是景深，还有分辨率、颜等诸多方面。同样声音的信

息量大小，也与音乐文件的无损程度，以及三频的多少有关系。比如某些耳机低频残缺，虽然对某一细节刻画很清晰，让人感觉解析很高，但从完整度上说音乐的信息是缺失的，也就是信息量不足。

最后，信息量是越大越好吗？笔者认为无论是音乐还是照片，都要根据具体情况来看。比如风景照片，有时候为了表现完整的大自然之美，那就需要景深，需要大的信息量，才能把景全部记录下来。而人像作品，很多时候为了突出人，需要浅景深，前后的信息都虚化掉。而音乐中，像古典音乐、交响乐，需要的是真实重现，所以需要各种信息都要记录下来，这就需要播放器、耳机等音频器材的信息量，要求很高的硬素质，越高端的器材也就表现越好。而流行音乐，本身不需要那么多的信息量，甚至信息量过大还可能会出现顾此失彼，注意力不能很好的集中在人声上面，从而造成听觉疲劳等问题。

- 动态、瞬态、通透性与听感

动态

动态又是个很不好理解的词语，就算对定义大致理解，但是实际听器材听音乐，依然可能把

握不好究竟怎么是动态好，怎么是动态不好。而如果用图像来表达的话，也许能更好把握一些。

动态可以看成是灰阶、宽容度

一张平板电脑实拍照片

图像里也有动态这个概念，用来表示光线明暗的变化范围，也可以说是灰阶、宽容度什么的。比如上面的那张照片，是个平板电脑，当时笔者用相机拍摄后，在家里的一个显示器看的时候，下面屏幕与边框的界限分不清，似乎是平稳过度融为一体的。后来换了一台好一些的显示器，下部屏幕与边框的界限很明显可以看出来。也就是说，最初的那台显示器的动态很差，照片原本的信息无法很好的表现出来，或者是需要把显示器亮度调到很高时才能表现出来。

同理，我们用手机、相机拍夜景的时候，也有动态，或者是宽容度这个概念。有的机器拍出来的夜景，暗部是死黑一片，即便后期PS处理增加曝光，暗部依然细节很少看不到什么内容。而好的机器拍出来的照片，暗部的内容是可以保留下来的，即便原始照片直接看看不太

出来，但经过曝光处理，也是可以还原出来的。另外，现在大多数相机、手机中开始加入了HDR高动态范围功能，意义就在于保持整体曝光适合的前提下，增强暗部的细节与内容。

音质中的动态，是声音响度的范围，与图像中的灰阶的级数范围很类似。用动态不够好的播放器、耳机，原本音乐有的内容感觉不到，或者说是正常音量下感觉不到，必须开大音量才能感觉到，但此时其他的声音就会变的太大而让整首音乐无法正常聆听，那就是动态不够好。而动态好的耳机，正常音量下该有的内容都可以被还原出来，都可以感受到。

更易理解用图像概念去解释音质名词

发布评论取消回复

最近发表

热门文章

标签列表