オーディオファイル(audiophile; 日本だといわゆるオーオタ、オーディオマニア)界隈を観察していると、WAVとFLACで音質が違う!と叫ぶ人たちがいる。この記事では本当なのかを考察したい。
それぞれの違い
WAV(WAVE)はリニアPCMを格納できるファイルフォーマットで、FLACは可逆圧縮(つまり、音質を損失することなく圧縮ができる)で音声を格納できるフォーマットである。
FLACの規格上、32bit整数 / 655,350 Hzまでのフォーマットが格納できるが、エンコーダ自体は24bit整数までの対応だ。
WAVは1991年にできた古い規格で、実際のところRIFFというコンテナ規格の一種だ。WAVには色々な波形データを保存でき64bit floatなども格納できる。
つまりどちらも24bitの範囲であれば、全く同じ波形を保存できるということだ。これは波形のレベルで完全に一致する。
foobar2000という音楽プレーヤーを利用している方は、Binary Comparatorというプラグインを使うことで、WAVとFLACで1ビットの違いもないということが確認できる。
FLACは各フレームごとにCRCチェックサムがついており、またファイルにはMD5によるハッシュがついていて、ファイルの破損を検知できる。WAVはデータが化けるなど破損していても気づけないことがある。
ちなみに32bit以上を保存したいのであれば、WavPackという可逆圧縮フォーマットが利用できる。
「デコード負荷ガー」
WAVとFLACに音質が差があると主張する人たちの論理は、だいたいが「FLACでは再生のためにPCMにデコードする必要があり、デコードの必要性があるので、そのCPU負荷がかかり音質が悪化する」という理屈である。
この論理の前半は正しいものである。FLACは可逆圧縮であり、再生には必ずデコードが必要となる。しかし、後半を論ずるに当たって、疑問が生じる。
そもそもFLACは圧縮されたフォーマットではあるものの、デコード時の負荷はあらゆる可逆圧縮音声フォーマットの中でも低い部類に入る。
CodecPerformanceComparison のサイトでは、フォーマット別のデコード速度がある。この中でFLACはMonkey’s AudioやWAVPACK、AAC、MP3をはるかに超えるスピードを誇っている。デコード速度は圧縮率5でも8でもほとんど変わりはない。
FLACは整数演算だけでデコードできるとされており(ソース)、かなり高速である(MP3のデコードよりも早い)。WAVはデコードは不要であるものの、ファイルを読み取り、メモリに保存し、CPUがドライバの処理を行ってサウンドカードにデータを送るという点ではCPUを利用していることに他ならない。
また、WAVは圧縮がかかっていないため、ファイルサイズが大きくなるという問題がある。これは、ストレージからファイルを読み取る頻度は、明らかにFLACよりも多くなることを意味する。これはコンピュータのバス帯域をより多く使用していることに他ならない。これらストレージやバスが発生する電磁ノイズはどう説明するのだろうか?検証した人はいるのだろうか?
ABXテスト(ダブルブラインドテスト)の大切さ
オーディオファイル(オーオタ、オーディオマニア)の大半の人は科学を軽視し、自身の感覚だけを頼りに色々な当て推量で物事を考えているんじゃないかと思う。
「透き通った音」「滑らかで上品な高音」「自然な低音」
こうした言葉は聞こえがいいが、何一つ反証可能性にかけており、議論を始めることすらできない。
AとBを比べたい。その時に役立つのが「ABXテスト」、またはダブルブラインドテスト(二重盲検法)というものだ。
AとBというものがあったとしよう。AとBを比べたい。それはWAVとFLACでもいいし、無酸素銅のケーブルとAmazon Basicsのケーブルでもいい。水力発電で賄った電気で再生する音と太陽光の電気で再生する音でもいいし、iPodとウォークマン、カセットテープとレコードの違いでもいい。
本当に比較をしたいのならば、AとBを隠して聞いてみることだ。これにはもう一人の協力者がいる。試験を始めると、まず協力者はAとBの機器を準備して、それぞれの音をAかBと明示して再生する。次は協力者はAかBかを隠して音を再生する。AABBABAAという順でもいいし、ABABAABでも良い。とにかく、ランダムに再生する。そして協力者は「ランダムな音は、私が最初に提示したAかBのどちらでしたか?」と聞く。あなたはテスト中いつでもAの音やBの音をリクエストして聞きなおすことができる。
もちろん各テストにおいては、協力者はAとBを比較するにあたってコードを差し替えたり機器を入れ替えたりする必要性があるため、その際にガサゴソと音がなる訳なので、A→A→Aといった選択の場合にもわざとケーブルを抜き差しして、被験者に影響を与えないようにカモフラージュする必要がある。
音を隠して再生し、正しいAかBを10回中9回当てたなら、統計的に聞き分けができていることになる。10回中6回当てたらいいのでは?と思う人もいるだろうが、これは統計的に正しくない。
20回テストするなら、15回の正解が必要になる。これ以下の回数では、信頼性がないデータで、統計学的には当てずっぽうであると認められる。
このようなABXテストを経て、初めてAとBに音質に違いがあり、そしてそれを知覚できると結論づけられる。
大半のオーディオファイルはこのような考察を経ず、感情に頼った自説を開陳して議論を展開するため、全くもって価値のない議論の内容と、なんの洞察も得られない結論に至りがちである。
なぜWAVとFLACで「音質が違う」というバカが現れるのか
タイトルに戻ろう。
なぜ、WAVとFLACで「音質が違う」というバカが現れるのだろうか(ABXをしたことがないのに)。なぜ、原音のFLACと同一ソースの320kbps LAME 3.99r MP3で「音質が違う」という自信家が現れるのだろうか(ABXをしたことすらないのに)。なぜ、マイ電柱を立てて「音質が違う」という金持ちが現れるのだろうか(ABXはしたのだろうか?)。なぜ、24bit音源と同一ソースの16bit音源で音質が違うというオカルトじみた人が現れるのだろうか(ABXすら知らないのだろうか?)。
それは、原因は科学的なバックグラウンドを持っていない人が、オーディオ雑誌やコラムを書き連ね、やたら修辞技法、レトリックを駆使したポエムを恥ずかしげもなく開陳することにあると考えている。
オーディオ機器は非常に値段の幅が広く、上を見上げるとキリがない。逆に利益が大きく、価格帯が高いものがいくつか売れてくれることは、オーディオメーカーにとっては、価格が小さく利幅もほとんどない廉価品が売れるよりもはるかに良い。
オーディオメーカーはメディアに金銭的なやりとりがあろうとなかろうと広報を依頼し、メディアはそれを臆面もなく絶賛し、売れるように仕向ける。
ABXをして安心しよう
私はできればいい音質で聞きたいし、プラセボとはわかっていても出来るだけリッピングした曲はFLACで保存しておきたいし、Bluetoothイヤホンで圧縮された音声を聞くのは居心地の悪さすら感じていた。
実際にABXをしたところ、FLACとAppleエンコーダで作ったAAC 192kbpsの間で違いがわからないし、大半の曲で、LAME MP3 320kbpsは原音と区別がつかない。また、驚くことに256kbpsのAACを10回再圧縮したものと原音の区別すらABXテストでつけられない。それは大半の人にとって同じ結果だろう(以下の記事にて音源を用意したので、聴いてみよう)。
そうして実際にテストしたら、なんども再圧縮されてしまうBluetoothイヤホンでも安心して聴けるし、これほどまでに圧縮技術がすごいのならば、高くてサイズの大きいのハイレゾ音源や、その周辺に溢れかえる高価なものは全て馬鹿らしいとも思えてしまう。
音声の圧縮技術は当然ながら音をよくすることに心血を注ぎ込んでおり、技術者たちは様々な(ミュージシャンやマスタリングエンジニアなども含めて)バックグラウンドのある人にテストを行ってチューニングを繰り返し、その結果が現在のAACやらOpusやらといった技術に結びついている。
実際に、昔は音質が悪いグッズが多かった。マザーボードには質の悪いDACが乗っていて、インピーダンスの高いイヤホンと組み合わせたら低音がおかしな感じになったし、MP3の黎明期にはとても聞けたものではないMP3ファイルがエンコーダーから吐き出されていた。D級アンプのノウハウが成熟していなかったり、アースの設計がうまくいっていないデバイスは歪んだ音を放っていた。
しかし、今はもうそういう時期は通り過ぎて、MacやiPhoneですらとてもバランスの良いDACを乗せている(ソース)。
別に高インピーダンスヘッドフォンとポタアンとかを組み合わせ、そういったものを趣味として使っている人を否定するつもりもないし、別にお金の使い方は好きにしていいとは思うが、実際問題として「これほどの投資をして、何が変わったの?」という疑問と、それをきちんと調べることは大事だと思う。
この記事を読んでいる方にはもしかするとBluetooth SBCコーデックの音質を心配されている方もいるかもしれない。記事を書いてみたので、ぜひ読んでほしい。