分類: 樂理基礎
日期:2022-11-25
聲音采樣判斷兩段聲音是否一致需要測量哪些要素?
聲音四要素是:音強、音高、音色和波形。兩段聲音是一致的測度有很多種,比如歐拉距離,KL距離,甚至馬拉諾比斯距離,采用不同的測度方式得到的結(jié)果都是不一樣的。其次,采用什么樣的信號表示,聲音可以有時域表示(時域信號),可以有時頻域表示(短時傅里葉變換),甚至可以有變窗長的時頻分析方法。一般情況,使用歐拉距離在時頻域比較是比較可靠地。振幅,頻率,可能還有相位,人耳的話,好像對相位不敏感。顯然重放設備也要求有較好的瞬態(tài)跟隨能力,不然就會引起樂音自然包絡的畸變。

考慮到不同聲音采樣率的不同,首先做統(tǒng)一的 SRC 處理,將兩段音源轉(zhuǎn)換至同一采樣率下;從轉(zhuǎn)換后的兩段數(shù)據(jù)中,分別提取出兩份疑似相同的片段,并根據(jù)實際情況對兩份采樣進行預處理,例如低通濾波(以減小有損壓縮對高頻成分的影響)或直接將這兩份采樣轉(zhuǎn)換為動態(tài)功率譜形式(也可以理解為將該采樣數(shù)據(jù)直接轉(zhuǎn)換至頻域下);對這兩份數(shù)據(jù)進行相關(guān)性計算,通過相關(guān)系數(shù)計算結(jié)果判別是否為同一錄音。提到的反相相加不失為一種應用上簡單易行的方法,但如果要追求更加嚴格且有說服力的結(jié)果的話,一個接近 1(亦或 -1)的相關(guān)系數(shù)計算結(jié)果絕對可以勝任此工作;而檢測MD5碼則不可行,因為現(xiàn)實中遇到的情況往往會很復雜,絕非只要檢測看每個比特是否一致就能判斷的——例如兩份從同一張CD上轉(zhuǎn)錄出的文件,若是出現(xiàn)數(shù)字電平不一致,聲音采樣率不一致,比特率不一致,任意一種可能,最后都無法得到兩份能通過 MD5 校驗的文件。

第二種可能:有哪些聲音中的因素,即使改變了,人聽上去還是覺得這兩段聲音是一樣的;直接說:相位。并不是說相位因素人耳絕對聽不出來,只是說相位因素對人的聽覺系統(tǒng)來說非常不敏感(相對于人的視覺系統(tǒng)來說),尤其是從聲音文件上即存在的微量的相位差,對人耳來說很難發(fā)現(xiàn),但是這些相位差對采樣數(shù)據(jù)來說則會造成巨大的差別,以至于直接套用上一種做法時,計算時域形式下的相關(guān)系數(shù)計算結(jié)果會不靠譜??縿討B(tài)功率譜形式的數(shù)據(jù)來按照上述方法處理的話,理論上講結(jié)果會相對靠譜——因為其所受相位因素的影響極小。
音樂采樣是指錄音設備在單位時間內(nèi)對模擬信號采樣的多少,音樂采樣器頻率越高,機械波的波形就越真實越自然。在當今的主流采集卡上,音樂采樣器頻率一般共分為11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五個等級,11025Hz能達到AM調(diào)幅廣播的聲音品質(zhì),而22050Hz和24000HZ能達到FM調(diào)頻廣播的聲音品質(zhì),44100Hz則是理論上的CD音質(zhì)界限,48000Hz則更加精確一些。

聲波其實是一種機械波,因此也有波長和振幅的特征,波長對應于時間軸線,振幅對應于采樣值軸線。波是無限光滑的,弦線可以看成由無數(shù)點組成,由于存儲空間是相對有限的,數(shù)字編碼過程中,必須對弦線的點進行采樣。采樣的過程就是抽取某點的采樣值,很顯然,在單位時間中內(nèi)抽取的點越多,獲取得波長信息更豐富,為了復原波形,一個周期中,必須有至少2個點的采樣,人耳能夠感覺到的最低波長為1.7cm,即20000Hz,因此要滿足人耳的聽覺要求,則1s采樣至少40000次,用40000Hz(40kHz)表達,這個40kHz就是采樣率。我們常見的CD,音樂采樣器的頻率為44.1kHz。

聲音采集過程中視頻和音頻同步是非常重要的,光有波長信息是不夠的,我們還必須獲得該波長的能量值并量化,用于表示信號強度。量化電平數(shù)為2的整數(shù)次冪,我們常見的CD位16級的采樣大小,即2的4次方。采樣大小相對采樣率更難理解,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次采樣,采樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的采樣大小,結(jié)果我們只能保留A1-A8中4個點的值而舍棄另外4個。如果我們進行3bit的采樣大小,則剛好記錄下8個點的所有信息。采樣率和采樣大小的值越大,記錄的波形更接近原始信號。
以上就是關(guān)于聲音采樣判斷兩段聲音是否一致需要測量哪些要素的詳細介紹。
Fruity slicer
音樂采樣器
聲音采樣
DJ硬件設備
Audiolab