Wolfram 技術(shù)幫您通過咳嗽音來預(yù)測診斷新冠病毒

發(fā)布時間：2021/04/01 瀏覽量：4880

機器的使用以及最近的機器學(xué)習(xí)模型已被證明是解決聲音分類問題的有效方法

聲音分類可能是一項艱巨的任務(wù)，尤其是當(dāng)聲音樣本的變化很小而人耳無法察覺時。機器的使用以及最近的機器學(xué)習(xí)模型已被證明是解決聲音分類問題的有效方法。這些應(yīng)用程序可以幫助改善診斷，并已成為心臟病學(xué)和肺病學(xué)等領(lǐng)域的研究主題。卷積神經(jīng)網(wǎng)絡(luò)識別COVID-19咳嗽的最新創(chuàng)新以及使用咳嗽記錄來檢測無癥狀COVID-19感染的MIT AI模型（https://news.mit.edu/2020/covid-19-cough-cellphone-detection-1029）顯示出僅憑咳嗽聲就可識別COVID-19患者的一些令人鼓舞的結(jié)果。綜觀這些參考資料，這項任務(wù)可能看起來頗具挑戰(zhàn)性，就像只有頂尖研究人員才能完成的任務(wù)一樣。在本文中，我們將討論如何使用Wolfram語言中的機器學(xué)習(xí)和音頻功能獲得這非常有希望的結(jié)果。

使用標(biāo)記的COVID-19開源咳嗽聲音數(shù)據(jù)集，我們構(gòu)建了一個遞歸神經(jīng)網(wǎng)絡(luò)，并使用梅爾頻率倒譜系數(shù)（MFCC）特征提取來輸入預(yù)處理的音頻信號。即使我們的數(shù)據(jù)僅限于121個樣本，這種方法也使我們的準(zhǔn)確性達到了96％左右，這與不同的研究中得出的結(jié)果相似。

我們使用的數(shù)據(jù)包括121個分段的.mp3格式的咳嗽聲音樣本，可在此處（https://github.com/virufy/virufy_data）獲取。該數(shù)據(jù)分為兩類：來自COVID-19呈陽性的患者的48個樣本和來自COVID-19呈陰性的患者的73個樣本：

盡管樣本數(shù)量不平衡，但差異很小，足以使模型仍然有效。我們使用來自于 Wolfram 函數(shù)庫（https://resources.wolframcloud.com/FunctionRepository/）的TrainTestSplit 創(chuàng)建訓(xùn)練和測試集。默認(rèn)情況下，它將數(shù)據(jù)分成80％的訓(xùn)練和20％的測試：

音頻編碼是音頻分類的重要步驟，因為人類產(chǎn)生的任何聲音都取決于其聲道的形狀（包括舌頭，牙齒等）。如果可以正確確定此形狀，則可以準(zhǔn)確地表示產(chǎn)生的任何聲音。樂器也會發(fā)生同樣的情況：即使兩種不同的樂器可以產(chǎn)生相同的聲音頻率，由于樂器（鋼琴，吉他，長笛等）的物理特性，它們的聲音也會有所不同。語音信號的時間功率譜的包絡(luò)表示聲道，MFCC可以準(zhǔn)確地表示聲道。某些疾病，例如肺部疾病，可能會影響空氣通過我們的呼吸系統(tǒng)的傳播方式，因此可能會導(dǎo)致健康患者和患病患者之間的聲音差異：

最初引入MFCC來表征地震引起的地震回波。為了獲得MFCC，我們首先在時域上對原始聲波應(yīng)用傅立葉變換，然后在結(jié)果頻譜上應(yīng)用幅度的對數(shù)，最后應(yīng)用余弦變換。此結(jié)果頻譜在同態(tài)頻率域（quefrency domain）中稱為倒頻譜（cepstrum），既不在頻域中也不在時域中。

我們將使用“AudioMFCC”（https://reference.wolfram.com/language/ref/netencoder/AudioMFCC.html）與選項 NetEncoder（https://reference.wolfram.com/language/ref/NetEncoder.html）使這整個過程是自動的。我們還可以使用“ NumberOfCoefficients”選項選擇結(jié)果中所需的系數(shù)數(shù)量：

我們可以檢查“ AudioMFCC”和NetEncoder應(yīng)用于隨機音頻樣本的結(jié)果。編碼器的輸出是大小為{ n，nc }的秩-2張量，其中n是應(yīng)用預(yù)處理后的分區(qū)數(shù)，nc是用于計算的系數(shù)數(shù)：

我們可以看到音頻如何被轉(zhuǎn)換成代表音頻倒譜（cepstral ）特征的矩陣。這將是我們模型的輸入。我們將建立一個定制的遞歸神經(jīng)網(wǎng)絡(luò)（RNN），針對該神經(jīng)網(wǎng)絡(luò)手動調(diào)整超參數(shù)，并在調(diào)整-培訓(xùn)-評估過程中對其進行迭代。這意味著RNN將：（1）選擇一組超參數(shù)；（2）訓(xùn)練模型；（3）評估模型；（4）重復(fù)步驟一至三。我們重復(fù)此過程，直到模型顯示出較低的過擬合和較高的評估指標(biāo)為止。結(jié)果是以下RNN：

我們在訓(xùn)練集上訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)，并在測試集上進行驗證。這使我們可以觀察訓(xùn)練過程并調(diào)整網(wǎng)絡(luò)的超參數(shù)，例如按順序依次顯示LinearLayer上的神經(jīng)元數(shù)量，DropoutLayer 數(shù)量和序列中 GatedRecurrentLayer 的特征數(shù)量：

訓(xùn)練后，我們將對模型進行評估，將其應(yīng)用于以前看不見的測試數(shù)據(jù)并評估其性能。為此，我們將嘗試不同的指標(biāo)：

準(zhǔn)確性：正確預(yù)測的觀測值與總觀測值的比率。
F1得分：準(zhǔn)確性和召回率的加權(quán)平均值。
精度和召回率：精度是正確預(yù)測的陽性觀察值與總預(yù)測陽性觀察值的比率，而召回率是正確預(yù)測的陽性觀察值與實際類別中所有觀察值的比率（請參見下圖中的示例）。
混淆矩陣圖：使我們能夠看到真實的正，真實的負，假的正和假的負的預(yù)測值。
ROC曲線：告訴我們模型如何準(zhǔn)確地區(qū)分類別（請參見下圖）。負分類曲線和正分類曲線之間的重疊度越大，ROC 曲線越差。最佳ROC曲線將是一條曲線下面積（AUC）等于1的曲線。

讓我們看一下模型的診斷參數(shù)：

我們還可以繪制應(yīng)用于測試集的模型的混淆矩陣和ROC曲線：

總體而言，我們通過評估的指標(biāo)獲得了出色的性能。他們告訴我們，該模型具有從患者的咳嗽聲中正確識別或丟棄COVID-19疾病的能力。

我們構(gòu)建了一個模型，該模型能夠通過以大約96％的準(zhǔn)確度對咳嗽聲進行分類來檢測COVID-19。這不僅顯示了遞歸神經(jīng)網(wǎng)絡(luò)解決聲音分類任務(wù)的能力，而且還顯示了解決醫(yī)學(xué)任務(wù)（如診斷肺部疾?。┑臐摿?。我們能夠復(fù)制MIT團隊和曼徹斯特團隊（https://www.researchsquare.com/article/rs-63796/v1）發(fā)布的結(jié)果。我們的數(shù)據(jù)集很?。?21個樣本），但是結(jié)果是有希望的，并為將來的研究提供了可能性。

下一篇：GainTools PST Converter:將PST文件導(dǎo)出為EML、MSG、MBOX和VCF格式的高級解決方案

上一篇：.NET mocking框架Telerik JustMock正式發(fā)布R1 2021

国产精品久久久久久2021,日韩精品无码av中文无码版,亚洲精品久久久午夜麻豆,无码成人精品日本动漫纯h

Wolfram 技術(shù)幫您通過咳嗽音來預(yù)測診斷新冠病毒