多模態病理嗓音分類競賽競賽連結
隊伍名稱: TEAM_3042
參考preprocess.ipynb,其中Smoking
、Drinking
、Onset of dysphonia
、Diurnal pattern
種類型欄位以 one-hot 方式處理,其餘數值型欄位以 min-max 方式正規化
因音訊長度不一,會將音訊自身頭尾相連的方式 concat 直到長度達最大音訊長度
Before concat | After concat |
---|---|
並引用BEATs: Audio Pre-Training with Acoustic Tokenizers的預訓練權重提取音訊特徵,可得到 shape (408, 768)
的特徵
參考beats-dense.ipynb,模型架構如下圖,將音訊特徵與病歷資料各自經過 Dense
後 concat
起來做分類
訓練資料為 90% 資料量,其餘 10% 會在訓練階段以 accuracy
評估指標挑選最佳模型權重;訓練階段也會根據類別數量計算對應 class weight
,提高資料量少的類別權重