v0.5 trained on coqui-stt 1.0.0
This model is trained on:
Total hours in dataset 700 hours
.
License: Creative Commons Attribution-NonCommercial 4.0 International License
Parameters
train_cudnn
train_batch_size
32dev_batch_size
32test_batch_size
32n_hidden
2048learning_rate
0.0001dropout_rate
0.60alphabet_config_path
epochs
150augment
pitch[pitch=1~0.1]augment
tempo[factor=1~0.1]augment
reverb[p=0.2,decay=0.70.15,delay=108]augment
volume[p=0.2,dbfs=-10~10]cache_for_epochs
10
Dataset details
dev.csv
and test.csv
are taken from Common Voice 7.0 dataset.
Test on /tmp/codalab/tmpE3l2Z8/run/input/ref/test.csv - WER: 0.649689, CER: 0.183548, loss: 28.395744
Best WER:
WER: 0.000000, CER: 0.000000, loss: 7.556924
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23568993.opus
- src: "живемо як горох на дорозі хто не йде той скубне"
- res: "живемо як горох на дорозі хто не йде той скубне"
WER: 0.000000, CER: 0.000000, loss: 4.642539
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23591022.opus
- src: "тут іншої думки бути не може"
- res: "тут іншої думки бути не може"
WER: 0.000000, CER: 0.000000, loss: 4.364529
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_22459005.opus
- src: "переходимо до розгляду першого звіту"
- res: "переходимо до розгляду першого звіту"
WER: 0.000000, CER: 0.000000, loss: 4.198352
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23830207.opus
- src: "смерті моєї захтів єси"
- res: "смерті моєї захтів єси"
WER: 0.000000, CER: 0.000000, loss: 4.176784
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21570836.opus
- src: "щось я не відчуваю лівий бік мого обличчя"
- res: "щось я не відчуваю лівий бік мого обличчя"
Median WER:
WER: 0.666667, CER: 0.214286, loss: 18.668133
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25344388.opus
- src: "кого ж послемо до князя ілії"
- res: "кого ж послема допнязі іїї"
WER: 0.666667, CER: 0.166667, loss: 18.628965
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24093045.opus
- src: "вікілла господарю проказав тихшим голосом тлумач"
- res: "відкіла господарю проказав тих щонголасом клумач"
WER: 0.666667, CER: 0.111111, loss: 18.223068
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23579553.opus
- src: "ніхто серйозно його не турбував у землі ростовсько суздальській"
- res: "ніхто серйознойогоне трубував у землі ростовську суздельський"
WER: 0.666667, CER: 0.145833, loss: 18.129663
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_20948509.opus
- src: "синій сапфір дорогоцінний камінь першого порядку"
- res: "сині сяптієр до рогутінний камінь першого порядку"
WER: 0.666667, CER: 0.250000, loss: 18.099066
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21582290.opus
- src: "чи вони зберігаються"
- res: "чого не зберігаються"
Worst WER:
WER: 2.000000, CER: 0.125000, loss: 3.093334
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_27046034.opus
- src: "нульових"
- res: "ну льових"
WER: 2.000000, CER: 0.066667, loss: 2.936281
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24815125.opus
- src: "антиалкогольний"
- res: "анти алкогольний"
WER: 2.000000, CER: 0.500000, loss: 2.577957
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24755026.opus
- src: "вмер"
- res: "ов мер"
WER: 2.000000, CER: 0.100000, loss: 2.057913
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24754988.opus
- src: "антибаріон"
- res: "анти баріон"
WER: 3.000000, CER: 0.133333, loss: 4.383850
- wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25102061.opus
- src: "антибанківський"
- res: "анти банків ський"