Дополнительные материалы и ресурсы

Этот раздел предоставил практическое введение в распознавание речи, одну из самых популярных задач в области аудио. Хотите узнать больше? Здесь вы найдете дополнительные ресурсы, которые помогут вам углубить свое понимание темы и повысить качество обучения.

Whisper Talk by Jong Wook Kim: презентация о модели Whisper, в которой объясняются мотивация, архитектура, обучение и результаты, представленные автором Whisper - Джонг Вук Кимом.
End-to-End Speech Benchmark (ESB): научная статья, в которой обосновывается использование орфографического WER вместо нормализованного WER для оценки систем распознавания речи и представляется соответствующий бенчмарк.
Fine-Tuning Whisper for Multilingual ASR: подробный блог-пост, который объясняет, как работает модель Whisper, и подробно описывает пред- и пост-обработку с использованием извлекателя призников и токенизатора.
Fine-tuning MMS Adapter Models for Multi-Lingual ASR: полное руководство по дообучению новых многоязычных моделей распознавания речи Meta AI MMS, при этом замораживая веса базовой модели и обучая только небольшое количество адаптерных слоев.
Boosting Wav2Vec2 with n-grams in 🤗 Transformers: блог-пост о сочетании моделей CTC с внешними языковыми моделями (LM) для борьбы со смысловыми и пунктуационными ошибками.

Update on GitHub

Audio Course

Дополнительные материалы и ресурсы