Audio Course documentation
Дополнительные материалы и ресурсы
Раздел 0. Добро пожаловать на курс!
Раздел 1. Работа с аудиоданными
Раздел 2. Краткое введение в аудиоприложения
Раздел 3. Архитектуры трансформеров для аудио
Раздел 4. Создание классификатора музыкальных жанров
Раздел 5. Automatic Speech Recognition
Чему вы научитесь и что создадитеПредварительно обученные модели для распознавания речиВыбор набора данныхОценка и метрики для распознавания речиКак дообучить ASR-систему с помощью Trainer APIСоздание демоПрактическое занятиеДополнительные материалы и ресурсы
Раздел 6. От текста к речи
Раздел 7. Собираем все воедино
Раздел 8. Финишная прямая
Мероприятия в рамках курса
Дополнительные материалы и ресурсы
Этот раздел предоставил практическое введение в распознавание речи, одну из самых популярных задач в области аудио. Хотите узнать больше? Здесь вы найдете дополнительные ресурсы, которые помогут вам углубить свое понимание темы и повысить качество обучения.
- Whisper Talk by Jong Wook Kim: презентация о модели Whisper, в которой объясняются мотивация, архитектура, обучение и результаты, представленные автором Whisper - Джонг Вук Кимом.
- End-to-End Speech Benchmark (ESB): научная статья, в которой обосновывается использование орфографического WER вместо нормализованного WER для оценки систем распознавания речи и представляется соответствующий бенчмарк.
- Fine-Tuning Whisper for Multilingual ASR: подробный блог-пост, который объясняет, как работает модель Whisper, и подробно описывает пред- и пост-обработку с использованием извлекателя призников и токенизатора.
- Fine-tuning MMS Adapter Models for Multi-Lingual ASR: полное руководство по дообучению новых многоязычных моделей распознавания речи Meta AI MMS, при этом замораживая веса базовой модели и обучая только небольшое количество адаптерных слоев.
- Boosting Wav2Vec2 with n-grams in 🤗 Transformers: блог-пост о сочетании моделей CTC с внешними языковыми моделями (LM) для борьбы со смысловыми и пунктуационными ошибками.