Короткий опис (реферат):
Магістерська робота присвячена аналізу сучасних методів розпізнавання
мовлення, яке є однією з ключових технологій у галузі штучного інтелекту.
Дослідження охоплює широкий спектр підходів, починаючи від традиційних
статистичних моделей (приховані марковські моделі – HMM, моделі сумішей
Гауса – GMM) до сучасних методів на основі глибокого навчання та
трансформаторів.
У роботі детально проаналізовано еволюцію систем розпізнавання
мовлення. Експериментальний аналіз показав, що впровадження наскрізних
моделей, таких як CTC і трансформатори, дозволяє значно покращити роботу
систем у реальних умовах. Вивчено вплив шуму, акцентів, фонових звуків та
інших факторів на ефективність алгоритмів. Проведено порівняння різних
моделей та визначено їхні сильні і слабкі сторони, що стало основою для
розробки рекомендацій з покращення систем.
Робота також акцентує увагу на етичних аспектах, таких як забезпечення
конфіденційності, уникнення упередженості, створення доступних рішень для
мов із низьким рівнем ресурсів.