Порівняльний аналіз API для розпізнавання мовлення за допомогою Python

Безверхий, О. І.; Луц, В. Є.

dc.contributor.author	Безверхий, О. І.
dc.contributor.author	Луц, В. Є.
dc.date.accessioned	2025-07-21T07:30:16Z
dc.date.available	2025-07-21T07:30:16Z
dc.date.issued	2025-07-21
dc.identifier.citation	Безверхий О. І., Луц, В. Є. Порівняльний аналіз API для розпізнавання мовлення за допомогою Python.	uk_UA
dc.identifier.issn	2521-6643
dc.identifier.uri	http://biblio.umsf.dp.ua/xmlui/handle/123456789/7872
dc.description.abstract	З розвитком комп’ютерних систем стає все більш очевидним, що використання систем розпізнавання мови набагато розшириться, якщо стане можливим використання людської мови при роботі безпосередньо з комп’ютером, і зокрема стане можливим управління машиною звичайним голосом в реальному часі, а також введення і виведення інформації у вигляді звичайної людської мови. Голосовий інтерфейс є необхідним компонентом, коли мова йде про створення комфортних умов життя. Такі системи входять в повсякденний побут, крім того, можливо їх застосування і на виробництві в складі комплексів управління виконавчими механізмами. При створенні системи голосового розпізнавання команд розробник стикається з певними проблемами: відсутність математичної моделі семантики мовного сигналу; що виражається в тому, що для визначення семантики мовного сигналу індивідуальні характеристики мовця: специфіка вимови, акценти, наголоси тощо; робота із спонтанною мовою та необхідність виділення наявності ключового слова; відмінності в акустичній обстановці, шуми, тощо. Параметризація аналогового сигналу мови є першим кроком в процесі розпізнавання мови. Алгоритми призначені для виконання параметричного представлення мовного сигналу: параметри, що описують поведінку людської слухової системи. Природно, ці алгоритми спеціально розроблені для збільшення продуктивності системи розпізнавання мови. Переважні параметри, які є списами спектральних енергій звуку, а не деталями голосу певного диктора У статті розглядається порівняння провідних API розпізнавання мовлення шляхом вивчення їхніх функцій, варіантів використання та показників продуктивності. Аналіз має на меті надати розробникам повне розуміння цих технологій, підкреслюючи їхні переваги та обмеження. Python використовувався для тестування цих API із мікрофонним введенням, пропонуючи розуміння їхньої затримки, точності та практичних застосувань. Це дослідження слугує посібником для вибору найкращого API для конкретних вимог проекту з візуальним представленням результатів для ясності.	uk_UA
dc.language.iso	uk	uk_UA
dc.publisher	Університет митної справи та фінансів	uk_UA
dc.subject	розпізнавання мовлення	uk_UA
dc.subject	API	uk_UA
dc.subject	Speech-to-Text	uk_UA
dc.subject	Speech Service	uk_UA
dc.subject	мовні моделі	uk_UA
dc.title	Порівняльний аналіз API для розпізнавання мовлення за допомогою Python	uk_UA
dc.type	Article	uk_UA