Технология за разпознаване на речта

Разпознаване на речта, способността на устройствата да реагират на говорими команди. Разпознаването на речта позволява свободен контрол на ръцете на различни устройства и оборудване (особено благодат за много хора с увреждания), осигурява въвеждане на автоматичен превод и създава диктовка, готова за печат. Сред най-ранните приложения за разпознаване на реч бяха автоматизирани телефонни системи и софтуер за медицински диктовки. Често се използва за диктовка, за търсене на бази данни и за подаване на команди на компютърно базирани системи, особено в професии, които разчитат на специализирани речници. Той също така дава възможност за лични асистенти в превозни средства и смартфони, като например Siri на Apple.

Преди всяка машина да може да интерпретира реч, микрофонът трябва да преведе вибрациите на гласа на човек в електрически сигнал, подобен на вълната. Този сигнал от своя страна се преобразува от хардуера на системата - например звукова карта на компютъра - в цифров сигнал. Това е цифровият сигнал, който програма за разпознаване на реч анализира, за да разпознае отделни фонеми, основните градивни елементи на речта. След това фонемите се рекомбинират в думи. Въпреки това, много думи звучат еднакво и, за да изберете подходящата дума, програмата трябва да разчита на контекста. Много програми установяват контекст чрез триграмен анализ, метод, базиран на база данни от чести трисловни клъстери, в които са назначени вероятности, че всяка две думи ще бъдат последвани от трета дума. Например, ако един говорител каже „кой съм“, следващата дума ще бъде разпозната като местоимението „аз“, а не като подобно звучащо, но по-малко вероятно „око“. Въпреки това понякога е необходима човешка намеса, за да се коригират грешките.

Програмите за разпознаване на няколко изолирани думи, като например телефонни гласови навигационни системи, работят за почти всеки потребител. От друга страна, непрекъснатите речеви програми, като диктовки, трябва да бъдат обучени да разпознават речевите модели на индивида; обучението включва потребителя да чете на глас образци на текст. Днес с нарастващата сила на персонални компютри и мобилни устройства точността на разпознаването на речта се подобри значително. Степента на грешки е намалена до около 5 процента в речници, съдържащи десетки хиляди думи. Още по-голяма точност се постига в ограничени речници за специализирани приложения като диктовка на радиологични диагнози.