Technologia rozpoznawania mowy

Rozpoznawanie mowy, zdolność urządzeń do reagowania na wypowiadane polecenia. Rozpoznawanie mowy umożliwia sterowanie różnymi urządzeniami i sprzętem bez użycia rąk (szczególne dobrodziejstwo dla wielu osób niepełnosprawnych), zapewnia wkład w automatyczne tłumaczenie i tworzy dyktowanie gotowe do wydruku. Wśród pierwszych aplikacji do rozpoznawania mowy były zautomatyzowane systemy telefoniczne i oprogramowanie do dyktowania medycznego. Jest często używany do dyktowania, przeszukiwania baz danych i wydawania poleceń systemom komputerowym, szczególnie w zawodach opartych na specjalistycznych słownikach. Umożliwia także asystentów osobistych w pojazdach i smartfonach, takich jak Siri firmy Apple.

Zanim jakakolwiek maszyna będzie mogła interpretować mowę, mikrofon musi przekształcić wibracje głosu osoby w falowy sygnał elektryczny. Ten sygnał z kolei jest przetwarzany przez sprzęt systemu - na przykład kartę dźwiękową komputera - na sygnał cyfrowy. Jest to sygnał cyfrowy analizowany przez program rozpoznający mowę w celu rozpoznania osobnych fonemów, podstawowych elementów składowych mowy. Fonemy są następnie łączone w słowa. Jednak wiele słów brzmi podobnie i, aby wybrać odpowiednie słowo, program musi polegać na kontekście. Wiele programów ustanawia kontekst poprzez analizę trygramu, metodę opartą na bazie danych częstych klastrów składających się z trzech słów, w których przypisywane są prawdopodobieństwa, że po każdym z dwóch słów będzie podane trzecie słowo. Na przykład, jeśli mówca powie „kim jestem”, następne słowo zostanie rozpoznane jako zaimek „ja”, a nie podobnie brzmiące, ale mniej prawdopodobne „oko”. Niemniej jednak czasami konieczna jest interwencja człowieka w celu skorygowania błędów.

Programy do rozpoznawania kilku pojedynczych słów, takie jak telefoniczne systemy nawigacji głosowej, działają dla prawie każdego użytkownika. Z drugiej strony, ciągłe programy mowy, takie jak programy dyktowania, muszą zostać przeszkolone w rozpoznawaniu wzorców mowy danej osoby; szkolenie polega na czytaniu na głos próbek tekstu na głos. Obecnie, wraz ze wzrostem mocy komputerów osobistych i urządzeń mobilnych, dokładność rozpoznawania mowy znacznie się poprawiła. Wskaźniki błędów zostały zmniejszone do około 5 procent w słownikach zawierających dziesiątki tysięcy słów. Jeszcze większą dokładność osiąga się w ograniczonych słownikach do specjalistycznych zastosowań, takich jak dyktowanie diagnoz radiologicznych.