Jeszcze nie dawno mogliśmy tylko rozmawiać przez telefon, dziś rozmawiamy z telefonem. Systemy rozpoznawania mowy na dobre zadomowiły się w naszych urządzeniach mobilnych i zyskują coraz większą popularność. Ich wykorzystywanie zwiększa wygodę, oszczędza czas i a czasami nawet pozytywnie wpływa na bezpieczeństwo. Do czego jeszcze może przydać się ta funkcjonalność? Dlaczego korporacje technologiczne tak bardzo na nią stawiają?
Trudne początki
Speech recognition swoimi korzeniami sięga nawet kilkadziesiąt lat wstecz, już wtedy eksperymentowano nad urządzeniami zdolnymi rozpoznawać pojedyncze wymawiane słowa. Aczkolwiek coś, co można nazwać początkami osobistych systemów rozpoznawania mowy, mogliśmy po raz pierwszy znaleźć w telefonach ubiegłej dekady. Dla niektórych funkcji lub kontaktów, możliwe było skonfigurowanie polecenia głosowego, które pozwalało na bezdotykowe uruchomienie danej funkcji lub wykonanie telefonu do osoby z książki telefonicznej. Zasada działania była prosta. Użytkownik podczas konfiguracji proszony był o kilkukrotne powtórzenie wybranej przez siebie frazy, dzięki czemu system tworzył wzorzec, będący późniejszym punktem odniesienia dla polecenia głosowego. Mało miało to wspólnego z tym co prezentuje dzisiejsza technologia, ale już wtedy wychodził na wierzch potencjał tego rozwiązania. Umożliwiło to korzystanie z podstawowych funkcji telefonu nawet wtedy, kiedy nie było możliwe obsługiwanie go przy pomocy rąk (np. podczas jazdy samochodem).
Dlaczego rozpoznawanie mowy jest genialne
Gdyby tamto rozwiązanie nie okazało się przydatnym, nie doczekalibyśmy się pewnie dalszego rozwoju tej technologii. Zalety płynące z jej wykorzystania są niepodważalne. Przede wszystkim, wykorzystuje najbardziej „ludzki” sposób przekazywania informacji, czyli mowę. Wpływa to bezpośrednio na wygodę oraz szybkość formułowania przekazu. Mowa jest naturalną i najmniej wymagającą fizycznie formą porozumiewania się. Stosując ten sposób wprowadzania informacji do urządzenia, robimy to nawet 5 razy szybciej niż pisząc, dodatkowo nie musimy wykonywać żadnych czynności manualnych, ręce są uwolnione i mogą być wykorzystane do innej, bardziej wymagającej pracy. Co równie ważne, nie musimy też odwracać wzroku w stronę ekranu, dzięki czemu pozostajemy skupieni na aktualnie wykonywanym zajęciu.
Rozpoznawanie mowy w życiu codziennym i biznesie
Wśród użytkowników urządzeń mobilnych i nie tylko, nadal w dużym stopniu brakuje nawyku korzystania z funkcji rozpoznawania głosowego, zamiast standardowego pisania. Jednak ta sytuacja powoli się zmienia. Przede wszystkim ma na to wpływ coraz lepsza jakość działania algorytmów, większa ilość implementacji tego sposobu wprowadzania danych w aplikacjach, oraz powstawanie i rozwój specjalnie do tego celu stworzonych asystentów głosowych (Siri i asystent Google), oraz całych urządzeń (Google Home, Amazon Echo czy Alexa). Nawet nowoczesne samochody mają wbudowanych inteligentnych asystentów, którzy rozpoznają i reagują na polecenia wydawane przez kierowcę (ich możliwości są często wykorzystywane w reklamach np. Mercedesa). Asystenci umożliwiają bezdotykową obsługę praktycznie wszystkich podstawowych funkcji urządzenia (samochodu). Głosowo możemy wybrać rozmówcę i do niego zadzwonić, wyszukać cel na mapie i włączyć nawigację, odtwarzać ulubione piosenki, zaplanować spotkanie i zapisać je w kalendarzu, ustawić minutnik, zamówić bilety do najbliższego kina czy nawet dyktować całe wiadomości tekstowe. Co ważne, działanie tego wszystkiego możesz sprawdzić sam nawet w tym momencie. Po prostu weź swój smartfon i wypowiedz magiczne „OK Google”, lub w przypadku iPhonów „Hej Siri”.
Również biznes czerpie korzyści z rozwoju speech recognition. Dzięki opisywanej tu technologii możliwe będzie stworzenie zautomatyzowanych centrów obsługi klienta, działów pomocy technicznej, sekretarek czy kasjerów. Rozwiązania te zwiększą wydajność pracy, a właściwie zaimplementowane wpłyną również na pozytywne doświadczenia klienta.
Udogodnienia ale i zagrożenia
Jednak nie ma rozwiązań idealnych. Wykorzystanie systemów rozpoznawania mowy w dużym stopniu ułatwia przeprowadzanie wszelkich czynności szpiegowskich. Pewnie nie raz spotkałeś się z sytuacją, kiedy prowadzisz rozmowę ze znajomym, chcesz wspomóc się informacjami z Internetu, a Google bezbłędnie podpowiada frazy, których prawdopodobnie chcesz poszukać? Mając przy sobie smartfon, jesteś stale na podsłuchu. I nie jest to problemem, dopóki takiego „słuchania” dopuszcza się podmiot o stosunkowo dobrej reputacji, którego możemy darzyć częścią swojego zaufania, jak np. Google. Jednak dokładnie w ten sam sposób mogą podsłuchiwać Cię osoby lub firmy, po których tego się nie spodziewasz, a tym bardziej takiego podsłuchiwania nie chcesz! Wystarczy pobranie jednej aplikacji wątpliwego pochodzenia, wyrażenie zgody na nadanie jej uprawnień (co robimy zazwyczaj bezrefleksyjnie i automatycznie) i już. Pokazuje to, że w niewłaściwych rękach technologia ta może przynieść również wiele szkód, szczególnie przy braku ostrożności użytkowników wszelkich urządzeń elektronicznych.
Sprawdź sam!
Wprawdzie tym artykułem nie zostały wyjaśnione kwestie typowo techniczne, dotyczące zasad działania systemów rozpoznawania mowy, ale jest to bardzo rozbudowana kwestia z pogranicza matematyki, lingwistyki i informatyki, stanowiąca materiał na kolejny, duży wpis. Jednak przedstawione informacje powinny przybliżyć zagadnienie rozpoznawania mowy, które szturmem podbija rynek urządzeń mobilnych, motoryzację, jak i branżę home and living. Już teraz działanie systemów jest bardzo zaawansowane i obarczone niewielkim współczynnikiem błędu, a zastosowanie sztucznej inteligencji wzbogaconej o wykorzystywanie algorytmów „deep learning” z dnia na dzień dodatkowo je ulepsza. To co? Mały test? Sprawdź jaki dowcip przygotował Twój asystent na dziś!