Inspiracje

I speak Polish, what’s your superpower? – wyzwania rozpoznawania mowy

Światem rządzi zmiana. Z kolei biznes, aby nadążyć za zmieniającą się rzeczywistością, musi otrzymywać rozwiązania w jakimś sensie wyprzedzające swoją epokę lub zmieniające mentalność użytkownika. Głównym obszarem działalności Techmo jest dostarczanie i wdrażanie biznesowych rozwiązań z zakresu technologii mowy. Staramy się rozumieć potrzeby nowoczesnego biznesu. 

Jednym z wielkich obecnie wyzwań w dziedzinie rozpoznawania mowy jest automatyzacja wielorakich procesów zarówno biznesowych jak i produkcyjnych. Z pewnością w dużej mierze dotyczy to obsługi klienta – automatyzacja wiąże się tu z cięciem kosztów, standaryzacją obsługi i jej przyspieszeniem. Jednocześnie ważną podnoszoną kwestią jest ryzyko jednoczesnego obniżenia jakości obsługi.

W kontekście automatyzacji wspomnianych wyżej procesów kluczowymi technologiami są rozpoznawanie oraz synteza mowy. W przypadku syntezy ważnymi aspektami są tempo wypowiedzi, płeć głosu, możliwość modyfikacji oraz customizowania. TECHMO dysponuje na ten moment syntezatorem mowy polskiej (Techmo TTS). Myśląc o technologii rozpoznawania mowy trzeba pamiętać, że de facto mamy do czynienia z dwoma paradygmatami. Pierwszym jest rozpoznanie w obrębie zamkniętych, z góry zdefiniowanych zbiorów słów, czyli tzw. gramatyk (Techmo ASR). Przykładem może być lista ulic lub działów w firmie. Drugi to rozpoznawanie mowy swobodnej, które zakłada, że system rozpoznaje całość wypowiedzi mówcy i dopiero na tej podstawie definiuje ewentualne kolejne działania (Techmo DICTATION). Oba podejścia mają swoje zastosowanie i zalety.

Skuteczność rozpoznawania mowy osiąga zależnie od warunków akustycznych i jakości systemu poziom ponad 99% słów. Nie ulega wątpliwości, że firmy obsługujące klientów masowych bardzo interesują się automatyczną obsługą głosową. W najbliższym czasie ten trend będzie rosnący. Nie zmienia to faktu, że dotychczas spora część wdrożeń tego typu była średnio udana. Nawet w tych udanych klient końcowy często akceptuje takie systemy co najwyżej jako ciekawostkę, dodatek do tradycyjnej formy obsługi. Wiąże się to jednak zwykle z błędami popełnionymi przy projektowaniu rozwiązania i złego zarządzania oczekiwaniami decydentów i odbiorców końcowych. Pozytywnym przykładem dobrego zaplanowania działania bota może być Maks, coraz szerzej znany automatyczny konsultant Orange. Prymarnym celem rozwiązania było rozładowanie opóźnień wynikających z kojarzenia dzwoniących klientów z odpowiednimi ludzkimi konsultantami i takie zadanie bardzo dobrze realizuje.

Bardzo istotnym czynnikiem dla technologii rozpoznawania mowy są wszelkie zmiany w języku.  Wynikają one zarówno z mody językowej, popularyzowania się niektórych sformułowań slangowych czy coraz większego umiędzynarodowienia społeczeństwa w Polsce. Jest to oczywiście wyzwanie nie tylko dla botów, ale w pierwszej kolejności dla tradycyjnych contact center. W przypadku rozpoznawania mowy, problemy te rozwiązuje się za pomocą dodatkowego treningu modeli akustycznych i językowych.

Dodaj komentarz

Click here to post a comment