Hey Facebook – kilka słów o voice’owych komendach wywołania
You've successfully subscribed to edrone Blog
Great! Next, complete checkout for full access to edrone Blog
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.

Hey Facebook – kilka słów o voice’owych komendach wywołania

Facebook pod względem rozwiązań voice odstaje bardzo mocno od pozostałych gigantów, potocznie określanych jako “wielka czwórka”. To i tak eufemizm, bo nie każdy w ogóle wie o tym, że Facebook dysponuje urządzeniami z interfejsem głosowym.

Marcin Lewek
Marcin Lewek

Nic dziwnego, że wokół tej myśli postanowiłem owinąć wypowiedź dla Nowego Marketingu, o którą poproszono mnie w kontekście interesującego strategicznego ruchu Facebooka.

Reprezentacja edrone, jest w tej wypowiedzi szczególnie mocna, bo oprócz mnie, komentarza udzielił także Arek Flinik: Senior Artificial Intelligence Specialist w edrone i równocześnie Co-Founder / CTO w Lekta.

Facebook wprowadził wywoływanie za pomocą zwrotu „Hey Facebook” na urządzeniach Oculus i Portal [opinie] - NowyMarketing
Niedawno Facebook ogłosił wprowadzenie na urządzeniach Oculus i Portal możliwości wywoływania głosowego za pomocą zwrotu „Hey Facebook”. Jaka...

Nasze wypowiedzi dotyczyły niedawnego działania Facebooka, który to poinformował, że dwójce należących do niego urządzeń peryferyjnych dodaje komendę wywołania Hey Facebook. Mowa tu o urządzeniach Oculus i Portal. O ile tego pierwszego nie trzeba chyba przedstawiać, Portal wymaga, myślę, krótkiego wprowadzenia.

Czym jest Portal?

Portal wygląda jak tablet i jego głównym zadaniem jest umożliwienie wykonywania wideorozmów bez użycia rąk (poprzez Messengera lub What's Upa), z kilkoma usprawnieniami, takimi jak automatyczne kadrowanie i zoomowanie.

Dodatkowo:

  • odtwarzanie muzyki (Spotify)
  • korzystanie z usług Amazon / Alexa (w podobny sposób jak na głośniku Amazon Echo)
  • wyświetlanie zdjęć, przez co w trybie czuwania, może pełnić funkcję elektronicznej ramki.

Ta ostatnia funkcja nie jest czymś przełomowym, ale statystyczny użytkownik Portala z pewnością ją doceni, jako że jest on jest kierowany głównie do seniorów, czy bardziej ogólnie starszych pokoleń, a niekoniecznie zajawkowiczów nowych technologii.

edrone AVA: 12,5 mln inwestycji w Voice Commerce: edrone beneficjentem Narodowego Centrum Badań i Rozwoju
Narodowe Centrum Badań i Rozwoju ogłosiło wyniki konkursu Szybka Ścieżka. edrone jako jeden z laureatów, otrzyma finansowanie dla projektu badawczo-rozwojowego w wysokości 12 591 156,25 zł. Przeznaczy je na rozwój technologii NLU ze szczególnym uwzględnieniem eCommerce i Voice Commerce.

Urządzenie pierwotnie aktywowane było hasłem: Hey Portal. Oculus natomiast hasła wywołania w ogóle nie posiadał - interfejs głosowy uruchamiało  się przyciskiem na obudowie. Teraz oba mogą korzystać ze wspomnianego, nowego “Hey Facebook”.

Po pierwsze, marketing

Na pierwszy rzut oka, zmiana ma na celu zwiększenie świadomości marki, czyli właśnie Facebooka. Opisałem to w pierwotnej wypowiedzi, dlatego teraz postaram się ją zaledwie skrócić i rozwinąć o kilka nowych elementów.

Hasła wywoławcze istotnie pełnią funkcję marketingową. Są po prostu brandingiem, a ze względu na specyfikę korzystania z tego urządzenia - bez użycia rąk, bez wchodzenia z nimi w wyraźną interakcję - trzeba zaznaczyć producenta w inny sposób. Zwłaszcza że konkurencja nie śpi, a wręcz, co zostało powiedziane we wstępie, jest dużo dalej przed korporacją z Menlo Park.

Word2vec w pigułce
Word2vec to metoda uczenia maszynowego mająca na celu stworzenie modelu językowego opartego na idei głębokiego uczenia (Deep Learning), jednakże sieć neuronowa wykorzystywana w tym przypadku jest stosunkowo płytka (w jej skład wchodzi zaledwie jedna warstwa ukryta).

Portal i Oculus są urządzeniami niemal wyłącznie użytku domowego, więc wydaje się że chodzi raczej o nieustanne uświadamianie użytkownikowi obecności marki w jego życiu i oswajanie z nią w kontekście voice’owych interfejsów.

Ale nie tylko...

Od samego początku wydawało mi się jednak, że chodzi też o kwestie UX. Im bardziej zagłębiałem się w temat, tym bardziej stawało się to oczywiste. Nieoczekiwanym przełomem była spontaniczna dyskusja na wewnętrznym komunikatorze edrone, do której dołączył się Hubert Karbowy, pełniący funkcję Software Engineer w projekcie edrone AVA.

Zwarto-wybuchowe, zwarto-szczelinowe

Hubert Karbowy: Z technicznego punktu - zaleca się, żeby “wake-up wordy” zawierały co najmniej jedną zbitkę głoski zwarto-wybuchowej (stop/plosive) i zwarto-szczelinowej (spirant/fricative), np. "ks/gz" w "Alexa", "Bixby". Taka sekwencja cech fonetycznych jest według badań najłatwiejsza do precyzyjnego wykrycia.

Arek Flinik: To by też tłumaczyło, dlaczego “Hey Facebook” jest lepsze niż “Hey Portal” W pierwszym jest “sb”/“zb”, w drugim co najwyżej “rt”.

Jak w takim razie radzi sobie Siri?

Hubert: Według innej obowiązującej wersji, którą słyszałem wystarczy tylko obecność głoski zwarto-szczelinowej.

W dyskusji oczywiście przewinęła się AVA.

Hubert: Gdybyśmy chcieli bezpośrednio skopiować rozwiązanie i zaimplementować AVA w postaci asystenta na smart głośniku, to hasło wywołania "Hej Ava!", przy płytkiej sieci, będzie generowało bardzo dużo błędów.

Teoretycznie /v/ jest głoską zwarto-szczelinową, ale akustycznie jest to niższa częstotliwość, a więc dochodzą jeszcze kwestie asymilacji do niskich samogłosek w kontekście. To nie wszystko.

Chodzi nam także o to, żeby to, co wokół niej było w miarę “rzadkie”. Trzeba by zobaczyć ile pokrywa się z lewym kontekstem "ks" w Alexa (“ex”, “alex”, itp.), bo z "ava" w języku polskim pokrywa się całkiem sporo (“kawa”, “prawa”, “trawa”, etc.).

Inne dobre praktyki

Oczywistym jest jednak że nie ma jedynej słusznej drogi dotyczącej wyboru keywordów wywołania. Jak podają Aliaksei Kolesau i Dmitrij Šešok w artykule “Voice Activation Systems for Embedded Devices: Systematic Literature Review”:

“Zauważyliśmy, że cechy akustyczne i długość słowa kluczowego mają znaczący wpływ na jakość aktywacji. Przykładowo, w pracy Jansen i Niyogi wykazano, że istnieje silna korelacja pomiędzy jakością działania, a długością słowa kluczowego. Otwartym pozostaje jednak pytanie, jakie inne właściwości frazy kluczowej są istotne dla dobrego działania systemu.”

I tak na przykład, pierwotnie Asystent Google, był wywoływany za pomocą komendy “OK Google Now”. Okazała się po prostu za długa. Z drugiej strony, wywołania krótkie – zbyt krótkie – również nie są pożądane, ale o tym za chwilkę.

Ujednolicona wymowa

Kolejną “dobrą praktyką” jest stosowanie wywołań, które z dużą pewnością zostaną poprawnie wypowiedziane w innych krajach.

Hubert: Zbitki ks/gz to perspektywa świata zachodniego. One są ciężkie dla ludzi posługujących się językami, które nie przewidują zbitek w wygłosie sylaby. Np. Koreańczycy męczą się z "bik-sy-bi". Pewnie w takich językach lepiej jest wynaleźć coś innego unikalnego, a też łatwo wykrywalnego.

Łamaniec językowy

Zdecydowanie. Facebook, w porównaniu do 'Portal', a już na pewno 'Oculus', jest słowem prostszym do poprawnego wymówienia, a więc komendą łatwiejszą do wyłapania. Mówię tutaj zarówno o różnicach w akcencie, jak i po prostu praktyce używania.

“Oł-kej-Gu-gl” dla większości polskiego społeczeństwa, umówmy się, jest łamańcem językowym. Znam kilka osób, które prawie udławiły się próbując wywołać asystenta. Swoją drogą, osobiście preferuję Hey Google. Wymawia się zdecydowanie lepiej.

Czyli jednak też UX?

Każda przewaga nad voice’owymi konkurentami jest na wagę złota, a jeśli chodzi o użyteczność i to, czy rozwiązanie się przyjmie - ostatecznie rację ma właśnie nie kto inny, a przeciętny użytkownik końcowy.

Hey Facebook!

Wake-word Hey Facebook wydaje się bardzo dobrą frazą wywołania. Zgodne jest ze wszystkimi wskazówkami, o których wspomnieliśmy. Dodatkowo, przez wieloletnią praktykę i łatwość wymowy ‘Facebook’ istnieje duża szansa że zostanie wymówione poprawnie, w dodatku w podobny sposób we wszystkich językach (jednak tutaj też pewnie znajdą się wyjątki).

Z drugiej strony, wszelkie dobre praktyki radzą by ‘wake-word’ wybierać w ten sposób, by uniknąć zarówno fałszywych negatywnych, jak i fałszywych pozytywnych rezultatów.

Przypadkowe nagrania

Arek: Jak sugerowałem na Nowym Marketingu, wydaje mi się, że Facebookowi wyższy recall jest na rękę, bo “przypadkiem” z czystymi rękoma będą więcej nagrywać.

Wypowiedzenie słów brzmiących jak „Hey Facebook” w zwykłej konwersacji jest dużo bardziej prawdopodobne, niż w przypadku „Hey Siri” lub „OK Alexa”, więc można się spodziewać, że urządzenia Facebooka dużo częściej będą przekazywać „przypadkowo” nagrane konwersacje do Menlo Park.

O ile Facebook deklarował od samego początku, że nie wykorzysta zarejestrowanych  rozmów do inteligentniejszego nagrania, tak później doprecyzował, że może wykorzystywać na przykład częstotliwość rozmów i ich długość, a z pewnością inne metadane które związane są z używaniem głosowego asystenta.

Jeśli reklamy będą bardziej dopasowane do użytkowników, to ze względu na nowe dane behawioralne, które będziemy przesyłać gigantowi, o ile jego urządzenia będą tak popularne, jak produkty konkurencji.

Jak będzie radził sobie Facebook w voice’owym wyścigu? Czas pokaże!

VoiceDeep learningAVA

Marcin Lewek

Digital marketer and copywrier specialized in Artificial Intelligence, design, and digital marketing itself. Science, and holistic approach enthusiast, after-hours musician, and sometimes actor.