You've successfully subscribed to edrone Blog
Great! Next, complete checkout for full access to edrone Blog
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.

Hey Facebook: Algumas palavras sobre "wake words"

O Facebook ficou para trás das outras gigantes da tecnologia em termos de tecnologia de voz. Na verdade, poucas pessoas sabem que o Facebook tem dispositivos com interface de voz.

Marcin Lewek
Marcin Lewek

Não é surpreendente que eu tenha decidido focar neste assunto o meu comentário para um artigo da Nowy Marketing sobre esta recente jogada estratégica do Facebook.

A presença da edrone foi significativa neste artigo. Além da minha contribuição, Arek Flinik, Senior Artificial Intelligence Specialist na edrone e cofundador e CTO da Lekta, também compartilhou suas ideias.

Nossos comentários foram sobre o anúncio dado pelo Facebook sobre a introdução do comando "Hey Facebook" como wake word para dois dispositivos: os aparelhos de Realidade Virtual Oculus, sobre os quais você talvez já tenha ouvido falar; e os aparelhos Portal, que provavelmente precisam ser apresentados.

O que são os aparelhos Portal?

Visualmente, os aparelhos Portal se parecem com tablets de diferentes tamanhos. Seu propósito é permitir fazer chamadas de vídeo (via Facebook Messenger ou WhatsApp) sem usar as mãos, incluindo algumas funcionalidades interessantes como foco e zoom automáticos que acompanham a imagem do usuário automaticamente.

Eles também oferecem outras possibilidades de uso, como:

  • Tocar música (via Spotify)
  • Usar serviços da Amazon, como a Alexa (da mesma forma que os aparelhos Amazon Echo)
  • Fixar fotos para que, quando não estiver em uso, funcione como um quadro ou porta-retratos.

Esta última função realmente não é nada de mais. No entanto, o usuário médio dos aparelhos Portal certamente vê valor nela, pois eles são direcionados a pessoas mais velhas.


edrone AVA: 12,5 milhões serão investidos em Voice Commerce
O Centro Nacional de Pesquisa e Desenvolvimento anunciou o resultado da competição “Quick Path”. A edrone, como um dos vencedores, receberá uma bolsa para o projeto de P&D no valor de 12.591.156,25 PLN com o objetivo de pesquisar a tecnologia NLU, com particular ênfase em eCommerce e Voice Commerce.

Inicialmente, os aparelhos eram ativados com a wake word "Hey Portal". Os dispositivos Oculus, por outro lado, não tinham uma wake word – a interface de voz era acionada por um botão. Agora, ambos os dispositivos poderão usar o mesmo comando de voz.

Primeiro, o Marketing

À primeira vista, parece uma jogada estratégica para aumentar a percepção de marca do Facebook, afinal é isso que eles precisam desesperadamente no campo dos aparelhos por voz. Abaixo, transcrevo nossos comentários feitos originalmente em polonês para a Nowy Marketing.

Comentário de Marcin Lewek:

O Facebook está muito atrás das "big four" (tanto que, quando o assunto é interfaces por voz, faria mais sentido falarmos em "big three"). Isto é irônico, considerando que o Facebook frequentemente é acusado de ouvir sorrateiramente todas as nossas conversas. A adição do comando "Hey Facebook" aos aparelhos Oculus e Portal é uma declaração explícita de intenção em marcar território nesta área.

A Siri e Alexa estão fortemente associadas à Apple e Amazon, respectivamente. O Google Assistant carrega a marca em seu nome. Já Portal e Oculus... para o usuário médio, são apenas as marcas dos aparelhos, não estão associadas a alguma outra.

Daqui em diante, estes aparelhos serão vistos como parte do Facebook e, com eles (principalmente o Oculus), os usuários terão uma experiência de voz completa, combinada com Realidade Aumentada. Isso ajudará o Facebook a se promover como uma empresa que está mudando o mundo para melhor, facilitando a vida de pessoas com deficiência que, até então, estavam excluídas dos avanços tecnológicos.

Será que vamos receber ainda mais anúncios personalizados por autorizarmos estes aparelhos a nos escutarem? Eu duvido. Este tipo de boato é espalhado por pessoas que não entendem quão difícil e custoso é o Processamento de Linguagem Natural (NLP).

Se o direcionamento dos anúncios melhorar, será por conta dos novos dados de comportamento que enviaremos ao Facebook, caso seus aparelhos se tornem tão populares quanto os de seus concorrentes. Além disso, a ativação por wake word vem desativada por padrão, e muitos usuários nem sabem que esta funcionalidade existe. Por conta destas suspeitas de escutar conversas alheias, o Facebook dificilmente mudará isso no futuro próximo.

Comentário de Arek Flinik:

As funcionalidades de voz do Portal ainda não são muito impressionantes – apenas cerca de uma dúzia de comandos podem ser executados por voz para controlar o dispositivo, então é difícil apresentá-lo como uma alternativa real às soluções das outras gigantes do "big four" (Amazon, Apple e Google). A grande oportunidade seria abrir estas funcionalidades a entidades externas e criar um marketplace com comandos por voz. O Facebook, então, poderia competir com a Amazon ou Google, que conquistaram esta área alguns anos antes e agora podem se vangloriar de seus centenas de milhares de aparelhos ativos. Enquanto isso o Facebook está, na melhor das hipóteses, na segunda divisão, junto com o Bixby da Samsung ou a Cortana da Microsoft.

Esta não é a primeira vez que o Facebook anuncia novidades relacionadas a interfaces por voz, então não podemos ter certeza sobre quais funcionalidades continuarão sendo desenvolvidas. Em 2015, a gigante comprou a Wit.ai, uma startup de Processamento de Linguagem Natural, para acelerar o desenvolvimento de seu próprio assistente de voz batizado singelamente como "M". O projeto foi cancelado pouco tempo depois. Em 2018, foi anunciada uma nova ideia chamada "Aloha", desta vez envolvendo um assistente por voz acompanhado por dispositivos capazes de competir com a Amazon Echo ou o Google Home, mas novamente, nunca houve um lançamento oficial.

Só mais uma reflexão. Enquanto os rumores sobre os dispositivos escutarem nossa conversa o tempo todo de fato são extremamente exagerados (a bateria de um smartphone comum não aguentaria mais de uma hora de processamento de voz contínuo), a mudança da wake word é interessante.

A probabilidade de se falar palavras parecidas com "Hey Facebook" em uma conversa normal é muito maior do que falar algo parecido com "Hey Siri" ou "OK Alexa". Com isso, podemos esperar muito mais conversas sendo encaminhadas "acidentalmente" à gigante de Menlo Park.

Resumindo...

Comandos de ativação de fato servem uma função de Marketing. Eles reforçam a marca e, devido às particularidades deste tipo de dispositivos – usados sem as mãos ou qualquer outra interação física – é preciso patenteá-los de forma diferente. A concorrência nunca dorme.

Os aparelhos Portal e Oculus são usados quase exclusivamente em um contexto doméstico, então parece que a questão aqui é tornar o usuário mais consciente sobre a presença da marca Facebook em seu dia a dia ao usar aparelhos com interface de voz.


O que é Word2Vec - Modelo de Linguagem baseado em Deep Learning
Word2Vec é um método de Aprendizado de Máquina para construir um modelo de linguagem baseado em ideias de Aprendizado Profundo. No entanto, a rede neural usada aqui é um tanto superficial (tem apenas uma camada escondida).

E não apenas isso...

No entanto, desde o início me pareceu que esta mudança tinha algo a ver com a experiência do usuário (UX) e, quanto mais me aprofundei nesta pesquisa, mais óbvio isso se tornou. O momento "eureka!" veio em uma conversa despretenciosa que tive com Hubert Karbowy, um dos Engenheiros de Software da edrone que estão trabalhando no projeto AVA, em nossa plataforma interna de mensagens.

Consoantes plosivas e fricativas

Hubert Karbowy: De um ponto de vista técnico, é recomendado que as wake words contenham ao menos um encontro de consoantes plosivas e/ou fricativas, por exemplo "xa" em "Alexa" ou "xb" em "Bixby". Pesquisas mostram que estes fonemas são os mais fáceis de se detectar com precisão.

Arek Flinik: Isso explicaria porque "Hey Facebook" é melhor que "Hey Portal" como wake word, afinal o primeiro tem "sb", enquanto o segundo tem, no máximo, "rt".

E como fica a Siri neste caso?

Hubert: De acordo com as informações mais recentes de que tenho conhecimento, apenas a presença de um fricativo já seria suficiente.

O projeto AVA obviamente foi mencionado na discussão

Hubert: Então, se nossa intenção fosse copiar esta solução e implementar a AVA como um dispositivo acionado por voz, a wake word "Hey AVA" geraria muitos erros em uma Rede Neural superficial.

Teoricamente, /v/ é um fricativo, mas acusticamente é um fonema com frequência mais baixa, o que gera algumas dificuldades de assimilação. O buraco é mais embaixo.

Além disso, é importante levar em consideração a "raridade" da combinação de fonemas da wake word. No caso da "Alexa", por exemplo, há de se considerar quantas palavras ou sons são parecidos com o que vem antes do "x" (p. ex. "ex", "Alex", etc). No caso da AVA, ao menos em polonês, há várias palavras que poderiam se sobrepor (p. ex. "kawa", "prawa", "trawa" "café", "direito/lei", "grama").


Resumindo a AVA: escopo da P&D
A assistente de compra virtual fornecida pela AVA conduzirá conversas naturais e improvisadas — usando uma linguagem natural, com todo coloquialismo e significado compreensível apenas por humanos — com clientes de lojas online.

Outras boas práticas

Não há uma única forma certa para se definir palavras de ativação. Como Aliaksei Kolesau e Dmitry Šešok escreveram em seu artigo "Voice Activation Systems for Embedded Devices: Systematic Literature Review" (tradução livre):

Observou-se que as características acústicas e o comprimento das palavras-chave impactam significativamente a qualidade da ativação. Por exemplo, Jansen e Niyogi [paper] demonstram que há uma forte correlação entre a qualidade do trabalho e o comprimento da palavra-chave. No entanto, ainda permanecem as dúvidas sobre quais propriedades uma palavra-chave deve ter para que o sistema possa operar corretamente. Além disso, seria interessante aprofundar as investigações sobre a existência de possíveis regras gerais para a escolha de boas palavras-chave.

O Google Assistant, por exemplo, inicialmente era ativado pelo comando "OK Google Now". No fim, descobriu-se que este comando era simplesmente longo demais. Por outro lado, um comando curto demais também não é desejável, mas abordaremos esta questão logo mais.

Pronúncia padronizada e limitações linguísticas

Outra boa prática é usar wake words que têm grandes chances de serem pronunciadas corretamente em diferentes idiomas.

Hubert: Os fonemas x/gz estão mais presentes em idiomas ocidentais e são mais difíceis para pessoas que falam idiomas sem encontros consonantais por exemplo, muitos coreanos têm dificuldade em falar "bic-sbi" (Bixby). Possivelmente, nestes idiomas, seria melhor inventar algo novo e ainda facilmente detectável.

Independentemente da sua nacionalidade, "Facebook" é uma palavra muito mais fácil de pronunciar corretamente do que "Portal" ou "Oculus". Portanto, este será um comando mais fácil de identificar. Isso se deve tanto por conta de uma menor variação entre sotaques diferentes, e também pela simples familiaridade de uso – afinal, bilhões de pessoas usam o Facebook, enquanto apenas uma minúscula fração disso usa dispositivos Portal ou Oculus.

Sendo sincero, muitas pessoas têm dificuldade em pronunciar "Ou-kei-gú-gol". Eu conheço vários poloneses que quase se engasgaram ao tentar evocar o assistente. Pessoalmente, eu prefiro "Hey Google". É muito mais fácil de se pronunciar.

Então também tem a ver com UX?

No mercado de tecnologia, qualquer vantagem competitiva vale ouro. É a usabilidade que determina se a solução será aceita e utilizada – no fim, o usuário médio sempre tem a razão.

Hey Facebook!

A wake-word "Hey Facebook" parece ser uma ótima frase de ativação. Ela cumpre todos os requisitos mencionados. Além disso, após vários anos de prática usando e falando sobre a rede social, há uma grande probabilidade de que as pessoas pronunciarão corretamente independentemente do idioma nativo (embora certamente haja exceções).

Por outro lado, as boas práticas de wake words também ditam evitar frases que possam gerar falsos negativos e falsos positivos.

Gravações acidentais

Arek: Como indiquei em meu comentário na Nowy Marketing, me parece que a facilidade de "confundir" a wake word com o próprio nome da empresa seja vantajoso para o Facebook, pois assim eles poderão gravar mais conversas "com as mãos limpas".

Embora o Facebook tenha declarado desde o início que não usaria conversas gravadas para refinar o direcionamento de anúncios, depois a empresa esclareceu que poderia, por exemplo, monitorar a frequência e duração das conversas, e certamente outros metadados relacionados ao uso do assistente de voz.

O que é certo é que, caso seus dispositivos se tornem tão populares quanto os de seus concorrentes, o Facebook acumulará ainda mais dados comportamentais dos usuários, e isso certamente será aproveitado no direcionamento de anúncios.

Como será o desempenho do Facebook na corrida das interfaces de voz? Só o tempo dirá!

VoiceDeep learningAVA

Marcin Lewek

Digital marketer and copywrier specialized in Artificial Intelligence, design, and digital marketing itself. Science, and holistic approach enthusiast, after-hours musician, and sometimes actor.