Áudio

A evolução das tecnologias de reconhecimento de voz permite ditar comandos para smartphones, ou dispositivos “IoT”, e obter uma única resposta com elevado grau de precisão. Como exemplo, o “Google Now” tem atualmente uma taxa reconhecimento de 92%, o que representa uma grande melhoria em relação aos 75% de reconhecimento de palavras que existia em 2012.

Existem disponíveis diversos codecs de áudio que podem ser usados para codificação do sinal de voz no comando, de modo a reduzir a quantidade dados a transmitir e também para descodificar áudio proveniente da set-top-box ou smartTV.

Figura 1 – Qualidade na gama de débitos úteis [1].

Como se pode verificar na Figura 1, em geral, o Opus consegue apresentar igual ou melhor desempenho que os principais codecs atualmente em uso, numa gama de débitos binários muito alargada e com atrasos menores.

A inclusão da funcionalidade de comandos de voz num telecomando para TV representa um avanço na inovação tecnológica no que respeita à codificação e transmissão de áudio, com fortes restrições de consumo de energia e compromisso com qualidade aceitável, não sendo suposto efetuar carregamentos com a frequência de um smartphone, por exemplo. O balanço entre os consumos de energia para processamento e comunicação, constitui um dos desafios da tecnologia a desenvolver, já que deste compromisso fica a depender a autonomia do dispositivo e qualidade de experiência proporcionada aos utilizadores. Esta qualidade de utilização traduz-se num reconhecimento de voz sem erros, permitindo a execução da tarefa pretendida na Smart TV.

O caso de telecomandos de TV com capacidade para transmitir áudio por comandos de voz inclui-se em recentes inovações introduzidas por operadores de telecomunicações por forma a facilitar a pesquisa de conteúdos multimédia dentro das suas plataformas. Os smartphones também não substituem os telecomandos pois os utilizadores sentem-se confortáveis em utilizar dispositivos diferenciados para as várias tarefas, tendo este facto sido reconhecido pelas grandes empresas ao apresentarem produtos que incluem os “vulgares” telecomandos.

Deste modo o desenvolvimento de um telecomando com capacidade de comunicação áudio bidirecional, e com qualidade suficiente para reconhecimento e reprodução de voz, representa uma funcionalidade diferenciadora e inovadora no mercado mundial. Adicionalmente a inclusão de microfones direcionais permitem selecionar a fonte de áudio e garantir a redução do ruído típico no uso em sala de estar e aumentando a distância máxima entre o locutor e o comando. A integração deste telecomando com a API da Google ou da Microsoft, para além de constituir uma inovação útil, permite potenciar novas áreas de negócio associadas a recolha automática de perfis de utilização/utilizadores.

Objetivos para esta vertente:

  • Colaboração na definição das especificações técnicas e requisitos do sistema de aquisição e comunicações de áudio.
  • Desenvolvimento do software e integração do sistema de comunicação.
  • Testes funcionais e ensaios de desempenho com validação de um protótipo.

Para perceber o consumo energético e o tempo de processamento associado a um determinado modo de codificação de áudio (presente no tele-comando) é necessário variar estes modos monitorizando as grandezas anteriormente mencionadas. Para esta monitorização foi já implementado o codificador Opus nas placas de desenvolvimento CC1642R1 e TM4C129x, apresentadas na figura abaixo respetivamente:

Para efetuar os testes anteriormente mencionados será necessária a aquisição de um dataset de comandos de voz, este irá ser composto por conteúdo de interação Homem-Tv, como por exemplo “Muda para o canal 51” e será o mais variado possível, abrangendo assim ambos os sexos e mais larga escala de idades. Durante esta aquisição o locutor terá o dispositivo de gravação na mão, a fim de simular a utilização de um tele-comando, este dispositivo está presente na imagem seguinte:


[1] Xiph.Org Foundation, 2014. [Online]. Available: https://xiph.org/flac/index.html. [Acedido em 2019].