Gigas Blog

O que está a acontecer com a VUI (Interface de Voz)?

Written by gigas | 8/mar/2024 10:00:00

Se há uma área em que a hegemonia da Google está em causa, é no domínio da “Voice User Interface”. Embora o Google Assistant fosse forte no mercado, juntamente com a Alexa da Amazon, o surgimento de ferramentas de inteligência artificial e de processamento de linguagem natural, com a aliança Microsoft - OpenAI e Chat GPT, transformou por completo a realidade das VUI.

A Google pode perder muito terreno na sua hegemonia (quase monopolista) no sector das pesquisas se perder a corrida para uma interface por voz baseada em IA.

Microsoft vs Google vs Amazon 

A Amazon foi uma das primeiras a entrar no mercado das interfaces por voz com a sua assistente virtual Alexa. A Alexa tornou-se um nome familiar e está presente em milhões de lares através de dispositivos como os altifalantes Echo. A Amazon tem estado constantemente a trabalhar para melhorar a Alexa, tanto em termos de compreensão da linguagem natural como de integração com outros dispositivos e serviços. Uma das principais estratégias da Amazon tem sido abrir a sua plataforma a programadores externos através da criação de "Skills" para a Alexa, o que permitiu a terceiros criar aplicações e serviços que tiram partido da tecnologia de voz. 
 
A Google, por seu lado, tem vindo a competir com o seu Assistente Google, que se encontra numa vasta gama de dispositivos, incluindo smartphones Android e colunas inteligentes Google Home. A força do Google no processamento de linguagem natural e o seu acesso a uma quantidade imensa de dados de pesquisa tornaram-no um concorrente de peso. Além disso, a Google tem procurado constantemente melhorar a compreensão contextual e as capacidades de conversação do seu assistente, tornando-o particularmente eficaz a responder a perguntas e a fornecer informações relevantes. 
 
A Microsoft também tem estado envolvida na concorrência da interface por voz com o seu assistente virtual Cortana, embora este não tenha alcançado a mesma proeminência que o Alexa e o Google Assistant nos dispositivos de consumo. Uma medida importante adotada pela Microsoft é a sua parceria com a OpenAI para desenvolver em conjunto tecnologias avançadas de inteligência artificial. Esta colaboração tem por objetivo acelerar a investigação em IA e levar a tecnologia de processamento da linguagem natural a novos níveis. 
 
A Apple introduziu o seu assistente de voz Siri em 2011 com o lançamento do iPhone 4S. A Siri tornou-se um dos primeiros e mais populares assistentes virtuais em dispositivos móveis. A Apple integrou agora a Siri em todos os seus dispositivos, incluindo o iPhone, o iPad, o Apple Watch, o Mac e o HomePod. Além disso, a Apple lançou o altifalante inteligente HomePod, que também inclui a Siri.
 
A interface por voz tem um enorme potencial numa vasta gama de aplicações, desde a casa inteligente e os cuidados de saúde à produtividade no local de trabalho e muito mais; assistentes de voz em smartphones, altifalantes inteligentes e sistemas automóveis, até chatbots e sistemas automatizados de atendimento telefónico. A empresa líder que conseguir desenvolver a tecnologia de voz mais avançada e atraente terá uma vantagem competitiva significativa neste mercado em constante crescimento.
 

Assistentes de voz e modelos atuais de processamento da linguagems

Antes de falarmos da atualidade, vale a pena olhar para trás para compreender os atuais modelos de processamento da linguagem. A história das VUI desenvolveu-se ao longo de várias décadas e registou avanços significativos no processamento da linguagem natural e na tecnologia de inteligência artificial. As décadas de 1950-1960 assistiram às primeiras experiências de reconhecimento de voz. Nesta fase, os sistemas eram muito limitados em termos de vocabulário e de eficácia. Na década de 1970, foram desenvolvidos os primeiros sistemas comerciais de reconhecimento da fala, que se limitavam a aplicações especializadas, como a transcrição médica.
 
Já na década de 1980 se verificou um aumento da investigação no domínio do processamento da linguagem natural e do reconhecimento da fala e, na década de 1990, assistiu-se às primeiras tentativas de incorporar aVUI nos produtos de consumo, como os sistemas de reconhecimento da fala nos telemóveis e o software de ditado vocal nos computadores pessoais.
 
A década de 2000 assistiu ao aparecimento de assistentes virtuais, como a "Siri" da Apple e o "Google Voice Search", que permitem aos utilizadores efetuar pesquisas online e tarefas básicas utilizando comandos de voz. A década de 2010 assistiu também ao aparecimento de assistentes virtuais em dispositivos móveis e altifalantes inteligentes, como o "Alexa" da Amazon, o "Google Assistant" e outros*.
 
Atualmente, os modelos de processamento da linguagem natural (PNL) são a espinha dorsal destes assistentes de voz. Estes modelos permitem que os dispositivos compreendam a linguagem humana e gerem respostas inteligentes. Um dos modelos mais proeminentes é o GPT-3, desenvolvido pela OpenAI. O GPT-3 é um modelo linguístico generativo com 175 mil milhões de parâmetros, o que lhe permite gerar texto com um elevado nível de coerência e realismo.
 
Os assistentes de voz, como a Siri e o Google Assistant, utilizam estes modelos complexos para compreender o discurso dos utilizadores e gerar respostas relevantes. Por exemplo, se pedir à Siri para lhe dizer a previsão meteorológica, o assistente utiliza o PLN para interpretar o seu pedido e obter dados de um serviço de previsão meteorológica para lhe fornecer as informações de que necessita.

A interface por voz do ChatGPT

Numa atualização recente do ChatGPT, a OpenAI lançou uma nova forma de interagir com a sua aplicação viral, a voz. Desta forma, podemos escolher uma das cinco vozes sintéticas e manter uma conversa com o chatbot como se fosse uma chamada, obtendo uma resposta em tempo real às nossas perguntas. Além disso, o ChatGPT também responde a perguntas sobre o que as imagens carregadas mostram.

Esta capacidade de falar com o ChatGPT baseia-se em dois modelos diferentes. Por um lado, o Whisper, o modelo de conversão de voz em texto da OpenAI, através do qual a voz é convertida em texto, que é depois enviado para o chatbot. Por outro lado, um novo modelo de conversão de texto em voz converte as respostas do ChatGPT em palavras vocalizadas.

O ChatGPT inova a cada momento para consolidar a sua liderança e especializar-se em conversas naturais e significativas com os utilizadores através da IA.

O futuro dos dispositivos orientados para a VUI

O futuro dos dispositivos centrados na Interface de Voz do Utilizador (VUI) é entusiasmante e nós, na Gigas, não temos dúvidas do imenso potencial que encerra. À medida que avançamos na tecnologia, podemos ver claramente como esta incrível integração da voz na nossa vida quotidiana se tornará uma realidade mais palpável.
 
Um exemplo que nos fascina é a forma como os comandos de voz estão a transformar a forma como interagimos com os nossos veículos. Os sistemas de infoentretenimento na maioria dos veículos atuais estão a abrir um mundo de possibilidades. Podemos imaginar os condutores a utilizar comandos de voz para regular a temperatura, selecionar a música perfeita ou mesmo navegar com o GPS de uma forma muito mais simples e segura. Com o avanço constante da tecnologia de processamento de linguagem natural, estamos convencidos de que assistiremos a uma sofisticação ainda maior destes sistemas, o que tornará a experiência de condução mais suave e, acima de tudo, mais segura.
 
Passando para a esfera mais orientada para as empresas, não podemos deixar de mencionar a influência dos chatbots e do atendimento telefónico automatizado e o seu crescente aperfeiçoamento. Estes sistemas proporcionam um serviço muito eficiente aos clientes e facilitam muito o atendimento correto por parte das empresas.
 
Além disso, estamos entusiasmados com a crescente popularidade dos avatares virtuais que interagem por voz em sítios Web e aplicações. Estes avatares oferecem uma experiência de serviço ao cliente personalizada e cativante que é simplesmente fantástica. Na nossa opinião, o futuro destes avatares incluirá uma integração mais profunda de modelos linguísticos avançados, como o ChatGPT, para fornecer respostas mais contextuais, conversacionais e úteis aos utilizadores

Capacidade de interação por voz

LA capacidade de interagir com dispositivos através da voz é espantosa. Com os avanços no processamento de linguagem natural, estamos a assistir a dispositivos que compreendem e respondem ao discurso humano de uma forma cada vez mais natural e eficaz. Este facto tem um impacto imenso em muitas áreas das nossas vidas, e aqui estão algumas que nos tocam pessoalmente devido às suas repercussões sociais:
 
-       No sector da educação, adoramos a ideia de que os assistentes de voz podem ajudar os alunos a procurar informações, responder a perguntas e fornecer tutoriais sobre uma grande variedade de assuntos. Além disso, modelos linguísticos como o ChatGPT estão a abrir a porta para que os alunos realizem pesquisas e desenvolvam as suas competências de escrita de forma mais eficaz.
-       Acessibilidade: A interação vocal desempenha um papel crucial para tornar a tecnologia acessível às pessoas com deficiência. A possibilidade de as pessoas com deficiências visuais ou motoras utilizarem a voz para navegar na Web, interagir com aplicações e controlar dispositivos confere-lhes maior independência e autonomia, o que é verdadeiramente inspirador.
-       Nos cuidados de saúde, a interação por voz pode mudar as nossas vidas. A capacidade de monitorizar o estado de saúde dos doentes através de dispositivos conectados que utilizam comandos de voz é um desenvolvimento empolgante. Isto facilita a monitorização de doenças crónicas e sinais vitais, bem como o fornecimento de lembretes de medicação e a marcação de consultas médicas de forma mais eficaz. A tecnologia pode realmente fazer a diferença no bem-estar das pessoas, e isso é algo que me toca profundamente.

O futuro da VUI

A VUI percorreu um longo caminho desde os primeiros sistemas de reconhecimento de voz que mal conseguiam compreender comandos simples. Atualmente, os assistentes de voz, como a Siri, o Assistente Google, a Cortana ou a Alexa, são capazes de realizar uma vasta gama de tarefas, desde a pesquisa de informações em linha até ao controlo de dispositivos domésticos inteligentes. No entanto, o domínio da interface por voz continua a evoluir e a melhorar diariamente, ainda há um longo caminho a percorrer e as possibilidades são infinitas.
 
Um dos desenvolvimentos mais promissores a longo prazo é a utilização de modelos de processamento de linguagem natural (PNL) de última geração. Estes modelos, como o GPT-3 e o GPT-4, são capazes de compreender e gerar linguagem natural de uma forma notável. Isto significa que os assistentes de voz e os chatbots são cada vez mais capazes de ter conversas mais naturais e contextuais com os utilizadores. Estes modelos são treinados em grandes conjuntos de dados de texto, o que lhes permite compreender melhor o significado por detrás das palavras e gerar respostas coerentes.
 
Além disso, a interface por voz está a avançar em termos de personalização. Os assistentes de voz podem aprender com as interações anteriores com os utilizadores e adaptar as suas respostas e ações com base nas preferências e necessidades individuais. Isto torna a experiência mais pessoal e útil para cada utilizador.
 
À medida que a tecnologia continua a avançar, é provável que assistamos a uma maior integração da interface por voz na nossa vida quotidiana e a uma melhoria constante da compreensão e da capacidade de resposta dos sistemas de voz. Com o tempo, esta tecnologia continuará a desempenhar um papel fundamental na forma como interagimos com o mundo digital e físico que nos rodeia. É por isso que temos de nos manter atualizados com informações em tempo real sobre a evolução dos diferentes assistentes devido à constante evolução a que estão sujeitos.

Gigas é um grupo internacional, fundado em 2011, especializado na prestação de serviços de comunicações convergentes e integradas e de serviços cloud para empresas. Com 9 centros de dados na Europa e na América Latina, e escritórios em 8 países, a Gigas especializou-se em oferecer Tranquilidade como um Serviço aos seus clientes.

Dispomos de Datacenters Tier III, IV e ICREA 5 localizados em Madrid, Barcelona, Dublin, Miami, Santiago do Chile, Bogotá, Lisboa e Porto, com a segurança de ter os seus dados em Espanha e oferecendo um ambiente e conetividade globais.