¿Qué está pasando con la VUI (Interfaz de Voz)?

Si hay un ámbito en el que la hegemonía de Google esté en entredicho ese es el campo de la “Voice User Interface”. Aunque Google Assistant estaba fuerte en el mercado junto con Alexa de Amazon, la irrupción de la inteligencia artificial y las herramientas de procesamiento natural del lenguaje, con la alianza Microsoft - OpenAI y Chat GPT, han dado un vuelco a la carrera por la VUI.

Google podría perder muchos enteros en su hegemonía (casi monopolística) en el sector de las búsquedas si pierde la carrera por una interfaz por voz dirigida por inteligencia artificial.

Microsoft vs Google vs Amazon

Amazon fue uno de los primeros en llegar al mercado de la interfaz por voz con su asistente virtual Alexa. Alexa se ha convertido en un nombre familiar y ha encontrado su camino en millones de hogares a través de dispositivos como los altavoces Echo. Amazon ha trabajado constantemente en la mejora de Alexa, tanto en términos de comprensión del lenguaje natural como en la integración con otros dispositivos y servicios. Una de las estrategias clave de Amazon ha sido abrir su plataforma a desarrolladores externos a través de la creación de "Skills" para Alexa, lo que ha permitido a terceros crear aplicaciones y servicios que aprovechen la tecnología de voz.

Google, por su parte, ha estado compitiendo con su Asistente de Google, que se encuentra en una amplia gama de dispositivos, incluidos teléfonos inteligentes Android y altavoces inteligentes Google Home. La fortaleza de Google en el procesamiento de lenguaje natural y su acceso a una inmensa cantidad de datos de búsqueda lo han convertido en un gran competidor. Además, Google ha buscado constantemente mejorar la comprensión contextual y la capacidad de conversación de su asistente, lo que lo hace especialmente efectivo para responder preguntas y brindar información relevante.

Microsoft también ha estado involucrado en la competencia por la interfaz por voz con su asistente virtual Cortana, aunque no ha alcanzado la misma prominencia que Alexa y Google Assistant en los dispositivos de consumo. Un movimiento importante que ha realizado Microsoft es su asociación con OpenAI para desarrollar conjuntamente tecnologías avanzadas de inteligencia artificial. Esta colaboración tiene como objetivo acelerar la investigación en IA y llevar la tecnología de procesamiento de lenguaje natural a nuevos niveles.

Apple presentó su asistente de voz Siri en 2011 con el lanzamiento del iPhone 4S. Siri se convirtió en uno de los primeros asistentes virtuales más populares en dispositivos móviles. En la actualidad Apple ha integrado Siri en todos sus dispositivos, como iPhone, iPad, Apple Watch, Mac y HomePod. Además, Apple lanzó el altavoz inteligente HomePod, que también incorpora Siri.

La interfaz por voz tiene un potencial inmenso en una amplia gama de aplicaciones, desde el hogar inteligente y la atención médica hasta la productividad en el lugar de trabajo y más allá; asistentes de voz en teléfonos inteligentes, altavoces inteligentes y sistemas de automóviles, hasta chatbots y sistemas de atención telefónica automatizada. La empresa puntera que logre desarrollar la tecnología de voz más avanzada y convincente tendrá una ventaja competitiva significativa en este mercado en continuo crecimiento.

 

Los asistentes por voz y los modelos de procesamiento del lenguaje actuales

Antes de que hablemos del momento actual conviene echar una mirada atrás para comprender los modelos de procesamiento del lenguaje de hoy en día. La historia de las VUI se ha desarrollado a lo largo de varias décadas y ha experimentado avances significativos en la tecnología del procesamiento del lenguaje natural y la inteligencia artificial. En la década de   1950-1960 surgen los primeros experimentos en reconocimiento de voz. En esta etapa los sistemas eran muy limitados en términos de vocabulario y eficiencia. En los años 70 se desarrollaron los primeros sistemas comerciales de reconocimiento de voz, que se limitaban a aplicaciones especializadas, como la transcripción médica.

Ya en la década de 1980 se produjo un aumento en la investigación en el procesamiento del lenguaje natural y el reconocimiento de voz, y en los años 90 se vieron los primeros intentos de incorporar VUI en productos de consumo, como sistemas de reconocimiento de voz en teléfonos móviles y programas de dictado por voz en computadoras personales.

En los años 2000 surgen los asistentes virtuales como "Siri" de Apple y "Google Voice Search", los cuales permiten a los usuarios realizar búsquedas en línea y realizar tareas básicas mediante comandos de voz. En la década de 2010 surgen también los asistentes virtuales en dispositivos móviles y altavoces inteligentes, como "Alexa" de Amazon, "Google Assistant" y otros*.

Actualmente, los modelos de procesamiento del lenguaje natural (PLN) son la columna vertebral de estos asistentes de voz. Estos modelos permiten que los dispositivos comprendan el lenguaje humano y generen respuestas inteligentes. Uno de los modelos más destacados es GPT-3, desarrollado por OpenAI. GPT-3 es un modelo de lenguaje generativo con 175 mil millones de parámetros, lo que le permite generar texto con un gran nivel de coherencia y realismo.

Los asistentes de voz, como por ejemplo Siri y Google Assistant, utilizan estos complejos modelos para comprender el habla de los usuarios y generar respuestas relevantes. Por ejemplo, si le pides a Siri que te diga el pronóstico del tiempo, el asistente utiliza el PLN para interpretar tu solicitud y recuperar datos de un servicio de pronóstico del tiempo para proporcionarte la información que necesitas.

 

La interfaz por voz de ChatGPT

En una actualización reciente de ChatGPT, OpenAI ha lanzado una nueva forma de interactuar con su aplicación viral, la voz. De esta forma podremos elegir una de las cinco voces sintéticas y mantener una conversación con el chatbot como si fuera una llamada, obteniendo contestación en tiempo real a nuestras preguntas. Además, ChatGPT también responde a preguntas sobre lo que muestras las imágenes que subamos. 

Esta capacidad de hablar con ChatGPT se basa en dos modelos distintos. Por un lado, Whisper, el modelo de voz a texto de OpenAI, mediante el cual se convierte lo hablado en un texto, que posteriormente se envía al chatbot. Por otro lado, un nuevo modelo de texto a voz convierte las respuestas de ChatGPT en palabras orales.

ChatGPT innova cada momento para consolidar su liderazgo y especializarse en las conversaciones naturales y significativas de la IA con los usuarios.

 

El futuro de los dispositivos orientados a la VUI

El futuro de los dispositivos centrados en la Interfaz de Voz del Usuario (VUI) es emocionante y en Gigas no nos cabe duda del inmenso potencial que tiene. A medida que avanzamos en la tecnología, podemos ver claramente cómo esta increíble integración de la voz en nuestra vida cotidiana se convertirá en una realidad más palpable. 

Un ejemplo que nos fascina es cómo los comandos de voz están transformando la forma en que interactuamos con nuestros vehículos. Los sistemas de infoentretenimiento en la mayoría de los vehículos de hoy en día están abriendo un mundo de posibilidades. Podemos imaginar a los conductores utilizando comandos de voz para ajustar la temperatura, seleccionar la música perfecta o incluso navegar con GPS de una manera mucho más sencilla y segura. Con el avance constante en la tecnología de procesamiento de lenguaje natural, estamos convencidos de que veremos una sofisticación aún mayor en estos sistemas, lo que hará que la experiencia de conducir sea más fluida y sobre todo más segura.

Volviendo al ámbito más empresarial, no podemos evitar mencionar la influencia que los chatbots y la atención telefónica automatizada suponen, y su creciente perfeccionamiento. Estos sistemas brindan un servicio muy eficiente a los clientes y facilitan mucho la labor de las compañías para atenderlos correctamente. 

Además, nos entusiasma la creciente popularidad de los avatares virtuales que interactúan por voz en sitios web y aplicaciones. Estos avatares ofrecen una experiencia de atención al cliente personalizada y atractiva que es simplemente genial. En nuestra opinión, el futuro de estos avatares incluirá una integración más profunda de modelos de lenguaje avanzados, como ChatGPT, para brindar respuestas más contextuales, conversacionales y útiles a los usuarios.

 

La capacidad de interacción por voz

La capacidad de interactuar con dispositivos a través de la voz es asombrosa. Con los avances en el procesamiento del lenguaje natural, estamos viendo cómo los dispositivos comprenden y responden al habla humana de una manera cada vez más natural y efectiva. Esto tiene un impacto inmenso en diversas áreas de nuestras vidas, y aquí hay algunas que nos emocionan de manera personal por su repercusión social:

    • En el ámbito de la educación, nos encanta la idea de que los asistentes de voz puedan ayudar a los estudiantes a buscar información, responder preguntas y brindar tutorías en una amplia variedad de temas. Además, los modelos de lenguaje como ChatGPT están abriendo la puerta para que los estudiantes realicen investigaciones y desarrollen sus habilidades de escritura de manera más efectiva.
    • La accesibilidad: La interacción por voz desempeña un papel crucial en hacer que la tecnología sea accesible para personas con discapacidades. La posibilidad de que las personas con discapacidades visuales o motoras utilicen la voz para navegar por la web, interactuar con aplicaciones y controlar dispositivos, les brinda una mayor independencia y autonomía, lo cual es realmente inspirador.
    • En el campo de la atención médica, la interacción por voz puede cambiar nuestras vidas. La capacidad de realizar un seguimiento de la salud de los pacientes a través de dispositivos conectados mediante comandos de voz es una evolución emocionante. Esto facilita la monitorización de enfermedades crónicas y signos vitales, y también permite proporcionar recordatorios de toma de medicamentos y programar citas médicas de manera más efectiva. La tecnología realmente puede marcar la diferencia en el bienestar de las personas, y eso es algo que me toca profundamente.

 

El futuro de la VUI

La VUI ha recorrido un largo camino desde los primeros sistemas de reconocimiento de voz que apenas podían entender comandos simples. Hoy en día, los asistentes de voz como Siri, Google Assistant, Cortana o Alexa son capaces de realizar una amplia gama de tareas, desde buscar información en línea hasta controlar dispositivos domésticos inteligentes. Sin embargo, el campo de la interfaz por voz sigue evolucionando y mejorando día a día, queda camino por recorrer y las posibilidades son infinitas.

Uno de los desarrollos que más recorrido a largo plazo tiene es el uso de modelos de procesamiento del lenguaje natural (PLN) de última generación. Estos modelos, como GPT-3 y GPT-4, son capaces de comprender y generar lenguaje natural de manera extraordinaria. Esto significa que los asistentes de voz y los chatbots pueden mantener cada vez en mayor medida, conversaciones más naturales y contextuales con los usuarios. Estos modelos son entrenados en enormes conjuntos de datos de texto, lo que les permite comprender mejor el significado detrás de las palabras y generar respuestas coherentes.

Además, la interfaz por voz está avanzando en términos de adaptación y personalización. Los asistentes de voz pueden aprender de las interacciones previas con los usuarios y adaptar sus respuestas y acciones en función de las preferencias y necesidades individuales. Esto hace que la experiencia sea más personal y útil para cada usuario.

A medida que la tecnología continúa avanzando, es probable que veamos una mayor integración de la interfaz por voz en nuestra vida cotidiana y una mejora constante en la capacidad de comprensión y respuesta de los sistemas de voz. Con el tiempo, esta tecnología seguirá desempeñando un papel fundamental en la forma en que interactuamos con el mundo digital y físico que nos rodea. Es por ello, que debemos mantenernos actualizados con información en tiempo real sobre la evolución de los distintos asistentes debido a la constante evolución a la que están sometidos. 

 

Gigas es un grupo internacional que nació en 2011 y se ha especializado en la prestación de servicios convergentes e integrales de comunicaciones y cloud para empresas. Con 9 centros de datos repartidos entre Europa y Latinoamérica y oficinas en 8 países, Gigas se ha convertido en especialista en entregar Tranquilidad as a Service a sus clientes. 

Disponemos de Datacenters Tier III, IV e ICREA 5 situados en Madrid, Barcelona, Dublin, Miami, Santiago de Chile, Bogotá, Lisboa y Oporto con la seguridad que ofrece tener tu dato en España además de ofrecer un entorno y una conectividad global.

Compartir