La inteligencia artificial va a descartar los modelos de respuesta estadística limitada por unos de “pensamiento” y aprendizaje

Hace relativamente poco que la inteligencia artificial de Alexa y Siri llegaron nuestras vidas para cambiar algunas cosas. De la tecnología táctil, pasamos a manejar tecnología por patrones de voz aunque es cierto que de momento tampoco es que nos hagan la vida mucho más fácil. Sus patrones están todavía muy limitados a ciertas órdenes concretas, y aunque son capaces de ejecutar, no son capaces de comprender. Por supuesto, el aprendizaje y la comprensión son el siguiente paso hacia una inteligencia artificial que nos comprenda, nos lea, y sea capaz de cambiar la acción de contestar, por la de conversar.

Todo está encaminado a que en un futuro muy cercano estos sistemas serán capaces por sí solos de realizar tareas que nos resultan tediosas como tomar notas en reuniones, tomar apuntes o hacer compras vía internet.

A día de hoy las contestaciones de estos sistemas en su mayoría se generan de forma estadística o van predefinidas, pero ya existen algunos más avanzados como Google Duplex, capaz de contestar llamadas y detectar si son vendedores telefónicos, o efectuar reservas y citas en los lugares que le indiquemos. Lo mismo pasa con AliMe de la compañía china Alibaba, que regatea precios a través de un sistema de chat y es capaz de coordinar entregas de pedidos por vía telefónica.

Algo curioso de estos sistemas es lo mucho que se asemejan a los patrones de voz humanos. En el caso de Duplex parece que estemos hablando con una persona de verdad, lo que en el futuro podría dar lugar a crear sistemas de aprendizaje en escuelas o darles utilidades más allá como involucrarlos en los procesos de toma de decisiones.  En este sendero caminan empresas como Google, Microsoft y la líder del momento, Baidu, que ha desarrollado un novedoso modelo llamado ERNIE.

Lo que los ha hecho desmarcarse en la competición del lenguaje natural de estas dos macroempresas, ha sido la incorporación a su proceso de una técnica llamada enmascaramiento. Consiste en la ocultación aleatoria del 15% de las palabras para luego tratar de predecirlas mediante el análisis de contexto. Esto otorga al sistema el doble de pistas para trabajar, haciéndolo más preciso. Esta técnica de enmascaramiento viene del sistema BERT de Google, predecesor del presentado por la empresa china.

Fue donde realmente se dio un paso hacia adelante en la tecnología de la comprensión. Hasta la aparición de BERT, los modelos para expresar lenguaje natural eran capaces de predecir la siguiente palabra en una frase, resultando útiles en en funciones de autocompletado, pero no podían entender un hilo de pensamiento o un párrafo, por la ambigüedad de algunas palabras como “esto o aquello”.

Estos predecesores a BERT y ERNIE eran unidireccionales, pues basaban sus predicciones en el contexto anterior o posterior de esa palabra, pero no en ambos a la vez, cosa que hizo por primera vez el modelo de Google convirtiendo esas predicciones en bidireccionales.

Cuando los creadores de ERNIE estaban en pleno desarrollo de su modelo de lenguaje, quisieron aprovechar este avance del enmascaramiento y adaptarlo al idioma chino, pues BERT se desarrolló en inglés. Y fue ésta la clave del éxito. Las palabras aisladas de un texto en inglés, tienen significado propio. Pero en chino, el significado de la mayoría de los caracteres depende del que los precede. En este marco los investigadores de ERNIE lo entrenaron para que ocultara caracteres aleatoriamente en vez de símbolos, y para diferenciar las series aleatorias de las que tienen significado.

El resultado fue un sistema capaz de hacer predicciones más completas basándose en el significado en lugar de en la estadística sobre el uso de las palabras. Se consiguió una ampliación de la comprensión de cómo es codificada la información a través de las palabras en chino y un mayor índice de precisión a la hora de determinar las que faltaban, aplicación que se puede adaptar al inglés en esos contextos en los que las palabras por separado significan cosas distintas que en una oración compuesta, como puede ser por ejemplo una frase hecha o nombres propios.

Para comprobar qué sistema era el más competente en éste ámbito se utilizó el modelo GLUE (Evaluación de la comprensión del lenguaje), un indicador muy reconocido que evalúa el nivel de comprensión de una inteligencia artificial del lenguaje humano. El puntaje estándar de un humano sometido a estas pruebas está en torno a 87 puntos sobre 100. ERNIE logró superar los 90 puntos.

También utiliza otras técnicas de entrenamiento que le permiten almacenar información de manera que puede aprender nuevas tareas con nuevos datos sin olvidar los anteriores, o comprender la progresión lógica de un párrafo. Este sistema ya está operando en cuestiones de ofrecer resultados de búsqueda más óptimos, suprimir artículos duplicados en su base de datos y ha mejorado las respuestas de Xiao Du, el sistema de inteligencia artificial de Baidu.

La aplicación del enmascaramiento a los modelos de inteligencia artificial está siendo clave en las mejoras relacionadas con el lenguaje natural, de manera que ya hay modelos capaces de escribir textos sin equivocaciones o mantener una conversación. La evolución de Siri y Alexa ya forma parte del presente.