¿Qué es el GPT-3?, un audio que resume el siguiente artículo de divulgación sobre la última novedad en Inteligencia Artificial que está sorprendiendo incluso a los científicos que trabajan en ese área.

 

 

Quizás ya lo hayas visto en las noticias: Hay un nuevo modelo de Inteligencia Artificial (IA) llamado GPT-3 que está listo para conquistar el mundo. Este modelo de IA es tan “inteligente” que puede escribir artículos que parecen hechos por humanos, responder cualquier pregunta y resolver cualquier problema. Destruirá millones de empleos, y puede generar código fuente, por lo que incluso los desarrolladores de software ahora están amenazados. Algunos ven este avance como si fuese el despertar de Skynet.

Terminator
Algunos medios ya están comparando al GPT-3 con Terminator. Copyright de la imagen: Skydance Media.

¿Estamos al inicio de una nueva era? ¿O es solo humo? ¿Cuál es el alcance real del modelo GPT-3? Trataré de responder estas preguntas. Comencemos por el principio, ¿qué es GPT-3? GTP-3 significa Generative Pre-Trained Transformer 3 y es la tercera generación de un modelo de IA desarrollado por el grupo OpenAI. Su objetivo principal es predecir el texto dada una pequeña introducción o un pedido. Si uno le dice a GPT-3: “Por favor, escriba un poema”, escribirá un poema, si escribe el primer párrafo de un artículo de noticias, se completará el resto. ¿Quiere ver cómo se ve un texto producido por GTP-3? Aca hay este ejemplo (por el momento funciona solo en inglés):

After two days of intense debate, the United Methodist Church has agreed to a historic split – one that is expected to end in the creation of a new denomination, one that will be “theologically and socially conservative,” according to The Washington Post. The majority of delegates attending the church’s annual General Conference in May voted to strengthen a ban on the ordination of LGBTQ clergy and to write new rules that will “discipline” clergy who officiate at same-sex weddings. But those who opposed these measures have a new plan: They say they will form a separate denomination by 2020, calling their church the Christian Methodist denomination.
The Post notes that the denomination, which claims 12.5 million members, was in the early 20th century the “largest Protestant denomination in the U.S.,” but that it has been shrinking in recent decades. The new split will be the second in the church’s history. The first occurred in 1968, when roughly 10 percent of the denomination left to form the Evangelical United Brethren Church. The Post notes that the proposed split “comes at a critical time for the church, which has been losing members for years,” which has been “pushed toward the brink of a schism over the role of LGBTQ people in the church.” Gay marriage is not the only issue that has divided the church. In 2016, the denomination was split over ordination of transgender clergy, with the North Pacific regional conference voting to ban them from serving as clergy, and the South Pacific regional conference voting to allow them.

No está tan mal. A primera vista, no es fácil detectar que esto fue hecho por un bot. De hecho, solo el 12% de los sujetos evaluados se dieron cuenta de que este texto no era un artículo generado por humanos. Decir que GPT-3 solo produce texto es no apreciar todo lo que puede hacer, ya que también es capaz de razonar con sentido común al responder preguntas hechas en lenguaje natural.
Tomemos, por ejemplo, la pregunta “¿Cómo aplicar sellador a la madera?”, puede responder “Con un cepillo, aplique el sellador sobre la madera hasta que esté completamente saturado con el sellador”. Para hacer esto, debe comprender la pregunta, de modo que pueda responder usando los datos los datos del entrenamiento. También puede elegir una respuesta de las opciones de opción múltiple.
Para la pregunta: “¿Qué factor probablemente hará que una persona desarrolle fiebre?” y las siguientes respuestas tentativas:

a) a bacterial population in the bloodstream
b) a leg muscle relaxing after exercise
c) several viral particles on the skin
d) carbohydrates being digested in the stomach

Puede identificar la respuesta correcta (a en este caso).
Incluso uno puede proporcionar ejemplos a GPT-3 para enseñarle nuevos trucos. Hay una demostración en la que un desarrollador le muestra al modelo una pregunta en inglés cotidiano y su equivalente en lenguaje SQL. Luego puede preguntar: “¿Cuántos usuarios se han registrado desde principios de 2020?”, y el modelo responderá con la consulta SQL necesaria para responder a esta pregunta:

SELECT count(id) FROM users created_at > ‘2020-01-01’

Esta traducción del “lenguaje humano” a código se ha aplicado a HTML, Python y otros. Es por eso que algunas personas piensan que los programadores no serán necesarios en el futuro.
Puede extraer puntos clave de un texto, traducir texto de otros idiomas al inglés e incluso desde “jerga legal” al inglés. Estas son algunas de las habilidades de este modelo, la mayoría de ellas se describen en el preprint de GPT-3 (preprint es un artículo científico que aún no ha sido revisado por los pares), aunque esperamos que próximamente se le agreguen nuevas habilidades.
¿Cómo logra el modelo todas estas tareas aparentemente diversas? Los detalles del funcionamiento interno si están fuera del alcance de este artículo, es suficiente decir que el modelo fue entrenado con 175 mil millones de parámetros usando 45 Tb de texto comprimido de diferentes fuentes (artículos de noticias, artículos de Wikipedia, recetas, libros, poemas y más). Un conjunto de datos de este tamaño es una mejora de aproximadamente 10 veces respecto a los modelos anteriores. La mayoría de las tareas mejoraron la precisión en proporción con el tamaño de los datos de entrenamiento como se puede ver en el siguiente cuadro:

Gráfico de performance
GPT-3 mejora su performance a medida que tiene mas parámetros de entrenamiento. Fine-tuned SOTA significa “Estado del arte”, esto es, el mejor modelo conocido hasta ahora. Fuente: rXiv:2005.14165

Todas estas capacidades no están exentas de posibles problemas. La destrucción de empleos ya mencionada es el mas evidente. Este modelo podría ser utilizado por malos actores para crear contenido de spam, cometer fraudes y estafas como fake news y revisiones falsas a escala y otros usos que ni siquiera podemos imaginar en este momento. Los autores no son ingenuos y reconocen que esta tecnología puede ser abusada. Otro inconveniente de esta IA es la huella energética. El entrenamiento del modelo siempre consume más energía que el proceso de inferencia, pero el entrenamiento se realiza una vez, mientras que la inferencia se realiza varias veces por segundo. Según OpenAI, el modelo consume alrededor de 0,4 Kw / h por cada 100 páginas de texto producido.
También deberíamos mencionar la posibilidad de prejuicios y racismo habilitados por la IA. Probaron que el texto generado relacionado con el género, la raza y la religión estaba sesgado hacia las mujeres, los afroamericanos y el islamismo. La IA reproduce el sesgo que encuentra en el corpus de texto que usa para entrenar.
De acuerdo con las nuevas capacidades que GPT-3 ofrece, ¿está justificado el entusiasmo por este nuevo modelo? Las demos que andan circulando tienden a mostrar lo que funciona y no lo cuando falla. Cuando un texto generado es lo suficientemente largo, comienza a perder coherencia e incurre en contradicciones y otras falacias lógicas. El preprint hace extensas comparaciones con otros modelos. Cuando se compara cada tarea dada de GPT-3 con IAs de tareas especializadas, el resultado no es tan claro. En la mayoría de las comparaciones individuales, el nuevo modelo a veces está retrasado y a veces tiene el mismo rendimiento, en algunos casos, GPT-3 supera a la competencia. Si la mayoría de las veces es más débil o casi igual que la competencia, ¿por qué tanta publicidad? GPT-3 es el único modelo que puede abordar tantos problemas con un solo enfoque, y esto es realmente impresionante.

Esta es una nueva tecnología prometedora, es demasiado pronto para saber si será la próxima gran novedad o solo una moda pasajera. Lo más probable es que los grandes proveedores de la nube (AWS, Azure, GCP e IBM) preparen un servicio como este. El costo de CPU y GPU para entrenar GPT-3 se estima en alrededor de 5 a 10 millones de dólares, por lo que no cualquiera puede entrar en el juego. Estamos a una killer app de distancia para que esto sea una empresa exitosa y de una metida de pata como el chatbot de Microsoft “Tay” para que se cree legislación en su contra. Mientras tanto, mi consejo para los desarrolladores de software es solicitar un lugar en la lista de espera de OpenAI para estar listo para probar esta tecnología tan pronto como esté disponible.

Fuente: GPT-3 What’s up, de Toyoko.io (https://www.toyoko.io/gpt-3-whats-up/)