Cómo Afecta El Reglamento De IA a Los Modelos De Lenguaje

rw-book-cover

Metadata

Author: Pablo Haya
Full Title: Cómo Afecta El Reglamento De IA a Los Modelos De Lenguaje
URL: https://www.iic.uam.es/innovacion/primer-reglamento-inteligencia-artificial-del-mundo-claves-para-modelos-de-lenguaje/

Highlights

El Reglamento Europeo de Inteligencia Artificial (en inglés AI Act) es una realidad. El Consejo de la UE ya ha dado su aprobación definitiva a un texto revisado, corregido y traducido a las lenguas de los veintisiete. Esta supone un hito en esta materia, ya que es el primer marco regulatorio de esta tecnología en el mundo. (View Highlight)
Además de sentar un precedente, el objetivo es proteger los derechos de los ciudadanos a la vez que se impulsa la innovación en la industria europea. Es por esto que el reglamento tiene un carácter práctico y establece varios niveles de riesgo de los sistemas de IA según su impacto en la sociedad, con los requisitos que deben cumplir y hasta la prohibición de algunos de ellos. (View Highlight)
El proceso que se abre con la aprobación del Reglamento de Inteligencia Artificial se asemeja al que vivimos de 2016 a 2018, cuando se aplicó el Reglamento General de Protección de Datos (RGPD) en toda la UE. Antes de la implantación del RGPD, en España teníamos la Ley Orgánica de Protección de Datos (LOPD) de 1999 y el reglamento de desarrollo de la misma (RD 1720/2000). (View Highlight)
La puesta en marcha del nuevo Reglamento de IA durará también dos años. No es necesario aprobar una ley de inteligencia artificial nacional que adapte el reglamento europeo, ya que es de aplicación directa en todos los Estados miembros. Sin embargo, es probable que se tengan que reformar leyes como la Ley de Protección Intelectual (LPI) para regular los nuevos usos de la IA Generativa. (View Highlight)
Lo que sí se puede garantizar es la criticidad de la Agencia Española de Supervisión de la Inteligencia Artificial (AESIA) en la aplicación del Reglamento de IA. En línea con las declaraciones de la nueva secretaria de Digitalización e Inteligencia Artificial, Mayte Ledo, que señalaba a la AESIA como un actor fundamental en este nuevo marco regulatorio. (View Highlight)
Actualmente hay un proceso abierto para la selección del que será director o directora de esta agencia nacional, ubicada en La Coruña. Esta persona va a tener que asumir importantes retos en un entorno tecnológico que está en constante cambio. A diferencia de la Agencia Española de Protección de datos (AEPD), que llevaba 25 años en funcionamiento cuando se implantó el RGPD en España, el futuro director tendrá que levantar la AESIA desde los cimientos. (View Highlight)
En este contexto, la AESIA deberá afrontar múltiples desafíos de cara a la aplicación del Reglamento Europeo de Inteligencia Artificial. Como profesional implicado en el desarrollo de modelos del lenguaje de gran tamaño (LLM, del inglés Large Language Models) y soluciones basadas en los mismos, me gustaría destacar dos: • Protección de los derechos de autor, que plantea cuestiones fundamentales sobre la propiedad intelectual y la protección de la creatividad. • Mitigación de los sesgos, que introducen la preocupación crucial por la imparcialidad y la equidad en la toma de decisiones. (View Highlight)
Los LLM se encuadran dentro de lo que en el reglamento se denomina «IA de uso general». Estos modelos se distinguen porque realizan de manera autónoma y competente una amplia variedad de tareas diferenciadas relacionadas con el lenguaje natural. Los grandes modelos de IA generativa son un buen ejemplo: permiten la generación flexible de contenidos, por ejemplo, en formato de texto, audio, imágenes o vídeo, que pueden adaptarse fácilmente según las instrucciones del usuario. (View Highlight)
Tal como se indica en la introducción del Reglamento de IA, todo uso de contenidos protegidos por derechos de autor requiere la autorización del titular de los derechos de los que se trate. La única excepción es que el uso del LLM sea para fines de investigación. En concreto, en el artículo 53, «Obligaciones de los proveedores de IA de uso general», se recoge en el punto c) que los proveedores «establecerán directrices para cumplir el Derecho de la Unión en materia de derechos de autor y derechos afines». (View Highlight)
Así pues, la primera dificultad que nos encontramos radica en cómo identificamos cuales son las obras que pudieran estar sujetas a derechos de autor dentro de un corpus masivo. Para que nos hagamos una idea de la problemática, el último modelo LlaMa 3 liberado por Meta ha sido entrenado empleando un corpus de 15 trillones de palabras (1). La Wikipedia completa incluye 4 billones de palabras, por lo que el corpus utilizado por Meta es 4.000 veces mayor. No parece tarea fácil localizar obras protegidas. Veámoslo con un ejemplo. (View Highlight)
El Washington Post (WP) analizó una colección de documentos publicada por Google y denominada c4, que ocupa 156 billones de palabras. Para los curiosos, el nombre proviene de Colossal cleaned version of Common Crawl’s. El corpus está disponible en abierto para ser utilizado por quien quiera y, siendo pequeño si se le compara con el de Meta (2), hacía honor a su nombre cuando se publicó en el 2020. (View Highlight)
El WP identifica hasta 15 millones de dominios relevantes dentro de este corpus (entre ellos, se encuentra el dominio del IIC, que contribuye al corpus con 17.000 palabras, un 0.00001 % del total). En su análisis les fue fácil localizar un dominio de venta ilegal de libros, que ha sido cerrado posteriormente, así como dominios que podían contribuir con material sesgado, de lo que hablaremos más abajo. (View Highlight)
Esto nos acerca más a una solución como la que emplea YouTube para detectar si un vídeo ha infringido los derechos de propiedad de algún titular. Para ello, los titulares han provisto a YouTube de una copia de cada una de las obras protegidas, de manera que YouTube puede comprobar si en cada nuevo vídeo hay incumplimiento de derechos. Hay que considerar que los costes de implementar esta infraestructura aumentan a medida que se sofistica, pudiendo ser inasumibles por la gran mayoría de empresas. (View Highlight)
En mi opinión, sería más práctico si los sitios web incluyeran un metadato que indicara explícitamente que no se utilicen sus contenidos para entrenar un modelo de lenguaje, de la misma manera que el archivo denominado robots.txt indica qué buscadores pueden indexar un sitio web. No obstante, esta solución no previene de usos indebidos de los corpus masivos ya existentes. (View Highlight)
Tendría más sentido que fuera la organización que recopila y libera el corpus la que se encargara de establecer esta solución, o bien un tercero de confianza que certificara que el corpus cumple con las directrices del reglamento, y a partir de ahí todos los proveedores de LLM pudieran utilizarlo sin más que citar la fuente. (View Highlight)
En el caso de los sesgos, El Reglamento Europeo de Inteligencia Artificial recoge varios artículos relacionados. El artículo 10 enfatiza la relevancia de adoptar medidas adecuadas para detectar, prevenir y reducir sesgos en los datos y su gestión. En este artículo se especifican las condiciones necesarias para asegurar la prevención y mitigación de dichos sesgos. Por otro lado, en el artículo 14 se resalta la importancia de la supervisión humana en la prevención de sesgos en los sistemas de IA considerados de «alto riesgo», como los sistemas autónomos. Asimismo, en el artículo 15 se hace hincapié en la importancia de evitar sesgos en cuanto a la precisión, robustez y ciberseguridad de los modelos. (View Highlight)
Llegados a este punto, surge la siguiente pregunta: ¿quién decide qué sesgos hay que corregir? En el Reglamento de IA se señalan aquellos posibles sesgos que puedan afectar a la salud y la seguridad de las personas, afectar negativamente a los derechos fundamentales o dar lugar a algún tipo de discriminación prohibida por el Derecho de la Unión. Pero es necesario aterrizar las categorías anteriores en criterios prácticos que formalicen cuándo se considera que un LLM produce una salida con sesgo. (View Highlight)
En definitiva, la aprobación del Reglamento Europeo de Inteligencia Artificial es un momento clave que inicia la cuenta atrás para su implantación definitiva. Cualquier tecnología que tiene un impacto importante en la sociedad requiere una regulación. Y la inteligencia artificial lo tiene, sin duda. Los sistemas basados en IA pueden impactar en la autonomía, la dignidad, la libertad de expresión y la toma de decisiones de las personas, por lo que es una buena noticia que la UE haya tomado la decisión de liderar el primer marco regulatorio a nivel mundial. (View Highlight)

Pelayo Arbués

Explorer

Recent Notes

A recommender beast

The next generation of weak learners

Building a Semi-Automated Link Blog for Weekly Reads

Cómo Afecta El Reglamento De IA a Los Modelos De Lenguaje

Metadata

Highlights

Graph View

Table of Contents

Backlinks

Now Reading

Compact Vision-Language With Open Weights, Faster Learning, Diffusion in Few Steps, LLMs Aid Tutors