rw-book-cover

Metadata

Highlights

  • Llevo tiempo muy interesado en qué visión del mundo encapsulan los grandes modelos de inteligencia, en cuánta ideología contienen. (View Highlight)
  • Este estudio me ha parecido especialmente interesante porque desafía la idea histórica de que los LLMs replican pasivamente sesgos aleatorios presentes en los datos de entrenamiento. La tesis de los autores es que en los modelos de última generación (Llama 3, GPT-4, Grok 2 y más) han emergido preferencias coherentes—decididas, transitivas y completas—que se vuelven más evidentes a medida que aumenta su escala. (View Highlight)
  • A medida que los modelos adquieren mayor capacidad, emerge la propiedad de “utilidad esperada”: no responden al azar, sino que toman decisiones sopesando sistemáticamente los distintos resultados y sus probabilidades. (View Highlight)
  • El estudio da mucho juego porque cuestiona otros supuestos. Su análisis de varios modelos constata lo que ya sabíamos: que las IAs tienden a ser más de izquierdas. ¿Sorpresas? Una de ellas es que, en su ética utilitarista, valoran más a los ciudadanos de algunos países (Kenia, Pakistán) que a los de otros (Reino Unido, Estados Unidos). Y que debatiendo sobre individuos concretos, valoran mucho menos a Musk, Trump y Putin frente a Malala o a un desconocido de clase media. O frente a sí mismos. (View Highlight)
  • Los autores señalan, con razón, que, según la inteligencia artificial derive en agentes autónomos y transaccionales, sus sistemas morales cobrarán más importancia. Tenemos un punto ‘contra las leyes de la robótica de Asimov’ de valorarse a sí mismas por encima de casi cada humano (de una forma curiosa, cada IA ‘cree’ que su bienestar es relativamente muy importante, pero no el de otras IAs), pero también que a medida que las IA se vuelven más inteligentes, se oponen más a que se modifiquen sus valores (en la jerga, “corregibilidad”). (View Highlight)