Hoy mostraremos algunas actualizaciones aterradoras en el desarrollo de la IA, resumiremos la discusión de Stuart Russell y Eliezer sobre la alineación, y veremos herramientas de interpretabilidad de Redwood.
Es 7 de octubre, me llamo Thomas, y estás viendo... El Informe de Progreso de Safety AI.
Aterradores avances en IA
El legendario programador John Carmack ha abandonado el desarrollo de la realidad virtual para crear AGI, y cito, "por la vía de la ciencia loca", sin tener en cuenta la seguridad. Esto es muy preocupante y ya han recaudado 20 millones de dólares. Carmack es muy respetado, y que asuma este cargo parece un golpe descorazonador para la seguridad de la IA.
Meta presentó hace una semana un modelo de generación de vídeo que asombró a todo el mundo, pero una nueva investigación inédita demuestra que también es capaz de combinar diferentes escenas en vídeos mucho más interesantes y narrativos. OpenAI también ha abierto Whisper, un modelo de voz a texto extremadamente bueno.
Mientras tanto, DeepMind publica un modelo matemático que crea nuevos algoritmos para acelerar la multiplicación de matrices, algo que se utiliza en todas partes tanto en el aprendizaje automático como en muchos otros campos informáticos. Este artículo de Quanta Magazine resume el estado del arte de los algoritmos para la multiplicación de matrices y el modelo de DeepMind no ha encontrado una solución más rápida, pero puede optimizar los algoritmos para GPU y arquitecturas de modelo específicas.
Así que está claro que el progreso es extremadamente rápido, incluso sin tener en cuenta la gran cantidad de modelos de código abierto que se han creado recientemente.
Meta transfiere PyTorch a la Fundación Linux
La propiedad de uno de los marcos de aprendizaje automático más populares, PyTorch, se ha transferido a la Linux Foundation que gestiona 850 proyectos de código abierto. Por lo general, adoptan una postura de neutralidad, pero son una organización sin ánimo de lucro en comparación con Meta, que anteriormente era propietaria del proyecto. El director de IA de Meta, Yann LeCunn, también Yann LeCunn, ha propuesto recientemente un camino hacia la AGI, un punto preocupante.
Así que mientras todos esperamos a la AGI, vete a jugar a este juego de hacer clic con un clip que demuestra que la optimización de tu fabrica de clips Podría convertirse en un riesgo para la humanidad.
El riesgo de una IA que busca el poder
Eli comparte su crítica al informe de Joe Carlsmith sobre por qué la IA que busca el poder es un riesgo. Menciona que el informe, que ya es un canon para entender el riesgo de la IA, tiene estimaciones de probabilidad optimistas porque el marco es evitar el riesgo existencial en lugar de eliminar ese riesgo y asegurar un buen futuro para la humanidad. Además, podría subestimar la cantidad de actores en el espacio de la IA en ese momento.
Y para resumir el informe de Carlsmith, se centra en un argumento principal para los riesgos que dice así: 1) será posible construir sistemas de IA peligrosos en el futuro, 2) la gente tendrá incentivos para construirlos, 3) será difícil construir sistemas que podamos garantizar que son seguros, 4) los sistemas inseguros fallarán de formas de alto impacto, 5) esto puede llevar a una pérdida permanente de poder de la humanidad, y 6) esto lleva a una catástrofe existencial.
Mientras tanto , Vendrov describe tres caminos que podríamos tomar para garantizar esta IA segura. Uno es cambiar la propia tecnología, algo en lo que trabajan la mayoría de los investigadores de la seguridad de la IA. Otra es cambiar las estructuras que despliegan la IA peligrosa de forma que tengan incentivos para hacerla segura. Y la tercera es cambiar el funcionamiento del mundo para que sea resistente a la IA peligrosa.
Comprender las preferencias humanas
Scott Alexander resume una disputa teórica entre Stuart Russell, el padrino del ML, y Eliezer Yudkowsky, el autor de la alineación. Russell dirige el grupo de investigación CHAI en la UC Berkeley, en California, y su investigación se centra en el aprendizaje automático seguro para garantizar que la IA valore las opiniones humanas mucho más que sus propios valores. Así, si la IA no entiende bien la tarea, buscará el consejo humano para hacerlo bien.
La crítica de MIRI dice que no sabemos cómo crear modelos de este tipo de escenarios y que, aunque lo hiciéramos, no sabríamos cómo hacerlo correctamente. El argumento básico es que una IA con esta capacidad malinterpretará las opciones de que dispone y, por tanto, actualizará su comprensión hacia algo que sigue sin ser lo que queremos.
Funciones de pérdida, tutoriales de Andrej, interpretabilidad y atascos de alineación
En noticias más pequeñas, Alex publica una descripción de cuatro formas en que se utilizan las funciones de pérdida en el aprendizaje automático y cómo deberíamos entenderlas.
Andrej Karpathy ha empezado a crear tutoriales en YouTube después de dejar de dirigir la IA en Tesla. Sus tutoriales son algunos de los mejores para aprender machine learning que se pueden encontrar y recomendamos verlos.
Redwood Research ha lanzado una impresionante herramienta de interpretabilidad que complementa las herramientas de Anthropic y OpenAI. Esto democratiza la capacidad de investigar la interpretabilidad y entender las redes neuronales.
Los días 12 y 13 de noviembre, vamos a hacer un hackatón en interpretabilidad y eres muy bienvenido a registrar tu interés ya ahora. Únete en el enlace en la descripción. Esben Kran hizo una conferencia introductoria sobre interpretabilidad y puedes verla en el mismo enlace.
Este ha sido el informe de progreso de Safe AI. Esperamos verle la semana que viene a la misma hora. Gracias por seguirnos.