Consideraciones sobre la situación de la financiación de AI Safety, proyectos interesantes del hackatón de interpretabilidad de Apart, interpretabilidad de transformadores matemáticos de Meta AI y consideraciones sobre a qué dedicar tiempo en AI Safety.
Hoy es 18 de noviembre y ¡bienvenidos a la actualización sobre seguridad en ML e IA!
Reflexiones sobre FTX y la seguridad de la IA
La semana pasada informamos, como todos los demás, del accidente del FTX y ahora que estamos en las secuelas de la conmoción, parece apropiado sumergirse un poco en lo que significa para la comunidad de seguridad de la IA.
El New York Times publicó un artículo sobre el impacto general en la financiación de la EA y afirma con acierto que es una causa justa de turbulencias en un movimiento tan joven y cuenta con el comentario del Center on Nonprofits and Philanthropy de que es demasiado fácil para los multimillonarios obtener legitimación "mientras el dinero fluya", un riesgo que ocurrió en este caso.
En general, la comunidad investigadora está consternada por lo que ha hecho FTX. El principal fondo de FTX para la investigación de la seguridad de la IA, Future Fund, vio cómo todo su equipo dimitía por el engaño al que se vieron expuestos. Will McAskill y Evan Hubinger afirman claramente que este fraude es completamente inaceptable con lo que representa el altruismo efectivo. Mientras tanto,y un abogado se aseguran de que la comunidad sepa que no es culpable de esta situación y de la situación legal de las donaciones de FTX.
En cuanto a la financiación de la investigación sobre la seguridad de la IA, uno de los dos mayores financiadores ha dejado de hacerlo y el otro, OpenPhil, se toma un mes de descanso para evaluar estas turbulencias. Nonlinear ha creado un fondo de emergencia para pequeñas subvenciones inferiores a 10.000 dólares para compensar a las organizaciones presionadas en esta parada de la financiación.
Holden Karnofsky, de OpenPhil, recomienda a las organizaciones que:
Dejen en suspenso los compromisos y esperen hasta que haya más claridad sobre el impacto real.
Identifiquen las lagunas y evalúen su urgencia/importancia.
Vuelvan a priorizar y equilibren las carteras.
Interpretability Alignment Jam
Uf, pasamos a algo mucho más esperanzador. La segunda Alignment Jam sobre investigación de la interpretabilidad terminó este fin de semana con un total de 147 participantes y 25 envíos de valiosas investigaciones sobre interpretabilidad.
El primer premio se concedió a Alex Foote Foote por su investigacion y algoritmo que encuentra ejemplos mínimamente activadores para neuronas en modelos lingüísticos utilizando la sustitución de palabras y la poda de frases. El algoritmo crea automáticamente ejemplos positivos y negativos de activación de neuronas específicas y es un método altamente interpretable.
El segundo premio se concedió a tres investigadores de Stanford que descubrieron que cuando las cabezas Transformer se desactivan de distintas maneras, otras cabezas Transformer asumen su tarea aunque no muestren activación normalmente.
Esto ya se había demostrado antes, pero el equipo descubrió que incluso las cabezas de reserva tienen cabezas de reserva y que todas estas cabezas de reserva son resistentes al método de desactivación (o ablación) utilizado en las cabezas principales.
El tercer premio se concedió al equipo Nero por encontrar fallos en la forma en que los trabajos ROME y MEMIT sustituyen las asociaciones factuales. Demostraron que las sustituciones de asociaciones fácticas también afectan a cualquier frase relacionada con las palabras de la asociación fáctica, lo que indica que no se limita a las asociaciones fácticas.
El equipo que obtuvo el cuarto puesto presentó una forma de interpretar las estrategias de los agentes de aprendizaje por refuerzo en juegos resueltos matemáticamente. Utilizan el juego del cuatro en raya y descubren que la forma en que el agente ve el tablero se corresponde con la forma en que los humanos suelen modelar el tablero.
El hackatón suscitó muchas investigaciones interesantes, que sin duda te recomendamos que consultes.
No olvides estar atento a nuestro próximo hackatón en diciembre.
Interpretabilidad de transformadores de meta IA matemática
Saltando a algunas noticias del mundo del ML, Francois Charton de Meta AI ha investigado los casos de fallo y el comportamiento fuera de distribución en transformadores entrenados en matrices inversas y descomposición de valores propios.
A pesar de las investigaciones que afirman que los modelos de lenguaje matemático no comprenden las matemáticas, descubre que comprenden correctamente los problemas matemáticos, pero que es la naturaleza de estos problemas la que afecta a su grado de corrección. Demuestra que los generadores de datos de entrenamiento no simulan los resultados correctos a partir de los que aprender, lo que provoca fallos de generalización en los modelos matemáticos.
Sigue siendo como siempre ha sido: Los ordenadores sólo hacen lo que les pedimos; el principal fallo son nuestras expectativas y objetivos.
Reflexiones sobre la compra del tiempo
También queremos sumergirnos en las reflexiones de Akash, Olivia Jiménez y Thomas Larsen, que esta semana ha publicado una larga lista de intervenciones que podrían "hacernos ganar tiempo". En su opinión, la comunidad AIS debería invertir más en la compra de tiempo que en la investigación técnica, ya que el tiempo del investigador medio está mucho mejor empleado en la consideración del riesgo general que en la alineación realmente técnica.
Su nueva propuesta de intervención enumera, entre otras cosas, demostrar el fracaso de la alineación, 1-1 conversaciones con investigadores de ML y definir mejor los conceptos en seguridad de AI. Ya hemos oído estas afirmaciones antes y parece que también reciben un poco de rechazo por parte de Jan Kulveit y habryka
Otras noticias
En otras noticias, Martin Soto critica el protocolo de interpretabilidad PreDCA de Vanessa Kosoy por implicar apostarlo todo a una formalización matemática específica de algunas instrucciones, lo que podría ser problemático
Pablo Vallalobos y otros han estimado cuándo se agotarán los datos de entrenamiento basándose en las tendencias actuales. Predicen que habremos agotado la reserva de datos lingüísticos de baja calidad entre 2030 y 2050, los datos lingüísticos de alta calidad antes de 2026 y los datos de visión entre 2030 y 2060.
La convergencia instrumental se propone como el argumento de por qué la inteligencia general es posible
Y Jessica Mary propone que la interpretabilidad agnóstica de modelos podría no ser tan mala después de todo que los comentaristas indican lo contrario.
Oportunidades
Esta semana tenemos disponibles algunas vacantes muy interesantes:
AI impacts sigue buscando un Analista de Investigación sénior.
Y Anthropic sigue buscando un ingeniero de software sénior.
Mientras que Center of AI Safety está buscando un jefe de personal.
David Krueger’s lab busca colaboradores.
Esta ha sido la actualización en seguridad de AI & ML. ¡Esperamos verte la semana que viene!