Esta semana analizamos las leyes de escalado rotas, el ajuste fino quirúrgico, la interpretabilidad en la naturaleza y los modelos de amenaza de la IA.
Hoy es 4 de noviembre y esta es la actualización sobre seguridad en ML e IA.
Leyes de escalado rotas y ajuste quirúrgico
En las últimas semanas se han publicado varios artículos interesantes, de los que hemos seleccionado algunos.
Las leyes de escalado son importantes para inferir cómo se comportarán los futuros sistemas de IA. Las leyes de escalado existentes suelen ajustarse de forma lineal o monotónica. Caballero, Krueger y otros introducen las "leyes de escalado rotas" tras criticar cómo las leyes de escalado normales de investigación no reflejan los hechos empíricos del entrenamiento de modelos. Su nueva función de leyes de escala puede mostrar "rupturas" que corresponden a los cambios no monotónicos repentinos en la capacidad que vemos en las redes neuronales. Su función extrapola significativamente mejor que las otras tres formas de función.
La robustez de la visión por ordenador es importante para diversas tareas. Un equipo de Stanford ha demostrado que el ajuste fino de capas individuales funciona mejor que el ajuste fino de toda la red neuronal en pruebas adversas específicas. Por ejemplo, el ajuste quirúrgico de las primeras capas mejora el rendimiento ante cambios en el nivel de entrada, como los ataques de corrupción, mientras que el ajuste de las últimas induce robustez ante cambios en el nivel de salida.
Debate e interpretabilidad
Parrish, Bowman y otros demuestran que el debate no ayuda a los humanos a responder preguntas difíciles de comprensión lectora. Muestran a los participantes argumentos a favor y en contra de una respuesta correcta o incorrecta a una pregunta difícil de comprensión lectora, pero descubren que los humanos no se benefician de ello.
"Cuando Drake y Yoojin fueron a la tienda, Yoojin le dio un trago a...". Un transformador puede predecir fácilmente que la siguiente palabra de esta frase es Drake, pero ¿cómo lo hace? Redwood Research identifica un circuito de comprensión conceptual en las cabezas de los Transformers.
Vemos que las cabezas neuronales tienen funciones específicas en la comprensión: Algunas identifican palabras duplicadas, otras inhiben palabras específicas, y las tres últimas clases de cabezas desplazan negativa y positivamente la palabra "Drake" a la posición prevista. Esta tarea se denomina identificación indirecta de objetos y es claramente un caso de prueba interesante para la interpretabilidad de circuitos.
Modelos de amenaza en seguridad ML
El equipo de seguridad de DeepMind creó una taxonomía de cómo se ven los riesgos actuales de la inteligencia artificial. Su modelo de desarrollo consensuado es una versión a escala de nuestros modelos actuales que, en su opinión, no necesitan mucha innovación para convertirse en inteligencia artificial general, una IA que sea mejor que los humanos en la mayoría de las tareas relevantes.
Los riesgos que se derivan de un modelo de este tipo son la generalización errónea de objetivos, en la que los modelos no consiguen generalizar su entrenamiento a escenarios del mundo real, y la búsqueda de poder como resultado de dicha desalineación. No esperamos detectar esto debido al engaño y las personas más importantes de la sociedad no entenderán los riesgos. John Wentworth señala que esta historia de múltiples etapas ni siquiera es necesaria, puesto que los sistemas actuales ya se entrenan para engañar a los humanos.
Michael Cohen muestra que la catástrofe existencial de la IA está por encima del 35%. Adopta una perspectiva optimista sobre los escenarios de éxito, como que las leyes bien aplicadas detengan las versiones peligrosas de la IA, que una entidad la detenga de algún modo, que nadie desarrolle IA avanzada o que la IA avanzada se desarrolle de un modo seguro que viole una serie de supuestos que Cohen plantea (y que él pone en duda). Estos supuestos se centran en la capacidad de la IA para hacer hipótesis, seguir planes en la incertidumbre y utilizar estos planes de forma que progrese alguna recompensa indirecta.
Además, no confía en los actuales paradigmas de investigación sobre la seguridad de la IA e incluso escribe una “anti review”, en la que argumenta en contra de cada programa de investigación contemporáneo.
Otras noticias
En otro orden de cosas, Scott Garrabrant habla de los llamados "marcos", que describe como la creación de una perspectiva agéntica en primera persona sobre todos los mundos posibles (en tercera persona), como la incertidumbre, las elecciones y los mundos plausibles. Afirma que esto contrasta con la visión de los agentes integrados y la RL tradicional con su separación de los límites entre el entorno y el agente.
Michaeud, Liu, y Tegmark muestran las leyes de escalado de diferentes aproximadores de funciones y ofrecen una taxonomía para el aprendizaje automático de precisión.
Michael Nielsen y Kanjun Qiu publican su libro “Vision for Metascience” y describen a los financiadores de la investigación como detector y discriminador en un proceso imaginativo de generación de investigación.
El Future of Life Institute ha iniciado un nuevo podcast y el último episodio con Ajeya Cotra trata de cómo la IA podría causar catástrofes.
Oportunidades
Esta semana tenemos disponibles unas cuantas vacantes muy interesantes:
Redwood Research invita a 30-50 investigadores a unirse a ellos en Berkeley para un programa muy interesante de investigación sobre interpretabilidad mecanística.
Anthropic busca directores de operaciones, reclutadores, investigadores, ingenieros y jefes de producto.
Además, puedes echar un vistazo a algunas de las novedades en AI Safety Ideas y unirte al hackathon de interpretabilidad desde cualquier parte del mundo el próximo fin de semana.
Esta ha sido la actualización sobre seguridad ML & AI, ¡hasta la semana que viene!