La investigación sobre interpretabilidad va viento en popa y la IA sigue mejorando. Me llamo Thomas y estás viendo... ¡el Informe de Progreso de la IA Segura!
La interpretabilidad puede llamarse "la neurociencia de la IA". Miramos en el cerebro de la IA para entender por qué y cómo dan ciertos resultados. La seguridad de la IA suele centrarse en el paradigma de los circuitos. Sin embargo, un nuevo estudio de 300 artículos sobre interpretabilidad muestra otros 20 paradigmas dentro de este campo con resultados igualmente prometedores.
Algunos ejemplos que señalan los autores son: 1) el método del atlas de activación, 2) la actualización de los datos de entrenamiento para obtener representaciones precisas desde el punto de vista del comportamiento, 3) los métodos adversariales y 4) el ajuste manual de los pesos.
El método del atlas de activación se asemeja a la investigación sobre interpretabilidad de Circuits y utiliza un mapa semántico de activaciones neuronales para representar cada capa a través de la red neuronal. Para esta imagen concreta de un barco de bomberos, podemos analizar sus activaciones relacionadas retrocediendo por las capas. En este caso, un barco de bomberos está relacionado con ventanas, objetos similares a grúas, géiseres y agua.
Actualizar los datos de entrenamiento para contrarrestar los sesgos nos permite, por ejemplo, actualizar las imágenes para acentuar más las formas en lugar de las texturas y resolver el sesgo natural de las ResNets hacia el sobreajuste a las texturas, algo que los humanos no harían. Esto permite que la red se comporte más como un ser humano, lo que nos interesa para la seguridad de la IA, ya que establecer marcos de referencia similares puede ayudar a alinear los valores entre la IA y los seres humanos.
Otro ejemplo del uso de ejemplos adversos es que pueden ayudarnos a comprender los errores y sesgos de los modelos y garantizar futuros sistemas más seguros, mientras que una intervención más directa incluye la comprensión de las asociaciones fácticas en las redes neuronales, lo que nos da muchas más posibilidades de corregir e identificar comportamientos incoherentes y posiblemente peligrosos.
Sin embargo, incluso con nuestra capacidad de interpretación, seguimos enfrentándonos a un alto riesgo. El grupo de previsión Samotsvety ha añadido sus estimaciones de las probabilidades de riesgo de la IA y muestran una estimación de riesgo de un orden de magnitud superior en comparación con las estimaciones anteriores de Metaculus.
En general, Samotsvety tiene un gran historial y su artículo complementa la literatura existente sobre las líneas temporales de la inteligencia artificial; un buen ejemplo es el informe "AGI timelines from biological anchors" de Ajeya Cotra, para el que Anson Ho escribió un resumen que enlazaremos en la descripción.
Entonces, ¿qué podemos hacer realmente ante estos riesgos? Evan Hubinger propone un triunfo claro para la coordinación segura de la IA. Su idea es pedir a Deepmind, OpenAI y Anthropic que se comprometan a vigilar activamente y buscar pruebas de alineación engañosa en sus modelos, lo que puede ayudarnos a identificar y detectar errores antes.
Esta alineación engañosa es un problema cuando los sistemas tienen un comportamiento diferente en el despliegue del comportamiento recompensado en el entrenamiento. Por ejemplo, la evolución recompensa a los humanos por criar a sus hijos, pero ahora hemos creado muchas otras formas de disfrutar del mundo.
Esto puede ser una gran ventaja para coordinar la seguridad en el desarrollo de la IA.
En otras noticias, Quintin ha iniciado una serie semanal de resúmenes de trabajos de investigación sobre alineación,
John piensa que la mayoría de la gente comienza en la alineación con malas ideas, pero recibe un poco de empuje de Evan, Beth Barnes inicia un proyecto de seguimiento de capacidades y alineación en el Centro de Investigación de Alineación, los modelos lingüísticos reproducen los sesgos cognitivos de los humanos, y tal vez el mundo académico es realmente bueno para trabajar en la seguridad de la IA a pesar del enfoque en la escena de la IA con fines de lucro en San Francisco.
Si quieres saber más sobre la seguridad de la IA, visita apartresearch.com, y si quieres trabajar en la investigación, visita AI Safety Ideas.
Este ha sido el Informe de Progreso sobre Seguridad de la IA, recuerda suscribirte, ¡y te esperamos para el próximo!
Enlaces
Circuitos: https://distill.pub/2020/circuits/zoom-in/
Cuestionario de interpretabilidad: https://arxiv.org/abs/2207.13243, vea el resumen de Twitter y el PDF, https://arxiv.org/pdf/2207.13243.pdf:
Activación de atlas: https://distill.pub/2019/activation-atlas/
Cambiando los datos de entreno https://arxiv.org/pdf/1811.12231.pdf
Editando las asociaciones factuales en GPT GPThttps://arxiv.org/pdf/2202.05262.pdf
Descripciones del lenguaje natural de características visuales profundas https://arxiv.org/pdf/2201.11114.pdf
Robust feature-level adversaries are interpretability tools: https://arxiv.org/pdf/2110.03605.pdf
Previsión de riesgos de la IA de Samotsvety https://forum.effectivealtruism.org/posts/EG9xDM8YRz4JN4wMN/samotsvety-s-ai-risk-forecasts
(Junio) Previsión del TAI con resúmenes de anclajes biológicos https://www.lesswrong.com/s/B9Qc8ifidAtDpsuu8/p/wgio8E758y9XWsi8j
Monitoreando contra la alineación engañosa https://www.alignmentforum.org/posts/Km9sHjHTsBdbgwKyi/monitoring-for-deceptive-alignment
Alineación engañosa: https://www.alignmentforum.org/posts/zthDPAjh9w6Ytbeks/deceptive-alignment
Alineación de informers de Quintin: https://www.lesswrong.com/posts/7cHgjJR2H5e4w4rxT/quintin-s-alignment-papers-roundup-week-1
La mayoría de la personas comienzan con las mismas malas ideas: https://www.lesswrong.com/posts/Afdohjyt6gESu4ANf/most-people-start-with-the-same-few-bad-ideas
Beth Barnes comenzando evaluaciones de grupos en ARC sobre riesgos y desarrollos https://www.alignmentforum.org/posts/svhQMdsefdYFDq5YM/evaluations-project-arc-is-hiring-a-researcher-and-a-webdev-1
Sesgos cognitivos en LLMs: https://arxiv.org/pdf/2206.14576.pdf
Academia vs. Industria: https://www.alignmentforum.org/posts/HXxHcRCxR4oHrAsEr/an-update-on-academia-vs-industry-one-year-into-my-faculty