Esta semana, compartimos increíbles artículos sobre seguridad ML, describimos la dinámica del campo de la seguridad de la IA y compartimos oportunidades sobre cómo puedes trabajar también con la seguridad ML.
Hoy es 14 de octubre y estás viendo el Informe sobre el Progreso de la IA Segura.
La ley define los valores humanos
Un nuevo y extenso artículo describe las muchas formas en que el derecho ha resuelto los problemas de definir técnicamente los valores humanos de maneras como la especificación imperfecta generalizada de valores (ley) y la supervisión humana (jueces). Describe la alineación de valores como un problema ético teórico (algo que Joscha Bach también está impulsando) y como un dilema de coordinación y cooperación entre múltiples agentes. Merece la pena leerlo (artículo)
Alineación fuera de la distribución
El problema de la alineación puede redefinirse como un problema de robustez fuera de la distribución. Si los datos de entrenamiento no contienen todos los ejemplos de cómo se lleva a cabo un valor humano en el mundo, ¿cómo generaliza la IA más allá de este conjunto de entrenamiento? Normalmente intentamos resolverlo transformando los datos de entrenamiento, por ejemplo, reflejando y rotando imágenes para obtener más ejemplos y probando nuestros modelos con datos que no han visto. Los métodos más avanzados utilizan redes neuronales para generar nuevos datos, las llamadas redes generativas adversariales (o GAN). Un nuevo trabajo entrena estas GAN para crear una representación más fiable de lo que consideramos fuera de distribución, en lugar de limitarse a probar con otros conjuntos de datos (artículo)
Definición de la piratería de recompensas
Las recompensas para los modelos de aprendizaje automático se definen en función de un objetivo real que tengamos en mente, por ejemplo crear un negocio sostenible del que podamos obtener beneficios. Sin embargo, no tenemos una buena métrica para realizar un seguimiento de este negocio sostenible, por lo que definimos la recompensa como la cantidad de dinero que gana para nosotros. Cuando definimos una recompensa imperfecta, la IA puede acabar haciendo lo que se denomina "pirateo de recompensas". Un nuevo artículo define el pirateo de recompensas como cualquier comportamiento sobre nuestra recompensa imperfecta que conduzca a una reducción del rendimiento en nuestro verdadero objetivo. Se considera que una recompensa no se puede piratear si el aumento de la recompensa no conduce a una reducción del rendimiento en el objetivo real en ninguna situación (artículo)
En relación con esto, DeepMind describe la generalización errónea del objetivo. Esto es lo que ocurre en los casos límite del hackeo de recompensas, cuando una recompensa está correctamente definida pero el comportamiento no funciona cuando se despliega. Un ejemplo es cuando un agente recibe recompensa por caminar hacia lugares en un orden específico y es guiado por un maestro que lo hace correctamente en el entrenamiento pero durante el despliegue, el maestro camina en la dirección contraria. Esto demuestra que a pesar de tener una recompensa robusta, el alumno modelo aprende un comportamiento erróneo (post)
Sesgos inductivos en algoritmos de aprendizaje
Quintin Pope resume 16 artículos sobre el sesgo inductivo en los algoritmos de aprendizaje, que sólo significa cómo los algoritmos de aprendizaje están sesgados hacia comportamientos específicos. Entre las investigaciones más destacadas se encuentran el uso del núcleo neuronal tangente para visualizar el comportamiento aprendido en diferentes arquitecturas de red, el análisis de los sesgos inductivos discretos del descenso por gradiente estocástico mediante métodos sencillos y la demostración de que el descenso por gradiente estocástico está sesgado hacia la selección de redes neuronales no profundas (artículo)
Larsen y Gillen resumen la mencionada investigación sobre kernels neuronales tangentes en un post reciente en el que también comparten un artículo sobre procesos gaussianos con instrucciones en profundidad y demostraciones interactivas de lo que son. En general, los kernels en aprendizaje automático nos ayudan a redefinir los datos de entrada en algo que nuestros modelos puedan entender (link)
Advertencias
Los disparos de advertencia son una serie de ejemplos que indican que deberíamos empezar a tomarnos en serio un riesgo, como cuando una IA es capaz de sustituir a programadores junior o cuando es responsable de más del 10% del PIB mundial. Algunos argumentan que tales disparos de advertencia serán suficientes para empujar a los gobiernos a la acción, sin embargo, Soares sostiene que covid-19 fue un caso de prueba para tal proceso y describe cómo no podemos confiar en los gobiernos para la seguridad de la futura IA. Esto pone aún más el foco en la investigación de alineación técnica como el mejor camino (post)
Estado de la seguridad de la IA
Sin embargo, las nuevas estimaciones muestran que sólo unos 300 investigadores trabajan a tiempo completo en el campo de la seguridad de la IA. Esto supone menos de la mitad de las ofertas de empleo en LinkedIn que incluyen el aprendizaje automático como requisito, que ascendían a 98.000 en el último recuento. Aumentar el campo es muy importante para garantizar la seguridad de los futuros sistemas de IA y (figure) Marcus resume sus experiencias hablando con más de 100 académicos de aprendizaje automático sobre seguridad. Por suerte, en general la gente parece cada vez más abierta a los riesgos de seguridad de la IA y los investigadores se interesan por los debates técnicos del campo (link)
Noticias
Dan Hendrycks ha publicado el último boletín mensual de ML Safety, que te recomendamos leer si estás interesado en saber más.
El Center for AI Safety ha lanzado una convocatoria de ideas por valor de 500.000 dólares para crear puntos de referencia en seguridad de IA (portada)
Wood Research hace un llamamiento para encontrar heurísticas emergentes en un pequeño modelo GPT-2 (artículo).
Nuestro próximo hackatón sobre seguridad en ML versará sobre la interpretabilidad y le invitamos a que registre ya su interés en la descripción. Si deseas organizar un evento local con nuestro apoyo, haz clic en el enlace de la descripción (página itch).
AGI Safety Fundamentals lanza su segundo curso sobre seguridad en IA, el plan de estudios Alignment 201. Apúntate a su curso interactivo de 10 semanas en tiempo libre en la descripción. (portada)
Visita nuestra página en apartresearch.com y síguenos aquí para la próxima actualización.
Este ha sido el Informe de Progreso de IA Segura, ¡hasta la semana que viene!