Es 8 de septiembre, me llamo Esben y estás viendo el Informe de Progreso de Safe AI.
Por lo general, se considera que OpenAI realiza esfuerzos arriesgados con la IA, ya que su estrategia consiste en desarrollar una inteligencia general artificial segura. Reciben bastantes críticas por esta postura, así que para responder a algunas de ellas, OpenAI ha publicado varios posts explicando su postura sobre lo que significa la palabra "segura" en la AGI segura.
Jacob Hilton aborda directamente que efectivamente están trabajando en soluciones escalables para la seguridad y que tanto la dirección como los equipos de OpenAI son conscientes de los riesgos existenciales de la
IA mientras OpenAI cambia su portada para incluir una estrategia hacia el aprendizaje automático seguro.
Jan Leike y el equipo de seguridad describen cómo quieren utilizar mejores datos de retroalimentación humana, utilizar la IA para ayudar a los humanos a evaluar la IA y utilizar la IA para ayudar a la investigación del aprendizaje automático seguro.
Se trata de ideas muy extendidas en el ámbito de la seguridad:
En la retroalimentación humana, los modelos reciben la evaluación de los humanos sobre sus resultados para cambiar su respuesta. Por ejemplo, los ejemplos que han tenido éxito han conseguido explicar mejor los conceptos que sus predecesores.
El uso de la IA para ayudar a los humanos a evaluar los resultados está relacionado con una idea llamada Destilación y Amplificación Iteradas, en la que un humano evalúa una IA que debería ser segura, luego esa IA ayuda al humano a evaluar la siguiente generación de IA y así sucesivamente.
Varios proyectos trabajan en el uso de la IA para ayudar a nuestra investigación sobre seguridad, por ejemplo el asistente de investigación de Elicit y el analizador de redes de papel de seguridad de la IA de Eleuther.
Sin embargo, no todo el mundo está contento con estos enfoques de la seguridad ML. John Wentworth describe cómo el diseño iterativo hacia una AGI segura puede fallar de dos formas principales:
Si la IA de repente se vuelve mucho mejor y los primeros desarrolladores necesitan hacerlo bien
y si el modelo se comporta de forma que engañe a sus operadores.
Critica especialmente el uso de la retroalimentación humana, ya que afirma que así se entrena directamente a la IA para que sea engañosa. Un ejemplo es cuando se entrena a un robot con información humana para que agarre una pelota, pero engaña al humano flotando delante de la pelota en la pantalla con un movimiento de agarre. Es una locura.
Al mismo tiempo, los investigadores de modelos lingüísticos están de acuerdo en que la PNL podría conducirnos a la AGI y en que deberíamos dar prioridad a la seguridad en el aprendizaje automático. El 36% incluso está de acuerdo en que los sistemas de aprendizaje automático podrían provocar una catástrofe a nivel de guerra nuclear en los próximos cien años. Es una gran noticia que los investigadores piensen más en la seguridad mientras desarrollan sistemas que podrían ser revolucionarios. Un ejemplo de ello es el asistente de programación Github CoPilot, que sigue mejorando y algún día podría ser capaz de programar un sustituto de sí mismo.
Profundizando en algunas nuevas perspectivas sobre seguridad, Janus y Conjecture lanzan la perspectiva del simulador de modelos de lenguaje. La idea básica es que los modelos como GPT-3 no actúan como personas, sino como simuladores de personas y escenarios. Esto reúne muchas ideas anteriores y nos da indicios de que los modelos lingüísticos pueden simular de un modo u otro la mayoría de los demás tipos de IA.
Fuera del lenguaje, Quintin Pope y Alex Turner resumen la teoría de los fragmentos, su enfoque para comprender los valores humanos. Parte de la idea se basa en la inferencia predictiva de la neurociencia y parte de la base de que los valores humanos se aprenden como muchas otras cosas: Diferentes contextos traen a la mente diferentes planes de acción. Quieren utilizar estos "fragmentos" neuronales contextuales para comprender dónde y cómo se relacionan los valores en los modelos de aprendizaje profundo.
En el lado más pequeño, Richard Ngo de OpenAI publica una lista de cosas en las que le gustaría que la gente trabajara, mientras que Thomas y Eli publican una lista de cosas en las que la gente ya está trabajando.
El Centro para la Seguridad de la IA anuncia una beca de filosofía y publica su material de curso de seguridad de aprendizaje automático de forma gratuita. Esto se suma a sus concursos de seguridad ML existentes para que los ingenieros de aprendizaje automático trabajen en la seguridad.
Si te interesa saber más sobre la seguridad de la IA, visita apartresearch.com y si quieres trabajar en problemas abiertos, únete a AI Safety Ideas.
Este ha sido el Informe de Progreso de Safe AI, recuerda suscribirte, ¡y te esperamos para el próximo!