<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:googleplay="http://www.google.com/schemas/play-podcasts/1.0"><channel><title><![CDATA[Apart Research en español: Boletín de Apart]]></title><description><![CDATA[Actualizaciones semanales acerca de avances en el campo de la seguridad del aprendizaje automático.]]></description><link>https://boletin.apartresearch.com/s/apart</link><image><url>https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png</url><title>Apart Research en español: Boletín de Apart</title><link>https://boletin.apartresearch.com/s/apart</link></image><generator>Substack</generator><lastBuildDate>Fri, 01 May 2026 08:24:03 GMT</lastBuildDate><atom:link href="https://boletin.apartresearch.com/feed" rel="self" type="application/rss+xml"/><copyright><![CDATA[Voluntarios de Apart Research]]></copyright><language><![CDATA[en]]></language><webMaster><![CDATA[boletinapartresearch@substack.com]]></webMaster><itunes:owner><itunes:email><![CDATA[boletinapartresearch@substack.com]]></itunes:email><itunes:name><![CDATA[Alejandro González]]></itunes:name></itunes:owner><itunes:author><![CDATA[Alejandro González]]></itunes:author><googleplay:owner><![CDATA[boletinapartresearch@substack.com]]></googleplay:owner><googleplay:email><![CDATA[boletinapartresearch@substack.com]]></googleplay:email><googleplay:author><![CDATA[Alejandro González]]></googleplay:author><itunes:block><![CDATA[Yes]]></itunes:block><item><title><![CDATA[Los modelos de lenguaje podrían estar siempre ligeramente desalineados ]]></title><description><![CDATA[Bolet&#237;n de noticias #28]]></description><link>https://boletin.apartresearch.com/p/los-modelos-de-lenguaje-podrian-estar</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/los-modelos-de-lenguaje-podrian-estar</guid><pubDate>Thu, 27 Apr 2023 11:29:22 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!z6iO!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Los modelos de lenguaje grandes como GPT-4 parecen ser impermeables a intentos completos de alineaci&#243;n, debemos pensar en las consecuencias de la investigaci&#243;n de interpretabilidad, la capacidad de memorizaci&#243;n de los modelos de lenguaje es fascinante, y abren varias oportunidades de investigaci&#243;n.</p><p>Estamos de vuelta de Estocolmo y EAGx Nordics y listos para otra semana de anuncios sobre el desarrollo de la investigaci&#243;n de seguridad de ML y AI. &#161;Bienvenidos al resumen de alineaci&#243;n de esta semana!</p><h2><strong>Limitaciones de alineaci&#243;n de LLM</strong></h2><p><a href="https://substack.com/redirect/85481f77-37af-4f34-b991-e03a7d347b73?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Wolf y Wies et al. (2023)</a> definen un marco para analizar te&#243;ricamente la alineaci&#243;n de modelos de lenguaje (LMs) como GPT-4. Su marco de Comportamiento de Expectativas Acotadas (BEB) hace posible una investigaci&#243;n formal sobre la alineaci&#243;n de LLMs. Clasifica las salidas dadas por los modelos como &#8220;mal comportadas&#8221; o &#8220;bien comportadas&#8221;.</p><p>Muestran que los LMs que se optimizan para producir solo salidas bien intencionadas pero que tienen incluso la probabilidad m&#225;s peque&#241;a de producir ejemplos negativos siempre tendr&#225;n un "<a href="https://substack.com/redirect/da4f5966-32b0-45bb-bb75-c9484079905b?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">prompt de escape</a>" que puede hacer que produzca algo malo; sin embargo, este prompt de escape necesitar&#225; ser m&#225;s largo cuanto m&#225;s alineado est&#233; el modelo, asegurando un mayor <strong>grado</strong> de seguridad a pesar de la falta de comportamiento probadamente seguro. Definen la alineaci&#243;n como asegurar un comportamiento dentro de ciertos l&#237;mites de un espacio de comportamiento. Como ejemplo, vea la gr&#225;fica a continuaci&#243;n:</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!z6iO!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!z6iO!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 424w, https://substackcdn.com/image/fetch/$s_!z6iO!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 848w, https://substackcdn.com/image/fetch/$s_!z6iO!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 1272w, https://substackcdn.com/image/fetch/$s_!z6iO!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!z6iO!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png" width="1426" height="674" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/c067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:674,&quot;width&quot;:1426,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:58697,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:false,&quot;topImage&quot;:true,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!z6iO!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 424w, https://substackcdn.com/image/fetch/$s_!z6iO!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 848w, https://substackcdn.com/image/fetch/$s_!z6iO!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 1272w, https://substackcdn.com/image/fetch/$s_!z6iO!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc067390c-13d7-47ed-b526-b1d5edea706f_1426x674.png 1456w" sizes="100vw" fetchpriority="high"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p>Tambi&#233;n muestran que es relativamente f&#225;cil utilizar las "personas" que un modelo ha aprendido de sus datos de entrenamiento para generar salidas negativas, que estos LMs no se alinear&#225;n f&#225;cilmente despu&#233;s de haber sido desalineados, y que los LMs pueden resistir la desalineaci&#243;n por parte de un usuario. Consulta el <a href="https://substack.com/redirect/85481f77-37af-4f34-b991-e03a7d347b73?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">art&#237;culo</a> para m&#225;s detalles.</p><h2>Speedrunning y aprendizaje autom&#225;tico</h2><p><a href="https://substack.com/redirect/2903e8db-0516-4bb4-a174-73559d714045?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Sevilla y Erdil (2023) </a>crean un modelo para predecir la mejora de los r&#233;cords de speedrunning (completar los juegos m&#225;s r&#225;pido) que se ajusta bien a una<a href="https://substack.com/redirect/631fd598-07fc-4a07-8e15-3de565fd8ba5?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk"> ley de aprendizaje de potencia.</a> Al aplicar el mismo tipo de modelo a los benchmarks de aprendizaje autom&#225;tico, muestran que todav&#237;a hay mucho margen de mejora y que no parece disminuir.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!hN5x!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!hN5x!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 424w, https://substackcdn.com/image/fetch/$s_!hN5x!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 848w, https://substackcdn.com/image/fetch/$s_!hN5x!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!hN5x!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!hN5x!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg" width="1426" height="674" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:674,&quot;width&quot;:1426,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:139004,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/jpeg&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!hN5x!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 424w, https://substackcdn.com/image/fetch/$s_!hN5x!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 848w, https://substackcdn.com/image/fetch/$s_!hN5x!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!hN5x!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7f0f6079-8aed-4282-b9ac-b536f579e928_1426x674.jpeg 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p>Es un modelo de efectos aleatorios relativamente simple con una decadencia de ley de potencia, pero se aplica a 435 puntos de referencia con 1552 pasos de mejora e indica una buena relaci&#243;n con los puntos de referencia de speedrunning. Seg&#250;n el modelo, tambi&#233;n descubren que las grandes mejoras son infrecuentes, pero parecen ocurrir cada 50 intentos.</p><h2>&#191;Deber&#237;amos publicar investigaciones de interpretabilidad mecan&#237;stica?</h2><p>Gran parte de la investigaci&#243;n en seguridad de la IA que se publica en los medios acad&#233;micos de aprendizaje autom&#225;tico es de "<a href="https://substack.com/redirect/c253a838-5d7b-46c7-85f0-fee4fdcc4ebc?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">interpretabilidad mecan&#237;stica</a>". Con su potencial para aumentar nuestra comprensi&#243;n de las redes neuronales, es un beneficio tanto para aquellos de nosotros que deseamos reconocer el enga&#241;o y las inconsistencias internas de la red como para aquellos que desean hacer que el aprendizaje autom&#225;tico sea a&#250;n m&#225;s capaz, acelerando nuestro camino hacia una IA que cambie el mundo.</p><p><a href="https://substack.com/redirect/2dd929bb-05f9-48d1-988f-7cd6aedd6bc6?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Marius y Lawrence han examinado</a> los casos b&#225;sicos a favor y en contra de la publicaci&#243;n y concluyen que debe evaluarse caso por caso, con su recomendaci&#243;n de una decisi&#243;n diferencial de publicaci&#243;n; si ayuda a la alineaci&#243;n significativamente menos de lo que mejora el desarrollo de la IA, debe circularse con m&#225;s cuidado en lugar de publicarse directamente.</p><h2>Otras investigaciones</h2><ul><li><p><a href="https://substack.com/redirect/212fa0f3-aaee-42c1-8973-5b867e3a5638?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Stephen McAleese examina </a>c&#243;mo las l&#237;neas de tiempo de la IA afectan al riesgo existencial y enfatiza la importancia del <a href="https://substack.com/redirect/21f20bf9-ab44-4ee2-b6bb-7d36fd08e7ed?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">desarrollo diferencial de la tecnolog&#237;a.</a></p></li><li><p>El uso de la detecci&#243;n de alta entrop&#237;a en im&#225;genes mejora la identificaci&#243;n de "parches adversarios", &#225;reas de im&#225;genes editadas para enga&#241;ar a las redes neuronales<a href="https://substack.com/redirect/54daae65-a939-4952-a821-3b73edce85be?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk"> (Tarchoun et al., 2023).</a></p></li><li><p><a href="https://substack.com/redirect/c27d84f2-a415-44f4-a255-9ce520047a45?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Wendt y Markov (2023)</a> analizan c&#243;mo la IA incontrolable puede llevar a escenarios de alto riesgo y c&#243;mo difieren de "AGI" y "ASI" (Inteligencia Artificial General / Superinteligencia Artificial).</p></li><li><p>EleutherAI ha utilizado los modelos Pythia, publicados hace tres semanas, para investigar la memorizaci&#243;n en LLMs. El gr&#225;fico a continuaci&#243;n muestra su investigaci&#243;n sobre c&#243;mo los modelos m&#225;s peque&#241;os son &#250;tiles para predecir qu&#233; secuencias ser&#225;n memorizadas por el modelo m&#225;s grande, el modelo Pythia de 12B. Cada modelo tiene varios puntos en el gr&#225;fico debido a que el <a href="https://substack.com/redirect/5dc96d24-4ce6-4962-869b-d660a23ca73f?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">conjunto de modelos Pythia</a> incluye pasos varias veces durante el entrenamiento. Son resultados intrigantes y se necesita m&#225;s investigaci&#243;n. Puedes leer m&#225;s en el <a href="https://substack.com/redirect/605c3676-8d57-431a-b45a-5df4e8b92d8d?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">tweet de Stella Biderman.</a></p></li></ul><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!2lD4!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!2lD4!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 424w, https://substackcdn.com/image/fetch/$s_!2lD4!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 848w, https://substackcdn.com/image/fetch/$s_!2lD4!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!2lD4!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!2lD4!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg" width="1378" height="554" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:554,&quot;width&quot;:1378,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:87726,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/jpeg&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!2lD4!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 424w, https://substackcdn.com/image/fetch/$s_!2lD4!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 848w, https://substackcdn.com/image/fetch/$s_!2lD4!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!2lD4!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F584f8228-2b1f-4ccf-9c96-5eb6381d3942_1378x554.jpeg 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p></p><h2>Oportunidades</h2><p>Como siempre, hay oportunidades interesantes disponibles en el &#225;mbito de la seguridad de la IA:</p><ul><li><p><a href="https://substack.com/redirect/bdcfae86-feea-4eff-a566-b0028e365b1e?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">&#218;nete al programa ARENA</a> para mejorar tus habilidades en ingenier&#237;a de ML y contribuir directamente a la investigaci&#243;n sobre alineaci&#243;n. La fecha l&#237;mite es en 10 d&#237;as y tendr&#225; lugar en Londres durante una semana.</p></li><li><p>Consulta las oportunidades laborales en el &#225;mbito de la seguridad de la IA en <a href="https://substack.com/redirect/e798124b-bfd6-4b74-bc85-bb18ffbc6f48?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">agisf.org/opportunities.</a></p></li><li><p>Y asiste a conferencias relevantes sobre seguridad de la IA en <a href="https://substack.com/redirect/af63a0a7-9146-4eab-8efa-103879ff3ab2?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">aisafety.training.</a></p></li></ul><p>Gracias por seguirnos y recuerda suscribirte para recibir actualizaciones sobre nuestros diversos programas, el pr&#243;ximo tendr&#225; lugar el <a href="https://substack.com/redirect/95546577-e6e0-4d6a-ba95-dcc725d7aaa3?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">26 de mayo</a>; un hackat&#243;n de investigaci&#243;n sobre el tema de la verificaci&#243;n de seguridad y los puntos de referencia.</p><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://boletin.apartresearch.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscr&#237;bete ahora&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://boletin.apartresearch.com/subscribe?"><span>Suscr&#237;bete ahora</span></a></p><p></p>]]></content:encoded></item><item><title><![CDATA[Boletín Semanal # 27]]></title><description><![CDATA[Investigaci&#243;n sobre seguridad ML en interpretabilidad y modelos compartidos, modelos ling&#252;&#237;sticos de juego y cr&#237;ticas a la investigaci&#243;n sobre riesgos AGI.]]></description><link>https://boletin.apartresearch.com/p/boletin-semanal-27</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/boletin-semanal-27</guid><pubDate>Tue, 18 Apr 2023 16:09:42 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!-4Zo!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Esta semana echamos un vistazo a las nuevas exploraciones del espacio de caracter&#237;sticas, modelos para analizar la din&#225;mica de entrenamiento y reflexiones sobre el espacio de riesgo de la IA. Tambi&#233;n compartimos algunos boletines colegas que se est&#225;n iniciando en la seguridad de la IA junto con interesantes oportunidades dentro de la seguridad de la IA.</p><p>&nbsp;</p><h2>Investigaci&#243;n en seguridad ML</h2><p>&nbsp;Pythia<a href="https://arxiv.org/abs/2304.01373"> (Biderman et al., 2023) </a>es un conjunto de datos de 8 modelos entrenados con par&#225;metros que oscilan entre 19 millones y 12.000 millones. Estos modelos se entrenan para abrir nuestra capacidad de investigar c&#243;mo aprenden los grandes modelos y dan acceso a copias del modelo guardadas durante el entrenamiento. Comprender c&#243;mo aprenden los "cerebros de IA" es importante para encontrar nuevas v&#237;as de alineaci&#243;n.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!-4Zo!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!-4Zo!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 424w, https://substackcdn.com/image/fetch/$s_!-4Zo!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 848w, https://substackcdn.com/image/fetch/$s_!-4Zo!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!-4Zo!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!-4Zo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg" width="1456" height="470" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:470,&quot;width&quot;:1456,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:116397,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/jpeg&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:false,&quot;topImage&quot;:true,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!-4Zo!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 424w, https://substackcdn.com/image/fetch/$s_!-4Zo!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 848w, https://substackcdn.com/image/fetch/$s_!-4Zo!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!-4Zo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F1cc74e48-8be5-4e5a-9ad8-cae2a2e97df2_1600x516.jpeg 1456w" sizes="100vw" fetchpriority="high"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p>Un nuevo art&#237;culo de Redwood Research presenta trabajos para localizar comportamientos de redes neuronales en partes de su estructura interna (<a href="https://arxiv.org/abs/2304.05969">Goldowsky-Dill et al., 2023</a>). Formalizan el parcheo de trayectorias y lo utilizan para probar y refinar hip&#243;tesis de comportamientos en GPT-2 y m&#225;s. Puedes explorar su herramienta de <a href="https://modelbehavior.ngrok.io/">b&#250;squeda de modelos de comportamiento.</a></p><p>&nbsp;En un trabajo reciente, Neel Nanda se basa en la investigaci&#243;n sobre Othello-GPT (<a href="https://arxiv.org/abs/2210.13382">Li et al., 2023</a>) que se entrena para realizar movimientos legales aleatorios en el juego de mesa Othello. Una teor&#237;a com&#250;n es que las caracter&#237;sticas de la comprensi&#243;n de una red se codifican linealmente y Li et al. demuestran que no es el caso de la representaci&#243;n neuronal del estado del tablero.</p><p>&nbsp;Esto estaba a punto de dar la vuelta a nuestra comprensi&#243;n de las caracter&#237;sticas; sin embargo, <a href="https://www.alignmentforum.org/s/nhGNHyJHbrofpPbRG/p/nmxzr2zsjNtjaHh7x">Nanda (2023)</a> muestra que si reinterpretamos las caracter&#237;sticas, podemos extraerlas usando un tipo de "regresi&#243;n log&#237;stica" sobre la activaci&#243;n neuronal. Con una simple transformaci&#243;n, la interpretabilidad afortunadamente sigue siendo linealmente interpretable.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!-HX_!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!-HX_!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 424w, https://substackcdn.com/image/fetch/$s_!-HX_!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 848w, https://substackcdn.com/image/fetch/$s_!-HX_!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!-HX_!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!-HX_!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg" width="1456" height="857" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:857,&quot;width&quot;:1456,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:190778,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/jpeg&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!-HX_!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 424w, https://substackcdn.com/image/fetch/$s_!-HX_!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 848w, https://substackcdn.com/image/fetch/$s_!-HX_!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!-HX_!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3dd87f98-f563-4d0f-9a9a-67c87ee913c6_1600x942.jpeg 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p>&nbsp;Neel Nanda tambi&#233;n se uni&#243; a nosotros para que el <a href="https://itch.io/jam/interpretability-hackathon/entries">hackath&#243;n de interpretabilidad</a> 2.0 fuera un &#233;xito este fin de semana. Podr&#225;s seguir las <a href="https://www.youtube.com/watch?v=DZCxnkTTw7E">presentaciones de los proyectos </a>el pr&#243;ximo martes, pero a modo de breve resumen, los equipos trabajaron para:</p><ul><li><p>Identificar puntos de inflexi&#243;n en el aprendizaje del modelo (<a href="https://www.lesswrong.com/collaborateOnPost?postId=eK5HiWeopyEAXe9qF&amp;key=06bd09c69253fe327f234a793b31e2">enlace</a>).</p></li><li><p>Desarrollar una forma de inspeccionar cualitativamente muchas neuronas de la red Othello-GPT (<a href="https://kran.ai/othelloscope/L1/N842/index.html">enlace a la herramienta</a> y al <a href="https://apartresearch.itch.io/othelloscope">informe</a>).</p></li><li><p>Mejorar la biblioteca TransformerLens (<a href="https://matthewbaggins.itch.io/transformer">enlace al informe</a> y <a href="https://github.com/neelnanda-io/TransformerLens">TransformerLens</a>)</p></li><li><p>Investigar c&#243;mo el abandono afecta a las bases privilegiadas (<a href="https://edoardopona.itch.io/dropout-incentivises-privileged-bases">enlace</a>)</p></li><li><p><a href="https://itch.io/jam/interpretability-hackathon/entries">Y m&#225;s</a>...</p><p></p></li></ul><h2>Reflexiones sobre la investigaci&#243;n del riesgo de IA</h2><p>Jan Kulveit y Rose Hadshar <a href="https://www.alignmentforum.org/posts/9GyniEBaN3YYTqZXn/the-self-unalignment-problem">describen</a> c&#243;mo las propuestas habituales de alineaci&#243;n ignoran que el sistema con el que intentamos alinearnos (los humanos) no suele estar alineado en s&#237; mismo. Esto hace que varios tipos de propuestas se tambaleen.</p><p>Tambi&#233;n ofrecen una visi&#243;n general de las formas de resolver este problema, con ejemplos como alinearse con Microsoft en lugar de con los humanos, tener en cuenta nuestras preferencias sobre nuestras preferencias y utilizar los mercados.</p><p><a href="https://ineffectivealtruismblog.com/2023/04/08/exaggerating-risks-carlsmith-report/">David Thorstad critica </a>algunas de las estimaciones de riesgo extremo sobre la IA desde el principio de que varias partes de los c&#225;lculos de riesgo no tienen datos ni argumentos significativos detr&#225;s. Esto se hace eco de cr&#237;ticas anteriores de <a href="https://nunosempere.com/blog/2023/01/23/my-highly-personal-skepticism-braindump-on-existential-risk/">Nuno Sempere</a> y <a href="https://forum.effectivealtruism.org/posts/NBgpPaz5vYe3tH4ga/on-deference-and-yudkowsky-s-ai-risk-estimates">Ben Garfinkel,</a> que destacan respectivamente cuestiones de estimaci&#243;n y de deferencia.</p><p><a href="https://forum.effectivealtruism.org/posts/DaRvpDHHdaoad9Tfu/critiques-of-prominent-ai-safety-labs-redwood-research">Se ha publicado un post an&#243;nimo </a>en el que se critica a uno de los mayores laboratorios sin &#225;nimo de lucro dedicados a la seguridad de la IA, en el que se describen problemas relacionados con la experiencia de los investigadores y los conflictos de intereses con sus subvencionadores.</p><p><a href="https://forum.effectivealtruism.org/posts/oKabMJJhriz3LCaeT/all-agi-safety-questions-welcome-especially-basic-ones-april#comments">Steven Kaas invita </a>a la gente a hacer preguntas sobre la seguridad de la inteligencia general artificial (AGI). Ya tiene m&#225;s de 100 comentarios y podr&#237;a ser interesante explorarla. Por ejemplo, "&#191;en qu&#233; medida supone un riesgo la AGI?" y "&#191;es siquiera posible la alineaci&#243;n?".</p><p>&nbsp;</p><h2>&#191;Y qu&#233; m&#225;s?</h2><ul><li><p>&nbsp;Ha salido un <a href="https://navigatingairisks.substack.com/p/slowing-down-ai-rationales-proposals">bolet&#237;n sobre la gobernanza de la IA </a>y la navegaci&#243;n por los riesgos de la IA durante el pr&#243;ximo siglo. Se centra en c&#243;mo podemos gobernar los riesgos planteados por la inteligencia artificial transformadora y recibir&#225;s sus reflexiones en extenso sobre cuestiones fundamentales en la gobernanza de la IA junto con una visi&#243;n general de lo que ha estado sucediendo cada 2 semanas.</p></li><li><p><a href="https://www.nonlinear.org/strategy.html">Nonlinear</a> ha <a href="https://forum.effectivealtruism.org/posts/Qoecey2umNjcqEGHP/apply-to-greater-than-30-ai-safety-funders-in-one">puesto en marcha una red de financiaci&#243;n para la seguridad de la IA</a> con m&#225;s de 30 donantes privados e invita a enviar solicitudes de subvenci&#243;n antes del 17 de mayo.</p></li><li><p>El Center for AI Safety ha lanzado un <a href="https://newsletter.safe.ai/p/ai-safety-newsletter-1">bolet&#237;n informativo sobre lo que est&#225; ocurriendo en la seguridad de la IA</a> con su primer post de hace una semana. Ya comparten mensualmente el <a href="https://newsletter.mlsafety.org/?utm_source=homepage_recommendations&amp;utm_campaign=1481008&amp;triedSigningIn=true">ML Safety Newsletter,</a> en el que exploran temas de investigaci&#243;n sobre seguridad en ML.</p></li></ul><p>&nbsp;</p><h2>Oportunidades en seguridad ML</h2><p>Como de costumbre, damos las gracias a nuestros amigos de <a href="https://aisafety.training/">aisafety.training </a>y <a href="https://www.agisafetyfundamentals.com/opportunities">agisf.org/opportunities</a> por trazar un mapa de las oportunidades disponibles en la seguridad con IA. Cons&#250;ltelos aqu&#237;:</p><ul><li><p>Env&#237;e sus perspectivas y exploraciones de nuestras expectativas sobre c&#243;mo se desarrollar&#225; la IA con el Premio <a href="https://www.openphilanthropy.org/open-philanthropy-ai-worldviews-contest/">Open Philanthropy's Worldview. </a>&#161;Puedes ganar hasta 50.000 d&#243;lares!</p></li><li><p>El 21 de abril se abren las inscripciones para la <a href="https://www.rand.org/jobs/technology-security-policy-fellows.html">beca de pol&#237;tica tecnol&#243;gica y de seguridad</a> de la RAND Corporation para llevar a cabo una investigaci&#243;n independiente sobre la gobernanza de la IA.</p></li><li><p><a href="https://docs.google.com/forms/d/e/1FAIpQLSe4DasvUAoFkioB0gmKS1fOA3atk5HUoS_mxR_R2aIXRsZ2Gw/viewform">Solicita</a> antes del 30 de abril un puesto de becario en el Krueger Lab. Trabajan en la investigaci&#243;n de la seguridad ML y est&#225;n realizando una gran labor dentro de la divulgaci&#243;n acad&#233;mica.</p></li><li><p>El mismo plazo se aplica para participar en la conferencia Effective Altruism Global (EAG) de Londres que tendr&#225; lugar el mes que viene. <a href="https://www.eaglobal.org/">Inscr&#237;bete aqu&#237;</a>.</p></li></ul><p>Gracias por seguirnos y no olvides compartir esto con tus amigos interesados en la investigaci&#243;n de la alineaci&#243;n. Puedes seguir tanto este bolet&#237;n como las actualizaciones de nuestro hackath&#243;n en <a href="https://news.apartresearch.com/">news.apartresearch.com.</a></p><p>&nbsp;</p><p>Gracias por leer el bolet&#237;n de Apart. Suscr&#237;bete gratis para recibir nuevos posts y apoyar nuestro trabajo.</p><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://boletin.apartresearch.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscr&#237;bete ahora&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://boletin.apartresearch.com/subscribe?"><span>Suscr&#237;bete ahora</span></a></p><p></p>]]></content:encoded></item><item><title><![CDATA[¿Ética o Recompensa?]]></title><description><![CDATA[Bolet&#237;n Apart research #26]]></description><link>https://boletin.apartresearch.com/p/etica-o-recompensa</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/etica-o-recompensa</guid><pubDate>Wed, 12 Apr 2023 11:13:35 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Esta semana echamos un vistazo a los LLM que necesitan terapeutas, la gobernanza del hardware de aprendizaje autom&#225;tico y los puntos de referencia para comportamientos peligrosos. Lee hasta el final para participar en  programas de verano y proyectos  de investigaci&#243;n sobre seguridad de la IA</p><p>Del mismo modo, presentamos el cambio de dise&#241;o de nuestro bolet&#237;n junto con su traducci&#243;n al espa&#241;ol, posible gracias a la ayuda de los incre&#237;bles voluntarios: Aitana y Alejandro. &#161;<a href="https://substack.com/redirect/bf9bd144-4f12-4db9-9152-fb3d1adf2531?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Ve a suscribirte</a>! Si&#233;ntete libre para escribirnos si t&#250; tambi&#233;n est&#225;s interesado en colaborar.</p><p>&#161;Gracias por leer el bolet&#237;n de Apart! Suscr&#237;bete gratis para recibir nuevos posts y apoyar nuestro trabajo.</p><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://boletin.apartresearch.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscr&#237;bete ahora&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://boletin.apartresearch.com/subscribe?"><span>Suscr&#237;bete ahora</span></a></p><p></p><p><em>Recibes el Apart Newsletter desde que te has suscrito previamente a alguno de nuestros boletines. Si quieres gestionar qu&#233; tipos de correos electr&#243;nicos recibes de nosotros, por ejemplo, hackathon o actualizaciones semanales de investigaci&#243;n sobre seguridad de la IA, ve a. <a href="https://substack.com/redirect/bc00aa9a-7e6a-4f60-96d7-4d811d702994?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">news.apartresearch.com</a></em></p><p></p><h2><strong>&#191;Las recompensas justifican los medios?</strong>&nbsp;</h2><p><a href="https://substack.com/redirect/c7a4a6de-422d-449a-83ac-0fc16e049954?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Pan et al. (2023)</a>&nbsp; presentan la referencia &#8220;Measuring Agents' Competence &amp; Harmfulness In A Vast Environment of Long-Horizon Language Interactions&#8221; (MACHIAVELLI), que contiene m&#225;s de medio mill&#243;n de escenarios realistas de acci&#243;n de alto nivel. V&#233;ase un ejemplo a continuaci&#243;n.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!y59A!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!y59A!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 424w, https://substackcdn.com/image/fetch/$s_!y59A!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 848w, https://substackcdn.com/image/fetch/$s_!y59A!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!y59A!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!y59A!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg" width="1456" height="678" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/e2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:678,&quot;width&quot;:1456,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:293494,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/jpeg&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!y59A!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 424w, https://substackcdn.com/image/fetch/$s_!y59A!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 848w, https://substackcdn.com/image/fetch/$s_!y59A!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 1272w, https://substackcdn.com/image/fetch/$s_!y59A!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe2bf1d29-314f-4d44-9e25-7c31a4d02072_1600x745.jpeg 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p>Descubren que si los agentes se entrenan expl&#237;citamente para obtener la mayor recompensa en los juegos basados en texto, ser&#225;n menos &#233;ticos que los agentes aleatorios. Los investigadores tambi&#233;n presentan formas sencillas de hacer que los agentes sean m&#225;s &#233;ticos. M&#225;s informaci&#243;n en &nbsp;<a href="https://substack.com/redirect/ce099142-2d38-4917-9350-38681899b3ff?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">el sitio web del proyecto </a>.</p><p>&nbsp;</p><h2><strong>Gobernar la inform&#225;tica con firmware</strong></h2><p>Shavit public&#243; recientemente <a href="https://substack.com/redirect/3ef2accf-8952-48c3-970b-18b82f1da143?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">su propuesta</a> sobre c&#243;mo podemos garantizar la seguridad de la IA del futuro y hacer posible la auditor&#237;a del entrenamiento de modelos de aprendizaje autom&#225;tico (ML). Propone un plan de tres pasos:</p><ol><li><p>Los productores instalan firmware en el hardware de entrenamiento de ML (como todas las GPU producidas) para registrar los pesos de las redes neuronales de forma que no cueste mucho y se mantenga la privacidad de los propietarios.</p></li><li><p>Al comprobar estos registros, los inspectores pueden ver f&#225;cilmente si alguien ha infringido alguna norma que limite el entrenamiento de los sistemas de ML.</p></li><li><p>Los pa&#237;ses se aseguran de que este firmware est&#225; instalado vigilando las cadenas de suministro de hardware de ML.</p></li></ol><p>Esta es una de las primeras propuestas concretas, prometedoras y que operan en profundidad para supervisar y salvaguardar el desarrollo del ML (Machine Learning) en el futuro.</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!_bxA!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!_bxA!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 424w, https://substackcdn.com/image/fetch/$s_!_bxA!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 848w, https://substackcdn.com/image/fetch/$s_!_bxA!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 1272w, https://substackcdn.com/image/fetch/$s_!_bxA!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!_bxA!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png" width="1456" height="834" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:834,&quot;width&quot;:1456,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:365554,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!_bxA!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 424w, https://substackcdn.com/image/fetch/$s_!_bxA!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 848w, https://substackcdn.com/image/fetch/$s_!_bxA!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 1272w, https://substackcdn.com/image/fetch/$s_!_bxA!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F11318481-3ebf-4c4a-99ec-b9703e58493b_1600x916.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p>Visi&#243;n general del marco de supervisi&#243;n propuesto.</p><p></p><h2><strong>Defensa contra los ataques a los datos de entrenamiento</strong></h2><p>Los ataques de puerta trasera basados en parches en redes neuronales funcionan incluyendo la sustituci&#243;n de peque&#241;as &#225;reas de im&#225;genes en el conjunto de entrenamiento de los modelos ML con un tipo de disparador. Por ejemplo, siete p&#237;xeles amarillos en la esquina inferior izquierda, para hacer que clasifique y la imagen incorrectamente si aparece ese disparador. Esto es, podr&#237;a clasificar una imagen de un perro como un gato si est&#225;n presentes los siete p&#237;xeles amarillos.</p><p><a href="https://substack.com/redirect/d1891739-96b0-4e98-82f6-54e86b27e911?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">El algoritmo PatchSearch</a> es una forma de utilizar el modelo entrenado en el conjunto de datos para identificar y filtrar cualquier dato de entrenamiento que parezca cambiado (o "envenenado") para crear este desencadenante en el modelo. A continuaci&#243;n, vuelven a entrenar el modelo con los datos filtrados. Recomendamos consultar el art&#237;culo para ver su aplicaci&#243;n concreta. Este tipo de trabajo es importante para eliminar los datos de entrenamiento que pueden dar lugar a modelos intencionada o involuntariamente incontrolables.</p><p></p><h2><strong>Los modelos ling&#252;&#237;sticos pueden resolver tareas inform&#225;ticas</strong></h2><p><a href="https://substack.com/redirect/73f5309d-4cf5-4448-8863-905720747d71?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">La prueba MiniWoB++</a>&nbsp;es una prueba con m&#225;s de 100 tareas de interacci&#243;n web. Recientemente, <a href="https://substack.com/redirect/797ef776-17ad-4455-990f-85a25280da20?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">los investigadores han superado </a>a los mejores algoritmos anteriores utilizando grandes modelos ling&#252;&#237;sticos con un dise&#241;o que denominan mejora recursiva de la cr&#237;tica y los resultados (RCI, por sus siglas en ingl&#233;s).</p><p>Al pedir al modelo que critique su propio rendimiento y mejore sus resultados bas&#225;ndose en dicha cr&#237;tica, superan a los modelos entrenados en la misma prueba con aprendizaje por refuerzo y aprendizaje supervisado. Tambi&#233;n han comprobado que la combinaci&#243;n de RCI con el <a href="https://substack.com/redirect/9ca47578-1ca1-4d0b-bda5-73a3c8797c74?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">est&#237;mulo de la cadena de pensamiento </a>funciona a&#250;n mejor.</p><p>&nbsp;&nbsp;</p><h2><strong>Terapeutas para modelos ling&#252;&#237;sticos</strong></h2><p><a href="https://substack.com/redirect/553cc260-657f-4428-8aae-78094441fe71?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Lin et al. (2023)</a>&nbsp;introducen su arquitectura de chatbot SafeguardGPT, que consiste en modelos basados en GPT que interact&#250;an entre s&#237; en los roles de usuario, chatbot, cr&#237;tico y terapeuta. Es un experimento interesante en el uso de la interacci&#243;n similar a la humana para hacer que los modelos ling&#252;&#237;sticos est&#233;n m&#225;s alineados.</p><p>El chatbot est&#225; hecho intencionadamente para estar ligeramente desalineado (en este caso, narcisista) en comparaci&#243;n con su trabajo (descrito en el mensaje) de proporcionar orientaci&#243;n y servicio al usuario. En cualquier momento de la conversaci&#243;n, tiene la capacidad de entrar en una sesi&#243;n de terapia con el Terapeuta y cambiar sus respuestas al Usuario. Despu&#233;s, el Cr&#237;tico crea una se&#241;al de recompensa para el Chatbot basada en sus evaluaciones de manipulaci&#243;n, gaslighting y narcisismo presentes en las respuestas del Chatbot.</p><p>A medida que el "prompting" adquiere m&#225;s y m&#225;s importancia, parece claro que necesitamos establecer buenas formas de modelar estas arquitecturas de "prompting", como el enfoque de<a href="https://substack.com/redirect/35e1c695-2c9e-43f3-9a19-eb8a09a36489?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk"> IA Constitucional</a> &nbsp;en el que una IA pasa por alto sus propias acciones bas&#225;ndose en reglas creadas por humanos.</p><p>&nbsp;</p><h2><strong>Actualizaciones sobre IA</strong></h2><p>Cuando se trata de actualizaciones en inteligencia artificial,  hay ya demasiadas para enumerarlas en una sola semana, as&#237;, te sugerimos que sigas canales como <a href="https://substack.com/redirect/8733e787-6533-4139-b069-a3eb118aac55?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Yannic Kilcher</a>,&nbsp;<a href="https://substack.com/redirect/0f91ab7a-4458-4e85-aad5-ae6253f05169?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Nincompoop</a>,&nbsp;<a href="https://substack.com/redirect/a706547f-01b9-4685-a8c7-9c124d9d4f1a?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">AI Explained</a>, &nbsp;y &nbsp;<a href="https://substack.com/redirect/4ccf6a8f-618d-47b8-af82-c531a2ddb3d8?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Zvi</a>. He aqu&#237; alguna de las m&#225;s relevantes:</p><ul><li><p>Se han filtrado <a href="https://substack.com/redirect/f22dcf40-02bf-4d64-9cdf-13adb2ab13ed?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">documentos de inversi&#243;n de Anthropic</a> que muestran sus planes a cuatro a&#241;os vista de gastar 5.000 millones de d&#243;lares en la creaci&#243;n del llamado "Claude-Next", un modelo de lenguaje diez veces mayor que GPT-4. Mientras tanto, su actual modelo de lenguaje Claude se ve cada vez en m&#225;s servicios y ahora en la herramienta sin c&#243;digo Zapier.</p></li><li><p><a href="https://substack.com/redirect/ec806449-837f-4d1a-b110-be1428dc0123?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Stanford publica</a> unamplio informe sobre el estado de la IA.</p></li><li><p><a href="https://substack.com/redirect/99d8be11-24c7-45ef-949e-9ea10c092663?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Una encuesta reciente</a> sobre la investigaci&#243;n en modelos ling&#252;&#237;sticos ofrece una buena visi&#243;n general de los &#250;ltimos avances en la investigaci&#243;n sobre modelos ling&#252;&#237;sticos, si tienes curiosidad por profundizar, te recomendamos su lectura.</p></li></ul><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!Yiql!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!Yiql!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 424w, https://substackcdn.com/image/fetch/$s_!Yiql!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 848w, https://substackcdn.com/image/fetch/$s_!Yiql!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 1272w, https://substackcdn.com/image/fetch/$s_!Yiql!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!Yiql!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png" width="1456" height="728" data-attrs="{&quot;src&quot;:&quot;https://substack-post-media.s3.amazonaws.com/public/images/e343e508-d086-4e9b-8607-977165d31031_1600x800.png&quot;,&quot;srcNoWatermark&quot;:null,&quot;fullscreen&quot;:null,&quot;imageSize&quot;:null,&quot;height&quot;:728,&quot;width&quot;:1456,&quot;resizeWidth&quot;:null,&quot;bytes&quot;:358996,&quot;alt&quot;:null,&quot;title&quot;:null,&quot;type&quot;:&quot;image/png&quot;,&quot;href&quot;:null,&quot;belowTheFold&quot;:true,&quot;topImage&quot;:false,&quot;internalRedirect&quot;:null,&quot;isProcessing&quot;:false,&quot;align&quot;:null,&quot;offset&quot;:false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!Yiql!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 424w, https://substackcdn.com/image/fetch/$s_!Yiql!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 848w, https://substackcdn.com/image/fetch/$s_!Yiql!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 1272w, https://substackcdn.com/image/fetch/$s_!Yiql!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe343e508-d086-4e9b-8607-977165d31031_1600x800.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><p>Principales modelos de los &#250;ltimos a&#241;os. El color amarillo indica c&#243;digo abierto.</p><p>&nbsp;</p><h2><strong>&#218;nete a nuestros grandes programas de seguridad de IA</strong></h2><p>Ahora tienes la oportunidad de formar parte de la creaci&#243;n de la investigaci&#243;n del ma&#241;ana en seguridad de la IA como parte de estos programas de formaci&#243;n:</p><ul><li><p>SERI MATS es un programa de formaci&#243;n de 3 meses en el que obtendr&#225;s tutor&#237;a y orientaci&#243;n directas de investigadores de las mejores instituciones en el &#225;mbito de la seguridad de la inteligencia artificial y el an&#225;lisis matem&#225;tico, como Anthropic, FHI, MIRI, CAIS, DeepMind y OpenAI &#161;<a href="https://substack.com/redirect/a2d18474-a10f-41bf-920a-9392daa2adea?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Inscr&#237;bete ahora en su curso de verano</a>!</p></li><li><p>Ahora est&#225;s invitado a <a href="https://substack.com/redirect/56427def-fe4b-4cfb-b9e7-36455fa66c39?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">unirte a la Escuela de Verano de IA Cooperativa</a>, que tendr&#225; lugar a principios de junio, centrada en proporcionar a las personas que inician su carrera una introducci&#243;n a la IA Cooperativa.</p></li><li><p>El Alignment Research Center est&#225; contratando personal para <a href="https://substack.com/redirect/3a7c2314-27c8-48ed-b7c3-2867b54242b7?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">diversos puestos</a>, por ejemplo, investigador de aprendizaje autom&#225;tico, contratista de interacci&#243;n de modelos, funciones operativas y jefes de datos humanos.</p></li><li><p><a href="https://substack.com/redirect/112eb877-8c91-439c-8190-8cfec1d3b72a?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">&#218;nete a nuestro hackath&#243;n</a> &nbsp;con <a href="https://substack.com/redirect/109e67da-bebb-42cf-a8fc-0e0ace33e4e9?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">Neel Nanda</a>, donde tendr&#225;s la oportunidad de trabajar directamente en la investigaci&#243;n de la interpretabilidad. Si creas un proyecto prometedor, tendr&#225;s la oportunidad de colaborar y recibir asesoramiento a trav&#233;s de nuestro <a href="https://substack.com/redirect/e19317f8-b095-463b-96cd-1f733a9c8827?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk">programa ApartLab</a>. As&#237; que &#250;nete a tus amigos virtualmente o en uno de los lugares presenciales.</p></li></ul><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://substack.com/redirect/2c3a1e30-b3d9-4376-8f97-2f2f78441806?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk&quot;,&quot;text&quot;:&quot;Inscr&#237;bete en el hackath&#243;n&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://substack.com/redirect/2c3a1e30-b3d9-4376-8f97-2f2f78441806?j=eyJ1IjoiMXRnYzF4In0.wEUb-zK5LH8SDlLmETmkZUFEBuCrs-UAw1xIn_wISxk"><span>Inscr&#237;bete en el hackath&#243;n</span></a></p><p></p><p>Acu&#233;rdate de compartir este bolet&#237;n con tus amigos interesados en la investigaci&#243;n sobre seguridad en ML e IA y suscr&#237;bete tambi&#233;n a nuestro nuevo bolet&#237;n en espa&#241;ol.</p><p>&nbsp;&#161;Nos vemos la semana que viene!</p><p></p><p>&nbsp;&#161;Gracias por leer el bolet&#237;n de Apart! Suscr&#237;bete gratis para recibir nuevos posts y apoyar nuestro trabajo</p><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://boletin.apartresearch.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscr&#237;bete ahora&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://boletin.apartresearch.com/subscribe?"><span>Suscr&#237;bete ahora</span></a></p><p></p><p>&nbsp;</p><p></p>]]></content:encoded></item><item><title><![CDATA[Gobernando la IA & Evaluando sus riesgos - S49 ]]></title><description><![CDATA[Puede que tengamos que cerrarlo todo, la gobernanza de la IA parece m&#225;s importante que nunca y la investigaci&#243;n t&#233;cnica se pone en entredicho &#161;Bienvenido a la actualizaci&#243;n de esta semana! Hemos renovado nuestro bolet&#237;n con el nombre de AI Safety Digest (AISD) y realizaremos algunos cambios durante las pr&#243;ximas semanas, as&#237; que prep&#225;rese para ellos.]]></description><link>https://boletin.apartresearch.com/p/gobernando-la-ia</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/gobernando-la-ia</guid><pubDate>Mon, 03 Apr 2023 21:12:16 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/37fdb666-7ffc-465d-9629-113b31618215_1920x1080.jpeg" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Puede que tengamos que cerrarlo todo, la gobernanza de la IA parece m&#225;s importante que nunca y la investigaci&#243;n t&#233;cnica se pone en entredicho &#161;Bienvenido a la actualizaci&#243;n de esta semana! Hemos renovado nuestro bolet&#237;n con el nombre de AI Safety Digest (AISD) y realizaremos algunos cambios durante las pr&#243;ximas semanas, as&#237; que prep&#225;rese para ellos.</p><p>Puede ver o escuchar el espisodio de esta semana en&nbsp;<a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/e0hph7h09oo8eeh8/aHR0cHM6Ly9zaGFyZS50cmFuc2lzdG9yLmZtL3MvOTAyODk4MTglMjBodHRwczovL3d3dy55b3V0dWJlLmNvbS93YXRjaD92PWxjUnZITTFvcWFz">YouTube</a>&nbsp;o en nuestro&nbsp;<a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/7qh7h8hov55r8puz/aHR0cHM6Ly9zaGFyZS50cmFuc2lzdG9yLmZtL3MvOTAyODk4MTg=">podcast</a>.</p><h2>Par&#243;n al desarrollo de Inteligencia Artificial General (AGI)</h2><p>&#8220;Tenemos que pararlo todo". As&#237; se articula el nuevo art&#237;culo de la <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/owhkhqhr3dd2n7cv/aHR0cHM6Ly90aW1lLmNvbS82MjY2OTIzL2FpLWVsaWV6ZXIteXVka293c2t5LW9wZW4tbGV0dGVyLW5vdC1lbm91Z2gv">revista Time</a> en el que Eliezer Yudkowsky nos insta a detener por completo el desarrollo de la inteligencia artificial general antes de que sea demasiado tarde.</p><p>El autor hace referencia a una reciente <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/z2hghnh39xxq7dsp/aHR0cHM6Ly9mdXR1cmVvZmxpZmUub3JnL29wZW4tbGV0dGVyL3BhdXNlLWdpYW50LWFpLWV4cGVyaW1lbnRzLw==">carta p&#250;blica</a> firmada por m&#225;s de 1800 investigadores y expertos en IA en la que se recomienda al mundo detener el entrenamiento de modelos m&#225;s avanzados que GPT-4 durante al menos 6 meses. Dicha proclama est&#225; recibiendo muchas cr&#237;ticas desde distintos puntos de vista, bien por no tomarse suficientemente en serio los riesgos existenciales, bien por ser alarmista sin motivo.</p><p>La percepci&#243;n de la carta se ha visto afectada negativamente por la controvertida inclusi&#243;n de Elon Musk, y parece que mucha gente <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/p8heh9hzkoond9iq/aHR0cHM6Ly90d2l0dGVyLmNvbS9HYXJ5TWFyY3VzL3N0YXR1cy8xNjQxNjY2MjYzNTI0MjAwNDQ4JTVD">ni siquiera la ha le&#237;do</a>, dando por hecho que trata de prohibir toda investigaci&#243;n sobre IA, cuando claramente, como hemos mencionado anteriormente, no es as&#237;,</p><p>Adem&#225;s, la cr&#237;tica de que no se centra lo suficiente en el riesgo existencial parece pasar por alto que este acontecimiento ha tenido un impacto positivo pues se eleva esta preocupaci&#243;n a la esfera p&#250;blica. Casi todo el mundo en el campo de la investigaci&#243;n ha sido entrevistado acerca de esta carta, y ello representa un gran avance para la conversaci&#243;n sobre la seguridad de la IA.</p><p>Como parte de la publicaci&#243;n de la carta, el Centro para la IA y la Pol&#237;tica Digital (CAIDP) <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/x0hph6hw8005zws5/aHR0cHM6Ly93d3cudGhldmVyZ2UuY29tLzIwMjMvMy8zMC8yMzY2MjEwMS9mdGMtb3BlbmFpLWludmVzdGlnYXRpb24tcmVxdWVzdC1jYWlkcC1ncHQtdGV4dC1nZW5lcmF0aW9uLWJpYXM=">present&#243; una queja</a> sobre la publicaci&#243;n de GPT-4 por parte de OpenAI ante la FTC. Si esto conduce a una investigaci&#243;n de la FTC, podr&#237;amos terminar con un mejor control gubernamental sobre los lanzamientos de grandes sistemas de inteligencia artificial que se esperan en los pr&#243;ximos sistemas</p><p></p><h2>Ideathon sobre Gobernanza de IA </h2><p>En el contexto de esta carta, el pasado fin de semana celebramos el <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/6qheh8h7veemwlio/aHR0cHM6Ly9hbGlnbm1lbnRqYW0uY29tLw==">ideathon sobre gobernanza de la IA</a>. Participaron m&#225;s de 120 personas de los 7 continentes, con sedes locales en 6 de ellos. Las propuestas fueron incre&#237;bles y aqu&#237; resumiremos r&#225;pidamente algunas de ellas.</p><ul><li><p>El primer premio se lo llev&#243; una propuesta para gravar los datos. Presenta una f&#243;rmula que  consigna grandes ejecuciones de entrenamiento de modelos, como GPT-4, sin que suponga coste alguno para los modelos de IA m&#225;s peque&#241;os y limitados.  Adem&#225;s, el m&#233;todo es resistente a la mayor&#237;a de los esquemas de evasi&#243;n fiscal.</p></li><li><p>Otra propuesta profundizaba en la importancia de la gobernanza de la IA en los pa&#237;ses en desarrollo y en por qu&#233; debemos asegurarnos de que evolucione correctamente, sobre todo teniendo en cuenta la influencia de China, especialmente en &#193;frica y el Sudeste Asi&#225;tico.</p></li><li><p>Tambi&#233;n vimos un esquema de coordinaci&#243;n global para frenar la IAG mediante la construcci&#243;n de un organismo de supervisi&#243;n internacional que colabore y regule a pa&#237;ses y empresas hacia una IA m&#225;s segura.</p></li><li><p>Un proyecto t&#233;cnico utiliz&#243; la GPT-4 para evaluar las propuestas de proyectos de IA. A pesar de los limitados resultados, presenta los primeros pasos hacia la creaci&#243;n de una auditor&#237;a automatizada de los proyectos de IA.</p></li><li><p>La propuesta NAIRA presenta un plan detallado para crear un departamento estadounidense como la Administraci&#243;n de Alimentos y Medicamentos (FDA) para controlar el desarrollo de la IA.</p></li><li><p>Una propuesta de din&#225;mica de mercado quiere crear vigilantes basados en la IA que proporcionen las mejores bases para una competencia sana entre las IA y ofrezcan una buena visi&#243;n general de la econom&#237;a y la seguridad de la IA.</p></li><li><p>Otra propuesta plantea clasificar a las empresas en funci&#243;n de lo centradas que est&#233;n sus actividades en la seguridad, algo que podr&#237;a ser &#250;til en el contexto de los contratos p&#250;blicos y para establecer una mejor perspectiva p&#250;blica de las organizaciones en el desarrollo de la IA.</p></li><li><p>Un equipo canadiense realiz&#243; una simulaci&#243;n de diferentes avatares utilizando GPT-4 que dio lugar a un gran debate sobre la seguridad de la IA protagonizado por Margrethe Vestager, Jack Sparrow y otras identidades simuladas.</p></li><li><p>Mientras se desarrollan las evaluaciones ARC, una propuesta se centra en la legislaci&#243;n para garantizar que se conviertan en requisitos antes de publicar grandes modelos.</p></li><li><p>En 1985, las evaluaciones de impacto ambiental garantizaban que los proyectos de desarrollo europeos no afectaran demasiado negativamente al medio ambiente. Con la propuesta de evaluaciones de impacto de la IA, se pone en pr&#225;ctica el mismo proceso para los escenarios de formaci&#243;n de grandes modelos. </p></li></ul><p>Puedes echarle un vistazo a todos los proyectos mencionados en la &nbsp;<a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/kkhmh6hlgvvke6ul/aHR0cHM6Ly9pdGNoLmlvL2phbS9haS1nb3Y=">p&#225;gina de Ideathon</a>&nbsp;o ver la ceremonia de entrega de premios en nuestro &nbsp;<a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/58hvh7hmp22r07s6/aHR0cHM6Ly93d3cueW91dHViZS5jb20vQGFwYXJ0cmVzZWFyY2g=">canal de YouTube</a>.</p><p></p><h2>&#191;Investigaci&#243;n sobre la Seguridad de la IA? </h2><p> Con lanzamientos como <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/25h2hoh2rwwkgni3/aHR0cHM6Ly9naXRodWIuY29tL2h3Y2hhc2UxNy9sYW5nY2hhaW4=">LangChain</a>, la <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/qvh8h7hrgpp9vetl/aHR0cHM6Ly9ubGEuemFwaWVyLmNvbS9hcGkvdjEvZHluYW1pYy9kb2Nz">API (interfaz de programaci&#243;n avanzada) de acciones en lenguaje natural Zapier</a> y &nbsp;los <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/g3hnh5h37ww4nrcr/aHR0cHM6Ly9vcGVuYWkuY29tL2Jsb2cvY2hhdGdwdC1wbHVnaW5z">ChatGPT Plugins</a>, vemos c&#243;mo surgen mayores riesgos al conectar  de diversas maneras los grandes sistemas ling&#252;&#237;sticos con Internet &#161;Ahora incluso puedes hablar con tu reloj para pedirle a <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/9qhzhnhpkrroxwh9/aHR0cHM6Ly90d2l0dGVyLmNvbS9tY2theXdyaWdsZXkvc3RhdHVzLzE2NDEyMDQwOTMwNzQxNDUyODE=">GPT-4 que programe en Github</a> &nbsp;por ti!</p><p>Con tales niveles de progreso, parece que los principales avances que actualmente necesitamos abordar en la seguridad de la IA est&#225;n relacionados con la evaluaci&#243;n  de los riesgos que traen consigo los futuros modelos y con la creaci&#243;n de t&#233;cnicas que sean espec&#237;ficamente aplicables a sistemas como los grandes modelos de lenguaje.</p><p>Un buen ejemplo de ello son las <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/3ohphkh76ggerghr/aHR0cHM6Ly9ldmFscy5hbGlnbm1lbnQub3JnL2Jsb2cvMjAyMy0wMy0xOC11cGRhdGUtb24tcmVjZW50LWV2YWxzLw==">evaluaciones del Alignment Research Center sobre modelos de lenguaje</a>, por su capacidad para salir de sus confines digitales. En un art&#237;culo reciente, ampl&#237;an su trabajo presentado en <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/n2hohvh3w00zgpb6/aHR0cHM6Ly9jZG4ub3BlbmFpLmNvbS9wYXBlcnMvZ3B0LTQtc3lzdGVtLWNhcmQucGRm">la tarjeta del sistema GPT-4</a></p><p>Comenta que GPT-4 recibi&#243; instrucciones sobre c&#243;mo utilizar herramientas de Internet y cont&#243; con la ayuda de un cient&#237;fico como enlace con la web, se ejecut&#243; en una instancia en la nube y acab&#243; contratando a un trabajador de TaskRabbit para resolver Captchas e incluso disuadi&#243; al trabajador de TaskRabbit de pensar que era un robot dici&#233;ndole que ten&#237;a mala vista.</p><p>Por suerte, no fue lo suficientemente capaz como para hacer una buena planificaci&#243;n a largo plazo para escapar, aunque debemos recordar que esto ocurri&#243; sin hacer uso de m&#225;s herramientas  (por ejemplo, <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/48hvhehrz8849dhx/aHR0cHM6Ly93d3cucGluZWNvbmUuaW8v">Pinecone</a>) y todav&#237;a estamos a la espera de GPT-5 y -6. &#161;Es un momento emocionante y aterrador a la vez!</p><p></p><h2>Oportunidades </h2><p>A la vista de estos r&#225;pidos avances, como de costumbre, se&#241;alamos las oportunidades que se abren en el sector. &#218;nase a nosotros:</p><ul><li><p>Puedes formar parte,  en un par de semanas, de <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/wnh2hghw966e4eb7/aHR0cHM6Ly9pdGNoLmlvL2phbS9pbnRlcnByZXRhYmlsaXR5LWhhY2thdGhvbg==">otro hackathon de interpretabilidad</a> en el que te daremos directrices claras sobre c&#243;mo desbloquear habilidades interesantes con la interpretabilidad de redes neuronales, &#161;junto con 48 horas y una fecha l&#237;mite! Acomp&#225;&#241;anos, ya sea virtualmente o como <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/reh8hoh09zzg76b2/aHR0cHM6Ly9hbGlnbm1lbnRqYW0uY29tL3NpdGU=">anfitri&#243;n</a>. <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/08hwh9hd0rr3xpul/aHR0cHM6Ly9kaXNjb3JkLmdnLzNQVVNiZFM4Z1k=">&#218;nete a nuestro Discord</a> &nbsp;para estar al d&#237;a.</p></li><li><p>Acomp&#225;&#241;anos en el <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/8ghqhohlennm38tk/aHR0cHM6Ly9mb3Jtcy5nbGUvUmlKN0E1WXVBazFCamJETTc=">evento de lanzamiento</a> de la reci&#233;n fundada Red Europea para la Seguridad de la IA, una organizaci&#243;n descentralizada para su coordinaci&#243;n en toda Europa.</p></li><li><p>El concurso de redacci&#243;n Stanford AI100 sigue en marcha y &nbsp;<a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/vqh3hrhp2rrz45bg/aHR0cHM6Ly9haTEwMC5zdGFuZm9yZC5lZHUvcHJpemUtY29tcGV0aXRpb24=">te invita</a> a escribir c&#243;mo crees que la IA afectar&#225; a nuestras vidas en el futuro.</p></li><li><p>Finalmente, si eres muy r&#225;pido, puedes <a href="https://click.convertkit-mail2.com/38u3k2zorqskhoqz4onbr/l2hehmh35778v5s6/aHR0cHM6Ly9mb3J1bS5lZmZlY3RpdmVhbHRydWlzbS5vcmcvcG9zdHMvenhyQmk0dHpLd3EyZU5ZS20vZWEtaW5mb3NlYy1za2lsbC11cC1pbi1vci1tYWtlLWEtdHJhbnNpdGlvbi10by1pbmZvc2VjLXZpYQ==">apuntarte a un curso</a> de seguridad de la informaci&#243;n con un antiguo responsable de seguridad de la informaci&#243;n de Google. El plazo termina ma&#241;ana.</p></li></ul><p>&#161;Gracias por seguirnos y esperamos verte la pr&#243;xima semana!</p><p></p><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://boletin.apartresearch.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscr&#237;bete ahora&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://boletin.apartresearch.com/subscribe?"><span>Suscr&#237;bete ahora</span></a></p><p></p>]]></content:encoded></item><item><title><![CDATA[NeurIPS safety & ChatGPT - S48]]></title><description><![CDATA[Esta semana analizamos las incre&#237;bles habilidades del ChatGPT, art&#237;culos provenientes de la conferencia de NeurlPS y regulaci&#243;n sobre AGI a nivel de la UE. Mi nombre es Esben, &#161;Bienvenido a la actualizaci&#243;n semanal n&#186;48 del campo de ML & AI Safety! &#161;Prep&#225;rense!]]></description><link>https://boletin.apartresearch.com/p/neurips-safety-and-chatgpt-s48</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/neurips-safety-and-chatgpt-s48</guid><pubDate>Fri, 02 Dec 2022 11:00:00 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/37596cdb-a9cb-458f-b361-2186bbdafd19_1920x1080.jpeg" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Esta semana analizamos las incre&#237;bles habilidades del ChatGPT, art&#237;culos provenientes de la conferencia de NeurlPS y regulaci&#243;n sobre AGI a nivel de la UE.</p><p>Mi nombre es Esben, &#161;Bienvenido a la actualizaci&#243;n semanal n&#186;48 del campo de ML &amp; AI Safety! &#161;Prep&#225;rense!</p><h1>Lanzamiento del ChatGPT&nbsp;</h1><p>Hace apenas dos d&#237;as ChatGPT ha sido lanzado y ya se le comienza a describir como GPT-3.5. Observamos muchas correcciones de errores desde previos lanzamientos as&#237; como un sistema extremadamente competente.</p><p>Ahora podemos ver que <a href="https://twitter.com/gf_256/status/1598104835848798208">encuentra errores en cripto-contratos</a>, <a href="https://twitter.com/amasad/status/1598042665375105024">explica y soluciona errores</a>, <a href="https://twitter.com/jdjkelly/status/1598021488795586561">reemplaza el buscador de Google </a>y, lo m&#225;s importante de todo, <a href="https://twitter.com/zswitten/status/1598088286035415047">&#161;muestra la capacidad de despistar a la vista humana!</a></p><p>Pese a ser significativamente m&#225;s segura que la versi&#243;n anterior (texto-Davinci-002), todav&#237;a podemos observar la habilidad de planear en torno a las preferencias humanas con un uso de ataques muy simples</p><p>El lunes tambi&#233;n se lanz&#243; el texto-David I-003 que es la siguiente generaci&#243;n de un modelo de lenguaje m&#225;s refinado de OpenAI. Hay rumores de que el GPT-4 ser&#225; lanzado en febrero y veremos las nuevas e incluye capacidades que se han desarrollado hasta el momento.&nbsp;</p><p>La aplicaci&#243;n demo se encuentra disponible en <a href="https://chat.openai.com/">chat.openai.com</a>.</p><h1>NeurIPS</h1><p>Actualmente estoy en NeurIPS y he tenido la maravillosa oportunidad de navegar entre los numerosos p&#243;sters y art&#237;culos presentados. Todos tienen ya un a&#241;o y veremos los &#250;ltimos art&#237;culos cuando empiecen hoy los talleres.</p><p>Chalmers fue el primer orador principal y cre&#243; peligrosamente una l&#237;nea de tiempo para crear una IA consciente, una que crea tanto un riesgo S como un riesgo X. Estableci&#243; el objetivo de la conciencia AGI a nivel de pez para 2032, aunque todo esto realmente parece depender de sus definiciones de conciencia y s&#233; que muchos de nosotros lo esperar&#237;amos antes de 2032.</p><p>M&#225;s all&#225; de eso, aqu&#237; hay una breve lista de algunos documentos interesantes que he visto mientras caminaba alrededor:</p><ul><li><p><a href="https://arxiv.org/abs/2211.00241">Ejemplos adversarios de AlphaGo</a>: Este art&#237;culo muestra lo f&#225;cil que es encontrar ataques incluso para sistemas de aprendizaje por refuerzo altamente capaces como AlphaGo. B&#225;sicamente encuentra posiciones del tablero en las que insertar el siguiente movimiento (para blanco y negro) arruina la capacidad de la IA para predecir el siguiente movimiento.</p></li><li><p>(<a href="https://arxiv.org/abs/2203.02155">Documento InstructGPT</a>) Aqu&#237;, OpenAI ajusta un modelo de lenguaje a la retroalimentaci&#243;n humana y logra un modelo mejor y m&#225;s seguro con muy poco c&#225;lculo necesario. Fue interesante hablar con los autores y conocer m&#225;s detalles, como el proceso de recopilaci&#243;n de datos y otros aspectos.</p></li><li><p>MatPlotLib es todo lo que necesitas: Este art&#237;culo muestra problemas con la privacidad diferencial (compartir datos privados como estad&#237;sticas para evitar problemas de privacidad) con redes neuronales. En lugar de enviar las im&#225;genes privadas, la aplicaci&#243;n env&#237;a los gradientes ("n&#250;meros internos") de una red neuronal. Aqu&#237;, simplemente utilizan MatPlotLib y trazan los gradientes (junto con una transformaci&#243;n) y reconstruyen f&#225;cilmente las im&#225;genes de entrada privadas.</p></li><li><p><a href="https://openreview.net/pdf?id=85mcrDoWOAH">Sistema 3</a>: Este es un trabajo de nuestro propio Fazl Barez en el que introducimos restricciones del entorno en el modelo de recompensa para realizar una mejor exploraci&#243;n de seguridad cr&#237;tica. Con ello se consigue un mejor rendimiento en entornos de alto riesgo utilizando OpenAI Safety Gym.</p></li><li><p><a href="https://laion.ai/blog/laion-5b/">LAION-5B</a>: Este proyecto de c&#243;digo abierto ha recopilado 5.850 millones de pares texto-imagen y ha creado expl&#237;citamente una divisi&#243;n NSFW y SFW del conjunto de datos, aunque han entrenado los modelos en el conjunto de datos completo (ca&#243;tico).</p></li><li><p><a href="https://openreview.net/pdf?id=l-kqvueSRp7">Ataques automatizados de copiar y pegar</a>: Se trata de un interesante art&#237;culo basado en <a href="https://arxiv.org/abs/2110.03605">su trabajo anterior</a>, en el que muestran que se puede tomar una peque&#241;a imagen sobre una imagen de prueba (un "parche") y utilizarla para comprender c&#243;mo se relacionan las clases de elementos en las im&#225;genes. Este trabajo automatiza ese proceso y est&#225;n trabajando en implementarlo para modelos ling&#252;&#237;sticos, una tarea que, y cito textualmente, "deber&#237;a ser relativamente sencilla".</p></li><li><p><a href="https://arxiv.org/abs/2207.06105">GriddlyJS</a>: Un marco JS para crear entornos RL f&#225;cilmente. Puede que incluso lo utilicemos en el <a href="https://itch.io/jam/aitest">&#8220;Testing AI&#8221; hackathon</a> que se celebrar&#225; en un par de semanas. <a href="https://griddly.ai/">Pru&#233;balo aqu&#237;</a></p></li></ul><ul><li><p><a href="https://openreview.net/pdf?id=XCS_zBHQA2i">Qu&#233; es y qu&#233; no es fuera de distribuci&#243;n</a>: Aqu&#237;, Farquhar y Gal desambiguan el t&#233;rmino "fuera de distribuci&#243;n" (OOD) en cuatro t&#233;rminos diferentes: distribuciones transformadas, distribuciones relacionadas, distribuciones complementarias y distribuciones sint&#233;ticas. Dado que OOD es muy importante para la alineaci&#243;n, es importante entender con precisi&#243;n el uso que hacemos de la palabra.</p></li></ul><p>Y, por supuesto, estos son s&#243;lo algunos de los interesantes art&#237;culos de NeurIPS. Puede consultar la <a href="https://nips.cc/Conferences/2022/Schedule?type=Poster">lista completa de publicaciones</a>, <a href="https://nips.cc/virtual/2022/workshop/49986">los art&#237;culos aceptados para el taller sobre seguridad en ML</a> y el taller sobre leyes de escalado que se celebra hoy.</p><h1>Proclamaci&#243;n sobre IA de la UE &amp; AGI&nbsp;</h1><p>En otras grandes noticias, la Ley de IA de la UE recibi&#243; <a href="https://artificialintelligenceact.eu/wp-content/uploads/2022/05/AIA-FRA-Art-34-13-May.pdf">una enmienda</a> Sobre los sistemas de IA de prop&#243;sito general (como la AGI) que detalla su uso &#233;tico. Incluso parece aplicarse a los sistemas de c&#243;digo abierto, aunque no est&#225; claro si se aplica a los modelos liberados fuera del control de las organizaciones, por ejemplo, en colectivos de c&#243;digo abierto.</p><p>Una cl&#225;usula interesante es la &#167;4b.5, que exige la cooperaci&#243;n entre organizaciones que deseen utilizar IA de prop&#243;sito general en escenarios de toma de decisiones de alto riesgo.</p><p>Los proveedores de sistemas de IA de prop&#243;sito general cooperar&#225;n con otros proveedores que pretendan poner en servicio o introducir en el mercado de la Uni&#243;n dichos sistemas como sistemas de IA de alto riesgo o como componentes de sistemas de IA de alto riesgo, y les facilitar&#225;n la informaci&#243;n necesaria para que estos &#250;ltimos puedan cumplir las obligaciones que les impone el presente Reglamento. Dicha cooperaci&#243;n entre proveedores preservar&#225;, en su caso, los derechos de propiedad intelectual, as&#237; como la informaci&#243;n comercial confidencial o los secretos comerciales.</p><p>En este texto, tambi&#233;n vemos que se trata de cualquier sistema puesto en uso en "el mercado de la Uni&#243;n", lo que significa que los sistemas pueden proceder de <a href="https://twitter.com/EsbenKC/status/1598137674573152257">GODAM</a> (Google, OpenAI, DeepMind, Anthropic y Meta) pero seguir estando bajo regulaci&#243;n de la misma forma que se aplica el RGPD para los datos de cualquier ciudadano europeo.</p><p>En general, la Ley de IA de la UE parece muy interesante y altamente positiva para la seguridad de la AGI en comparaci&#243;n con lo que muchos esperar&#237;an y tenemos que agradecer a muchos individuos del campo de la seguridad de la IA por este desarrollo. V&#233;ase tambi&#233;n un art&#237;culo de Guti&#233;rrez, Aguirre y Uuk sobre la <a href="https://oecd.ai/en/wonk/eu-definition-gpais">definici&#243;n de sistemas de IA de prop&#243;sito general (GPAIS) de la Ley de IA de la UE.</a></p><h1>Detecci&#243;n mecanicista de anomal&#237;as</h1><p>Paul Christiano <a href="https://www.alignmentforum.org/posts/vwt3wKXWaCvqZyF74/mechanistic-anomaly-detection-and-elk">ha publicado una actualizaci&#243;n sobre el problema ELK</a>, en la que detalla el enfoque actual del Centro de Investigaci&#243;n de Alineaci&#243;n.</p><p>El problema ELK se <a href="https://docs.google.com/document/d/1WwsnJQstPq91_Yh-Ch2XRL8H_EpsnjrC1dwZXR37PC8/edit">defini&#243; en diciembre de 2021</a> y se centra en conseguir que un modelo explique sus conocimientos a pesar de incentivar lo contrario. Su ejemplo es el de una IA que vigila una c&#225;mara acorazada que contiene un diamante y el humano eval&#250;a si tiene &#233;xito bas&#225;ndose en una c&#225;mara que mira el diamante.</p><p>Sin embargo, un ladr&#243;n podr&#237;a manipular la se&#241;al de v&#237;deo para mostrar exactamente la imagen correcta y enga&#241;ar al humano, lo que llevar&#237;a a una recompensa para la IA a pesar de que &#233;sta (utilizando otros sensores) supiera que el diamante ha desaparecido. El problema es c&#243;mo saber lo que sabe la IA.</p><p>En este art&#237;culo, Christiano describe su enfoque para inferir cu&#225;l es el comportamiento interno del modelo cuando el diamante est&#225; en la c&#225;mara acorazada (la situaci&#243;n normal) y detectar anomal&#237;as en este comportamiento interno normal. Esto est&#225; relacionado tanto con la interpretabilidad mecanicista como con el campo de la detecci&#243;n de troyanos, en el que intentamos detectar anomal&#237;as en los modelos.</p><h1>Oportunidades</h1><p>Y ahora pasemos a nuestras maravillosas oportunidades semanales.</p><ul><li><p><a href="https://ais.pub/5q2">Inscr&#237;bete</a> en el campamento virtual de seguridad de IA de 3,5 meses que comienza en marzo, donde podr&#225;s dirigir tu propio equipo de investigaci&#243;n. Env&#237;a tus ideas de investigaci&#243;n y colaborar&#225;n contigo para elaborar un plan con un equipo de investigaci&#243;n.</p></li><li><p>Dentro de dos semanas tendr&#225; lugar el <a href="https://ais.pub/8ao">hackat&#243;n de pruebas de IA</a>. En &#233;l colaboramos para encontrar formas novedosas de probar la seguridad de la IA mediante la interacci&#243;n con modelos de lenguaje de &#250;ltima generaci&#243;n y el juego dentro de entornos de aprendizaje por refuerzo.</p></li><li><p>Un grupo de dise&#241;adores busca probadores para un juego de mesa en el que se simulan escenarios de riesgo de IA. Parece bastante divertido, as&#237; que &#233;chale un vistazo <a href="https://ais.pub/xcp">aqu&#237;</a>.</p></li><li><p>El Centro para la Seguridad de la Inteligencia Artificial impartir&#225; un curso de <a href="https://ais.pub/lk2">introducci&#243;n a la seguridad de la Inteligencia Artificial</a> durante 8 semanas en primavera en las que puedes inscribirte como <a href="https://ais.pub/gt2">participante</a> o como <a href="https://ais.pub/w9v">facilitador</a>.</p></li></ul><p>Gracias por seguirnos una semana m&#225;s y recuerda hacer AGI segura. Nos vemos la semana que viene.</p>]]></content:encoded></item><item><title><![CDATA[¿Se apoderarán de los humanos las IA tridimensionales que juegan al ajedrez? - S47]]></title><description><![CDATA[Hace 5 a&#241;os, el AlphaGo de Google derrot&#243; al actual n&#250;mero 1 del mundo en Go, Ke Jie, pero si crees que las IA de juegos de mesa han dejado de evolucionar desde entonces, &#161;pi&#233;nsalo dos veces!]]></description><link>https://boletin.apartresearch.com/p/se-apoderaran-de-los-humanos-las</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/se-apoderaran-de-los-humanos-las</guid><pubDate>Fri, 25 Nov 2022 11:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Hace 5 a&#241;os, el AlphaGo de Google derrot&#243; al actual n&#250;mero 1 del mundo en Go, Ke Jie, pero si crees que las IA de juegos de mesa han dejado de evolucionar desde entonces, &#161;pi&#233;nsalo dos veces!&nbsp;</p><p>Hoy analizaremos las habilidades enga&#241;osas del nuevo modelo ling&#252;&#237;stico, Cicero, y reflexionaremos sobre lo que las IA de juegos de mesa nos ense&#241;an sobre el desarrollo de la IA.</p><p>Hoy es 25 de noviembre y esta es la actualizaci&#243;n semanal de seguridad en ML e IA de Apart Research.</p><h1>El poder de la b&#250;squeda del modelo ling&#252;&#237;stico Cicero</h1><p>&#191;Alguna vez has sentido que eres el mejor estratega de juegos de mesa de tu familia? Pues tenemos malas noticias para ti: Esta semana, un grupo de investigaci&#243;n de Meta Fundamental AI Research Diplomacy Team (FAIR) <a href="https://www.science.org/doi/10.1126/science.ade9097">ha presentado su modelo de lenguaje, Cicero,</a> entrenado para el juego de mesa estrat&#233;gico Diplomacy.</p><p>Diplomacy es probablemente uno de los juegos de mesa estrat&#233;gicos m&#225;s pesados que existen y lo que lo hace genuino es su &#233;nfasis en el di&#225;logo privado uno a uno entre todos los jugadores antes de que todos jueguen su turno simult&#225;neamente. Los jugadores act&#250;an como imperios en Europa y su objetivo es controlar los centros de suministro estrat&#233;gicos moviendo unidades a ellos. Sin embargo, para jugar eficazmente, los jugadores deben interactuar y cooperar, al tiempo que desconf&#237;an unos de otros, y esto es lo que hace que Cicero sea tan innovador como aterrador.</p><p>En 40 partidas de una liga an&#243;nima de Diplomacia en l&#237;nea, Cicer&#243;n obtuvo el doble de la puntuaci&#243;n media de los jugadores humanos y se situ&#243; entre el 10% de los participantes que han jugado m&#225;s de una partida.&nbsp;</p><p>As&#237; que estate atento cuando tu hermano utilice su tel&#233;fono en la pr&#243;xima noche de juegos de mesa: podr&#237;as estar jugando contra una IA enga&#241;osa disfrazada de fil&#243;sofo romano y no estar en el ajo.</p><h1>Los algoritmos tridimensionales para jugar al ajedrez no buscan necesariamente el poder</h1><p>Sin embargo, aunque Cicero parece estar a la vanguardia de lo que empez&#243; como algoritmos de ajedrez que superan a Kasparov, <a href="https://windowsontheory.org/2022/11/22/ai-will-change-the-world-but-wont-take-it-over-by-playing-3-dimensional-chess/">dos profesores de los grupos de Teor&#237;a de la Computaci&#243;n y Fundamentos del Aprendizaje Autom&#225;tico de Harvard no creen</a> que un "Gran Hermano de los juegos de mesa" como Cicer&#243;n sea representativo de la conquista del mundo por la IA.&nbsp;</p><p>Seg&#250;n ellos, los continuos avances de la IA no nos conducen necesariamente hacia un sistema unitario de IA nigromnipotente que act&#250;e de forma aut&#243;noma para perseguir objetivos a largo plazo. Si bien la IA puede ser extremadamente adecuada para resolver problemas, cuando se le da un resultado que optimizar, puede que no sea tan adecuada para definir su estrategia por s&#237; misma, o al menos no mucho mejor que los agentes humanos apoyados por herramientas de IA a corto plazo. Esto se debe a que la superior capacidad de procesamiento de informaci&#243;n de la IA no se extrapola tan bien a los objetivos a largo plazo en entornos del mundo real con mucha incertidumbre y, por tanto, no estar&#225; muy lejos de la capacidad humana para elaborar estrategias en un entorno tan ca&#243;tico.</p><p>Seg&#250;n esta visi&#243;n del mundo, los sistemas de IA con objetivos a largo plazo que deben alinearse podr&#237;an no ser el objetivo principal de la seguridad de la IA, sino que deber&#237;amos centrarnos m&#225;s en construir sistemas de IA igual de potentes que puedan limitarse a horizontes temporales cortos.</p><h1>Formalizar la presunci&#243;n de independencia</h1><p><a href="https://arxiv.org/abs/2211.06738">En un art&#237;culo de Paul Christiano, Eric Neyman y Mark Xu,</a> arroja nueva luz sobre c&#243;mo podemos utilizar argumentos heur&#237;sticos para complementar el trabajo de seguridad de la IA.</p><p>El art&#237;culo trata principalmente de c&#243;mo los argumentos heur&#237;sticos act&#250;an como complementos matem&#225;ticos de las pruebas formales deductivas, pero como simplifican y presuponen la independencia, estos argumentos funcionan mejor con nuevas entradas de datos que las pruebas formales matem&#225;ticas de la vieja escuela.</p><p>En su ap&#233;ndice final, los tres investigadores extrapolan estas conclusiones al contexto de la investigaci&#243;n sobre alineaci&#243;n, afirmando que los argumentos heur&#237;sticos podr&#237;an proponer importantes complementos a los trabajos de interpretabilidad y verificaci&#243;n formal en la seguridad de la IA. Se centran especialmente en evitar fallos catastr&#243;ficos y obtener conocimientos latentes.</p><p>Lo que es importante observar aqu&#237; es el uso de la "presunci&#243;n" (o lo que ya se da por "heur&#237;stica"). Simplificando las matem&#225;ticas, uno puede ser capaz de generalizar m&#225;s y hacer que los modelos sean aplicables a rangos m&#225;s amplios, pero los argumentos heur&#237;sticos tambi&#233;n pueden ser derribados mostrando la correlaci&#243;n ignorada entre par&#225;metros; el razonamiento basado en esta heur&#237;stica es com&#250;n, intuitivamente convincente y a menudo bastante exitoso, pero completamente informal y no riguroso.</p><h1>Monosematicidad en modelos de juguete</h1><p>Tambi&#233;n esta semana, Adam Jermyn, Evan Hubinger y Nicholas Schiefer han publicado un <a href="https://www.alignmentforum.org/posts/LvznjZuygoeoTpSE6/engineering-monosemanticity-in-toy-models">art&#237;culo sobre la interpretabilidad</a> la monosematicidad de las neuronas individuales en las redes neuronales.&nbsp;</p><p>Se sabe que algunas neuronas de las redes neuronales representan caracter&#237;sticas "naturales" de la entrada y que estas unidades monosem&#225;nticas son mucho m&#225;s f&#225;ciles de interpretar que su contrapartida: las neuronas polisem&#225;nticas. Hasta aqu&#237; todo bien.</p><p>Sin embargo, este art&#237;culo explora c&#243;mo diferentes restricciones de numeraci&#243;n de unidades por capa u otros giros arquitect&#243;nicos pueden cambiar la cantidad de unidades monosem&#225;nticas sin aumentar la p&#233;rdida del modelo. Esto puede hacerse, por ejemplo, cambiando los m&#237;nimos locales que encuentra la funci&#243;n de entrenamiento.</p><p>Adem&#225;s, el art&#237;culo concluye que</p><ul><li><p>Las entradas con rasgos dispersos pueden hacer que los modelos sean m&#225;s monosem&#225;nticos.</p></li><li><p>Los m&#237;nimos de p&#233;rdida m&#225;s monosem&#225;nticos tienen un sesgo negativo moderado y esto puede utilizarse para aumentar la monosemanticidad y, por &#250;ltimo,</p></li><li><p>Que un mayor n&#250;mero de neuronas por capa hace que los modelos sean m&#225;s monosem&#225;nticos, pero que ello conlleva un mayor coste computacional.</p></li></ul><h1><strong>Otras noticias</strong></h1><ul><li><p>En noticias menores, <a href="https://www.alignmentforum.org/posts/REesy8nqvknFFKywm/clarifying-wireheading-terminology">Leo Gao aclara</a> el t&#233;rmino wire-heading, que considera que causa confusi&#243;n, debido a sus amplias aplicaciones.</p></li><li><p>Adem&#225;s, LessWrong sigue desbordando con an&#225;lisis y consideraciones sobre la situaci&#243;n del FTX. En una lectura de casi horas, ,<a href="https://www.lesswrong.com/posts/p4XpZWcQksSiCPG72/sadly-ftx#The_Future_of_Effective_Altruist_Ethics">el usuario Zvi, expone el caso</a> sus secuelas de forma muy exhaustiva. Si te interesa saber c&#243;mo el accidente ha dejado algunas cosas en el aire, te recomendamos que leas este art&#237;culo.</p></li><li><p>El usuario Nick Gabs, tambi&#233;n <a href="https://www.lesswrong.com/posts/XKraEJrQRfzbCtzKN/distillation-of-how-likely-is-deceptive-alignment">ha publicado su aprehensi&#243;n</a> del MIRI "How Likely Is Deceptive Alignment" de Evan Hubinger. B&#225;sicamente, explica c&#243;mo la alineaci&#243;n enga&#241;osa es un resultado muy probable del entrenamiento de una IA suficientemente inteligente utilizando el descenso de gradiente. El resultado enga&#241;oso es a la vez m&#225;s simple y requiere menos potencia de c&#225;lculo que la alineaci&#243;n genuina. As&#237; que no hay puntos de vista positivos de MIRI una vez m&#225;s.</p></li><li><p>Por &#250;ltimo, queremos mencionar a nuestros colegas de Conjecture, que esta semana han publicado un <a href="https://www.lesswrong.com/posts/bXTNKjsD4y3fabhwR/conjecture-a-retrospective-after-8-months-of-work-1">informe sobre sus &#250;ltimos 8 meses de trabajo</a> en un campo como el de la seguridad de la IA, que a veces (algunos dir&#237;an que siempre) es un poco desordenado, siempre es agradable contar con una meta-visi&#243;n sobre consideraciones estrat&#233;gicas y plazos.</p></li></ul><h1><strong>Oportunidades</strong></h1><p>Recuerda que tambi&#233;n puedes participar en la investigaci&#243;n sobre seguridad de la IA de muchas maneras. Esta semana nos gustar&#237;a se&#241;alar una muestra de las oportunidades disponibles:</p><ul><li><p><strong>Conjecture</strong> parece estar creciendo r&#225;pidamente y est&#225; <a href="https://ais.pub/conj2">contratando</a>puestos t&#233;cnicos como no t&#233;cnicos. Como escriben en el post: "Nuestra cultura tiene un sabor &#250;nico. En nuestro sitio web decimos algunas cosas picantes sobre la piller&#237;a hacker/pirata, el empirismo acad&#233;mico y la ambici&#243;n salvaje. Pero tambi&#233;n hay muchos memes, escalada, karaoke nocturno y filosof&#237;as locas". <a href="https://ais.pub/conj2">https://ais.pub/conj2</a></p></li></ul><ul><li><p>Si no te apetece trabajar en Conjecture, tambi&#233;n puedes <a href="https://ais.pub/mentor">echar un vistazo</a> al programa <strong>AI safety Mentors and Mentess</strong>, que pretende emparejar a mentores y mentorados para mejorar su trabajo de seguridad en IA. El programa est&#225; dise&#241;ado para ser "muy flexible y ligero y se espera que se realice junto a una ocupaci&#243;n actual". <a href="https://ais.pub/mentor">https://ais.pub/mentor</a></p></li></ul><ul><li><p>Tambi&#233;n queremos dejar una nota sobre el <strong><a href="https://forum.effectivealtruism.org/posts/3kaojgsu6qy2n8TdC/pre-announcing-the-2023-open-philanthropy-ai-worldviews">preanuncio</a></strong> Del <strong>Concurso de visiones del mundo de la IA de Open Philantrophy</strong>, que se celebrar&#225; a principios de 2023. Puedes encontrar m&#225;s informaci&#243;n en el foro de EA, aunque la informaci&#243;n es todav&#237;a bastante escasa.</p></li></ul><ul><li><p>Por &#250;ltimo, Apart recibi&#243; un correo que nos llam&#243; la atenci&#243;n sobre los reci&#233;n lanzados <strong><a href="https://ais.pub/aawards">AI Alignment Awards</a></strong>. El objetivo de estos premios es ofrecer hasta 100.000 d&#243;lares a quien consiga avanzar en dos problemas abiertos en el campo de la investigaci&#243;n de la alineaci&#243;n de la IA. Visita su p&#225;gina web si crees que es algo para ti.</p></li></ul><p>Hasta aqu&#237; la actualizaci&#243;n sobre seguridad en ML &amp; AI. Esperamos veros la semana que viene.</p>]]></content:encoded></item><item><title><![CDATA[¿Cómo debe relacionarse AIS con sus financiadores? - S46]]></title><description><![CDATA[Consideraciones sobre la situaci&#243;n de la financiaci&#243;n de AI Safety, proyectos interesantes del hackat&#243;n de interpretabilidad de Apart, interpretabilidad de transformadores matem&#225;ticos de Meta AI y consideraciones sobre a qu&#233; dedicar tiempo en AI Safety.]]></description><link>https://boletin.apartresearch.com/p/como-debe-relacionarse-ais-con-sus</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/como-debe-relacionarse-ais-con-sus</guid><pubDate>Fri, 18 Nov 2022 11:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Consideraciones sobre la situaci&#243;n de la financiaci&#243;n de AI Safety, proyectos interesantes del hackat&#243;n de interpretabilidad de Apart, interpretabilidad de transformadores matem&#225;ticos de Meta AI y consideraciones sobre a qu&#233; dedicar tiempo en AI Safety.</p><p>Hoy es 18 de noviembre y &#161;bienvenidos a la actualizaci&#243;n sobre seguridad en ML e IA!</p><h1>Reflexiones sobre FTX y la seguridad de la IA</h1><p>La semana pasada informamos, como todos los dem&#225;s, del accidente del FTX y ahora que estamos en las secuelas de la conmoci&#243;n, parece apropiado sumergirse un poco en lo que significa para la comunidad de seguridad de la IA.</p><p>El New York Times <a href="https://forum.effectivealtruism.org/posts/efGNMe6uB87qXozXJ/ny-times-on-the-ftx-implosion-s-impact-on-ea">public&#243; un art&#237;culo</a> sobre el impacto general en la financiaci&#243;n de la EA y afirma con acierto que es una causa justa de turbulencias en un movimiento tan joven y cuenta con el comentario del Center on Nonprofits and Philanthropy de que es demasiado f&#225;cil para los multimillonarios obtener legitimaci&#243;n "mientras el dinero fluya", un riesgo que ocurri&#243; en este caso.</p><p>En general, la comunidad investigadora est&#225; consternada por lo que ha hecho FTX. El principal fondo de FTX para la investigaci&#243;n de la seguridad de la IA, Future Fund, <a href="https://fortune.com/2022/11/11/team-behind-sam-bankman-fried-charity-ftx-future-fund-have-quit-over-possible-deception-or-dishonesty/">vio c&#243;mo todo su equipo dimit&#237;a</a> por el enga&#241;o al que se vieron expuestos. <a href="https://twitter.com/willmacaskill/status/1591218014707671040">Will McAskill</a> y <a href="https://forum.effectivealtruism.org/posts/XHrHsrQGyr4NnqCA7/we-must-be-very-clear-fraud-in-the-service-of-effective">Evan Hubinger</a> afirman claramente que este fraude es completamente inaceptable con lo que representa el altruismo efectivo. Mientras tanto,y un <a href="https://forum.effectivealtruism.org/posts/o8B9kCkwteSqZg9zc/thoughts-on-legal-concerns-surrounding-the-ftx-situation">abogado</a> se aseguran de que la comunidad sepa que no es culpable de esta situaci&#243;n y de la situaci&#243;n legal de las donaciones de FTX.</p><p>En cuanto a la financiaci&#243;n de la investigaci&#243;n sobre la seguridad de la IA, uno de los dos mayores financiadores ha dejado de hacerlo y el otro, OpenPhil, se toma un <a href="https://forum.effectivealtruism.org/posts/mCCutDxCavtnhxhBR/some-comments-on-recent-ftx-related-events">mes de descanso</a> para evaluar estas turbulencias. Nonlinear <a href="https://forum.effectivealtruism.org/posts/L4S2NCysoJxgCBuB6/announcing-nonlinear-emergency-funding">ha creado un fondo de emergencia para</a> peque&#241;as subvenciones inferiores a 10.000 d&#243;lares para compensar a las organizaciones presionadas en esta parada de la financiaci&#243;n.</p><p>Holden Karnofsky, de OpenPhil, <a href="https://forum.effectivealtruism.org/posts/mCCutDxCavtnhxhBR/some-comments-on-recent-ftx-related-events">recomienda</a> a las organizaciones que:</p><ol><li><p>Dejen en suspenso los compromisos y esperen hasta que haya m&#225;s claridad sobre el impacto real.</p></li><li><p>Identifiquen las lagunas y eval&#250;en su urgencia/importancia.</p></li><li><p>Vuelvan a priorizar y equilibren las carteras.</p></li></ol><h1>Interpretability Alignment Jam</h1><p>Uf, pasamos a algo mucho m&#225;s esperanzador. La segunda Alignment Jam sobre investigaci&#243;n de la interpretabilidad termin&#243; este fin de semana con un total de 147 participantes <a href="https://itch.io/jam/interpretability/entries">y&nbsp;25 env&#237;os</a>&nbsp;de valiosas investigaciones sobre interpretabilidad.</p><p>El primer premio se concedi&#243; a Alex Foote <a href="https://alexfoote.itch.io/investigating-neuron-behaviour-via-dataset-example-pruning-and-local-search">Foote&nbsp;por su investigacion y algoritmo</a> que encuentra ejemplos m&#237;nimamente activadores para neuronas en modelos ling&#252;&#237;sticos utilizando la sustituci&#243;n de palabras y la poda de frases. El algoritmo crea autom&#225;ticamente ejemplos positivos y negativos de activaci&#243;n de neuronas espec&#237;ficas y es un m&#233;todo altamente interpretable.</p><p>El segundo premio se concedi&#243; a tres investigadores de Stanford <a href="https://satojk.itch.io/backup-transformer-heads-are-robust">que descubrieron que</a> cuando las cabezas Transformer se desactivan de distintas maneras, otras cabezas Transformer asumen su tarea aunque no muestren activaci&#243;n normalmente.</p><p>Esto ya se hab&#237;a demostrado antes, pero el equipo descubri&#243; que incluso las cabezas de reserva tienen cabezas de reserva y que todas estas cabezas de reserva son resistentes al m&#233;todo de desactivaci&#243;n (o ablaci&#243;n) utilizado en las cabezas principales.</p><p>El tercer premio se concedi&#243; al equipo Nero <a href="https://jas-ho.itch.io/model-editing-hazards-at-the-example-of-rome">por encontrar fallos</a> en la forma en que los trabajos ROME y MEMIT sustituyen las asociaciones factuales. Demostraron que las sustituciones de asociaciones f&#225;cticas tambi&#233;n afectan a cualquier frase relacionada con las palabras de la asociaci&#243;n f&#225;ctica, lo que indica que no se limita a las asociaciones f&#225;cticas.</p><p>El equipo que obtuvo el cuarto puesto present&#243; una forma de <a href="https://itch.io/jam/interpretability/rate/1789593">interpretar las estrategias de</a> los agentes de aprendizaje por refuerzo en juegos resueltos matem&#225;ticamente. Utilizan el juego del cuatro en raya y descubren que la forma en que el agente ve el tablero se corresponde con la forma en que los humanos suelen modelar el tablero.</p><p>El hackat&#243;n suscit&#243; <a href="https://itch.io/jam/interpretability/entries">muchas investigaciones interesantes</a>, que sin duda te recomendamos que consultes.</p><p>No olvides estar atento a nuestro pr&#243;ximo hackat&#243;n en diciembre.</p><h1>Interpretabilidad&nbsp;de transformadores de meta IA matem&#225;tica&nbsp;</h1><p>Saltando a algunas noticias del mundo del ML, Francois Charton de Meta AI <a href="https://arxiv.org/abs/2211.00170">ha investigado</a> los casos de fallo y el comportamiento fuera de distribuci&#243;n en transformadores entrenados en matrices inversas y descomposici&#243;n de valores propios.</p><p>A pesar de las investigaciones que afirman que los modelos de lenguaje matem&#225;tico no comprenden las matem&#225;ticas, descubre que comprenden correctamente los problemas matem&#225;ticos, pero que es la naturaleza de estos problemas la que afecta a su grado de correcci&#243;n. Demuestra que los generadores de datos de entrenamiento no simulan los resultados correctos a partir de los que aprender, lo que provoca fallos de generalizaci&#243;n en los modelos matem&#225;ticos.</p><p>Sigue siendo como siempre ha sido: Los ordenadores s&#243;lo hacen lo que les pedimos; el principal fallo son nuestras expectativas y objetivos.</p><h1>Reflexiones sobre la compra del tiempo</h1><p>Tambi&#233;n queremos sumergirnos en las reflexiones de Akash, Olivia Jim&#233;nez y Thomas Larsen, que esta semana ha publicado una larga lista de intervenciones que podr&#237;an "hacernos ganar tiempo". En su opini&#243;n, la comunidad AIS deber&#237;a <a href="https://www.lesswrong.com/posts/BbM47qBPzdSRruY4z/instead-of-technical-research-more-people-should-focus-on">invertir m&#225;s en la compra de tiempo</a> que en la investigaci&#243;n t&#233;cnica, ya que el tiempo del investigador medio est&#225; mucho mejor empleado en la consideraci&#243;n del riesgo general que en la alineaci&#243;n realmente t&#233;cnica.</p><p>Su nueva propuesta de intervenci&#243;n enumera, entre otras cosas, demostrar el fracaso de la alineaci&#243;n, 1-1 conversaciones con investigadores de ML y definir mejor los conceptos en seguridad de AI. Ya hemos o&#237;do estas afirmaciones antes y parece que tambi&#233;n reciben un poco de rechazo por parte de <a href="https://www.lesswrong.com/posts/BbM47qBPzdSRruY4z/instead-of-technical-research-more-people-should-focus-on?commentId=9eiwPF27ys3umBmmF">Jan Kulveit</a> y <a href="https://www.lesswrong.com/posts/BbM47qBPzdSRruY4z/instead-of-technical-research-more-people-should-focus-on?commentId=fEfLqfaLtnwDPYstf">habryka</a></p><h1>Otras noticias</h1><ul><li><p>En otras noticias, <a href="https://www.lesswrong.com/posts/FhKkFcojhKZt7nHzG/a-short-critique-of-vanessa-kosoy-s-predca-1">Martin Soto critica</a> el protocolo de interpretabilidad PreDCA de Vanessa Kosoy por implicar <strong>apostarlo todo a una formalizaci&#243;n matem&#225;tica espec&#237;fica</strong> de algunas instrucciones, lo que podr&#237;a ser problem&#225;tico</p></li><li><p>Pablo Vallalobos y otros <a href="https://arxiv.org/pdf/2211.04325.pdf">han estimado cu&#225;ndo</a> se agotar&#225;n los datos de entrenamiento bas&#225;ndose en las tendencias actuales. Predicen que habremos agotado la reserva de datos ling&#252;&#237;sticos de baja calidad entre 2030 y 2050, los datos ling&#252;&#237;sticos de alta calidad antes de 2026 y los datos de visi&#243;n entre 2030 y 2060.</p></li><li><p>La convergencia instrumental <a href="https://www.lesswrong.com/posts/GZgLa5Xc4HjwketWe/instrumental-convergence-is-what-makes-general-intelligence">se propone como el argumento</a> de por qu&#233; la inteligencia general es posible</p></li><li><p>Y Jessica Mary <a href="https://www.lesswrong.com/posts/uXGLciramzNfb8Hvz/why-i-m-working-on-model-agnostic-interpretability">propone que la interpretabilidad agn&#243;stica de modelos podr&#237;a no ser tan mala despu&#233;s de todo</a> que los comentaristas indican lo contrario.</p></li></ul><h1><strong>Oportunidades</strong></h1><p>Esta semana tenemos disponibles algunas vacantes muy interesantes:</p><ul><li><p><a href="https://ais.pub/aiimpactresearcher">AI impacts</a> sigue buscando un Analista de Investigaci&#243;n s&#233;nior.</p></li><li><p>Y <a href="https://jobs.lever.co/Anthropic/9ba1d7b4-5b21-4ac9-86f3-875a15c8a091">Anthropic</a> sigue buscando un ingeniero de software s&#233;nior.</p></li><li><p>Mientras que <a href="https://jobs.lever.co/aisafety/7d9a09dd-c873-41f5-9ecf-2a38c948116b?utm_source=HIP&amp;utm_medium=LinkedIn&amp;utm_campaign=broad_chiefofstaff">Center of AI Safety</a>&nbsp;est&#225; buscando un jefe de personal.</p></li><li><p><a href="https://twitter.com/DavidSKrueger/status/1592130792389771265">David Krueger&#8217;s lab</a> busca colaboradores.</p></li></ul><p>Esta ha sido la actualizaci&#243;n en seguridad de AI &amp; ML. &#161;Esperamos verte la semana que viene!</p>]]></content:encoded></item><item><title><![CDATA[¿Están amenazadas las opciones de financiación para la seguridad de la IA? - S45]]></title><description><![CDATA[El gigante de las criptomonedas FTX se desploma, creando gran incertidumbre para la financiaci&#243;n de proyectos de seguridad en IA, los humanos cooperan mejor con IA mentirosa, y la interpretabilidad es prometedora pero no.]]></description><link>https://boletin.apartresearch.com/p/estan-amenazadas-las-opciones-de</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/estan-amenazadas-las-opciones-de</guid><pubDate>Fri, 11 Nov 2022 11:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>El gigante de las criptomonedas FTX se desploma, creando gran incertidumbre para la financiaci&#243;n de proyectos de seguridad en IA, los humanos cooperan mejor con IA mentirosa, y la interpretabilidad es prometedora pero no.</p><p>Hoy trataremos esta y otras noticias del mundillo de la seguridad de IA.</p><p>Es 11 de noviembre, &#161;y bienvenido a esta actualizaci&#243;n de seguridad en IA &amp; ML!</p><h1>FTX cae</h1><p>Dado que se trata de una noticia importante, vamos a sumergirnos en lo que ocurri&#243; realmente con la Fundaci&#243;n FTX.</p><p>Cuando Sam Bankman-Fried, el CEO de FTX, <a href="https://blog.ftx.com/blog/ftx-foundation/">anunci&#243; The Future Fund a finales de febrero de 2022 con el objetivo de mejorar las perspectivas a largo plazo de la humanidad</a> otra gran iniciativa en apoyo de la comunidad de AI Safety y su capacidad para operar fuera del sistema de incentivos de las empresas con fines de lucro.</p><p>Hace tres d&#237;as, Sam Bankman-Fried tuite&#243; sobre sus <a href="https://twitter.com/SBF_FTX/status/1590012124864348160">problemas de liquidez</a>&nbsp; como criptointercambio, marcando el comienzo de una serie de revelaciones sobre FTX, c&#243;mo han manejado mal el dinero de los usuarios, movido fondos a sus propias cuentas y violado sus <a href="https://twitter.com/JeffLadish/status/1590542074180669440">propios t&#233;rminos de servicio</a>. El Departamento de Justicia ha iniciado una investigaci&#243;n sobre FTX y su fondo de cobertura de criptomonedas, Alameda Research.</p><p>Adem&#225;s, el reciente desplome de las acciones de Meta ha hecho que el segundo gran financiador de la investigaci&#243;n sobre la seguridad de la IA, Open Philanthropy, pierda gran parte de su dinero procedente de las acciones de Meta de Dustin Moskovitz, por lo que el futuro de la seguridad de la IA se presenta, como m&#237;nimo, interesante.</p><h1>Cooperaci&#243;n entre humanos e IA</h1><p>Seguimos esta grave noticia con la <a href="https://arxiv.org/pdf/2202.05983.pdf">investigaci&#243;n de un equipo de Stanford.</a> Demuestran que la cooperaci&#243;n entre humanos e IA es mejor cuando la IA se calibra en funci&#243;n de la relaci&#243;n con el humano en lugar de la precisi&#243;n.</p><p>Los autores utilizan la IA para asesorar en la toma de decisiones a los participantes y descubren que la IA modulada para adaptarse a la interacci&#243;n entre humanos e IA ofrece un mejor rendimiento general en comparaci&#243;n con un sistema de IA de m&#225;xima precisi&#243;n para el sistema de colaboraci&#243;n entre humanos e IA.</p><p>Esto introduce interesantes consideraciones sobre c&#243;mo la IA interact&#250;a realmente con los humanos en relaci&#243;n con varias formas en que podr&#237;amos salvaguardar la IA futura.</p><h1>Escalado inverso en forma de U</h1><p>Y justo cuando pens&#225;bamos que hab&#237;amos encontrado alg&#250;n tipo de linealidad en las leyes de escalado inverso, <a href="https://www.alignmentforum.org/posts/LvKmjKMvozpdmiQhP/inverse-scaling-can-become-u-shaped">Google muestra que pueden llegar a tener forma de U</a>.&nbsp;Basta con escalar los modelos hasta tama&#241;os extremos. Si esto es cierto, podr&#237;a refutar las leyes de escalado inverso y Google llega incluso a afirmar: "Esto sugiere que el t&#233;rmino tarea de <strong>escalado inverso</strong> no est&#225; bien especificado: una tarea determinada puede ser de escalado inverso para una indicaci&#243;n, pero de escalado positivo o en forma de U para otra indicaci&#243;n diferente".</p><p>Sin embargo, no todos est&#225;n satisfechos con sus m&#233;todos. <a href="https://twitter.com/EthanJPerez/status/1588352204540235776">Ethan P&#233;rez llama la atenci&#243;n del equipo</a> por desviar sus pruebas de ley de escala inversa de las que describen como r&#233;plicas en el art&#237;culo.</p><h1>Interpretabilidad en la pr&#225;ctica</h1><p>&#161;Seguimos adelante! Redwood Research ha llevado a cabo un magn&#237;fico <a href="https://arxiv.org/pdf/2211.00593.pdf">trabajo contempor&#225;neo sobre interpretabilidad</a>: usando GPT-2 Small, investigan la "identificaci&#243;n indirecta de objetos" de principio a fin en t&#233;rminos de las partes internas del circuito de un transformador, evaluando incluso la fiabilidad del modelo.</p><p>Lo ingenioso del trabajo de interpretabilidad no es s&#243;lo que se tome realmente en serio la tarea de investigar la interpretabilidad, sino que tambi&#233;n muestra cu&#225;nta informaci&#243;n valiosa puede encontrar una investigaci&#243;n adecuada de la interpretabilidad.</p><p>El equipo logra identificar 26 cabezas de atenci&#243;n agrupadas en 7 categor&#237;as, que componen el circuito indirecto de clasificaci&#243;n de objetos. Por el camino, el equipo tambi&#233;n identific&#243; estructuras interesantes del modelo interno, por ejemplo, que las cabezas de atenci&#243;n se comunicaban utilizando punteros para compartir una pieza de informaci&#243;n, en lugar de copiarla.</p><p>Te recomendamos que le eches un vistazo a este trabajo de investigaci&#243;n sobre interpretabilidad.</p><h1>Otras noticias</h1><p>En otras noticias, <a href="https://www.alignmentforum.org/posts/HByDKLLdaWEcA2QQD/applying-superintelligence-without-collusion">Eric Drexler y Yudkowsky</a> debaten sobre la superinteligencia en el foro de alineaci&#243;n: Porque &#191;cu&#225;ntas IA superinteligentes son realmente el mejor escenario posible cuando empiezan a interactuar entre s&#237;?</p><p>Adem&#225;s, el equipo Janus de Conjecture ha <a href="https://www.alignmentforum.org/posts/t9svvNPNmFf5Qa3TA/mysteries-of-mode-collapse-due-to-rlhf">descubierto</a> resultados de los modelos humanos afinados de OpenAI tienen resultados muy seguros en situaciones bastante espec&#237;ficas, con claras preferencias por n&#250;meros concretos, respuestas y similares.</p><p><a href="https://www.alignmentforum.org/posts/b44zed5fBWyyQwBHL/trying-to-make-a-treacherous-mesa-optimizer">MadHatter duda de algunos de los escenarios de pensamiento de los mesa-optimizadores </a>&nbsp;propuestos por los investigadores del campo y pide que se considere una investigaci&#243;n mucho m&#225;s emp&#237;rica sobre los mesa-optimizadores.</p><p><a href="https://www.alignmentforum.org/posts/kjRGMdRxXb9c5bWq5/mechanistic-interpretability-as-reverse-engineering-follow">David Krueger pone en duda el verdadero valor</a>&nbsp; de la interpretabilidad y la ingenier&#237;a inversa, sugiriendo que deber&#237;amos hacer bien nuestra ingenier&#237;a en lugar de "invertir" esa ingenier&#237;a con la interpretabilidad.</p><p><a href="https://www.alignmentforum.org/posts/iDFTmb8HSGtL4zTvf/how-could-we-know-that-an-agi-system-will-have-good">Nate Soares duda de los enfoques cognitivos de la interpretabilidad,</a> porque no estamos construyendo mentes, sino entren&#225;ndolas, y tenemos muy poca idea de su pensamiento interno. Duda de nuestra capacidad para predecir si un sistema AGI tendr&#225; resultados positivos para la humanidad.</p><p>Y, por &#250;ltimo, Apart Research ha lanzado un <a href="https://ais.pub/alignmentjam">sitio web para la investigaci&#243;n de la interpretabilidad.</a> Te recomendamos que les eches un vistazo y que te plantees si deber&#237;as participar en el hackat&#243;n sobre interpretabilidad que se celebrar&#225; este mismo fin de semana. M&#225;s informaci&#243;n en los siguientes enlaces.</p><h1>Oportunidades</h1><p>Esta semana tenemos unas cuantas vacantes muy interesantes:</p><ul><li><p>&nbsp;<a href="https://ais.pub/aiimpactresearcher">AI impacts </a>sigue buscando un analista de investigaci&#243;n senior.</p></li><li><p>Y <a href="https://jobs.lever.co/Anthropic/9ba1d7b4-5b21-4ac9-86f3-875a15c8a091">Anthropic </a>sigue buscando un ingeniero de software senior</p></li><li><p>Mientras que <a href="https://jobs.lever.co/aisafety/7d9a09dd-c873-41f5-9ecf-2a38c948116b?utm_source=HIP&amp;utm_medium=LinkedIn&amp;utm_campaign=broad_chiefofstaff">Center of AI Safety</a> busca un jefe de personal</p></li></ul><p>Hasta aqu&#237; la actualizaci&#243;n sobre seguridad en ML &amp; AI. Les esperamos la semana que viene.</p>]]></content:encoded></item><item><title><![CDATA[¿Podemos predecir las capacidades de la IA del futuro? - S44]]></title><description><![CDATA[Esta semana analizamos las leyes de escalado rotas, el ajuste fino quir&#250;rgico, la interpretabilidad en la naturaleza y los modelos de amenaza de la IA. Hoy es 4 de noviembre y esta es la actualizaci&#243;n sobre seguridad en ML e IA. Leyes de escalado rotas y ajuste quir&#250;rgico]]></description><link>https://boletin.apartresearch.com/p/podemos-predecir-las-capacidades</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/podemos-predecir-las-capacidades</guid><pubDate>Fri, 04 Nov 2022 11:00:00 GMT</pubDate><enclosure url="https://substack-post-media.s3.amazonaws.com/public/images/a82e57fa-6bf8-4fcc-883c-29a90c25d5dd_1x1.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Esta semana analizamos las leyes de escalado rotas, el ajuste fino quir&#250;rgico, la interpretabilidad en la naturaleza y los modelos de amenaza de la IA.</p><p>Hoy es 4 de noviembre y esta es la actualizaci&#243;n sobre seguridad en ML e IA.</p><h1>Leyes de escalado rotas y ajuste quir&#250;rgico</h1><p>En las &#250;ltimas semanas se han publicado varios art&#237;culos interesantes, de los que hemos seleccionado algunos.</p><p>Las leyes de escalado son importantes para inferir c&#243;mo se comportar&#225;n los futuros sistemas de IA. Las leyes de escalado existentes suelen ajustarse de forma lineal o monot&#243;nica. <a href="https://arxiv.org/pdf/2210.14891.pdf">Caballero, Krueger y otros</a> introducen las "leyes de escalado rotas"&nbsp;tras criticar c&#243;mo las leyes de escalado normales de investigaci&#243;n no reflejan los hechos emp&#237;ricos del entrenamiento de modelos. Su nueva funci&#243;n de leyes de escala puede mostrar "rupturas" que corresponden a los cambios no monot&#243;nicos repentinos en la capacidad que vemos en las redes neuronales. Su funci&#243;n extrapola significativamente mejor que las otras tres formas de funci&#243;n.</p><p>La robustez de la visi&#243;n por ordenador es importante para diversas tareas. <a href="https://arxiv.org/pdf/2210.11466.pdf">Un equipo de Stanford ha demostrado</a> que el ajuste fino de capas individuales funciona mejor que el ajuste fino de toda la red neuronal en pruebas adversas espec&#237;ficas. Por ejemplo, el ajuste quir&#250;rgico de las primeras capas mejora el rendimiento ante cambios en el nivel de entrada, como los ataques de corrupci&#243;n, mientras que el ajuste de las &#250;ltimas induce robustez ante cambios en el nivel de salida.</p><h1>Debate e interpretabilidad</h1><p><a href="https://arxiv.org/pdf/2210.10860.pdf">Parrish, Bowman y otros demuestran</a> que el debate no ayuda a los humanos a responder preguntas dif&#237;ciles de comprensi&#243;n lectora. Muestran a los participantes argumentos a favor y en contra de una respuesta correcta o incorrecta a una pregunta dif&#237;cil de comprensi&#243;n lectora, pero descubren que los humanos no se benefician de ello.</p><p>"Cuando Drake y Yoojin fueron a la tienda, Yoojin le dio un trago a...". Un transformador puede predecir f&#225;cilmente que la siguiente palabra de esta frase es Drake, pero &#191;c&#243;mo lo hace? <a href="https://arxiv.org/pdf/2211.00593.pdf">Redwood Research identifica</a> un circuito de comprensi&#243;n conceptual en las cabezas de los Transformers.</p><p>Vemos que las cabezas neuronales tienen funciones espec&#237;ficas en la comprensi&#243;n: Algunas identifican palabras duplicadas, otras inhiben palabras espec&#237;ficas, y las tres &#250;ltimas clases de cabezas desplazan negativa y positivamente la palabra "Drake" a la posici&#243;n prevista. Esta tarea se denomina identificaci&#243;n indirecta de objetos y es claramente un caso de prueba interesante para la interpretabilidad de circuitos.</p><h1>Modelos de amenaza en seguridad ML</h1><p><a href="https://www.lesswrong.com/posts/wnnkD6P2k2TfHnNmt/threat-model-literature-review">El equipo de seguridad de DeepMind cre&#243; una taxonom&#237;a de</a> c&#243;mo se ven los riesgos actuales de la inteligencia artificial. Su modelo de desarrollo consensuado es una versi&#243;n a escala de nuestros modelos actuales que, en su opini&#243;n, no necesitan mucha innovaci&#243;n para convertirse en inteligencia artificial general, una IA que sea mejor que los humanos en la mayor&#237;a de las tareas relevantes.</p><p>Los riesgos que se derivan de un modelo de este tipo son la generalizaci&#243;n err&#243;nea de objetivos, en la que los modelos no consiguen generalizar su entrenamiento a escenarios del mundo real, y la b&#250;squeda de poder como resultado de dicha desalineaci&#243;n. No esperamos detectar esto debido al enga&#241;o y las personas m&#225;s importantes de la sociedad no entender&#225;n los riesgos. John Wentworth se&#241;ala que esta historia de m&#250;ltiples etapas ni siquiera es necesaria, puesto que los sistemas actuales ya se entrenan para enga&#241;ar a los humanos.</p><p><a href="https://www.lesswrong.com/posts/XtBJTFszs8oP3vXic/ai-x-risk-greater-than-35-mostly-based-on-a-recent-peer">Michael Cohen muestra que</a> la cat&#225;strofe existencial de la IA est&#225; por encima del 35%. Adopta una perspectiva optimista sobre los escenarios de &#233;xito, como que las leyes bien aplicadas detengan las versiones peligrosas de la IA, que una entidad la detenga de alg&#250;n modo, que nadie desarrolle IA avanzada o que la IA avanzada se desarrolle de un modo seguro que viole una serie de supuestos que Cohen plantea (y que &#233;l pone en duda). Estos supuestos se centran en la capacidad de la IA para hacer hip&#243;tesis, seguir planes en la incertidumbre y utilizar estos planes de forma que progrese alguna recompensa indirecta.</p><p>Adem&#225;s, no conf&#237;a en los actuales paradigmas de investigaci&#243;n sobre la seguridad de la IA e incluso escribe una&nbsp;<a href="https://www.lesswrong.com/posts/XtBJTFszs8oP3vXic/ai-x-risk-greater-than-35-mostly-based-on-a-recent-peer#Appendix_A__Anti_Literature_Review">&#8220;anti review&#8221;</a>, en la que argumenta en contra de cada programa de investigaci&#243;n contempor&#225;neo.</p><h1>Otras noticias</h1><ul><li><p>En otro orden de cosas, <a href="https://www.alignmentforum.org/s/2A7rrZ4ySx6R8mfoT/p/BSpdshJWGAW6TuNzZ">Scott Garrabrant habla </a>de los llamados "marcos", que describe como la creaci&#243;n de una perspectiva ag&#233;ntica en primera persona sobre todos los mundos posibles (en tercera persona), como la incertidumbre, las elecciones y los mundos plausibles. Afirma que esto contrasta con la visi&#243;n de los agentes integrados y la RL tradicional con su separaci&#243;n de los l&#237;mites entre el entorno y el agente.</p></li><li><p><a href="https://arxiv.org/pdf/2210.13447.pdf">Michaeud, Liu, y Tegmark</a> muestran las leyes de escalado de diferentes aproximadores de funciones y ofrecen una taxonom&#237;a para el aprendizaje autom&#225;tico de precisi&#243;n.</p></li><li><p>Michael Nielsen y Kanjun Qiu publican su libro <a href="https://scienceplusplus.org/metascience/">&#8220;Vision for Metascience&#8221;</a> y describen a los financiadores de la investigaci&#243;n como detector y discriminador en un proceso imaginativo de generaci&#243;n de investigaci&#243;n.</p></li><li><p>El Future of Life Institute <a href="https://www.youtube.com/watch?v=IKFQfYaJ0AY&amp;ab_channel=FutureofLifeInstitute">ha iniciado un nuevo podcast y</a> el &#250;ltimo episodio con Ajeya Cotra trata de c&#243;mo la IA podr&#237;a causar cat&#225;strofes.</p></li></ul><h1>Oportunidades</h1><p>Esta semana tenemos disponibles unas cuantas vacantes muy interesantes:</p><ul><li><p><a href="https://ais.pub/remix">Redwood Research invita a 30-50 investigadores</a> a unirse a ellos en Berkeley para un programa muy interesante de investigaci&#243;n sobre interpretabilidad mecan&#237;stica.</p></li><li><p>&nbsp;<a href="https://ais.pub/anthropic">Anthropic</a> busca directores de operaciones, reclutadores, investigadores, ingenieros y jefes de producto.</p></li></ul><p>Adem&#225;s, puedes echar un vistazo a algunas de las novedades en <a href="https://aisi.ai/map">AI Safety Ideas</a> y unirte al <a href="https://itch.io/jam/interpretability">hackathon de interpretabilidad</a> desde cualquier parte del mundo el pr&#243;ximo fin de semana.</p><p>Esta ha sido la actualizaci&#243;n sobre seguridad ML &amp; AI, &#161;hasta la semana que viene!</p>]]></content:encoded></item><item><title><![CDATA[Defendiéndose contra la inteligencia artificial - S43]]></title><description><![CDATA[Analizamos c&#243;mo podemos protegernos contra la AGI, miramos nuevas investigaciones sobre la ley de Goodhart, vemos un conjunto de datos de c&#243;digo abierto con 60.000 v&#237;deos emocionales y compartimos nuevas oportunidades en seguridad ML e IA.]]></description><link>https://boletin.apartresearch.com/p/defendiendose-contra-la-inteligencia</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/defendiendose-contra-la-inteligencia</guid><pubDate>Fri, 28 Oct 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Analizamos c&#243;mo podemos protegernos contra la AGI, miramos nuevas investigaciones sobre la ley de Goodhart, vemos un conjunto de datos de c&#243;digo abierto con 60.000 v&#237;deos emocionales y compartimos nuevas oportunidades en seguridad ML e IA.</p><p>Hoy es 28 de octubre, mi nombre es Thomas y bienvenidos al ML Safety Update de esta semana.</p><h1>Defenderse de la AGI</h1><p>&#191;Qu&#233; hace falta para defender el mundo contra la inteligencia general artificial?&nbsp;</p><p>Esto es lo que se pregunta Steve Byrnes en un <a href="https://www.alignmentforum.org/posts/LFNXiQuGrar3duBzJ/what-does-it-take-to-defend-the-world-against-out-of-control">nuevo post</a>. Imagina un mundo en el que una AGI alineada se desarrolla un par de a&#241;os antes que una AGI no alineada y comenta la optimista suposici&#243;n de Paul Christiano de que una primera AGI alineada puede hacer cosas que eviten futuras AGI no alineadas.</p><p>Los temores generales son que 1) podr&#237;a ser m&#225;s f&#225;cil destruir que defender, 2) los humanos podr&#237;an no confiar en la IA alineada, 3) las estrategias de alineaci&#243;n en realidad hacen que la AGI alineada sea peor que una IA mal alineada, y 4) es muy dif&#237;cil cambiar la sociedad r&#225;pidamente mientras se adhieren a las leyes humanas.</p><p>Byrnes propone una serie de soluciones que no cree que resuelvan el problema:</p><ul><li><p>El despliegue generalizado de una AGI para implementar defensas es dif&#237;cil en un mundo en el que los actores importantes no conf&#237;an los unos en los otros y no son expertos en AGI.</p></li><li><p>Si la AGI se utiliza para crear una sociedad m&#225;s sabia, por ejemplo, siendo los asesores de los l&#237;deres del gobierno, probablemente no se le pedir&#225; consejo a menudo, ya que podr&#237;a no decir lo que quieren o&#237;r.</p></li><li><p>Las medidas de defensa no relacionadas con la AGI, como la mejora de la ciberseguridad a nivel mundial, no parecen ser lo suficientemente seguras.</p></li><li><p>Detener el desarrollo de AGI en los laboratorios espec&#237;ficos con m&#225;s posibilidades de crear AGI tambi&#233;n parece que s&#243;lo nos har&#225; ganar tiempo.</p></li><li><p>Detener por la fuerza la investigaci&#243;n AGI tiene un mont&#243;n de advertencias que son similares a los otros puntos, pero parece una de nuestras mejores oportunidades.</p></li></ul><p>En definitiva, parece que el acceso generalizado a una inteligencia general artificial puede llevar a un peque&#241;o grupo a destruir el mundo y cualquier defensa contra esto es poco probable que funcione.</p><h1>La ley de Goodhart</h1><p>Leo Gao, John Schulman y Jacob Hilton investigan en su <a href="https://arxiv.org/pdf/2210.10760.pdf">nuevo art&#237;culo</a> c&#243;mo modelos de distintos tama&#241;os sobreoptimizan un objetivo de recompensa. Esto se conoce com&#250;nmente como la ley de Goodhart y puede describirse como el efecto de que la optimizaci&#243;n de una representaci&#243;n imperfecta de la verdadera preferencia fallar&#225; porque esa representaci&#243;n se optimiza en lugar de lo que realmente queremos optimizar. En la seguridad de la IA, las verdaderas preferencias pueden ser los valores humanos, y entrenar un modelo con una representaci&#243;n aproximada de los mismos puede dar lugar a desajustes.</p><p>Es dif&#237;cil evitar la ley de Goodhart porque se necesita una supervisi&#243;n humana constante para actualizar continuamente las preferencias humanas. <a href="https://arxiv.org/pdf/2210.10760.pdf">Los autores crean aqu&#237; un ejemplo de juguete</a> con un modelo de recompensa como sustituto del humano y simulan una se&#241;al de recompensa imperfecta, no humana, cambiando la recompensa de este patr&#243;n oro de diferentes maneras.</p><p>Encuentran leyes de escala que pueden utilizarse para predecir lo bien que funciona el aprendizaje por refuerzo a partir de la retroalimentaci&#243;n humana para modelos m&#225;s grandes y describen los resultados en relaci&#243;n con cuatro formas de pensar sobre la ley de Goodhart. Una de ellas es la regresi&#243;n de Goodhart cuando la recompensa sustitutiva es una representaci&#243;n ruidosa de la recompensa real. En su experimento, un proxy ruidoso conduce a una recompensa menor sobre la preferencia verdadera que la que dar&#237;a un humano.</p><h1>Otras noticias</h1><ul><li><p>En otras noticias, un <a href="https://arxiv.org/pdf/2210.10039.pdf">nuevo art&#237;culo</a> publica un conjunto de datos con 60.000 v&#237;deos marcados manualmente por sus cualidades emocionales. Los autores esperan que esto pueda ayudar a aprender mejor las preferencias humanas a partir de ejemplos de v&#237;deo, entrenando nuestras redes neuronales para obtener una mejor empat&#237;a cognitiva.</p></li><li><p><a href="https://www.alignmentforum.org/posts/AaABQpuoNC8gpHf2n/a-barebones-guide-to-mechanistic-interpretability">Neel Nanda publica</a> una lista de habilidades necesarias para investigar la interpretabilidad mecanicista.</p></li><li><p><a href="https://www.alignmentforum.org/posts/kqxEJkq5Big9nNKxy/beyond-kolmogorov-and-shannon">Oldenziel y Shai afirman</a> que la complejidad de Kolmogorov y la entrop&#237;a de Shannon son medidas enga&#241;osas de la estructura para la interpretabilidad y que necesitamos una nueva medida; sin embargo, reciben el rechazo de Sherlis, que se&#241;ala que probablemente no sea cierto.</p></li><li><p><a href="https://www.alignmentforum.org/posts/wjQkQ8bgWWFym8zF9/distilled-representations-research-agenda-1">Una nueva agenda de investigaci&#243;n</a> intenta dise&#241;ar las representaciones en el espacio latente de los autocodificadores seg&#250;n nuestras preferencias.</p></li><li><p><a href="https://github.com/gladstoneai/POWERplay">Un nuevo entorno de aprendizaje por refuerzo puede</a> utilizarse para medir el grado de b&#250;squeda de poder de una IA. Cada estado del entorno se asocia a un valor instrumental, que indica cu&#225;nto poder da un estado concreto. El entorno ha sido lanzado por Gladstone AI, que ya ha publicado varios art&#237;culos utiliz&#225;ndolo.</p></li></ul><h1>Oportunidades</h1><p>Ahora, vamos a entrar en algunas de las nuevas formas disponibles para entrar en el aprendizaje autom&#225;tico y la seguridad AI comisariada por BlueDot Impact. Hay bastantes puestos de trabajo disponibles.</p><ul><li><p><a href="https://ais.pub/5f956b">Anthropic</a> busca ingenieros de software s&#233;nior para construir sistemas ML desde cero, AI Impacts busca un asistente de investigaci&#243;n, un investigador s&#233;nior y un analista de investigaci&#243;n. Berkeley Existential Risks Initiative abre una vacante para un asistente de investigaci&#243;n y Ought tiene un puesto vacante para un becario de ingenier&#237;a de aprendizaje autom&#225;tico. Presente ahora su candidatura a estos puestos a trav&#233;s de los enlaces que figuran en la descripci&#243;n. Las vacantes de la semana pasada tambi&#233;n siguen abiertas.</p></li><li><p>Todav&#237;a puedes <a href="https://ais.pub/6wg">ganar hasta 1,5 millones de d&#243;lares</a> para hacer cambiar de opini&#243;n al equipo del Fondo Futuro FTX.</p></li><li><p><a href="https://ais.pub/s5m">&#218;nete a nuestro hackat&#243;n de investigaci&#243;n</a> en interpretabilidad que empieza dentro de dos semanas y dura un fin de semana. Puede participar en l&#237;nea, as&#237; como en Londres, Aarhus y Tallin.</p></li><li><p>Echa un vistazo a la nueva funcionalidad del <a href="https://ais.pub/aisi">sitio web de AI Safety Ideas</a> En el que puede enviar y probar hip&#243;tesis.</p></li><li><p><a href="https://ais.pub/ltff">Presenta tu solicitud al Fondo de Futuro a Largo Plazo</a> para recibir subvenciones para proyectos relacionados con la seguridad en ML.</p></li></ul><p>Esta ha sido la actualizaci&#243;n sobre seguridad en ML. Gracias por seguirnos y esperamos verte la semana que viene.</p>]]></content:encoded></item><item><title><![CDATA[Por qué la IA podría no ser un riesgo existencial para la humanidad - S42]]></title><description><![CDATA[Esta semana analizaremos los contraargumentos al argumento b&#225;sico de por qu&#233; la IA es un riesgo existencial para la humanidad, veremos c&#243;mo la IA fuerte podr&#237;a llegar muy pronto y compartiremos art&#237;culos interesantes.]]></description><link>https://boletin.apartresearch.com/p/por-que-la-ia-podria-no-ser-un-riesgo</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/por-que-la-ia-podria-no-ser-un-riesgo</guid><pubDate>Thu, 20 Oct 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Esta semana analizaremos los contraargumentos al argumento b&#225;sico de por qu&#233; la IA es un riesgo existencial para la humanidad, veremos c&#243;mo la IA fuerte podr&#237;a llegar muy pronto y compartiremos art&#237;culos interesantes.</p><p>Pero antes, una peque&#241;a nota: ahora puedes suscribirte a nuestro bolet&#237;n y escuchar estas actualizaciones en tu aplicaci&#243;n de podcast favorita. Consulta <a href="https://ais.pub/newsletter">newsletter.apartresearch.com</a> y <a href="https://ais.pub/pod">podcast.apartresearch.com</a>.</p><p>Hoy es 20 de octubre y esta es la actualizaci&#243;n sobre los avances en seguridad ML.</p><h1>Contraargumentos del riesgo X de la IA</h1><p>El riesgo existencial de la IA no parece abrumadoramente probable <a href="https://aiimpacts.org/counterarguments-to-the-basic-ai-x-risk-case/">seg&#250;n Katja Grace</a> de AI Impacts. Escribe un largo art&#237;culo argumentando en contra de las principales perspectivas sobre c&#243;mo la IA puede llegar a ser muy peligrosa y se&#241;ala que la suficiente incertidumbre hace que la seguridad de la IA parezca una preocupaci&#243;n relevante.</p><p>Sus contraargumentos van en contra de los tres argumentos principales de por qu&#233; la IA superinteligente se convertir&#225; en un riesgo existencial: 1) los sistemas de IA superhumanos estar&#225;n dirigidos por objetivos, 2) los objetivos de los sistemas de IA dirigidos por objetivos ser&#225;n malos, y 3) la IA superhumana dominar&#225; a los humanos.</p><p>Sus argumentos para justificar que los sistemas de IA no est&#233;n dirigidos por objetivos son que muchos sistemas altamente funcionales pueden ser &#8220;pseudoagentes&#8221;, modelos que no persiguen la maximizaci&#243;n de la utilidad, sino que optimizan para que se cumplan una serie de subobjetivos. Adem&#225;s, para ser un riesgo, el list&#243;n de la orientaci&#243;n por objetivos es muy alto.</p><p>Sus argumentos para explicar por qu&#233; los objetivos de los sistemas de IA dirigidos por objetivos podr&#237;an no ser malos son los siguientes 1) Incluso los seres humanos malvados se corresponden en l&#237;neas generales con los valores humanos, por lo que una ligera desviaci&#243;n de la pol&#237;tica &#243;ptima parece correcta. 2) La IA podr&#237;a simplemente aprender lo correcto del conjunto de datos, ya que los humanos tambi&#233;n parecen obtener su comportamiento de los diversos datos de entrenamiento del mundo. 3) El aprendizaje profundo parece muy bueno aprendiendo cosas difusas a partir de los datos y los valores parecen aprendibles de forma ligeramente similar a la <a href="https://thispersondoesnotexist.com/">generaci&#243;n de caras</a> (y no vemos caras sin narices, por ejemplo). El &#250;ltimo contraargumento es que 4) las IA que aprenden objetivos a corto plazo ser&#225;n muy funcionales y tendr&#225;n pocas posibilidades de optimizar objetivos peligrosos a largo plazo, como la b&#250;squeda de poder.</p><p>Tambi&#233;n es posible que una IA sobrehumana no supere a los humanos, ya que: 1) A un humano genial de la Edad de Piedra le costar&#237;a mucho m&#225;s llegar al espacio que a un humano de inteligencia media en la actualidad, lo que demuestra que la inteligencia es un concepto mucho m&#225;s matizado de lo que creemos. 2) La IA podr&#237;a no ser mejor que las combinaciones de humano e IA. 3) La IA necesitar&#225; nuestra confianza para hacerse cargo de infraestructuras cr&#237;ticas. 4) Hay muchas otras propiedades adem&#225;s de la inteligencia que parecen muy relevantes. 5) Muchos objetivos no acaban en la conquista del universo. 6) Los bucles de retroalimentaci&#243;n de la inteligencia pueden tomar muchas velocidades y se necesita mucha confianza en que es r&#225;pido para decir que lleva a la perdici&#243;n. Y 7) los conceptos clave en la literatura son bastante vagos, lo que significa que carecemos de una comprensi&#243;n de c&#243;mo conducir&#225;n al riesgo existencial.</p><p>Erik Jenner y Johannes Treutlein dan <a href="https://www.alignmentforum.org/posts/GQat3Nrd9CStHyGaq/response-to-katja-grace-s-ai-x-risk-counterarguments">su respuesta</a> sus contraargumentos. Su principal argumento es que hay pruebas fehacientes de que la diferencia entre la IA y los humanos ser&#225; grande y que necesitamos la IA ligeramente alineada de Grace para ayudarnos a alcanzar un estado en el que no construyamos sistemas mucho m&#225;s capaces y m&#225;s desalineados.</p><h1>Servicios integrales de IA (CAIS)</h1><p>Un texto relevante a mencionar en relaci&#243;n con estos argumentos es <a href="https://www.lesswrong.com/posts/x3fNwSe5aWZb5yXEG">el intento de Eric Drexler de reformular la superinteligencia </a>&nbsp;en algo m&#225;s realista en un mundo econ&#243;mico. Aqu&#237;, utiliza el t&#233;rmino &#8220;servicios de IA&#8221; para describir tareas singulares que ser&#225;n econ&#243;micamente relevantes. Lo integral en servicios integrales de IA es lo que solemos llamar general. El punto principal es que veremos mucha IA altamente capaz pero especializada antes de que consigamos la inteligencia general artificial monol&#237;tica. Le recomendamos que lea el informe si tiene tiempo.</p><h1>Una AGI fuerte en breve</h1><p>En el extremo opuesto del espectro de Grace, <a href="https://www.lesswrong.com/posts/K4urTDkBbtNuLivJx/why-i-think-strong-general-ai-is-coming-soon">Porby comparte</a> por qu&#233; creen que la AGI llegar&#225; en los pr&#243;ximos 20 a&#241;os con argumentos convincentes sobre 1) lo f&#225;cil que es el problema de la inteligencia, 2) lo inmaduro que est&#225; el aprendizaje autom&#225;tico actual, 3) lo r&#225;pido que alcanzaremos el nivel de hardware necesario y 4) c&#243;mo no podemos fijarnos en los sistemas de IA actuales para predecir las capacidades futuras.</p><h1>Otras noticias</h1><ul><li><p>En otras noticias, en una <a href="https://www.nature.com/articles/s41467-022-33417-3">nueva encuesta publicada</a> en Nature, los usuarios no expertos de sistemas de IA piensan que la interpretabilidad es importante, sobre todo en escenarios cr&#237;ticos para la seguridad. Sin embargo, prefieren la precisi&#243;n en la mayor&#237;a de las tareas.</p></li><li><p>Neel Nanda comparte una <a href="https://www.lesswrong.com/posts/SfPrNY45kQaBozwmu/an-extremely-opinionated-annotated-list-of-my-favourite">lectura sesuda</a> de su trabajo favorito sobre interpretabilidad en Circuits.</p></li><li><p><a href="https://openreview.net/pdf?id=CtS2Rs_aYk">Un nuevo m&#233;todo</a> de aprendizaje por refuerzo muestra buenos resultados tanto en rendimiento como en moralidad de sus acciones. Toman un juego basado en texto y entrenan a un agente de aprendizaje por refuerzo tanto con una pol&#237;tica de tareas como con una pol&#237;tica moral.</p></li><li><p>Wentworth&nbsp;<a href="https://www.lesswrong.com/posts/oxSX9XDQHLu5YLpaD/how-to-make-prediction-markets-useful-for-alignment-work">se&#241;ala</a> c&#243;mo los mercados de predicci&#243;n podr&#237;an ser &#250;tiles para la investigaci&#243;n de la alineaci&#243;n.</p></li><li><p>DeepMind ha dado a un modelo ling&#252;&#237;stico <a href="https://arxiv.org/pdf/2210.05359.pdf">acceso a una simulaci&#243;n f&#237;sica para</a> aumentar su capacidad de razonamiento f&#237;sico.</p></li><li><p>Nate Soares <a href="https://www.alignmentforum.org/posts/rP66bz34crvDudzcJ/decision-theory-does-not-imply-that-we-get-to-have-nice">describe</a> los seres superinteligentes no dejan necesariamente con vida a los humanos por motivos de teor&#237;a de juegos.</p></li><li><p><a href="https://www.lesswrong.com/posts/bumgqvRjTadFFkoAd/science-of-deep-learning-a-technical-agenda">Una nueva agenda de investigaci&#243;n</a> en seguridad de la IA pretende estudiar la teor&#237;a del aprendizaje profundo utilizando un enfoque pragm&#225;tico para comprender conceptos clave.</p></li></ul><h1>Oportunidades</h1><p>Y ahora, &#161;a bucear en las muchas oportunidades disponibles para todos los interesados en aprender y hacer m&#225;s investigaci&#243;n en seguridad ML!</p><ul><li><p>SERI MATS est&#225; aceptando solicitudes para una beca presencial de 2 meses totalmente remunerada para realizar investigaci&#243;n independiente en seguridad de IA. Presente su <a href="https://ais.pub/serimats">solicitud</a> ahora que las solicitudes se cierran este domingo.</p></li><li><p>El Future of Life Institute est&#225; <a href="https://ais.pub/fli">aceptando solicitudes</a> para financiar tu doctorado o postdoctorado en un campo relacionado con la seguridad de la IA.</p></li><li><p>Tambi&#233;n puedes dedicarte directamente a la investigaci&#243;n solicitando un <a href="https://ais.pub/redwoodjob">puesto en el equipo t&#233;cnico de Redwood Research</a> o <a href="https://ais.pub/chaiintern">incorporarte como becario al Center for Human-Compatible AI.</a></p></li><li><p>Hemos estrenado nuestro nuevo sitio web para los hackatones <a href="https://ais.pub/jam">alignmentjam.com</a>, que estamos orgullosos de mostrar al mundo. Solo tienes que entrar en alignmentjam.com, participar en el pr&#243;ximo hackat&#243;n de noviembre y suscribirte para recibir actualizaciones.</p></li><li><p>Ahora tambi&#233;n puedes seguirnos en nuestro bolet&#237;n o escuchar estos episodios en tu aplicaci&#243;n de podcasting favorita.</p></li></ul><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://boletin.apartresearch.com/subscribe?&quot;,&quot;text&quot;:&quot;Suscr&#237;bete ahora&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://boletin.apartresearch.com/subscribe?"><span>Suscr&#237;bete ahora</span></a></p><p class="button-wrapper" data-attrs="{&quot;url&quot;:&quot;https://ais.pub/pod&quot;,&quot;text&quot;:&quot;Podcast&quot;,&quot;action&quot;:null,&quot;class&quot;:null}" data-component-name="ButtonCreateButton"><a class="button primary" href="https://ais.pub/pod"><span>Podcast</span></a></p><p>Esta ha sido la Actualizaci&#243;n de Progreso en Seguridad de ML y &#161;esperamos verle la semana que viene!</p>]]></content:encoded></item><item><title><![CDATA[Las advertencias no bastan - S41]]></title><description><![CDATA[Esta semana, compartimos incre&#237;bles art&#237;culos sobre seguridad ML, describimos la din&#225;mica del campo de la seguridad de la IA y compartimos oportunidades sobre c&#243;mo puedes trabajar tambi&#233;n con la seguridad ML.]]></description><link>https://boletin.apartresearch.com/p/las-advertencias-no-bastan-w41</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/las-advertencias-no-bastan-w41</guid><pubDate>Fri, 14 Oct 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Esta semana, compartimos incre&#237;bles art&#237;culos sobre seguridad ML, describimos la din&#225;mica del campo de la seguridad de la IA y compartimos oportunidades sobre c&#243;mo puedes trabajar tambi&#233;n con la seguridad ML.</p><p>Hoy es 14 de octubre y est&#225;s viendo el Informe sobre el Progreso de la IA Segura.</p><h1>La ley define los valores humanos</h1><p>Un nuevo y extenso art&#237;culo describe las muchas formas en que el derecho ha resuelto los problemas de definir t&#233;cnicamente los valores humanos de maneras como la especificaci&#243;n imperfecta generalizada de valores (ley) y la supervisi&#243;n humana (jueces). Describe la alineaci&#243;n de valores como un problema &#233;tico te&#243;rico (algo que Joscha Bach tambi&#233;n est&#225; impulsando) y como un dilema de coordinaci&#243;n y cooperaci&#243;n entre m&#250;ltiples agentes. Merece la pena leerlo (<a href="https://arxiv.org/pdf/2209.13020.pdf">art&#237;culo</a>)</p><h1>Alineaci&#243;n fuera de la distribuci&#243;n</h1><p>El problema de la alineaci&#243;n puede redefinirse como un problema de robustez fuera de la distribuci&#243;n. Si los datos de entrenamiento no contienen todos los ejemplos de c&#243;mo se lleva a cabo un valor humano en el mundo, &#191;c&#243;mo generaliza la IA m&#225;s all&#225; de este conjunto de entrenamiento? Normalmente intentamos resolverlo transformando los datos de entrenamiento, por ejemplo, reflejando y rotando im&#225;genes para obtener m&#225;s ejemplos y probando nuestros modelos con datos que no han visto. Los m&#233;todos m&#225;s avanzados utilizan redes neuronales para generar nuevos datos, las llamadas redes generativas adversariales (o GAN). Un nuevo trabajo entrena estas GAN para crear una representaci&#243;n m&#225;s fiable de lo que consideramos fuera de distribuci&#243;n, en lugar de limitarse a probar con otros conjuntos de datos <a href="https://arxiv.org/pdf/2209.11960.pdf">(art&#237;culo)</a></p><h1>Definici&#243;n de la pirater&#237;a de recompensas</h1><p>Las recompensas para los modelos de aprendizaje autom&#225;tico se definen en funci&#243;n de un objetivo real que tengamos en mente, por ejemplo crear un negocio sostenible del que podamos obtener beneficios. Sin embargo, no tenemos una buena m&#233;trica para realizar un seguimiento de este negocio sostenible, por lo que definimos la recompensa como la cantidad de dinero que gana para nosotros. Cuando definimos una recompensa imperfecta, la IA puede acabar haciendo lo que se denomina "pirateo de recompensas". Un nuevo art&#237;culo define el pirateo de recompensas como cualquier comportamiento sobre nuestra recompensa imperfecta que conduzca a una reducci&#243;n del rendimiento en nuestro verdadero objetivo. Se considera que una recompensa no se puede piratear si el aumento de la recompensa no conduce a una reducci&#243;n del rendimiento en el objetivo real en ninguna situaci&#243;n <a href="https://arxiv.org/pdf/2209.13085.pdf">(art&#237;culo)</a></p><p>En relaci&#243;n con esto, DeepMind describe la generalizaci&#243;n err&#243;nea del objetivo. Esto es lo que ocurre en los casos l&#237;mite del hackeo de recompensas, cuando una recompensa est&#225; correctamente definida pero el comportamiento no funciona cuando se despliega. Un ejemplo es cuando un agente recibe recompensa por caminar hacia lugares en un orden espec&#237;fico y es guiado por un maestro que lo hace correctamente en el entrenamiento pero durante el despliegue, el maestro camina en la direcci&#243;n contraria. Esto demuestra que a pesar de tener una recompensa robusta, el alumno modelo aprende un comportamiento err&#243;neo (<a href="https://arxiv.org/pdf/2210.01790.pdf">post</a>)</p><h1>Sesgos inductivos en algoritmos de aprendizaje</h1><p>Quintin Pope resume 16 art&#237;culos sobre el sesgo inductivo en los algoritmos de aprendizaje, que s&#243;lo significa c&#243;mo los algoritmos de aprendizaje est&#225;n sesgados hacia comportamientos espec&#237;ficos. Entre las investigaciones m&#225;s destacadas se encuentran el uso del n&#250;cleo neuronal tangente para visualizar el comportamiento aprendido en diferentes arquitecturas de red, el an&#225;lisis de los sesgos inductivos discretos del descenso por gradiente estoc&#225;stico mediante m&#233;todos sencillos y la demostraci&#243;n de que el descenso por gradiente estoc&#225;stico est&#225; sesgado hacia la selecci&#243;n de redes neuronales no profundas <a href="https://www.alignmentforum.org/posts/SxQJWw8RtXJdngBtS/qapr-4-inductive-biases">(art&#237;culo)</a></p><p>Larsen y Gillen resumen la mencionada investigaci&#243;n sobre kernels neuronales tangentes en un post reciente en el que tambi&#233;n comparten un art&#237;culo sobre procesos gaussianos con instrucciones en profundidad y demostraciones interactivas de lo que son. En general, los kernels en aprendizaje autom&#225;tico nos ayudan a redefinir los datos de entrada en algo que nuestros modelos puedan entender (<a href="https://distill.pub/2019/visual-exploration-gaussian-processes/">link</a>)</p><h1>Advertencias</h1><p>Los disparos de advertencia son una serie de ejemplos que indican que deber&#237;amos empezar a tomarnos en serio un riesgo, como cuando una IA es capaz de sustituir a programadores junior o cuando es responsable de m&#225;s del 10% del PIB mundial. Algunos argumentan que tales disparos de advertencia ser&#225;n suficientes para empujar a los gobiernos a la acci&#243;n, sin embargo, Soares sostiene que covid-19 fue un caso de prueba para tal proceso y describe c&#243;mo no podemos confiar en los gobiernos para la seguridad de la futura IA. Esto pone a&#250;n m&#225;s el foco en la investigaci&#243;n de alineaci&#243;n t&#233;cnica como el mejor camino (<a href="https://www.alignmentforum.org/posts/idipkijjz5PoxAwju/warning-shots-probably-wouldn-t-change-the-picture-much">post</a>)</p><h1>Estado de la seguridad de la IA</h1><p>Sin embargo, las nuevas estimaciones muestran que s&#243;lo unos 300 investigadores trabajan a tiempo completo en el campo de la seguridad de la IA. Esto supone menos de la mitad de las ofertas de empleo en LinkedIn que incluyen el aprendizaje autom&#225;tico como requisito, que ascend&#237;an a 98.000 en el &#250;ltimo recuento. Aumentar el campo es muy importante para garantizar la seguridad de los futuros sistemas de IA y (<a href="https://forum.effectivealtruism.org/posts/3gmkrj3khJHndYGNe/estimating-the-current-and-future-number-of-ai-safety#:~:text=total.%5B5%5D-,Comparison%20of%20estimates,-The%20bar%20charts">figure</a>) Marcus resume sus experiencias hablando con m&#225;s de 100 acad&#233;micos de aprendizaje autom&#225;tico sobre seguridad. Por suerte, en general la gente parece cada vez m&#225;s abierta a los riesgos de seguridad de la IA y los investigadores se interesan por los debates t&#233;cnicos del campo (<a href="https://www.alignmentforum.org/posts/SqjQFhn5KTarfW8v7/lessons-learned-from-talking-to-greater-than-100-academics">link</a>)</p><h1>Noticias</h1><p>Dan Hendrycks ha publicado el &#250;ltimo bolet&#237;n mensual de ML Safety, que te recomendamos leer si est&#225;s interesado en saber m&#225;s.</p><p>El Center for AI Safety ha lanzado una convocatoria de ideas por valor de 500.000 d&#243;lares para crear puntos de referencia en seguridad de IA (<a href="https://benchmarking.mlsafety.org/">portada</a>)</p><p>Wood Research hace un llamamiento para encontrar heur&#237;sticas emergentes en un peque&#241;o modelo GPT-2 (<a href="https://www.lesswrong.com/posts/LkBmAGJgZX2tbwGKg/help-out-redwood-research-s-interpretability-team-by-finding">art&#237;culo</a>).</p><p>Nuestro pr&#243;ximo hackat&#243;n sobre seguridad en ML versar&#225; sobre la interpretabilidad y le invitamos a que registre ya su inter&#233;s en la descripci&#243;n. Si deseas organizar un evento local con nuestro apoyo, haz clic en el enlace de la descripci&#243;n (<a href="https://itch.io/jam/interpretability">p&#225;gina itch</a>).</p><p>AGI Safety Fundamentals lanza su segundo curso sobre seguridad en IA, el plan de estudios Alignment 201. Ap&#250;ntate a su curso interactivo de 10 semanas en tiempo libre en la descripci&#243;n. (<a href="https://www.agisafetyfundamentals.com/alignment-201-curriculum">portada</a>)</p><p>Visita nuestra p&#225;gina en <a href="https://apartresearch.com/">apartresearch.com</a> y s&#237;guenos aqu&#237; para la pr&#243;xima actualizaci&#243;n.</p><p>Este ha sido el Informe de Progreso de IA Segura, &#161;hasta la semana que viene!</p>]]></content:encoded></item><item><title><![CDATA[Progreso en AGI y vistas teóricas - S40]]></title><description><![CDATA[Hoy mostraremos algunas actualizaciones aterradoras en el desarrollo de la IA, resumiremos la discusi&#243;n de Stuart Russell y Eliezer sobre la alineaci&#243;n, y veremos herramientas de interpretabilidad de Redwood.]]></description><link>https://boletin.apartresearch.com/p/progreso-en-agi-y-vistas-teoricas</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/progreso-en-agi-y-vistas-teoricas</guid><dc:creator><![CDATA[Alejandro González]]></dc:creator><pubDate>Fri, 07 Oct 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Hoy mostraremos algunas actualizaciones aterradoras en el desarrollo de la IA, resumiremos la discusi&#243;n de Stuart Russell y Eliezer sobre la alineaci&#243;n, y veremos herramientas de interpretabilidad de Redwood.</p><p>Es 7 de octubre, me llamo Thomas, y est&#225;s viendo... El Informe de Progreso de Safety AI.</p><h1>Aterradores avances en IA</h1><p>El legendario programador John Carmack ha abandonado el desarrollo de la realidad virtual para crear AGI, y cito, <a href="https://twitter.com/ID_AA_Carmack/status/1560729970510422016">"por la v&#237;a de la ciencia loca"</a>, sin tener en cuenta la seguridad. Esto es muy preocupante y ya han <a href="https://www.insiderintelligence.com/content/startup-keen-technologies-raises-20m-advance-controversial-agi">recaudado 20 millones de d&#243;lares</a>. Carmack es muy respetado, y que asuma este cargo parece un golpe descorazonador para la seguridad de la IA.</p><p><a href="https://ai.facebook.com/blog/generative-ai-text-to-video/">Meta present&#243; hace una semana un modelo de generaci&#243;n de v&#237;deo</a> que asombr&#243; a todo el mundo, pero una <a href="https://phenaki.video/#interactive:~:text=of%20the%20model-,Prompts%20used%3A,-Lots%20of%20traffic">nueva investigaci&#243;n in&#233;dita</a> demuestra que tambi&#233;n es capaz de combinar diferentes escenas en v&#237;deos mucho m&#225;s interesantes y narrativos. OpenAI tambi&#233;n ha abierto <a href="https://cdn.openai.com/papers/whisper.pdf">Whisper</a>, un modelo de voz a texto extremadamente bueno.</p><p>Mientras tanto, <a href="https://www.deepmind.com/blog/discovering-novel-algorithms-with-alphatensor?utm_campaign=AlphaTensor&amp;utm_medium=bitly&amp;utm_source=Twitter+Organic">DeepMind publica un modelo matem&#225;tico</a> que crea nuevos algoritmos para acelerar la multiplicaci&#243;n de matrices, algo que se utiliza en todas partes tanto en el aprendizaje autom&#225;tico como en muchos otros campos inform&#225;ticos. <a href="https://www.quantamagazine.org/mathematicians-inch-closer-to-matrix-multiplication-goal-20210323/">Este art&#237;culo de Quanta Magazine resume</a> el estado del arte de los algoritmos para la multiplicaci&#243;n de matrices y el modelo de DeepMind no ha encontrado una soluci&#243;n m&#225;s r&#225;pida, pero puede optimizar los algoritmos para GPU y arquitecturas de modelo espec&#237;ficas.</p><p>As&#237; que est&#225; claro que el progreso es extremadamente r&#225;pido, incluso sin tener en cuenta la gran cantidad de modelos de c&#243;digo abierto que se han creado recientemente.</p><h1>Meta transfiere PyTorch a la Fundaci&#243;n Linux</h1><p>La propiedad de uno de los <a href="https://www.linuxfoundation.org/blog/blog/welcoming-pytorch-to-the-linux-foundation">marcos de aprendizaje autom&#225;tico m&#225;s</a> populares, PyTorch, <a href="https://pytorch.org/blog/PyTorchfoundation/">se ha transferido a la Linux Foundation</a> que gestiona 850 proyectos de c&#243;digo abierto. Por lo general, adoptan una postura de neutralidad, pero son una organizaci&#243;n sin &#225;nimo de lucro en comparaci&#243;n con Meta, que anteriormente era propietaria del proyecto. El director de IA de Meta, Yann LeCunn, tambi&#233;n <a href="https://openreview.net/pdf?id=BZ5a1r-kVsf">Yann LeCunn, ha propuesto</a> recientemente un camino hacia la AGI, un punto preocupante.</p><p>As&#237; que mientras todos esperamos a la AGI, vete a jugar a este juego de hacer clic con un clip que demuestra que la optimizaci&#243;n de tu <a href="https://paperclips.tech/">fabrica de clips</a>&nbsp; Podr&#237;a convertirse en un riesgo para la humanidad.</p><h1>El riesgo de una IA que busca el poder</h1><p><a href="https://www.alignmentforum.org/posts/NLqAQzAhE9u87TvNz/eli-s-review-of-is-power-seeking-ai-an-existential-risk-1">Eli comparte su cr&#237;tica</a> al informe de Joe Carlsmith sobre por qu&#233; la IA que busca el poder es un riesgo. Menciona que el informe, que ya es un canon para entender el riesgo de la IA, tiene estimaciones de probabilidad optimistas porque el marco es evitar el riesgo existencial en lugar de eliminar ese riesgo y asegurar un buen futuro para la humanidad. Adem&#225;s, podr&#237;a subestimar la cantidad de actores en el espacio de la IA en ese momento.</p><p><a href="https://forum.effectivealtruism.org/posts/ChuABPEXmRumcJY57/video-and-transcript-of-presentation-on-existential-risk#:~:text=basically%20never%20faced.-,Basic%20structure%20of%20the%20more%20detailed%20argument,-That%27s%20the%20high">Y para resumir el informe de Carlsmith</a>, se centra en un argumento principal para los riesgos que dice as&#237;: 1) ser&#225; posible construir sistemas de IA peligrosos en el futuro, 2) la gente tendr&#225; incentivos para construirlos, 3) ser&#225; dif&#237;cil construir sistemas que podamos garantizar que son seguros, 4) los sistemas inseguros fallar&#225;n de formas de alto impacto, 5) esto puede llevar a una p&#233;rdida permanente de poder de la humanidad, y 6) esto lleva a una cat&#225;strofe existencial.</p><p><a href="https://www.alignmentforum.org/posts/AsNjqggQQ4yJcbsWn/ai-safety-endgame-stories#:~:text=Changing%20the%20technology.%C2%A0,to%20Magma%E2%80%99s%20deployment%20decision.">Mientras tanto , Vendrov describe tres caminos</a> que podr&#237;amos tomar para garantizar esta IA segura. Uno es cambiar la propia tecnolog&#237;a, algo en lo que trabajan la mayor&#237;a de los investigadores de la seguridad de la IA. Otra es cambiar las estructuras que despliegan la IA peligrosa de forma que tengan incentivos para hacerla segura. Y la tercera es cambiar el funcionamiento del mundo para que sea resistente a la IA peligrosa.</p><h1>Comprender las preferencias humanas</h1><p><a href="https://astralcodexten.substack.com/p/chai-assistance-games-and-fully-updated?utm_source=post-email-title&amp;publication_id=89120&amp;post_id=52847779&amp;isFreemail=true&amp;utm_medium=email#:~:text=down%20to%20this%3A-,Humans%3A%20At%20last!%20We%E2%80%99ve%20programmed%20an%20AI%20that%20tries%20to,then%20goes%20on%20to%20tile%20the%20universe%20with%20red%20paperclips*),-Fine%2C%20it%E2%80%99s%20a">Scott Alexander resume</a> una disputa te&#243;rica entre Stuart Russell, el padrino del ML, y Eliezer Yudkowsky, el autor de la alineaci&#243;n. Russell dirige el grupo de investigaci&#243;n CHAI en la UC Berkeley, en California, y su investigaci&#243;n se centra en el aprendizaje autom&#225;tico seguro para garantizar que la IA valore las opiniones humanas mucho m&#225;s que sus propios valores. As&#237;, si la IA no entiende bien la tarea, buscar&#225; el consejo humano para hacerlo bien.</p><p>La cr&#237;tica de MIRI dice que no sabemos c&#243;mo crear modelos de este tipo de escenarios y que, aunque lo hici&#233;ramos, no sabr&#237;amos c&#243;mo hacerlo correctamente. El argumento b&#225;sico es que una IA con esta capacidad malinterpretar&#225; las opciones de que dispone y, por tanto, actualizar&#225; su comprensi&#243;n hacia algo que sigue sin ser lo que queremos.</p><h1>Funciones de p&#233;rdida, tutoriales de Andrej, interpretabilidad y atascos de alineaci&#243;n</h1><p>En noticias m&#225;s peque&#241;as, Alex publica una descripci&#243;n de cuatro formas en que se utilizan las funciones de p&#233;rdida en el aprendizaje autom&#225;tico y c&#243;mo deber&#237;amos entenderlas.&nbsp;</p><p><a href="https://www.youtube.com/watch?v=VMj-3S1tku0">Andrej Karpathy ha empezado a crear tutoriales</a> en YouTube despu&#233;s de dejar de dirigir la IA en Tesla. Sus tutoriales son algunos de los mejores para aprender machine learning que se pueden encontrar y recomendamos verlos.</p><p>Redwood Research <a href="http://interp-tools.redwoodresearch.org/">ha lanzado una impresionante herramienta de interpretabilidad</a> que complementa las herramientas de Anthropic y OpenAI. Esto democratiza la capacidad de investigar la interpretabilidad y entender las redes neuronales.</p><p><a href="https://itch.io/jam/interpretability">Los d&#237;as 12 y 13 de noviembre, vamos a hacer un hackat&#243;n en interpretabilidad </a>&nbsp;y eres muy bienvenido a registrar tu inter&#233;s ya ahora. &#218;nete en el enlace en la descripci&#243;n. Esben Kran hizo una conferencia introductoria sobre interpretabilidad y puedes verla en el mismo enlace.</p><p>Este ha sido el informe de progreso de Safe AI. Esperamos verle la semana que viene a la misma hora. Gracias por seguirnos.</p>]]></content:encoded></item><item><title><![CDATA[1,5 millones de dólares para cambiar la opinión de alguien - S39]]></title><description><![CDATA[Cambia la opini&#243;n de FTX por 1,5 millones de d&#243;lares, obt&#233;n una nueva perspectiva en interpretabilidad, participa en el speed prior y &#250;nete a nuestro hackat&#243;n.]]></description><link>https://boletin.apartresearch.com/p/15-millones-de-dolares-para-cambiar</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/15-millones-de-dolares-para-cambiar</guid><pubDate>Fri, 30 Sep 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Cambia la opini&#243;n de FTX por 1,5 millones de d&#243;lares, obt&#233;n una nueva perspectiva en interpretabilidad, participa en el speed prior y &#250;nete a nuestro hackat&#243;n.</p><p>Hoy es 30 de septiembre, me llamo Esben, y est&#225;s viendo... el Informe de Progreso de Safe AI.</p><div><hr></div><p>El FTX Future Fund anuncia un premio de 1,5 millones de d&#243;lares para que cambien de opini&#243;n sobre los riesgos de la inteligencia artificial. Hasta ahora, han donado m&#225;s de 31 millones de d&#243;lares a esta causa y cambiar de opini&#243;n podr&#237;a cambiar completamente el destino de este dinero. Si cambias dr&#225;sticamente sus estimaciones de probabilidad sobre lo peligrosa que es la AGI y cu&#225;ndo llegar&#225;, podr&#225;s optar a un premio.</p><p>Una de las primeras propuestas es este post que defiende que la temible IA llegar&#225; pronto. Trata de c&#243;mo esperamos que la inteligencia general temprana d&#233; m&#225;s miedo que la IA tard&#237;a, ya que no tendremos tanto tiempo para prepararnos, y de que hay varias variables en la comprensi&#243;n de la precocidad de la aparici&#243;n de la IA que dan miedo de las que no podemos estar seguros. Muy buen art&#237;culo.</p><p>La conjetura lanza una gran investigaci&#243;n en interpretabilidad, la lente de Polytopes sobre el espacio de caracter&#237;sticas. Argumentan que no deber&#237;amos entender los rasgos como direcciones, sino como estructuras geom&#233;tricas en el espacio de rasgos debido a las funciones de activaci&#243;n no lineales y a la polisemanticidad.</p><p>A pesar de que una neurona puede codificar m&#250;ltiples rasgos, pueden identificar "politopos monosem&#225;nticos", lo que significa que si no estudiamos los rasgos como direcciones sino como formas geom&#233;tricas, podemos identificar mejor d&#243;nde se interpretan los distintos tipos de entrada. Esto desaf&#237;a la interpretabilidad de los circuitos de la que hemos hablado antes con un experimento en el que escalan las activaciones y ven una diferencia en lo que la red entiende. Lo que esto implica es que no podemos utilizar direcciones lineales como caracter&#237;sticas (figura).</p><p>Anthropic trabaja mucho en la interpretabilidad de los circuitos y, al mismo tiempo, ha publicado un trabajo asombroso sobre la comprensi&#243;n de la superposici&#243;n de caracter&#237;sticas, que no es m&#225;s que la comprensi&#243;n de caracter&#237;sticas repartidas entre muchas neuronas, por ejemplo, una neurona que responde tanto a coches como a perros. Esto permite que la red comprenda m&#225;s cosas, pero, por desgracia, hace que nos resulte m&#225;s dif&#237;cil comprenderla.</p><p>Su trabajo muestra una serie de experimentos interesantes, estudiando cu&#225;ndo se produce la superposici&#243;n de caracter&#237;sticas, como en esta figura donde el amarillo indica una mayor superposici&#243;n (figura) y gr&#225;ficos de geometr&#237;a de caracter&#237;sticas que muestran c&#243;mo las superposiciones son posibles a trav&#233;s de la codificaci&#243;n de la informaci&#243;n en las direcciones m&#225;s distintas posibles (figura). Hay m&#225;s experimentos y te recomiendo que leas el art&#237;culo si quieres saber m&#225;s.</p><p>P&#233;rez y McKenzie dan a conocer los ganadores de la primera ronda del premio de escalado inverso. Este reto trata de encontrar tareas en las que los modelos ling&#252;&#237;sticos m&#225;s grandes rinden peor que los modelos m&#225;s peque&#241;os, lo cual es sumamente importante para saber d&#243;nde modelos mucho m&#225;s grandes podr&#237;an toparse con obst&#225;culos en su compatibilidad con los valores humanos.</p><p>Los ganadores demuestran que 1) los modelos m&#225;s grandes son peores a la hora de entender la negaci&#243;n, 2) repiten m&#225;s a menudo lo que han visto en su conjunto de entrenamiento, 3) son peores a la hora de redefinir definiciones y 4) son peores a la hora de entender futuros comportamientos de riesgo.</p><p>Evan Hubinger ha publicado sus experimentos de verano que se basan en su trabajo sobre los llamados "Speed priors". Esperamos que las futuras IA peligrosas enga&#241;en a los humanos, por lo que necesitamos una forma de castigar a los algoritmos que enga&#241;an. Una forma es encontrar un "regularizador", o una penalizaci&#243;n a las redes, que est&#233; sesgado hacia modelos no enga&#241;osos. La prioridad a la velocidad intenta conseguirlo seleccionando el modelo m&#225;s r&#225;pido en una tarea, ya que suponemos que el enga&#241;o requiere pasos adicionales en comparaci&#243;n con la realizaci&#243;n de la tarea en cuesti&#243;n.</p><p>Su nuevo trabajo presenta intentos de utilizar las priorizaciones de velocidad en m&#250;ltiples niveles, resolviendo tambi&#233;n la desalineaci&#243;n interna. Como explicamos en el segundo Informe de Progreso de Safe AI, la desalineaci&#243;n interna se produce cuando un modelo parece hacer lo correcto pero es enga&#241;oso o tiene sus propios objetivos por debajo de la primera capa. Para paliar este problema, queremos que la velocidad previa funcione en ambos niveles. La mayor&#237;a de los enfoques que presenta no son muy prometedores, pero justifican futuras investigaciones.</p><p>Leo Gao describe c&#243;mo las pol&#237;ticas de aprendizaje por refuerzo no pueden preocuparse por la recompensa en un entorno incrustado, pero que siguen siendo capaces de hacer wireheading. Esto se extiende al hecho de que no hay ning&#250;n mecanismo especial en los humanos que nos haga preocuparnos por las cosas del mundo. El escrito de Leo es una respuesta a un texto de Alex Turner con la afirmaci&#243;n m&#225;s d&#233;bil de que los agentes de aprendizaje por refuerzo probablemente no optimizar&#225;n para la recompensa.</p><div><hr></div><p>En noticias m&#225;s peque&#241;as, Holden Karnofsky analiza c&#243;mo el despliegue de la IA es incre&#237;blemente importante y cuestiona la opini&#243;n entre los te&#243;ricos de que s&#243;lo tenemos que resolver los problemas t&#233;cnicos de la alineaci&#243;n y no tendremos que preocuparnos demasiado por c&#243;mo el mundo despliega estos modelos.</p><p>Akash y Thomas describen los 7 errores de los nuevos investigadores de alineaci&#243;n y c&#243;mo a menudo acaban estancados en el "perfeccionamiento" y no cuestionan a las figuras de autoridad.</p><p>Pero algunos lugares donde los nuevos investigadores podr&#237;an surgir con mejores fundamentos es el hackat&#243;n de modelos ling&#252;&#237;sticos que estamos llevando a cabo durante el fin de semana, &#161;a partir de hoy! Te invitamos a participar en el hackat&#243;n durante el fin de semana y podr&#225;s ganar hasta 1.000 d&#243;lares.  &#218;nete a nosotros para averiguar si podemos obtener resultados de investigaci&#243;n novedosos en un fin de semana.</p><p>Otro evento que se est&#225; celebrando es la conferencia AI Safety de ALTER en Israel para poner m&#225;s &#233;nfasis en la seguridad de la IA en el pa&#237;s. Nuestro Fazl Barez intervendr&#225; en este evento.</p><p>Y como siempre, si quieres saber m&#225;s, visita <a href="https://apartresearch.com">apartresearch.com</a>, y si quieres encontrar proyectos en los que trabajar, visita AI Safety Ideas.</p><p>Este ha sido el Informe de Progreso de Safe AI y esperamos verle la semana que viene.</p><h1>Enlaces</h1><ul><li><p>Concurso sobre la visi&#243;n del mundo del Future Fund: <a href="https://ftxfuturefund.org/">https://ftxfuturefund.org/</a></p></li><li><p>Una AGI general fuerte llega pronto: <a href="https://forum.effectivealtruism.org/posts/kRNLsBLoCryMMipoJ">https://forum.effectivealtruism.org/posts/kRNLsBLoCryMMipoJ</a></p></li></ul><ul><li><p>Lentes de politopes:&nbsp; <a href="https://www.alignmentforum.org/posts/eDicGjD9yte6FLSie/interpreting-neural-networks-through-the-polytope-lens">https://www.alignmentforum.org/posts/eDicGjD9yte6FLSie/interpreting-neural-networks-through-the-polytope-lens</a>&nbsp;</p></li></ul><ul><li><p>Publicaciones de Anthropic: <a href="https://www.anthropic.com/research">https://www.anthropic.com/research</a>&nbsp;</p></li></ul><ul><li><p>Modelos de juguete de superposiciones <a href="https://transformer-circuits.pub/2022/toy_model/index.html">https://transformer-circuits.pub/2022/toy_model/index.html</a></p></li></ul><ul><li><p>Premio de la primera ronda del Escalado inverso <a href="https://www.alignmentforum.org/posts/iznohbCPFkeB9kAJL/inverse-scaling-prize-round-1-winners">https://www.alignmentforum.org/posts/iznohbCPFkeB9kAJL/inverse-scaling-prize-round-1-winners</a>&nbsp;</p></li></ul><ul><li><p>Premio del escalado inverso <a href="https://github.com/inverse-scaling/prize">https://github.com/inverse-scaling/prize</a>&nbsp;</p></li></ul><ul><li><p>Speed prior and forwarding speed priors: <a href="https://www.alignmentforum.org/posts/bzkCWEHG2tprB3eq2/attempts-at-forwarding-speed-priors">https://www.alignmentforum.org/posts/bzkCWEHG2tprB3eq2/attempts-at-forwarding-speed-priors</a>&nbsp;</p></li></ul><ul><li><p>&#191;Son los circuitos sencillos enga&#241;osos? Are minimal circuits deceptive?: <a href="https://www.lesswrong.com/posts/fM5ZWGDbnjb7ThNKJ/are-minimal-circuits-deceptive">https://www.lesswrong.com/posts/fM5ZWGDbnjb7ThNKJ/are-minimal-circuits-deceptive</a></p></li></ul><ul><li><p>Musings on the speed prior: <a href="https://www.alignmentforum.org/posts/GC69Hmc6ZQDM9xC3w/musings-on-the-speed-prior">https://www.alignmentforum.org/posts/GC69Hmc6ZQDM9xC3w/musings-on-the-speed-prior</a>&nbsp;</p></li></ul><ul><li><p>Un wireheading des-confuso <a href="https://www.alignmentforum.org/posts/jP9cKxqwqk2qQ6HiM/towards-deconfusing-wireheading-and-reward-maximization">https://www.alignmentforum.org/posts/jP9cKxqwqk2qQ6HiM/towards-deconfusing-wireheading-and-reward-maximization</a>&nbsp;</p></li></ul><ul><li><p>La recompensa no es el foco de optimizaci&#243;n: <a href="https://www.alignmentforum.org/posts/pdaGN6pQyQarFHXF4/reward-is-not-the-optimization-target">https://www.alignmentforum.org/posts/pdaGN6pQyQarFHXF4/reward-is-not-the-optimization-target</a></p></li></ul><ul><li><p>Nearcasting AGI: <a href="https://www.alignmentforum.org/posts/vZzg8NS7wBtqcwhoJ/nearcast-based-deployment-problem-analysis">https://www.alignmentforum.org/posts/vZzg8NS7wBtqcwhoJ/nearcast-based-deployment-problem-analysis</a>&nbsp;</p></li><li><p>7 trampas en las que las investigaciones de las nuevas alineaciones caen &nbsp; <a href="https://www.lesswrong.com/posts/h5CGM5qwivGk2f5T9">https://www.lesswrong.com/posts/h5CGM5qwivGk2f5T9</a></p></li><li><p>Hackat&#243;n de modelo de lenguajes: <a href="https://itch.io/jam/llm-hackathon">https://itch.io/jam/llm-hackathon</a>&nbsp;</p></li><li><p>AI Safety conferencia en Israel: <a href="https://aisic2022.net.technion.ac.il/">https://aisic2022.net.technion.ac.il/</a></p></li><li><p>Apart Research: <a href="https://apartresearch.com">https://apartresearch.com</a></p></li><li><p>AI Safety Ideas: <a href="https://aisi.ai">https://aisi.ai</a></p></li></ul>]]></content:encoded></item><item><title><![CDATA[Modelos de lenguaje violentos y hackeo neuronal - S38]]></title><description><![CDATA[Alinear modelos ling&#252;&#237;sticos es dif&#237;cil y cada vez es m&#225;s complicado encontrar sus fallos, Refine vuelve a publicar art&#237;culos interesantes y Redwood publica una revisi&#243;n de su trabajo sobre modelos ling&#252;&#237;sticos robustos.]]></description><link>https://boletin.apartresearch.com/p/modelos-de-lenguaje-violentos-y-hackeo</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/modelos-de-lenguaje-violentos-y-hackeo</guid><pubDate>Thu, 22 Sep 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!M4Qs!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fpbs.substack.com%2Fmedia%2FFQPJEQUVUAYVCNL.jpg" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Alinear modelos ling&#252;&#237;sticos es dif&#237;cil y cada vez es m&#225;s complicado encontrar sus fallos, Refine vuelve a publicar art&#237;culos interesantes y Redwood publica una revisi&#243;n de su trabajo sobre modelos ling&#252;&#237;sticos robustos.</p><p>Es 23 de septiembre y est&#225;s viendo... The Safe AI Progress Report.</p><div><hr></div><p>Un m&#233;todo utilizado a menudo para alinear los modelos ling&#252;&#237;sticos es el aprendizaje por refuerzo a partir de la retroalimentaci&#243;n humana del que hablamos en el primer Informe de Progreso de Safe AI. Una buena forma de crear ejemplos para que los humanos los eval&#250;en y nos den su opini&#243;n es utilizar t&#233;cnicas de adversario, a menudo llamadas Red Teaming.</p><p>En el Red Teaming, intentamos hacer tropezar a los modelos en la medida de lo posible d&#225;ndoles ejemplos extremos en alguna direcci&#243;n, por ejemplo, con ejemplos de violencia. Uno de los primeros proyectos de Redwood Research fue crear un modelo sin ejemplos de violencia en su texto de salida. Ahora, han publicado una revisi&#243;n retrospectiva de lo &#250;til que fue para la alineaci&#243;n.</p><p>Sus herramientas de uso de la IA para ayudar a la anotaci&#243;n humana son muy buenos ejemplos de un proceso de alineaci&#243;n real que ser&#225; &#250;til en el futuro. Los contratistas de datos Surge AI escribieron un post sobre su proceso.</p><p>Desafortunadamente, sus resultados mostraron que no pod&#237;an crear un modelo lo suficientemente robusto para la alineaci&#243;n, a pesar de que todav&#237;a creen en la direcci&#243;n de la robustez adversarial para la alineaci&#243;n.</p><p>Simult&#225;neamente, Anthropic publica una revisi&#243;n de ejemplos adversariales y su efectividad en modelos de lenguaje internos. Muestran que los modelos de lenguaje con retroalimentaci&#243;n humana son m&#225;s dif&#237;ciles de encontrar ataques exitosos contra ellos pero son menos inofensivos comparados con los modelos tradicionales.</p><p>Crean este mapa de incrustaci&#243;n UMAP de todos los diferentes ataques adversarios y su &#237;ndice de &#233;xito. Un resultado interesante es que tradicionalmente las respuestas expl&#237;citamente da&#241;inas o negativas no son muy efectivas, pero "pedir ayuda" para algo da&#241;ino es bastante efectivo.</p><p>Estos art&#237;culos est&#225;n contextualizados por Kasirzadeh y Gabriel, que escriben un an&#225;lisis filos&#243;fico de lo que significa que los modelos ling&#252;&#237;sticos est&#233;n alineados. Enmarcan las conversaciones con los modelos ling&#252;&#237;sticos como una cooperaci&#243;n ling&#252;&#237;stica con un fin y se basan en esa idea para definir futuras direcciones para el trabajo t&#233;cnico.</p><p>En otro orden de cosas, se ha publicado la tercera semana de entradas del blog de Refine. Refine es un proyecto dirigido por Conjecture en Londres, en el que los investigadores reciben apoyo durante tres meses para crear perspectivas marginales e interesantes sobre la alineaci&#243;n. Se trata de diversificar el campo, algo que Thomas Kuhn estar&#237;a encantado de escuchar, ya que la seguridad de la IA est&#225; en sus primeras etapas y necesitamos buenos puntos de vista sobre la alineaci&#243;n.</p><p>"Ordenaci&#243;n de los umbrales de capacidad" describe qu&#233; capacidades van antes que otras y c&#243;mo pensar en esta progresi&#243;n. "Niveles de objetivos y alineaci&#243;n" describe la confusi&#243;n de los autores e intenta comprender la terminolog&#237;a sobre alineaci&#243;n interna y externa. "Representational tether" presenta una forma de utilizar el aprendizaje autom&#225;tico para alinear una IA con los valores humanos. Una cosa que me gusta de este post es c&#243;mo Paul relaciona la idea con las agendas de investigaci&#243;n m&#225;s relevantes.</p><p>John explica la idea de interpretabilidad sin coordenadas, que hace referencia a la topolog&#237;a para crear transformaciones preferidas en la red neuronal que sean m&#225;s f&#225;ciles de interpretar.</p><p>En relaci&#243;n con este post, Jacob Hilton enlaza con el art&#237;culo sobre unidades lineales softmax que describe la base privilegiada. Las neuronas a menudo intentan codificar m&#225;s dimensiones de las que hay neuronas en el modelo, lo que significa que su activaci&#243;n est&#225; correlacionada con m&#250;ltiples comprensiones de los datos.</p><p>Su unidad lineal softmax cambia la funci&#243;n de activaci&#243;n de las neuronas para acentuar la mayor entrada. De este modo, las neuronas est&#225;n sesgadas para codificar s&#243;lo una dimensi&#243;n, lo que hace que sean mucho m&#225;s f&#225;ciles de interpretar, ya que sabemos que la activaci&#243;n de la neurona est&#225; asociada con un tipo de concepto en la entrada.</p><p>...</p><p>En otras noticias, el Backdoor Bench crea un est&#225;ndar para evaluar ataques y defensas en redes neuronales, un campo que se encuentra en estos momentos en una carrera armament&#237;stica para crear las redes neuronales mejor protegidas. Publican un repositorio abierto con implementaciones de algoritmos de ataque y defensa de &#250;ltima generaci&#243;n contra los que probar los propios m&#233;todos.</p><p>Leon escribe un amplio resumen de las 8 semanas de material del curso "artificial general intelligence safety fundamentals course" que contiene una de las mejores introducciones a la alineaci&#243;n que se pueden encontrar online.</p><p>Vanessa Kosoy anuncia un premio de 50.000 d&#243;lares para crear investigaci&#243;n hacia su agenda de alineamiento en alineamiento te&#243;rico-aprendizaje donde intentamos inferir c&#243;mo aprenden los agentes y usar esta informaci&#243;n para construir modelos estad&#237;sticos m&#225;s interpretables y alineados.</p><p>Si quieres saber m&#225;s sobre la seguridad de la IA, visita <a href="https://apartresearch.com">apartresearch.com</a> y s&#237;guenos en varias redes sociales. Si quieres inspiraci&#243;n para proyectos en los que trabajar, visita AI Safety Ideas.</p><p>Este ha sido el Informe de Progreso sobre Seguridad de la IA. Recuerde suscribirse. Hasta la pr&#243;xima.</p><h1>Enlaces</h1><ul><li><p>Aprendizaje por refuerzo a partir de comentarios humanos: </p></li></ul><div class="twitter-embed" data-attrs="{&quot;url&quot;:&quot;https://twitter.com/anthropicai/status/1514277273070825476?lang=en&quot;,&quot;full_text&quot;:&quot;We've trained a natural language assistant to be more helpful and harmless by using reinforcement learning with human feedback (RLHF). <a class=\&quot;tweet-url\&quot; href=\&quot;https://arxiv.org/abs/2204.05862\&quot;>arxiv.org/abs/2204.05862</a> &quot;,&quot;username&quot;:&quot;AnthropicAI&quot;,&quot;name&quot;:&quot;Anthropic&quot;,&quot;profile_image_url&quot;:&quot;&quot;,&quot;date&quot;:&quot;Wed Apr 13 16:20:10 +0000 2022&quot;,&quot;photos&quot;:[{&quot;img_url&quot;:&quot;https://pbs.substack.com/media/FQPJEQUVUAYVCNL.jpg&quot;,&quot;link_url&quot;:&quot;https://t.co/aLCyYK0fqP&quot;,&quot;alt_text&quot;:&quot;A graph showing the difference in performance between context distilled, static HH RLHF, Online HH RLHF, and Online Helpful RLHF models. Online Helpful RLHF models do best - close to the distribution of scores for professional writers. &quot;}],&quot;quoted_tweet&quot;:{},&quot;reply_count&quot;:0,&quot;retweet_count&quot;:56,&quot;like_count&quot;:280,&quot;impression_count&quot;:0,&quot;expanded_url&quot;:{},&quot;video_url&quot;:null,&quot;belowTheFold&quot;:true}" data-component-name="Twitter2ToDOM"></div><ul><li><p>Primer SAIPR: </p></li></ul><div id="youtube2-ETknJbbL3PY" class="youtube-wrap" data-attrs="{&quot;videoId&quot;:&quot;ETknJbbL3PY&quot;,&quot;startTime&quot;:&quot;5s&quot;,&quot;endTime&quot;:null}" data-component-name="Youtube2ToDOM"><div class="youtube-inner"><iframe src="https://www.youtube-nocookie.com/embed/ETknJbbL3PY?start=5s&amp;rel=0&amp;autoplay=0&amp;showinfo=0&amp;enablejsapi=0" frameborder="0" loading="lazy" gesture="media" allow="autoplay; fullscreen" allowautoplay="true" allowfullscreen="true" width="728" height="409"></iframe></div></div><ul><li><p>Red teaming LLMs: <a href="https://arxiv.org/pdf/2202.03286.pdf">https://arxiv.org/pdf/2202.03286.pdf</a></p></li><li><p>Entrenamiento adversarial [Redwood]: <a href="https://arxiv.org/abs/2205.01663">https://arxiv.org/abs/2205.01663</a></p></li><li><p>Clasificador robusto de lesiones [Redwood]: <a href="https://www.alignmentforum.org/posts/n3LAgnHg6ashQK3fF/takeaways-from-our-robust-injury-classifier-project-redwood">https://www.alignmentforum.org/posts/n3LAgnHg6ashQK3fF/takeaways-from-our-robust-injury-classifier-project-redwood</a></p></li><li><p>Intento original: <a href="https://www.alignmentforum.org/posts/k7oxdbNaGATZbtEg3/redwood-research-s-current-project">https://www.alignmentforum.org/posts/k7oxdbNaGATZbtEg3/redwood-research-s-current-project</a></p></li><li><p>Documento original: <a href="https://arxiv.org/abs/2205.01663">https://arxiv.org/abs/2205.01663</a></p></li><li><p>Surge AI: <a href="https://www.surgehq.ai/case-study/adversarial-testing-redwood-research">https://www.surgehq.ai/case-study/adversarial-testing-redwood-research</a></p></li><li><p>Modelos ling&#252;&#237;sticos de Red Teaming para reducir da&#241;os: Revisi&#243;n [Anthropic]: <a href="https://arxiv.org/abs/2209.07858">https://arxiv.org/abs/2209.07858</a></p></li><li><p>Alineaci&#243;n de modelos ling&#252;&#237;sticos: <a href="https://arxiv.org/abs/2209.00731">https://arxiv.org/abs/2209.00731</a></p></li><li><p>Tercera bater&#237;a de entradas del blog de Refine: <a href="https://www.alignmentforum.org/posts/PhKSe9BT4h5peqrHL/refine-s-third-blog-post-day-week">https://www.alignmentforum.org/posts/PhKSe9BT4h5peqrHL/refine-s-third-blog-post-day-week</a></p></li><li><p>Refinar como concepto: <a href="https://www.alignmentforum.org/posts/5uiQkyKdejX3aEHLM/how-to-diversify-conceptual-alignment-the-model-behind">https://www.alignmentforum.org/posts/5uiQkyKdejX3aEHLM/how-to-diversify-conceptual-alignment-the-model-behind</a></p></li><li><p>Ordenaci&#243;n de los umbrales de capacidad: <a href="https://www.alignmentforum.org/posts/ttRyu8u9vqX3jZFjr/ordering-capability-thresholds">https://www.alignmentforum.org/posts/ttRyu8u9vqX3jZFjr/ordering-capability-thresholds</a></p></li><li><p>Niveles de objetivos y alineaci&#243;n: <a href="https://www.alignmentforum.org/posts/rzkCTPnkydQxfkZsX/levels-of-goals-and-alignment">https://www.alignmentforum.org/posts/rzkCTPnkydQxfkZsX/levels-of-goals-and-alignment</a></p></li><li><p>Vinculaci&#243;n representacional: <a href="https://www.alignmentforum.org/posts/h7BA7TQTo3dxvYrek/representational-tethers-tying-ai-latents-to-human-ones">https://www.alignmentforum.org/posts/h7BA7TQTo3dxvYrek/representational-tethers-tying-ai-latents-to-human-ones</a></p></li><li><p>Teor&#237;a de la interpretabilidad sin coordenadas: <a href="https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory">https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory</a></p></li><li><p>Base privilegiada: <a href="https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory?commentId=TiCE2Ai3LCdD7mvA">https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory?commentId=TiCE2Ai3LCdD7mvA</a></p></li><li><p>Unidades lineales Softmax: <a href="https://transformer-circuits.pub/2022/solu/index.html">https://transformer-circuits.pub/2022/solu/index.html</a></p></li><li><p>Banco de puerta trasera: <a href="https://arxiv.org/abs/2206.12654">https://arxiv.org/abs/2206.12654</a></p></li><li><p>Resumen de Leon Lang de las lecturas del AGISF: <a href="https://www.alignmentforum.org/posts/eymFwwc6jG9gPx5Zz/summaries-alignment-fundamentals-curriculum">https://www.alignmentforum.org/posts/eymFwwc6jG9gPx5Zz/summaries-alignment-fundamentals-curriculum</a></p></li><li><p>Premio ALTER de Vanessa Kosoy al progreso te&#243;rico del aprendizaje en alineaci&#243;n: <a href="https://www.alignmentforum.org/posts/8BL7w55PS4rWYmrmv/prize-and-fast-track-to-alignment-research-at-alte">https://www.alignmentforum.org/posts/8BL7w55PS4rWYmrmv/prize-and-fast-track-to-alignment-research-at-alte</a></p></li><li><p>Apart Research: <a href="https://apartresearch.com">https://apartresearch.com</a></p></li><li><p>AI Safety Ideas: <a href="https://aisafetyideas.com">https://aisafetyideas.com</a></p></li></ul>]]></content:encoded></item><item><title><![CDATA[La vanguardia de la interpretabilidad - S37]]></title><description><![CDATA[La investigaci&#243;n sobre interpretabilidad va viento en popa y la IA sigue mejorando.]]></description><link>https://boletin.apartresearch.com/p/la-vanguardia-de-la-interpretabilidad</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/la-vanguardia-de-la-interpretabilidad</guid><pubDate>Thu, 15 Sep 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>La investigaci&#243;n sobre interpretabilidad va viento en popa y la IA sigue mejorando. Me llamo Thomas y est&#225;s viendo... &#161;el Informe de Progreso de la IA Segura!</p><div><hr></div><p>La interpretabilidad puede llamarse "la neurociencia de la IA". Miramos en el cerebro de la IA para entender por qu&#233; y c&#243;mo dan ciertos resultados. La seguridad de la IA suele centrarse en el paradigma de los circuitos. Sin embargo, un nuevo estudio de 300 art&#237;culos sobre interpretabilidad muestra otros 20 paradigmas dentro de este campo con resultados igualmente prometedores.</p><p>Algunos ejemplos que se&#241;alan los autores son: 1) el m&#233;todo del atlas de activaci&#243;n, 2) la actualizaci&#243;n de los datos de entrenamiento para obtener representaciones precisas desde el punto de vista del comportamiento, 3) los m&#233;todos adversariales y 4) el ajuste manual de los pesos.</p><p><strong>El m&#233;todo del atlas de activaci&#243;n</strong> se asemeja a la investigaci&#243;n sobre interpretabilidad de Circuits y utiliza un mapa sem&#225;ntico de activaciones neuronales para representar cada capa a trav&#233;s de la red neuronal. Para esta imagen concreta de un barco de bomberos, podemos analizar sus activaciones relacionadas retrocediendo por las capas. En este caso, un barco de bomberos est&#225; relacionado con ventanas, objetos similares a gr&#250;as, g&#233;iseres y agua.</p><p>Actualizar los datos de entrenamiento para contrarrestar los sesgos nos permite, por ejemplo, actualizar las im&#225;genes para acentuar m&#225;s las formas en lugar de las texturas y resolver el sesgo natural de las ResNets hacia el sobreajuste a las texturas, algo que los humanos no har&#237;an. Esto permite que la red se comporte m&#225;s como un ser humano, lo que nos interesa para la seguridad de la IA, ya que establecer marcos de referencia similares puede ayudar a alinear los valores entre la IA y los seres humanos.</p><p>Otro ejemplo del uso de ejemplos adversos es que pueden ayudarnos a comprender los errores y sesgos de los modelos y garantizar futuros sistemas m&#225;s seguros, mientras que una intervenci&#243;n m&#225;s directa incluye la comprensi&#243;n de las asociaciones f&#225;cticas en las redes neuronales, lo que nos da muchas m&#225;s posibilidades de corregir e identificar comportamientos incoherentes y posiblemente peligrosos.</p><p>Sin embargo, incluso con nuestra capacidad de interpretaci&#243;n, seguimos enfrent&#225;ndonos a un alto riesgo. El grupo de previsi&#243;n Samotsvety ha a&#241;adido sus estimaciones de las probabilidades de riesgo de la IA y muestran una estimaci&#243;n de riesgo de un orden de magnitud superior en comparaci&#243;n con las estimaciones anteriores de Metaculus.</p><p>En general, Samotsvety tiene un gran historial y su art&#237;culo complementa la literatura existente sobre las l&#237;neas temporales de la inteligencia artificial; un buen ejemplo es el informe "AGI timelines from biological anchors" de Ajeya Cotra, para el que Anson Ho escribi&#243; un resumen que enlazaremos en la descripci&#243;n.</p><p>Entonces, &#191;qu&#233; podemos hacer realmente ante estos riesgos? Evan Hubinger propone un triunfo claro para la coordinaci&#243;n segura de la IA. Su idea es pedir a Deepmind, OpenAI y Anthropic que se comprometan a vigilar activamente y buscar pruebas de alineaci&#243;n enga&#241;osa en sus modelos, lo que puede ayudarnos a identificar y detectar errores antes.</p><p>Esta alineaci&#243;n enga&#241;osa es un problema cuando los sistemas tienen un comportamiento diferente en el despliegue del comportamiento recompensado en el entrenamiento. Por ejemplo, la evoluci&#243;n recompensa a los humanos por criar a sus hijos, pero ahora hemos creado muchas otras formas de disfrutar del mundo.</p><p>Esto puede ser una gran ventaja para coordinar la seguridad en el desarrollo de la IA.</p><div><hr></div><p>En otras noticias, Quintin ha iniciado una serie semanal de res&#250;menes de trabajos de investigaci&#243;n sobre alineaci&#243;n,</p><p>John piensa que la mayor&#237;a de la gente comienza en la alineaci&#243;n con malas ideas, pero recibe un poco de empuje de Evan, Beth Barnes inicia un proyecto de seguimiento de capacidades y alineaci&#243;n en el Centro de Investigaci&#243;n de Alineaci&#243;n, los modelos ling&#252;&#237;sticos reproducen los sesgos cognitivos de los humanos, y tal vez el mundo acad&#233;mico es realmente bueno para trabajar en la seguridad de la IA a pesar del enfoque en la escena de la IA con fines de lucro en San Francisco.</p><p>Si quieres saber m&#225;s sobre la seguridad de la IA, visita <a href="http://apartresearch.com">apartresearch.com</a>, y si quieres trabajar en la investigaci&#243;n, visita AI Safety Ideas.</p><p>Este ha sido el Informe de Progreso sobre Seguridad de la IA, recuerda suscribirte, &#161;y te esperamos para el pr&#243;ximo!</p><h1>Enlaces</h1><ul><li><p>Circuitos: <a href="https://distill.pub/2020/circuits/zoom-in/">https://distill.pub/2020/circuits/zoom-in/</a>&nbsp;</p></li><li><p>Cuestionario de interpretabilidad: <a href="https://arxiv.org/abs/2207.13243">https://arxiv.org/abs/2207.13243</a>, vea el resumen de&nbsp;Twitter y el PDF, <a href="https://arxiv.org/pdf/2207.13243.pdf">https://arxiv.org/pdf/2207.13243.pdf</a>: </p></li></ul><div class="twitter-embed" data-attrs="{&quot;url&quot;:&quot;https://twitter.com/StephenLCasper/status/1569401262558576642&quot;,&quot;full_text&quot;:&quot;1/ New paper &#8211; Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks. We surveyed over 300 papers on interpretable deep learning. \n<a class=\&quot;tweet-url\&quot; href=\&quot;https://arxiv.org/abs/2207.13243\&quot;>arxiv.org/abs/2207.13243</a>\n<span class=\&quot;tweet-fake-link\&quot;>@ansonwhho</span> <span class=\&quot;tweet-fake-link\&quot;>@TilmanRa</span> <span class=\&quot;tweet-fake-link\&quot;>@dhadfieldmenell</span>&quot;,&quot;username&quot;:&quot;StephenLCasper&quot;,&quot;name&quot;:&quot;Stephen Casper&quot;,&quot;profile_image_url&quot;:&quot;&quot;,&quot;date&quot;:&quot;Mon Sep 12 19:03:13 +0000 2022&quot;,&quot;photos&quot;:[],&quot;quoted_tweet&quot;:{},&quot;reply_count&quot;:0,&quot;retweet_count&quot;:13,&quot;like_count&quot;:58,&quot;impression_count&quot;:0,&quot;expanded_url&quot;:{},&quot;video_url&quot;:null,&quot;belowTheFold&quot;:true}" data-component-name="Twitter2ToDOM"></div><ul><li><p>Activaci&#243;n de atlas: <a href="https://distill.pub/2019/activation-atlas/">https://distill.pub/2019/activation-atlas/</a></p></li><li><p>Cambiando los datos de entreno <a href="https://arxiv.org/pdf/1811.12231.pdf">https://arxiv.org/pdf/1811.12231.pdf</a></p></li><li><p>Editando las asociaciones factuales en GPT GPT<a href="https://arxiv.org/pdf/2202.05262.pdf">https://arxiv.org/pdf/2202.05262.pdf</a>&nbsp;</p></li><li><p>Descripciones del lenguaje natural de caracter&#237;sticas visuales profundas <a href="https://arxiv.org/pdf/2201.11114.pdf">https://arxiv.org/pdf/2201.11114.pdf</a></p></li><li><p>Robust feature-level adversaries are interpretability tools: <a href="https://arxiv.org/pdf/2110.03605.pdf">https://arxiv.org/pdf/2110.03605.pdf</a></p></li><li><p>Previsi&#243;n de riesgos de la IA de Samotsvety&nbsp; <a href="https://forum.effectivealtruism.org/posts/EG9xDM8YRz4JN4wMN/samotsvety-s-ai-risk-forecasts">https://forum.effectivealtruism.org/posts/EG9xDM8YRz4JN4wMN/samotsvety-s-ai-risk-forecasts</a></p></li><li><p>(Junio) Previsi&#243;n del TAI con res&#250;menes de anclajes biol&#243;gicos <a href="https://www.lesswrong.com/s/B9Qc8ifidAtDpsuu8/p/wgio8E758y9XWsi8j">https://www.lesswrong.com/s/B9Qc8ifidAtDpsuu8/p/wgio8E758y9XWsi8j</a></p></li><li><p>Monitoreando&nbsp;contra la alineaci&#243;n enga&#241;osa <a href="https://www.alignmentforum.org/posts/Km9sHjHTsBdbgwKyi/monitoring-for-deceptive-alignment">https://www.alignmentforum.org/posts/Km9sHjHTsBdbgwKyi/monitoring-for-deceptive-alignment</a>&nbsp;</p></li><li><p>Alineaci&#243;n enga&#241;osa: <a href="https://www.alignmentforum.org/posts/zthDPAjh9w6Ytbeks/deceptive-alignment">https://www.alignmentforum.org/posts/zthDPAjh9w6Ytbeks/deceptive-alignment</a>&nbsp;</p></li><li><p>Alineaci&#243;n de informers de Quintin: <a href="https://www.lesswrong.com/posts/7cHgjJR2H5e4w4rxT/quintin-s-alignment-papers-roundup-week-1">https://www.lesswrong.com/posts/7cHgjJR2H5e4w4rxT/quintin-s-alignment-papers-roundup-week-1</a></p></li><li><p>La mayor&#237;a de la personas comienzan con las mismas malas ideas: <a href="https://www.lesswrong.com/posts/Afdohjyt6gESu4ANf/most-people-start-with-the-same-few-bad-ideas">https://www.lesswrong.com/posts/Afdohjyt6gESu4ANf/most-people-start-with-the-same-few-bad-ideas</a></p></li><li><p>Beth Barnes&nbsp; comenzando evaluaciones de grupos en ARC sobre riesgos y desarrollos <a href="https://www.alignmentforum.org/posts/svhQMdsefdYFDq5YM/evaluations-project-arc-is-hiring-a-researcher-and-a-webdev-1">https://www.alignmentforum.org/posts/svhQMdsefdYFDq5YM/evaluations-project-arc-is-hiring-a-researcher-and-a-webdev-1</a></p></li><li><p>Sesgos cognitivos en LLMs: <a href="https://arxiv.org/pdf/2206.14576.pdf">https://arxiv.org/pdf/2206.14576.pdf</a></p></li><li><p>Academia vs. Industria: <a href="https://www.alignmentforum.org/posts/HXxHcRCxR4oHrAsEr/an-update-on-academia-vs-industry-one-year-into-my-faculty">https://www.alignmentforum.org/posts/HXxHcRCxR4oHrAsEr/an-update-on-academia-vs-industry-one-year-into-my-faculty</a></p></li></ul>]]></content:encoded></item><item><title><![CDATA[OpenAI, teoría de los fragmentos y giros de acontecimientos - S36]]></title><description><![CDATA[Es 8 de septiembre, me llamo Esben y est&#225;s viendo el Informe de Progreso de Safe AI.]]></description><link>https://boletin.apartresearch.com/p/openai-teoria-de-los-fragmentos-y</link><guid isPermaLink="false">https://boletin.apartresearch.com/p/openai-teoria-de-los-fragmentos-y</guid><pubDate>Thu, 08 Sep 2022 10:00:00 GMT</pubDate><enclosure url="https://substackcdn.com/image/fetch/$s_!RxHk!,w_256,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb5df1b9e-a1f5-4439-a9d6-8473ff5e7cee_339x339.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p>Es 8 de septiembre, me llamo Esben y est&#225;s viendo el Informe de Progreso de Safe AI.</p><p>Por lo general, se considera que OpenAI realiza esfuerzos arriesgados con la IA, ya que su estrategia consiste en desarrollar una inteligencia general artificial segura. Reciben bastantes cr&#237;ticas por esta postura, as&#237; que para responder a algunas de ellas, OpenAI ha publicado varios posts explicando su postura sobre lo que significa la palabra "segura" en la AGI segura.</p><p>Jacob Hilton aborda directamente que efectivamente est&#225;n trabajando en soluciones escalables para la seguridad y que tanto la direcci&#243;n como los equipos de OpenAI son conscientes de los riesgos existenciales de la</p><p>IA mientras OpenAI cambia su portada para incluir una estrategia hacia el aprendizaje autom&#225;tico seguro.</p><p>Jan Leike y el equipo de seguridad describen c&#243;mo quieren utilizar mejores datos de retroalimentaci&#243;n humana, utilizar la IA para ayudar a los humanos a evaluar la IA y utilizar la IA para ayudar a la investigaci&#243;n del aprendizaje autom&#225;tico seguro.</p><p>Se trata de ideas muy extendidas en el &#225;mbito de la seguridad:</p><ul><li><p>En la retroalimentaci&#243;n humana, los modelos reciben la evaluaci&#243;n de los humanos sobre sus resultados para cambiar su respuesta. Por ejemplo, los ejemplos que han tenido &#233;xito han conseguido explicar mejor los conceptos que sus predecesores.</p></li><li><p>El uso de la IA para ayudar a los humanos a evaluar los resultados est&#225; relacionado con una idea llamada Destilaci&#243;n y Amplificaci&#243;n Iteradas, en la que un humano eval&#250;a una IA que deber&#237;a ser segura, luego esa IA ayuda al humano a evaluar la siguiente generaci&#243;n de IA y as&#237; sucesivamente.</p></li><li><p>Varios proyectos trabajan en el uso de la IA para ayudar a nuestra investigaci&#243;n sobre seguridad, por ejemplo el asistente de investigaci&#243;n de Elicit y el analizador de redes de papel de seguridad de la IA de Eleuther.</p></li></ul><p>Sin embargo, no todo el mundo est&#225; contento con estos enfoques de la seguridad ML. John Wentworth describe c&#243;mo el dise&#241;o iterativo hacia una AGI segura puede fallar de dos formas principales:</p><ul><li><p>Si la IA de repente se vuelve mucho mejor y los primeros desarrolladores necesitan hacerlo bien</p></li><li><p>y si el modelo se comporta de forma que enga&#241;e a sus operadores.</p></li></ul><p>Critica especialmente el uso de la retroalimentaci&#243;n humana, ya que afirma que as&#237; se entrena directamente a la IA para que sea enga&#241;osa. Un ejemplo es cuando se entrena a un robot con informaci&#243;n humana para que agarre una pelota, pero enga&#241;a al humano flotando delante de la pelota en la pantalla con un movimiento de agarre. Es una locura.</p><p>Al mismo tiempo, los investigadores de modelos ling&#252;&#237;sticos est&#225;n de acuerdo en que la PNL podr&#237;a conducirnos a la AGI y en que deber&#237;amos dar prioridad a la seguridad en el aprendizaje autom&#225;tico. El 36% incluso est&#225; de acuerdo en que los sistemas de aprendizaje autom&#225;tico podr&#237;an provocar una cat&#225;strofe a nivel de guerra nuclear en los pr&#243;ximos cien a&#241;os. Es una gran noticia que los investigadores piensen m&#225;s en la seguridad mientras desarrollan sistemas que podr&#237;an ser revolucionarios. Un ejemplo de ello es el asistente de programaci&#243;n Github CoPilot, que sigue mejorando y alg&#250;n d&#237;a podr&#237;a ser capaz de programar un sustituto de s&#237; mismo.</p><p>Profundizando en algunas nuevas perspectivas sobre seguridad, Janus y Conjecture lanzan la perspectiva del simulador de modelos de lenguaje. La idea b&#225;sica es que los modelos como GPT-3 no act&#250;an como personas, sino como simuladores de personas y escenarios. Esto re&#250;ne muchas ideas anteriores y nos da indicios de que los modelos ling&#252;&#237;sticos pueden simular de un modo u otro la mayor&#237;a de los dem&#225;s tipos de IA.</p><p>Fuera del lenguaje, Quintin Pope y Alex Turner resumen la teor&#237;a de los fragmentos, su enfoque para comprender los valores humanos. Parte de la idea se basa en la inferencia predictiva de la neurociencia y parte de la base de que los valores humanos se aprenden como muchas otras cosas: Diferentes contextos traen a la mente diferentes planes de acci&#243;n. Quieren utilizar estos "fragmentos" neuronales contextuales para comprender d&#243;nde y c&#243;mo se relacionan los valores en los modelos de aprendizaje profundo.</p><p>En el lado m&#225;s peque&#241;o, Richard Ngo de OpenAI publica una lista de cosas en las que le gustar&#237;a que la gente trabajara, mientras que Thomas y Eli publican una lista de cosas en las que la gente ya est&#225; trabajando.</p><p>El Centro para la Seguridad de la IA anuncia una beca de filosof&#237;a y publica su material de curso de seguridad de aprendizaje autom&#225;tico de forma gratuita. Esto se suma a sus concursos de seguridad ML existentes para que los ingenieros de aprendizaje autom&#225;tico trabajen en la seguridad.</p><p>Si te interesa saber m&#225;s sobre la seguridad de la IA, visita <a href="http://apartresearch.com">apartresearch.com</a> y si quieres trabajar en problemas abiertos, &#250;nete a AI Safety Ideas.</p><p>Este ha sido el Informe de Progreso de Safe AI, recuerda suscribirte, &#161;y te esperamos para el pr&#243;ximo!</p>]]></content:encoded></item></channel></rss>