La IA de Google se alimenta de webs que han rechazado ser utilizadas para su entrenamiento
La compañía proporcionó a los editores la opción de no participar en el entrenamiento de su inteligencia artificial
Google lanza una iniciativa para financiar y ayudar a nuevos creadores de contenidos informativos

Google ha confirmado que puede continuar entrenando sus productos de inteligencia artificial (IA) para la búsqueda, como AI Overviews, con contenido de la web, independientemente de que los editores hayan escogido que no desean que la IA de Google utilice sus contenidos para ese entrenamiento.
Los servicios como Vista creada con IA o AI Overviews de Google resumen las respuestas a las consultas de búsqueda de los usuarios mediante IA y las muestran en la parte superior de los resultados. De esa forma, facilitan a los usuarios encontrar información detallada sobre lo que se está buscando de forma más rápida y sencilla, y con (mucha) frecuencia sin que el usuario tenga que pulsar en ningún enlace adicional, algo que todavía no ha impactado de lleno en las visitas de los sitios web, pero que a buen seguro pronto lo hará.
Para ofrecer estos resultados de AI Overviews, Google utiliza la información que encuentra en los sitios web y la resume, aunque los editores de dichos sitios web pueden optar por excluir sus contenidos de ese entrenamiento.
O al menos eso era lo que se creía.
Porque Google ha afirmado que puede continuar utilizando datos de sitios web aunque sus editores hayan rechazado participar.
Así lo ha detallado el vicepresidente de Google DeepMind, Eli Collins, en las sesiones que se llevan a cabo en un tribunal federal de Estados Unidos en las que se determinará la resolución del juicio antimonopolio por las búsquedas al que se enfrenta la tecnológica. En una de esas sesiones, informa Bloomberg, Collins ha admitido que "tiene la capacidad de entrenar con datos que los editores habían optado por no permitir" que se utilizasen para ese entrenamiento.
Eso se debe, explicó, a que los controles de Google para no participar en la capacitación de IA están relacionados únicamente con el apartado de Google DeepMind. Es decir, cualquier otro servicio de Alphabet (la matriz de Google) puede continuar utilizando estos datos para entrenar los modelos de sus productos.
La clave está en el robots.txt
Según detalló un portavoz de Google en un comunicado remitido a Bloomberg, los editores de sitios web solo pueden evitar que sus datos se utilicen en la IA de servicios de búsqueda si especifican que no desean ser indexados para estos servicios a través del estándar web robots.txt (un archivo que los editores web pueden incrustar en sus páginas para indica a los bots e indexadores web si pueden o no rastrear su sitio web).
Por tanto, han de utilizar robots.txt especificando que no desean que la intrligencia artificial pueda utilizar sus datos ni sus contenidos.
Además, durante las vistas que se están llevando a cabo estas últimas semanas también se ha puesto sobre la mesa que Google eliminó 80.000 millones de los 160.000 millones de tokens empleados en la búsqueda con IA, tras filtrar los datos de los editores que habían optado por no participar para el entrenamiento de la inteligencia artificial de la tecnológica californiana, reduciendo la cifra total a la mitad.
También te puede interesar
Lo último