Web Scraping o cómo extraer legalmente información web

Las plataformas como Youtube, Instagram, Tik-Tok o Whatsapp se han convertido hoy día en las más usadas por los internautas para compartir videos y fotografías. Aunque la distribución de imágenes en redes a otras plataformas es competencia solo y exclusivamente del creador de contenidos, el día a día nos enseña la cantidad de casos de envío de forma ilegal por las diferentes plataformas sociales. Es por ello, que se hace necesario la utilización de técnicas de Web Scraping o Crawling.

Ya estamos acostumbrados a la difusión de videos o imágenes, que en muchos casos aparecen retocados por la inteligencia artificial, lo que se denomina Deep Fakes (en castellano falsedades profundas) y que conllevan no sólo consecuencias psicológicas para las victimas por el daño reputacional, sino también, no hay que olvidar, que es un delito por vulneración del derecho al honor y la intimidad y que puede conllevar penas de prisión.

A EliminamosContenido nos llegan numerosos casos de este tipo, como el que saltó a los medios de comunicación a mediados de septiembre de 2024 sobre los falsos desnudos de las chicas de Almendralejo (Badajoz). Imágenes manipuladas por la inteligencia artificial de modo que parezcan originales y reales, por lo que pueden engañarnos fácilmente (Deep Fakes).

Web Scraping o Raspado Web para casos de Deep Fakes

Cuando a EliminamosContenido nos llegan casos parecidos al de Almendralejo, ponemos en marcha el proceso de extraer datos de forma automática de sitios web, lo que se conoce como Web Scraping o Raspado Web. Para que nos entendamos, (ya que no todos somos especialistas en el lenguaje de programación) son herramientas para monotorizar los servidores, programas de software para extraer información de la red para conocer donde se han podido difundir esas imágenes o videos que dañan la reputación de la persona y que van en contra de su derecho al honor e intimidad.

El proceso de Web Scraping se suele realizar en dos etapas:

Etapa de extracción: Se realiza una consulta de datos hacia un determinado sitio web y se guarda la información y los datos obtenidos.
Análisis. Con los datos obtenidos se procede a su análisis para obtener información y saber donde pueden estar esas imágenes difundidas sin consentimiento del creador.

En las técnicas de extracción, se ponen en marcha los rastreadores, que inspeccionan las páginas webs de una forma automatizada y metódica. Estos rastreadores crean una copia de todas las páginas web visitadas para que después puedan ser procesadas por un motor de búsqueda , se hace una indexación de páginas para encontrar esas imágenes de forma rápida.

En EliminamosContenido utilizamos herramientas muy sofisticadas y con gran potencia y escalabilidad para realizar ese raspado web, con el objetivo de poder llegar a indexar más páginas (incluso de la dark web) y dar solución a las peticiones de nuestros clientes.

¿Sabías que es posible eliminar tu huella digital de Internet?

Datos personales expuestos sin consentimiento, comentarios difamatorios sobre tí o tu empresa, fotos o vídeos subidos por terceros donde apareces… En Eliminamos Contenido te ayudamos a borrar esa información dañina que hay en Internet de forma rápida y sencilla.

Comencemos ahora

¿Qué es Crawling?

Crawling, según el estudio de Urbano José Villanueva Rodríguez, de la Universidad de Alcalá, titulado Investigación y Técnicas de Scraping, es un software, que dada una URL base, escala poco a poco todo ese sitio guardando todas las URLS obtenidas para poder analizarlas posteriormente. Para Villanueva Rodríguez, este tipo de software, son lo clave de los mayores motores de búsqueda del mercado, porque no sólo analizan todas las URLS de un sitio web, sino que analizan toda la red mundial.

Es decir este sistema funciona de la siguiente manera: cuando encuentran un enlace nuevo lo añaden a esa gran lista de enlaces, posteriormente se procede a un análisis automatizado y a una etiquetación que permite obtener búsquedas adecuadas según lo introducido por el usuario en base a popularidad, porcentaje de coincidencias y todo lo que al SEO respecta.

Para poder hacer esto, en este estudio de la Universidad de Alcalá, se explica que es necesario tener las URLS absolutas de cada enlace, y por supuesto, debe controlarse hacia donde se está navegando, para evitar salir fuera del dominio deseado.

Todas estas técnicas, expresadas aquí de una manera didáctica y sencilla, son las que empleamos, junto con otras, en EliminamosContenido, para que casos que nos llegan, parecidos al ocurrido en Almendralejo ( Badajoz,) podamos detectar y encontrar esas imágenes repartidas de forma ilegal por la red, para que luego, nuestro equipo de profesionales jurídicos asesoren a nuestros clientes sobre cómo proceder a la denuncia de los hechos.

¿Te preocupa tu Seguridad y Privacidad en Internet?

Hemos diseñado este curso online en 8 módulos en el que cubriremos todos los Fundamentos de la Seguridad y Privacidad en Internet, ayudándote paso por paso a parametrizar tus cuentas digitales y tus dispositivos.

Eliminamos datos de Internet

En Eliminamos Contenido contamos con abogados especializados que te ayudarán a borrar ese contenido dañino subido a Internet.

SUSCRÍBETE A NUESTRO BOLETÍN DE REPUTACIÓN ONLINE

Recibe de manera totalmente gratuita, una vez al mes, un informe con recomendaciones de seguridad reputacional, así como un resumen de todo lo ocurrido en el sector en las últimas semanas.

Web Scraping o cómo extraer legalmente información web

Web Scraping o Raspado Web para casos de Deep Fakes

¿Qué es Crawling?

Publicaciones relacionadas:

¿Te preocupa tu Seguridad y Privacidad en Internet?

Eliminamos datos de Internet

SUSCRÍBETE A NUESTRO BOLETÍN DE REPUTACIÓN ONLINE