SACAR datos de una WEB de FORMA LEGAL. SCRAPPING WEB.

Published: Sep 21, 2022 Duration: 00:09:05 Category: Education

Trending searches: web.de login
y muchos todos y bienvenidos un día más a este vuestro canal de seguridad informática en el vídeo de hoy vamos a hablar de cómo extraer datos de una página web de forma legal de manera que si quieres saber cómo hacer esto con una técnica llamada scraping este es tu vídeo [Música] hace ya bastante tiempo creo que fue en el vídeo de crear bots ya hablé más o menos de técnicas muy por encima o sea que hace como unos dos años o así pero os prometí que os traería un vídeo mucho más en profundidad explicando cómo funciona incluso enseñando cómo hacer esto y este es el vídeo así que lo prometido es deuda de hecho en el vídeo un poquito más adelante os voy a explicar esto cómo se hace para que veáis que se puede hacer algo sin mucha complicación pero bueno como siempre vamos a empezar por el principio que es esto de extraer datos de una página web que es el scraping pues el scraping no es más que una forma legal de extraer datos públicos de una página web de manera automatizada imagínate que hay una página web que tiene muchísimos productos y tú querrías tener los precios de esos productos controlados ya sea porque es tu competencia o simplemente porque quieres saber cuándo bajan los precios para comprar en este caso qué harías pues evidentemente tendréis que ir a la página web cada día o cada equis días y mirar los precios y apuntarte los para saber si han bajado o no pero claro y si la página web tiene 10.000 productos y quieres saber cómo han fluctuado o quieres tenerlos todos controlados es imposible hacerlo a mano lo suyo sería que hicieras un script para que mediante scraping escapes esa página web vale vale entiendo más o menos por dónde vas pero no lo acabo de pierre del todo la verdad pues para entender básicamente cómo se escape a una página web lo primero que tienes que tener muy claro es que una página web está construida con html y este html que construye la página es visible si haces botón derecho inspeccionar elemento puedes ver todo el código que tú estás viendo por la página web puedes ver cómo se montan los textos puedes ver cómo se montan las imágenes puedes ver cómo se montan los links etcétera etcétera el caso es que el scraping es el hecho de realizar un script que sea capaz de este html interpretarlo y moverse por las diferentes etiquetas de html de manera que pueda procesarlo y extraer la información que nosotros queramos imagínate por un momento que queremos sacar de una página en concreto el precio de un producto y sabemos que esa página tiene un elemento html que es un spam con una id y que es price por ejemplo pues en este caso nuestro scrap er nuestro script lo que tendrá que hacer es ingresar a esa url navegar por el html de esa página web buscar un spam que tenga una idea que se llame price y devolvernos ese dato soy plenamente consciente de que he dicho así suena un poco absurdo porque si quieres saber el precio de un producto entras a la página web lo miras y listo pero claro cuando hablas de diez mil cien mil un millón de productos esto se vuelve inviable es por esto que el scraping normalmente se hace para un volumen grande de datos para un producto no haría falta puede ser que este ejemplo son un poco tonto pero es verdad que esta técnica es súper utilizada tanto en el mundo la ciberseguridad como en el resto fuera del mundo de la ciberseguridad se puede utilizar para muchísimas cosas como por ejemplo te puede servir para monitorizar la información de tu competencia si quieres saber si ha subido o ha bajado precios para tú cambiarlos en función de lo que ellos hagan otro ejemplo que es muy utilizado es por ejemplo si tú quieres comprarte un producto cuando baje de x cantidad de euros o de dólares pues te haces un script que se lo mire cada 10 minutos la página web y que cuando baje de x que te mande un mail un mensaje o lo que sea para comprarlo al precio que tú querías dentro del mundo de la ciberseguridad te puede servir por ejemplo para descargar de forma automática información sensible que se haya publicado en una página web por error por ejemplo digamos que en el mundo de la tecnología es algo súper súper utilizado de hecho tanto es así que existen las herramientas que son anti scraping estas herramientas se desarrollan para detectar cuándo hay un comportamiento anómalo en una página web y evita que roben esa información tú imagínate que tienes una página web en la que vende zapatos y de golpes ves que hay un tráfico inusual que está cada minuto consultando todos los precios de tu página web eso evidentemente no es muy normal lo más normal es que eso sea un script que está haciendo scraping por lo que las herramientas anti scraping cuando detectan algo así hacen una cosa muy pero que muy interesante lo que hacen no es cortar el tráfico y evitan que ese voto es script que recoja la información lo que hacen es cambiar los valores y empiezan a dar precios aleatorios para que la muestra no valga para nada para qué te sirve tener los precios de tu competencia controlados si no están bien pero ver esto de escape are una página web esto es legal puede saber el hecho de información de una página web que está colgada en internet esto es completamente legal otra cosa es que tú bach es una imagen por ejemplo y lo utilices para sacar beneficios eso no lo puedes hacer de hecho para que entiendas si de scapín es legal es más o menos lo que hace google como hace google para saber toda la información que hay en internet pues tiene scrap ers tiene crawlers robots scripts bots llámale como quieras pero qué hacen esto se pasean por internet extrayendo información pública de páginas web de hecho por cierto que hay que tener muchísimo cuidado con esto de no poner información sensible en las páginas web porque como ya os hablé en un vídeo de hace muchísimo tiempo hay veces en las que se filtran contraseñas o información sensible de una página web directamente en una búsqueda de google pero bueno ya basta de contexto basta de explicación vamos a lo que nos interesa cómo se hace un script de estos pues para este vídeo os voy a traer un ejemplo muy muy muy sencillo pero es básicamente para que entendáis más o menos cómo funciona esto en el ejemplo que os traigo hoy un script que se va a encargar de escapar una página web nosotros le pasaremos una url y este script tiene que ser capaz de devolvernos el precio de un producto sin que nosotros tenemos que entrar a esa página web como os he dicho es algo muy sencillo pero que es evolución able to esto lo puedes llegar a cambiar todo lo que te dé la gana así que sin más rollos vamos al ordenador para hacer este script y nada gente ya estamos aquí en el ordenador en nuestra hábitat natural con el micro listo la cámara lista estás manitas listas así que ya podemos empezar con el script lo primero que haremos es que nuestro programa esté todo el tiempo funcionando preguntándonos por diferentes urls de manera que lo que haremos será meter nuestro programa dentro de un wild true y preguntándonos constantemente de qué producto queremos saber el precio esta url la vamos a almacenar dentro de una variable y en caso de que esté vacía o sea que nos hemos introducido ninguna url que el programa termine pero si introducimos una lo que haremos será llamar a la función get price que será estará toda la chicha para sacar la información del precio del producto así que vamos a crear la función get price a la cual le pasaremos la url esta url lo que hará será parchear la mediante el cliente piti full shop que es la librería que tiene python para hacer scraping o sea esto ya viene casi hecho prácticamente lo único que tenemos que hacerle es que mediante beautiful show hagamos un show punto find y decimos que busque un spam que contenga la clase típica price y que nos devuelva el contenido de esta etiqueta html y así es como ya lo tendríamos es así de sencillo y ahora qué es lo que faltaría pues simplemente nos falta la parte de probar este script para mostraros cómo funciona así que lo que hacemos es ejecutar nuestro script ya vemos que nos pregunta que de qué producto queremos saber el precio así que vamos a una web de ejemplo y le pasamos una url y vemos que el precio efectivamente coincide con el que hay en la página web con el programa está dentro de un script nos sigue preguntando cuál es el precio así que lo pasamos otra y vemos que el precio de lo sabes 130 y vamos a ver si coincide con el precio de la página que sí que lo es para hacer otro ejemplo más le pasamos otra url y vemos como el precio sigue devolviendo lo cuando no queramos seguir con el programa simplemente le damos intro y listo el programa se termina obviamente este programa es un poco simple y le estamos pasando las rurales directamente lo suyo sería que estás url las tenemos almacenadas y que el programa las fuera cogiendo automáticamente pero como es un ejemplo de prueba esto es lo que hay y bueno gente como habéis visto es un script muy sencillito pero que se puede evolucionar por ejemplo tú podrás hacer perfectamente que este script te mandará un email cuando este precio bajará de x cantidad para comprar lo más barato o simplemente podrás guardar diariamente este precio para ver si tiene una tendencia al alza oa la baja con esto ya puedes jugar todo lo que tú quieras mi idea era enseñaros cómo funciona lo más básico para que lo entendáis y bueno gente hasta aquí el vídeo de hoy espero que hayas aprendido un poquito más y si os gusta la ciberseguridad y este mundo de la tecnología te dejo un vídeo por aquí para que le eches un vistazo y si te quieres suscribir y para que te avise de cuando subo nuevos picos y demás te puedes suscribir haciéndole creo que nos vemos en el próximo vídeo chao

Share your thoughts