Buenas a todos, el web scraping es una técnica utilizada habitualmente para extraer información de sitios web, generalmente, mediante el uso de scripts. En vuestro día a día tendréis que recurrir de vez en cuando a esta técnica para procesar datos existentes en diferentes páginas de Internet que no cuentan con un API, web services u otras maneras para extraer la información de una forma estructurada.
Existen miles de proyectos en Internet, muchos publicados en Github, para realizar scraping de redes sociales como Twitter o Instagram, de foros, y un largo etcétera. Hoy quería compartiros un sitio web que me mostró hace poco mi compañero Jesús, y que permite de una forma realmente sencilla automatizar el scraping de cualquier sitio web accesible vía Internet. Se trata del servicio ofrecido por https://scraprr.xyz/.
Cómo veis, su uso es muy simple y basta con hacer una petición a "https://scraprr.xyz/api?url=", añadiendo la URL a analizar, y como parámetros, el selector de elemento de la página a listar y el nº de elementos a recuperar.
Por ejemplo, si deseásemos extraer las primeras 20 URLs del sitio web de Google Play donde son listadas las APPs de Android (https://play.google.com/store/apps?hl=es_419):
Realizaríamos la siguiente petición:
Lo que daría el siguiente resultado:
Con este servicio os será sencillo parsear determinadas webs, evitando baneos y restricciones.
Saludos!
No hay comentarios:
Publicar un comentario