Scraping con scraprr.xyz

Buenas a todos, el web scraping es una técnica utilizada habitualmente para extraer información de sitios web, generalmente, mediante el uso de scripts. En vuestro día a día tendréis que recurrir de vez en cuando a esta técnica para procesar datos existentes en diferentes páginas de Internet que no cuentan con un API, web services u otras maneras para extraer la información de una forma estructurada.

Existen miles de proyectos en Internet, muchos publicados en Github, para realizar scraping de redes sociales como Twitter o Instagram, de foros, y un largo etcétera. Hoy quería compartiros un sitio web que me mostró hace poco mi compañero Jesús, y que permite de una forma realmente sencilla automatizar el scraping de cualquier sitio web accesible vía Internet. Se trata del servicio ofrecido por https://scraprr.xyz/.

Cómo veis, su uso es muy simple y basta con hacer una petición a "https://scraprr.xyz/api?url=", añadiendo la URL a analizar, y como parámetros, el selector de elemento de la página a listar y el nº de elementos a recuperar.

Por ejemplo, si deseásemos extraer las primeras 20 URLs del sitio web de Google Play donde son listadas las APPs de Android (https://play.google.com/store/apps?hl=es_419):

Realizaríamos la siguiente petición:

https://scraprr.xyz/api?url=https://play.google.com/store/apps?hl=es_419&selector=a&n=20

Lo que daría el siguiente resultado:

Con este servicio os será sencillo parsear determinadas webs, evitando baneos y restricciones.

Saludos!