
Alguna vez te has planteado crear un programa que pueda extraer información de una web y has pensado que es un tarea realmente complicada. Vas a comprobar que es realmente sencillo poder sacar información de otra web. Empezaré con un ejemplo muy básico, después comentaré algunos framework que ayudarán al rastreo y extracción de datos y por último una aplicación que he conocido recientemente en la que puedes crearte un API con datos de una web.
Ejemplo básico
Antes que nada en este ejemplo básico vamos a usar dos funciones que son:
- file_get_contents: tiene como parámetro una URL y devuelve el contenido en HTML de esta. Ver documentación
- preg_match: sirve para encontrar coincidencias dentro de una cadena, usando expresiones regulares. Ver documentación
En el siguiente ejemplo vamos a sacar el título de mi web, que es lo que está dentro de la etiqueta <title> (en este caso es: Blog | Nicolás Marín)
$html = file_get_contents('http://www.nicolasmarin.com/');
preg_match('/<title>(.*)<\/title>/i', $html, $title);
$title_out = $title[1];
Y poco más se puede decir de este sencillo ejemplo, que sólo hace falta ponerle un poco de creatividad y sacarás cualquier elemento de una web. Leer más ›






