1 millón de dominios para comprobar en php

Todos los días alexa actualiza su csv con el top de 1 millón de dominios. Imagino que después de tantos scrapeos que habrá ido a parar a su servicio para sacar los datos de posición de una web, han decidido poner al alcance de todo el mundo este fichero:

http://s3.amazonaws.com/alexa-static/top-1m.csv.zip

La estructura de este es bien sencilla, son dos parámetros por línea, el primero indica la posición de Alexa y el segundo es el dominio que ocupa dicha posición.

Si trabaja desde linux como es mi caso, y quieres poner el fichero en un formato de listado de dominio tienes que seguir los pasos:

# Descarga el zip con wget
wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
# Descomprimir el zip con unzip
unzip top-1m.csv.zip

Al descomprimir se nos queda el fichero: top-1m.csv, con la estructura que os he mencionado. Por tanto sólo nos queda crear un PHP para recorrer este fichero y hacer lo que deseemos, aquí os dejo un ejemplo básico que recorre el fichero:

$fichero = “top-1m.csv”;

$gestor = @fopen($fichero, “r”);
if ($gestor) {
while (($buffer = fgets($gestor, 4096)) !== false) {
$trozos = explode(“,”, $buffer);
$nom = trim($trozos[1]);

echo “$nom\n”;
}
if (!feof($gestor)) {
echo “Error: fallo inesperado de fgets()\n”;
}
fclose($gestor);
}

Espero que os resulte interesante esto.
FELIZ NAVIDAD!

You may also like...