Bajar el contenido completo de un sitio web
23 11 2007
Algo habitual en los foros es ver la pregunta, en general de los usuarios mas nuevos, acerca de como bajar el contenido de un sitio web a la pc.
Quizás acostumbrados a otros entornos donde todo se hace con el clásico “Siguiente, siguiente” en Linux la cosa cambia un poco, aunque no por eso deja de ser muy sencillo.
El comando wget viene incluido en cualquier distribución de Linux y a continuación trataré de explicar algunas alternativas:
- Descargar una página:
$ wget http://www.tusitio.com/index.html
Bajar un archivo del cual ya bajamos una parte con otro programa:
$ wget -c http://www.inti.gov.ar/index.html
Bajar el directorio completo de http://www.debian.org/~jules/gnome-stage-2/dists/unstable/main/binary-i386/:
$ wget -r -A=.html,.deb -nc -np http://www.debian.org/~jules/gnome-stage-2/dists/unstable/main/binary-i386/
Otros ejemplos:
$ wget -r http://www.tusitio.org/
Muchos sitios nos deniegan bajar el sitio completo. Para prevenir esto, los sitios verifican la identificacion de los navegadores. Para evitar estas molestias wget tiene la opcion -U.
$ wget -r -p -U Mozilla http://www.tusitio.org/
Las opciones –limit-rate= y –wait= sirven para hacer pausa entre cada pagina, ya que de lo contrario el dueno del sitio puede darse cuenta que con un simple comando wget le estamos bajando el sitio completamente. Sin embargo, nadie se dara cuenta si limitan la velocidad de descarga y hacen pausa entre archivo.
$ wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.tusitio.org/







Hola, fijate que en cuestion de horas o días cambiamos el host, el link te va a quedar muerto si no lo actualizas.
Saludos!
Hola. Gracias por el aviso, Link actualizado.
pero si el sitio tien una base de datos tambien podre descargar la base de dotos con esta comando wget