Wget en Windows
Wget en Windows
Wget en Windows
Pingato es una clsica y poderosa herramienta de Linux, para Windows. Para los que no saben, wget es un gestor de descargas en modo consola incluido por defecto en linux. Para instalarlo, deben copiar el archivo en el directorio raz de Windows (normalmente C:WINDOWS). Para ejecutarlo, abrimos el cmd y lo usamos como si fuera en linux (wget URL de descarga). Para ver la ayuda usamos el comando wgethelp.
Lo pueden descargar aqu: http://users.ugent.be/~bpuype/wget/ Wget tambin est disponible en Windows, y hasta hay un GUI para esta utilidad El proceso es sencillo, y tal y como indican en el post original -de nuevo adapto el contenido, pero todo el mrito es de jamsubuntu- basta con escribir el comando wget -r -p http://www.ejemplo.com El parmetro -p le indica a wget que incluya todo (imgenes tambin), de modo que todos los ficheros HTML se mostrarn en su versin offline del
mismo modo que si estuviramos viendo la pgina con conexin. Tambin podemos pasar del fichero robots.txt del sitio web que queremos extraer para obtener an ms informacin y pginas que no se obtienen con el comando normal. Para ello habr que escribir: wget -r -p -e robots=off http://www.ejemplo.com Muchos sitios web no dejaran que te descargues todo lo que hay en ellos, as que podremos engaarles hacindoles pensar que somos un navegador convencional: wget -r -p -e robots=off -U mozilla http://www.ejemplo.com An as hay administradores que han puesto un lmite a este tipo de descargas y cuando ven que hay una transferencia masiva de archivos la limitan, pero para engaar de nuevo a este comportamiento simplemente podemos establecer ciertas pausas entre la descarga de informacin: wget --random-wait -r -p -e robots=off -U mozilla http://www.ejemplo.com Como indican en jamsbuntu, existen otros parmetros tiles de wget, como por ejemplo "--limit-rate=20k", que limitar la tasa de descarga para que este proceso no se coma todo nuestro ancho de banda. El parmetro "-b" continuar con la descarga incluso si nos salimos de la sesin (til para realizar ese proceso a travs de mquinas remotas), y por ltimo la opcin "-o $HOME/wget_log.txt" permitir mantener un registro de las transferencias para comprobar posibles errrores. Links: http://jamsubuntu.blogspot.com/2009/02/using-wget-to-download-entirewebsites.html http://www.gnu.org/software/wget/
Creo que a estas alturas ya todos deben conocer esta fantstica herramienta que viene por defecto en la mayora de las distros: WGET. Pero no todos sabemos aprovechar al mximo su potencial. Con wget se puede, por ejemplo, descargar sitios completos, limitar la velocidad de descarga, establecer nombre del archivo destino, continuar descargas interrumpidas (sta es la mejor), y mil cosas ms. Ac les dejo un tutorialcito con los comands ms tiles de este excelente gestor. Ojo, que se sepa que yo no escrib sto. La fuente est al final de la pgina.
Ejemplos bsicos wget http://ejemplo.com/programa.tar.gz La manera ms simple de usarlo, descarga el archivo indicado. wget http://ejemplo.com/programa.tar.gz ftp://otrositio.com/descargas/video.mpg Es posible indicar ms de una descarga a la vez, incluso con distintos protocolos. wget http://ejemplo.com/*.pdf Otra manera de descargar varios archivos, con extensin similar. (creamos una lista en archivos.txt que sern descargados) http://ejemplo.com/programa.tar.gz http://ejemplo.com/rpm/paquete.rpm ftp://otrositio.com/descargas/distro.iso (descargamos todos indicando el archivo) wget -i archivos.txt Si vas a descargar varios archivos, ndicalos a travs de una lista en un archivo.
wget -c http://ejemplo.com/distro.iso wget -i -c archivos.txt Si la descarga se interrumpi por algn motivo, continuamos la descarga desde donde se haya quedado con la opcin c. wget -o reporte.txt http://ejemplo.com/programa.tar.gz Proporciona un reporte (log) sobre la descarga. $ wget -o /reporte.log --limit-rate=50k ftp://ftp.centos.org/download/centos5-dvd.iso En descargas muy largas como el iso de alguna distro de Linux, puedes limitar el ancho de banda de la descarga en especfico, ya que podra ser que la descarga se llevar todo el ancho de banda durante varias horas. wget http-user=admin http-password=secreto http://ejemplo.com/archivo.mp3 Si es un sitio donde se requiere de usuario/contrasea usa estas opciones. wget -t 50 http://ejemplo.com/pelicula.mpg Por defecto, wget realiza 20 intentos de establecer la conexin e iniciar la descarga, en sitios muy saturados es posible que ni con 20 intentos se logr, con la opcin t (tries) aumenta a ms intentos. wget -t inf http://ejemplo.com/pelicula.mpg Quieres que intente hasta que logr la conexin?, usa la opcin 'inf' de intentos infinitos. Ejemplos avanzados wget www.linuxtotal.com.mx Puedes descargar toda una pgina completa, wget no est limitado a solo descargas de archivos. Sitios completos pueden descargarse tambin. wget -p www.linuxtotal.com.mx Lo mismo que lo anterior pero con esta opcin p descarga adems todos los elementos extras necesarios de la pgina como hojas de estilos, imgenes en
lnea, etc. wget -r www.ejemplo.com -o reporte.log wget -r -l10 www.ejemplo.com -o reporte.log Con la opcin r se descarga recursivamente hasta 5 niveles del sitio. Con la opcin l se aumenta el nivel de recursividad hasta el nmero indicado, tambin es posible usar 'inf' como valor de recursividad infinito. wget --convert-links -r http://www.sitio.com/ (o tambin) wget -k -r http://www.sitio.com/ Por defecto, los enlaces dentro del sitio apuntan a la direccin del dominio completo. Si deseas descargar el sitio recursivamente y despus estudiarlo fuera de lnea (off line) usa la opcin convert-links que los convertir en enlaces locales, apuntando a las pginas dentro del sitio descargado. wget -r -l3 -P/tmp/sitio ftp://www.unsitio.com/ Por defecto, el sitio a descargar se guarda en el mismo directorio donde ests ejecutando wget, con la opcin P puedes indicar un directorio distinto. wget --mirror http://www.linuxtotal.com.mx/ (o tambin) wget -m http://www.linuxtotal.com.mx/ De este modo obtienes una copia (un espejo) completa del sitio. La opcin --mirror es igual a usar las opciones -r -l inf -N que indica recursividad a nivel infinito y obtienendo la marca de tiempo original de cada archivo descargado (opcin -N). wget --mirror --convert-links --html-extension http://www.linuxtotal.com.mx (o tamben) wget -m -k -E http://www.linuxtotal.com.mx Si descargas el sitio completo para verlo fuera de lnea (off line) es posible que varios archivos descargados no se abran, debido a extensiones como .cgi, .asp o .php, es entonces posible indicarle a wget con la opcin E o --html-extension que convierta todos los archivos a extensin .html. wget -H -r -l3 -k -E -p http://miblog.sitiodeblogs.com
La opcin H (span hosts) expande la recursividad a los sitios desde donde se enlace el original. Este comando descargar el sitio con una recursividad de 3 niveles (-r -l3), conviertiendo los enlaces a locales para examinarlo off line (-k), convierte todo a extensiones .html (-E), descarga completamente imgenes y dems elementos de cada pgina (-p) y adems descarga la pgina externa de los enlaces que apunten fuera del sitio (-H). Este tipo de descargas, dependiendo del sitio, puede llenar todo un disco duro!!!!, asi que salo a discresin. Un ejemplo extremo de la potencia de wget El siguiente ejemplo viene muy bien detallado en este sitio, es una lnea que busca archivos de msica mp3 desde una lista de sitios que previamente hayas definido, recuerda, un rengln por cada sitio. wget -r -l1 -H -t1 -nd -N -np -A.mp3 -erobots=off -i sitiosmp3.txt Vemoslo por partes: * [-r -l1] recursivo en solo un nivel, solo buscar un nivel en cada subdirectorio que encuentre por sitio. * [-H] si dentro del sitio encuentra un enlace externo, que lo siga, ya que posiblemente lleve a otro sitio de descarga de mscia. * [-t1] -t es igual --tries, solo har un intento de conexin, si no lo logra continua al siguiente sitio. * [-nd] indica no crear subdirectorios para cada archivo descargado, es decir, todo nos lo deja en el mismo lugar. * [-N] conserva la fecha y hora (timestamp) del archivo original que se descargue, de otro modo pondra la fecha y hora de nuestro sistema. * [-np] no parent, no seguir enlaces a directorios superiores, solo del actual y uno haca abajo, por -r -l1 * [-A.mp3] -A indica a wget el tipo de archivo a descargar solamente, en este caso solo "mp3". * [-erobots=off] esto evita que wget ignore los archivos 'robots.txt' que pudiera haber, ya que puede ser que dentro de estos archivos haya indicaciones de que subdirectorios los buscadores no deben hurgar (incluyendo a wget). Con esto lo evitamos y buscamos en todo el nivel. * [-i sitiosmp3.txt] el archivo con la lista (hecha a tu gusto, con unos cuantos o decenas de sitios de msica) de los sitios desde donde buscar "mp3" y descargarlos. Si ejecutas este comando de manera diaria o a travs de un cron entonces se
descargar la msica, y gracias a la marca de tiempo solo descargar los que sean ms nuevos que el original.
FUENTE: http://www.linuxtotal.com.mx/index.php?cont=info_admon_017 OK. Espero que a ustedes les sirva tanto como a m. Suerte.