WGET y las webs offline

XKCD - 512

Linux tiene esas pequeñas maravillas que de vez en cuando me sorprenden. Suele tratarse de pequeños programas increiblemente potentes.

Están ahí, listos para ser usados, a la espera de que un críptico código, tecleado en la consola, los despierte.

Uno de los últimos programas que he descubierto agazapado en mi ordenador es WGET. Vamos a ver cómo se usa y para qué sirve.

WGET

wget es un comando de consola de Linux que sirve para bajarse páginas web. Es decir, para hacer copias offline de una web online.

wget tiene decenas de opciones y está muy, pero que muy, bien preparado para lidiar con cualquier tipo de servidor. Es la herramienta ideal para cualquier piratilla del tres al cuarto que quiera presumir de tener Microsiervos en DVD.

La sintaxis básica de wget sería:

~$ wget [URL]

Donde [URL] es la dirección de la web que os queréis bajar.

Si además queréis que se baje las páginas enlazadas desde esa [URL] y las páginas enlazadas desde las páginas enlazadas, y así hasta 3 niveles deberéis usar el comando:

~$ wget -r -l3 [URL]

Que significa download recursivo de nivel (level) 3.

Finalmente si queréis poder pasear offline por la web os recomiendo añadir -k al comando para que konvierta los links que apuntan a la [URL] en links que apuntan a archivos locales. En definitiva queda:

~$ wget -r -l3 -k [URL]

Leer las webs offline

A más de uno se le abrirán las carnes con lo que voy a decir pero mucho me temo que para estos temas soy un fiel seguidor de Stallman.

Cada vez dependemos más y más de servicios externos. Tenemos nuestros datos tremendamente lejos, en manos de gente en la que confiamos (hoy) pero de la que no tenemos ninguna garantía (mañana).

Cada vez hay más contenido online y dependemos más de que todo funcione. Internet, con su santa descentralización es tremendamente robusta, pero mi conexión a Internet es la que es y si mi ISP me corta el grifo las voy a pasar canutas. Ya casi no recuerdo cuando miré una enciclopedia de papel por última vez.

Por eso es recomendable hacer una copia oflline de nuestros datos y más en general de toda aquella información que consideremos necesaria para nuestro día a día. Actualemente se pueden comprar discos duros externos por muy poco dinero y la mayoría de vosotros os sorprenderíais de lo poco que ocupan páginas tan grandes e importantes como la Wikipedia.

Resumiendo: Si no queréis depender de la buena voluntad (o la disponibilidad económica) de aquel que mantiene una determinada web o sencillamente no confiáis en tener conexión (por estar usando un lector de e-books en el tren) siempre podéis hacer una copia de seguridad offline de lo que queráis leer.

Sin ir más lejos, y a modo de ejemplo, aquí tenéis los primeros 512 posts de la XKCD.com.

Los conseguí usando el comando:

~$ wget -r -l2 -k http://xkcd.com/archive/

No todo son ventajas

¡OJO! Todo aquel que tiene contratado un hosting sabe que básicamente hay dos parámetros que definen lo que te van a cobrar por mantener tu página online: el espacio en disco y la transferencia.

El espacio en disco es, simple y llanamente, cuánto ocupa tu página en el disco duro de la empresa que lo aloja.

La transferencia es la cantidad de Mb que la gente solicita al cabo del mes. Cada vez que alguien entra en tu web hay un intercambio de peticiones que tienen como resultado que tu servidor le envía una copia de la página que esa persona ha solicitado para que la pueda ver en su ordenador.

Lo que hace WGET es solicitar todas las páginas de una web (o muchas de ellas) y eso consume mucha transferencia. Es decir, si no queréis putear a la persona que mantiene esa web, lo mejor será limitar mucho el uso de WGET.

Así pues, si una página tiene un montón de imágenes alojadas en su propio servidor (¡como este blog!) no parece razonable que os dediquéis a bajároslo entero cada dos días.

Yo, por mi parte prometo hacer un back-up completo de Pseudolog.com en cada aniversario del mismo (allà por mediados de Julio) y colgar el link en Rapidshare para aquellos que quieran tener este humilde blog siempre disponible offline.

Escrito en 17/12/08 09:03 por Carlos Luna en las categorías:

Comentarios

Gravatar.com se ha roto

¿Se supone que las partes privadas de las webs (las que son sólo para unos pocos usuarios y hay que entrar con contraseña) haciendo wget siguen siendo privadas? Porque se me ocurre que es una buena forma de bajarse documentos que unos pocos intercambian…

NaaN | 17/12/08 16:12 | #
Gravatar.com se ha roto

@ NaaN , yo hace bastante que no utilizo wget para eso, pero creo recordar que sólo se puede bajar lo que le deja el servidor , vamos que si hay una parte del sitio protegida, no te la puedes bajar, como con un navegador( realmente lo que hace es peticiones al servidor como si fuera un navegador), pero si tienes nombre de usuario y clave le puedes decir a wget que los use, la pagina del manual es “horrible” pero por todas las opciones que tiene, es la típica utilidad unix con miles de opciones y combinaciones, por ejemplo hay páginas que si no te identificas como uno de los navegadores habituales (Mozilla,IE , Safari, Opera), no te dejan que te las bajes con wget, bueno pues puedes cambiarle el user-agent para que se identifique como el que tu quieres , te sirve también para ftp, imposible enumerar todas las virguerias que puede hacer.

ghostDancer | 18/12/08 22:48 | #
Gravatar.com se ha roto

Cooooooooooooooooooooool!!!!!!!!!!!!!!!!!!!!!!!

frequency source | 02/12/14 04:34 | #

Deja un Comentario

Quizás quieras usar textile para dar formato a tu comentario.

"linktext":http://       _em_       *strong*       -strike-       ^sup^       ~sub~
bq. Blockquote       # Lista numerada       * Lista no-numerada       ==html crudo, sin textile==

(no será mostrado) (http://...)