Aspirer un site internet

Pour aspirer un site internet

$ wget -r -l5 -k -E "http://www.l_adresse_du_site.a_recuperer.com"

-r : récursif sur le site
-l5 : cinq niveaux de récursion au maximum
-k : convertir les destinations des liens pour une lecture locale
-E : convertir les types de fichier au format HTML (pour éviter que la lecture de sites en PHP ne foire en lecture sous Firefox).

A l'aide de l'outil httrack

$ sudo apt-get install httrack

Pour aspirer le site :

$ httrack --mirror http://mon-site.com

Pour mettre à jour le site aspirer (se placer dans le dossier du site):

$ httrack --update

Etiquettes: 

Commentaires

Et comment fait-on sur un site où l'on doit s'authentifier au préalable ? Peut-on ajouter les id/pass en ligne de commande ?

Je pense que c'est possible.

Avec wget, il est possible d'utiliser des cookies pour la gestion de l'authentification.

Voir la doc ici

Ajouter un commentaire

Filtered HTML

  • Les adresses de pages web et de messagerie électronique sont transformées en liens automatiquement.
  • Tags HTML autorisés : <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de messagerie électronique sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.
CAPTCHA
Cette question permet de s'assurer que vous êtes un utilisateur humain et non un logiciel automatisé de pollupostage.
CAPTCHA visuel
Entrez les caractères (sans espace) affichés dans l'image.