[Linux-bruxelles] problème avec wget -m et faire une copie pour consultation offline d'un site web

Manuel Schulte manuel.schulte at gmail.com
Sam 2 Mar 18:18:41 CET 2019


Aldo,

Le site est en https, pas en http. En http, le site ne répond même pas...
Maintenant, j'ai essayé et comme toi, wget ne récupère qu'une seule page,
index.html dont le contenu est "DTC"...
Comme informaticien, ces 3 lettres me parlent... pour moi cela veut dire
"Dans Ton Cul"... en d'autres termes, le site ne se laisse pas télécharger
par un "web scaper" comme wget ou autre.

Plus sérieusement, il y a selon moi plusieurs hypothèses pour expliquer
cela: primo, wget. D'après la man page, il respecte les instructions
contenues dans le fichier robots.txt des sites qu'il parcourt. Si ce
fichier contient des directives lui interdisant de ne pas suivre les liens,
etc. cela expliquerait pourquoi wget ne télécharge rien d'autre qu'une page
index.html (en général la page d'accueil par défaut). En outre, wget ne
parcourra que le site du domaine spécifié, si le reste du site est sous un
autre domaine, il ne sera pas téléchargé.
Tu peux essayer --span-hosts ou -H, -rH, mais c'est dangereux car tu
pourrais te retrouver à télécharger récursivement tout le contenu
d'internet sur ta machine...
détails ici:
https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files

A toi d'expérimenter un peu...
Bonne chance et à++

Manuel SCHULTE
*Managing Director, Olympus Consulting sprl*
*gsm :* +32(0)498 881 718
*mail :* manuel.schulte at olympusconsulting.eu
*web :* http://www.olympusconsulting.eu/


Le jeu. 28 févr. 2019 à 10:54, Aldo <info at brlspeak.net> a écrit :

> Bonjour à vous tous.
>
> Je voudrais savoir ce qui aurait changé avec wget, je n'arrive en effet
> plus
> du tout à télécharger une copie d'un site, que ce soit en utilisant
> l'option
> -m ou sa formulation --mirror.
>
> Je viens de lire un HowTo plus explicite, avec bcp plus d'options, eh bien
> il ne veut tj rien faire,
> se contente de repiocher la page index.html, c tout.
>
> Qq'un a une piste svp ?
> Voir un autre outil que wget ?
>
> Sinon, je fais: wget -m http://tabs4acoustic.om/
> (ou https://... mais ça ne change rien).
>
> Note: pour accéder à une info (ici un accord x ou y) j'ai déjà recours
> obligatoire au lien In Cache du moteur de recherche, sinon même là
> j'oublies.
> Es-ce dû à Lynx ? Un ami m'indique qu'avec Firefox lui non plus n'a pas
> accès au site.
>
> Vos lumières seront la bienvenue!
>
> Amicalement,
>
> Aldo.
>
> _______________________________________________
> Linux-bruxelles :
> Èchanger, partager, s'informer par mails sur toute action, proposition
> accordée avec: http://www.bxlug.be/?Nos-statuts
>
> Linux-bruxelles at lists.bxlug.be
> https://listes.domainepublic.net/listinfo/linux-bruxelles
>
>
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: </pipermail/linux-bruxelles/attachments/20190302/e78d630f/attachment-0002.html>


Plus d'informations sur la liste de diffusion Linux-bruxelles