[Linux-bruxelles] problème avec wget -m et faire une copie pour consultation offline d'un site web

Fredux fredux at radiocampus.be
Sam 16 Mar 21:34:09 CET 2019


woaw.. belle soluce..!
Ça vaudrait le coup d'en faire un ptit résumé d'article à publier dans 
la rubriques truc zé astuces du bxlug.be :
-ça alimente le contenu
-ça remplit la rubriques peu à peu
-ça se retrouve plus facilement que dans les mails (je parle pour moi, 
ok !)

Merci à l'équipe et toutes mes amitiés à vos neurones..


Bon week-end,
Fred



Le 2019-03-11 17:15, Depuydt, Patrick a écrit :
> J'ai pas lu le man récemment, c'est juste que je l'ai dans les doigts
> comme ça depuis des années :)
> ++
> 
> On Mon, Mar 11, 2019 at 4:45 PM Manuel Schulte
> <manuel.schulte at gmail.com> wrote:
> 
>> Bien vu pour le user_agent, j'y avais pas pensé... Par contre pour
>> le RTFM... Si tu avais bien lu, en utilisant -m (mirror), tu n'as
>> pas besoin de -r ...
>> 
>> En outre l'argument pour passer le user_agent est -U <user agent
>> string> ou --user-agent=<user agent string>...
>> 
>> A++
>> 
>> Le lun. 4 mars 2019 à 10:37, Depuydt, Patrick <patrick at htag2.com> a
>> écrit :
>> 
>> Bon les mecs,
>> 
>> Un peu de bon sens, réfléchissons ensemble:
>> 1) wget ce n'est pas un client web.
>> 2) Les sites peuvent savoir quel programme se connecte à un serveur
>> web (c'est ce qu'on appelle le USER_AGENT)
>> 3) Il y a moyen de "faker" ce USER_AGENT
>> 4) La pluspart des blocages de bots se fait justement grâce à ce
>> user agent
>> 
>> Alors comment qu'on fait ?
>> 
>> voici la formule magique (je vous renvoie au 'man wget' pour plus
>> d'infos):
>> 
>> #~: wget -r -m --header="User-Agent: Mozilla/5.0 (Windows NT 5.1;
>> rv:23.0) Gecko/20100101 Firefox/23.0" https://www.tabs4acoustic.com
>> [1]
>> 
>> Resultat:
>> 
>> [myuser at localhost ~]$ wget -m -r https://www.tabs4acoustic.com [1]
>> --header="User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0)
>> Gecko/20100101 Firefox/23.0"
>> --2019-03-04 10:01:02-- https://www.tabs4acoustic.com/ [2]
>> Resolving ****proxy_address**** (****proxy_address****)...
>> XXX.XXX.XXX.XXX
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Last-modified header missing -- time-stamps turned off.
>> --2019-03-04 10:01:03-- https://www.tabs4acoustic.com/ [2]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/index.html [3]’
>> 
>> [ <=>
>> ] 45,854 --.-K/s in 0.01s
>> 
>> 2019-03-04 10:01:03 (2.92 MB/s) -
>> ‘www.tabs4acoustic.com/index.html [3]’ saved [45854]
>> 
>> Loading robots.txt; please ignore errors.
>> --2019-03-04 10:01:03-- https://www.tabs4acoustic.com/robots.txt
>> [4]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 154 [text/plain]
>> Saving to: ‘www.tabs4acoustic.com/robots.txt [5]’
>> 
>> 
> 100%[===========================================================================>]
>> 154 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (17.4 MB/s) -
>> ‘www.tabs4acoustic.com/robots.txt [5]’ saved [154/154]
>> 
>> --2019-03-04 10:01:03--
>> https://www.tabs4acoustic.com/images/favicon.ico [6]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 1150 (1.1K) [image/x-icon]
>> Saving to: ‘www.tabs4acoustic.com/images/favicon.ico [7]’
>> 
>> 
> 100%[===========================================================================>]
>> 1,150 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (131 MB/s) -
>> ‘www.tabs4acoustic.com/images/favicon.ico [7]’ saved [1150/1150]
>> 
>> --2019-03-04 10:01:03--
>> 
> https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
>> [8]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 125749 (123K) [text/css]
>> Saving to:
>> 
> ‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
>> [9]’
>> 
>> 
> 100%[===========================================================================>]
>> 125,749 --.-K/s in 0.03s
>> 
>> 2019-03-04 10:01:03 (3.78 MB/s) -
>> 
> ‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
>> [9]’ saved [125749/125749]
>> 
>> --2019-03-04 10:01:03--
>> https://www.tabs4acoustic.com/rss/fr/t4a.xml [10]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 17031 (17K) [application/xml]
>> Saving to: ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’
>> 
>> 
> 100%[===========================================================================>]
>> 17,031 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (155 MB/s) -
>> ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’ saved [17031/17031]
>> 
>> --2019-03-04 10:01:03--
>> https://www.tabs4acoustic.com/rss/fr/forums.xml [12]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 244 [application/xml]
>> Saving to: ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’
>> 
>> 
> 100%[===========================================================================>]
>> 244 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (26.2 MB/s) -
>> ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’ saved [244/244]
>> 
>> --2019-03-04 10:01:03-- https://www.tabs4acoustic.com/flux-rss.html
>> [14]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/flux-rss.html [15]’
>> 
>> [ <=>
>> ] 31,548 --.-K/s in 0.003s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:04 (9.56 MB/s) -
>> ‘www.tabs4acoustic.com/flux-rss.html [15]’ saved [31548]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/images/design/t4a_img.gif [16]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 43 [image/gif]
>> Saving to: ‘www.tabs4acoustic.com/images/design/t4a_img.gif
>> [17]’
>> 
>> 
> 100%[===========================================================================>]
>> 43 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:04 (4.74 MB/s) -
>> ‘www.tabs4acoustic.com/images/design/t4a_img.gif [17]’ saved
>> [43/43]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
>> [18]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 13490 (13K) [image/png]
>> Saving to:
>> ‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
>> [19]’
>> 
>> 
> 100%[===========================================================================>]
>> 13,490 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:04 (212 MB/s) -
>> ‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
>> [19]’ saved [13490/13490]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/recherche-t4a.html [20]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/recherche-t4a.html [21]’
>> 
>> [ <=>
>> ] 91,363 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:04 (3.74 MB/s) -
>> ‘www.tabs4acoustic.com/recherche-t4a.html [21]’ saved [91363]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/images/design/t4a_mobile.png [22]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 1717 (1.7K) [image/png]
>> Saving to: ‘www.tabs4acoustic.com/images/design/t4a_mobile.png
>> [23]’
>> 
>> 
> 100%[===========================================================================>]
>> 1,717 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:04 (175 MB/s) -
>> ‘www.tabs4acoustic.com/images/design/t4a_mobile.png [23]’ saved
>> [1717/1717]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/cours-guitare/ [24]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’
>> 
>> [ <=>
>> ] 36,123 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:04 (2.18 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’ saved
>> [36123]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/cours-guitare/theorie.html [26]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/theorie.html
>> [27]’
>> 
>> [ <=>
>> ] 69,973 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (3.19 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/theorie.html [27]’ saved
>> [69973]
>> 
>> --2019-03-04 10:01:05--
>> https://www.tabs4acoustic.com/cours-guitare/technique.html [28]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/technique.html
>> [29]’
>> 
>> [ <=>
>> ] 56,393 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (3.56 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/technique.html [29]’ saved
>> [56393]
>> 
>> --2019-03-04 10:01:05--
>> https://www.tabs4acoustic.com/cours-guitare/lutherie.html [30]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/lutherie.html
>> [31]’
>> 
>> [ <=>
>> ] 37,164 --.-K/s in 0.003s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (10.7 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/lutherie.html [31]’ saved
>> [37164]
>> 
>> --2019-03-04 10:01:05--
>> https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html [32]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html
>> [33]’
>> 
>> [ <=>
>> ] 36,074 --.-K/s in 0.003s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (10.7 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html [33]’
>> saved [36074]
>> 
>> [...]
>> 
>> Et voilà, le tour est joué,... j'ai pas fait un clone complet non
>> plus, je ne sait pas si il vas vraiment tout copier mais bon en tout
>> cas il à l'air de le faire...
>> 
>> Bien à la liste,...
>> 
>> Je ne le répète à chaque fois mait TOUT EST ECRIT ! RTFM ! :)
>> 
>> @pluche
>> 
>> On Sat, Mar 2, 2019 at 6:19 PM Manuel Schulte
>> <manuel.schulte at gmail.com> wrote:
>> 
>> Aldo,
>> 
>> Le site est en https, pas en http. En http, le site ne répond même
>> pas...
>> Maintenant, j'ai essayé et comme toi, wget ne récupère qu'une
>> seule page, index.html dont le contenu est "DTC"...
>> Comme informaticien, ces 3 lettres me parlent... pour moi cela veut
>> dire "Dans Ton Cul"... en d'autres termes, le site ne se laisse pas
>> télécharger par un "web scaper" comme wget ou autre.
>> 
>> Plus sérieusement, il y a selon moi plusieurs hypothèses pour
>> expliquer cela: primo, wget. D'après la man page, il respecte les
>> instructions contenues dans le fichier robots.txt des sites qu'il
>> parcourt. Si ce fichier contient des directives lui interdisant de
>> ne pas suivre les liens, etc. cela expliquerait pourquoi wget ne
>> télécharge rien d'autre qu'une page index.html (en général la
>> page d'accueil par défaut). En outre, wget ne parcourra que le site
>> du domaine spécifié, si le reste du site est sous un autre
>> domaine, il ne sera pas téléchargé.
>> Tu peux essayer --span-hosts ou -H, -rH, mais c'est dangereux car tu
>> pourrais te retrouver à télécharger récursivement tout le
>> contenu d'internet sur ta machine...
>> détails ici:
>> 
> https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
>> [34]
>> 
>> A toi d'expérimenter un peu...
>> Bonne chance et à++
>> 
>> Manuel SCHULTE
>> MANAGING DIRECTOR, OLYMPUS CONSULTING SPRLGSM : +32(0)498 881 718
>> MAIL : manuel.schulte at olympusconsulting.eu
>> WEB : http://www.olympusconsulting.eu/ [35]
>> 
>> Le jeu. 28 févr. 2019 à 10:54, Aldo <info at brlspeak.net> a écrit :
>> Bonjour à vous tous.
>> 
>> Je voudrais savoir ce qui aurait changé avec wget, je n'arrive en
>> effet plus
>> du tout à télécharger une copie d'un site, que ce soit en
>> utilisant l'option
>> -m ou sa formulation --mirror.
>> 
>> Je viens de lire un HowTo plus explicite, avec bcp plus d'options,
>> eh bien
>> il ne veut tj rien faire,
>> se contente de repiocher la page index.html, c tout.
>> 
>> Qq'un a une piste svp ?
>> Voir un autre outil que wget ?
>> 
>> Sinon, je fais: wget -m http://tabs4acoustic.om/ [36]
>> (ou https://... mais ça ne change rien).
>> 
>> Note: pour accéder à une info (ici un accord x ou y) j'ai déjà
>> recours
>> obligatoire au lien In Cache du moteur de recherche, sinon même là
>> j'oublies.
>> Es-ce dû à Lynx ? Un ami m'indique qu'avec Firefox lui non plus
>> n'a pas
>> accès au site.
>> 
>> Vos lumières seront la bienvenue!
>> 
>> Amicalement,
>> 
>> Aldo.
>> 
>> _______________________________________________
>> Linux-bruxelles :
>> Èchanger, partager, s'informer par mails sur toute action,
>> proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
>> 
>> Linux-bruxelles at lists.bxlug.be
>> https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
>> 
>> _______________________________________________
>> Linux-bruxelles :
>> Èchanger, partager, s'informer par mails sur toute action,
>> proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
>> 
>> Linux-bruxelles at lists.bxlug.be
>> https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
>  _______________________________________________
> Linux-bruxelles :
> Èchanger, partager, s'informer par mails sur toute action,
> proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> 
> Linux-bruxelles at lists.bxlug.be
> https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> 
> Le lun. 4 mars 2019 à 10:37, Depuydt, Patrick <patrick at htag2.com> a
> écrit :
> 
>> Bon les mecs,
>> 
>> Un peu de bon sens, réfléchissons ensemble:
>> 1) wget ce n'est pas un client web.
>> 2) Les sites peuvent savoir quel programme se connecte à un serveur
>> web (c'est ce qu'on appelle le USER_AGENT)
>> 3) Il y a moyen de "faker" ce USER_AGENT
>> 4) La pluspart des blocages de bots se fait justement grâce à ce
>> user agent
>> 
>> Alors comment qu'on fait ?
>> 
>> voici la formule magique (je vous renvoie au 'man wget' pour plus
>> d'infos):
>> 
>> #~: wget -r -m --header="User-Agent: Mozilla/5.0 (Windows NT 5.1;
>> rv:23.0) Gecko/20100101 Firefox/23.0" https://www.tabs4acoustic.com
>> [1]
>> 
>> Resultat:
>> 
>> [myuser at localhost ~]$ wget -m -r https://www.tabs4acoustic.com [1]
>> --header="User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0)
>> Gecko/20100101 Firefox/23.0"
>> --2019-03-04 10:01:02-- https://www.tabs4acoustic.com/ [2]
>> Resolving ****proxy_address**** (****proxy_address****)...
>> XXX.XXX.XXX.XXX
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Last-modified header missing -- time-stamps turned off.
>> --2019-03-04 10:01:03-- https://www.tabs4acoustic.com/ [2]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/index.html [3]’
>> 
>> [ <=>
>> ] 45,854 --.-K/s in 0.01s
>> 
>> 2019-03-04 10:01:03 (2.92 MB/s) -
>> ‘www.tabs4acoustic.com/index.html [3]’ saved [45854]
>> 
>> Loading robots.txt; please ignore errors.
>> --2019-03-04 10:01:03-- https://www.tabs4acoustic.com/robots.txt
>> [4]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 154 [text/plain]
>> Saving to: ‘www.tabs4acoustic.com/robots.txt [5]’
>> 
>> 
> 100%[===========================================================================>]
>> 154 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (17.4 MB/s) -
>> ‘www.tabs4acoustic.com/robots.txt [5]’ saved [154/154]
>> 
>> --2019-03-04 10:01:03--
>> https://www.tabs4acoustic.com/images/favicon.ico [6]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 1150 (1.1K) [image/x-icon]
>> Saving to: ‘www.tabs4acoustic.com/images/favicon.ico [7]’
>> 
>> 
> 100%[===========================================================================>]
>> 1,150 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (131 MB/s) -
>> ‘www.tabs4acoustic.com/images/favicon.ico [7]’ saved [1150/1150]
>> 
>> --2019-03-04 10:01:03--
>> 
> https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
>> [8]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 125749 (123K) [text/css]
>> Saving to:
>> 
> ‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
>> [9]’
>> 
>> 
> 100%[===========================================================================>]
>> 125,749 --.-K/s in 0.03s
>> 
>> 2019-03-04 10:01:03 (3.78 MB/s) -
>> 
> ‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
>> [9]’ saved [125749/125749]
>> 
>> --2019-03-04 10:01:03--
>> https://www.tabs4acoustic.com/rss/fr/t4a.xml [10]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 17031 (17K) [application/xml]
>> Saving to: ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’
>> 
>> 
> 100%[===========================================================================>]
>> 17,031 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (155 MB/s) -
>> ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’ saved [17031/17031]
>> 
>> --2019-03-04 10:01:03--
>> https://www.tabs4acoustic.com/rss/fr/forums.xml [12]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 244 [application/xml]
>> Saving to: ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’
>> 
>> 
> 100%[===========================================================================>]
>> 244 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:03 (26.2 MB/s) -
>> ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’ saved [244/244]
>> 
>> --2019-03-04 10:01:03-- https://www.tabs4acoustic.com/flux-rss.html
>> [14]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/flux-rss.html [15]’
>> 
>> [ <=>
>> ] 31,548 --.-K/s in 0.003s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:04 (9.56 MB/s) -
>> ‘www.tabs4acoustic.com/flux-rss.html [15]’ saved [31548]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/images/design/t4a_img.gif [16]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 43 [image/gif]
>> Saving to: ‘www.tabs4acoustic.com/images/design/t4a_img.gif
>> [17]’
>> 
>> 
> 100%[===========================================================================>]
>> 43 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:04 (4.74 MB/s) -
>> ‘www.tabs4acoustic.com/images/design/t4a_img.gif [17]’ saved
>> [43/43]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
>> [18]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 13490 (13K) [image/png]
>> Saving to:
>> ‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
>> [19]’
>> 
>> 
> 100%[===========================================================================>]
>> 13,490 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:04 (212 MB/s) -
>> ‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
>> [19]’ saved [13490/13490]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/recherche-t4a.html [20]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/recherche-t4a.html [21]’
>> 
>> [ <=>
>> ] 91,363 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:04 (3.74 MB/s) -
>> ‘www.tabs4acoustic.com/recherche-t4a.html [21]’ saved [91363]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/images/design/t4a_mobile.png [22]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: 1717 (1.7K) [image/png]
>> Saving to: ‘www.tabs4acoustic.com/images/design/t4a_mobile.png
>> [23]’
>> 
>> 
> 100%[===========================================================================>]
>> 1,717 --.-K/s in 0s
>> 
>> 2019-03-04 10:01:04 (175 MB/s) -
>> ‘www.tabs4acoustic.com/images/design/t4a_mobile.png [23]’ saved
>> [1717/1717]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/cours-guitare/ [24]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’
>> 
>> [ <=>
>> ] 36,123 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:04 (2.18 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’ saved
>> [36123]
>> 
>> --2019-03-04 10:01:04--
>> https://www.tabs4acoustic.com/cours-guitare/theorie.html [26]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/theorie.html
>> [27]’
>> 
>> [ <=>
>> ] 69,973 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (3.19 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/theorie.html [27]’ saved
>> [69973]
>> 
>> --2019-03-04 10:01:05--
>> https://www.tabs4acoustic.com/cours-guitare/technique.html [28]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/technique.html
>> [29]’
>> 
>> [ <=>
>> ] 56,393 --.-K/s in 0.02s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (3.56 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/technique.html [29]’ saved
>> [56393]
>> 
>> --2019-03-04 10:01:05--
>> https://www.tabs4acoustic.com/cours-guitare/lutherie.html [30]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/lutherie.html
>> [31]’
>> 
>> [ <=>
>> ] 37,164 --.-K/s in 0.003s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (10.7 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/lutherie.html [31]’ saved
>> [37164]
>> 
>> --2019-03-04 10:01:05--
>> https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html [32]
>> Connecting to ****proxy_address****
>> (****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
>> Proxy request sent, awaiting response... 200 OK
>> Length: unspecified [text/html]
>> Saving to: ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html
>> [33]’
>> 
>> [ <=>
>> ] 36,074 --.-K/s in 0.003s
>> 
>> Last-modified header missing -- time-stamps turned off.
>> 2019-03-04 10:01:05 (10.7 MB/s) -
>> ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html [33]’
>> saved [36074]
>> 
>> [...]
>> 
>> Et voilà, le tour est joué,... j'ai pas fait un clone complet non
>> plus, je ne sait pas si il vas vraiment tout copier mais bon en tout
>> cas il à l'air de le faire...
>> 
>> Bien à la liste,...
>> 
>> Je ne le répète à chaque fois mait TOUT EST ECRIT ! RTFM ! :)
>> 
>> @pluche
>> 
>> On Sat, Mar 2, 2019 at 6:19 PM Manuel Schulte
>> <manuel.schulte at gmail.com> wrote:
>> 
>> Aldo,
>> 
>> Le site est en https, pas en http. En http, le site ne répond même
>> pas...
>> Maintenant, j'ai essayé et comme toi, wget ne récupère qu'une
>> seule page, index.html dont le contenu est "DTC"...
>> Comme informaticien, ces 3 lettres me parlent... pour moi cela veut
>> dire "Dans Ton Cul"... en d'autres termes, le site ne se laisse pas
>> télécharger par un "web scaper" comme wget ou autre.
>> 
>> Plus sérieusement, il y a selon moi plusieurs hypothèses pour
>> expliquer cela: primo, wget. D'après la man page, il respecte les
>> instructions contenues dans le fichier robots.txt des sites qu'il
>> parcourt. Si ce fichier contient des directives lui interdisant de
>> ne pas suivre les liens, etc. cela expliquerait pourquoi wget ne
>> télécharge rien d'autre qu'une page index.html (en général la
>> page d'accueil par défaut). En outre, wget ne parcourra que le site
>> du domaine spécifié, si le reste du site est sous un autre
>> domaine, il ne sera pas téléchargé.
>> Tu peux essayer --span-hosts ou -H, -rH, mais c'est dangereux car tu
>> pourrais te retrouver à télécharger récursivement tout le
>> contenu d'internet sur ta machine...
>> détails ici:
>> 
> https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
>> [34]
>> 
>> A toi d'expérimenter un peu...
>> Bonne chance et à++
>> 
>> Manuel SCHULTE
>> MANAGING DIRECTOR, OLYMPUS CONSULTING SPRLGSM : +32(0)498 881 718
>> MAIL : manuel.schulte at olympusconsulting.eu
>> WEB : http://www.olympusconsulting.eu/ [35]
>> 
>> Le jeu. 28 févr. 2019 à 10:54, Aldo <info at brlspeak.net> a écrit :
>> Bonjour à vous tous.
>> 
>> Je voudrais savoir ce qui aurait changé avec wget, je n'arrive en
>> effet plus
>> du tout à télécharger une copie d'un site, que ce soit en
>> utilisant l'option
>> -m ou sa formulation --mirror.
>> 
>> Je viens de lire un HowTo plus explicite, avec bcp plus d'options,
>> eh bien
>> il ne veut tj rien faire,
>> se contente de repiocher la page index.html, c tout.
>> 
>> Qq'un a une piste svp ?
>> Voir un autre outil que wget ?
>> 
>> Sinon, je fais: wget -m http://tabs4acoustic.om/ [36]
>> (ou https://... mais ça ne change rien).
>> 
>> Note: pour accéder à une info (ici un accord x ou y) j'ai déjà
>> recours
>> obligatoire au lien In Cache du moteur de recherche, sinon même là
>> j'oublies.
>> Es-ce dû à Lynx ? Un ami m'indique qu'avec Firefox lui non plus
>> n'a pas
>> accès au site.
>> 
>> Vos lumières seront la bienvenue!
>> 
>> Amicalement,
>> 
>> Aldo.
>> 
>> _______________________________________________
>> Linux-bruxelles :
>> Èchanger, partager, s'informer par mails sur toute action,
>> proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
>> 
>> Linux-bruxelles at lists.bxlug.be
>> https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
>> 
>> _______________________________________________
>> Linux-bruxelles :
>> Èchanger, partager, s'informer par mails sur toute action,
>> proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
>> 
>> Linux-bruxelles at lists.bxlug.be
>> https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
>  _______________________________________________
> Linux-bruxelles :
> Èchanger, partager, s'informer par mails sur toute action,
> proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> 
> Linux-bruxelles at lists.bxlug.be
> https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> 
>  _______________________________________________
> Linux-bruxelles :
> Èchanger, partager, s'informer par mails sur toute action,
> proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> 
> Linux-bruxelles at lists.bxlug.be
> https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> 
> 
> 
> Links:
> ------
> [1] https://www.tabs4acoustic.com
> [2] https://www.tabs4acoustic.com/
> [3] http://www.tabs4acoustic.com/index.html
> [4] https://www.tabs4acoustic.com/robots.txt
> [5] http://www.tabs4acoustic.com/robots.txt
> [6] https://www.tabs4acoustic.com/images/favicon.ico
> [7] http://www.tabs4acoustic.com/images/favicon.ico
> [8]
> https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> [9]
> http://www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> [10] https://www.tabs4acoustic.com/rss/fr/t4a.xml
> [11] http://www.tabs4acoustic.com/rss/fr/t4a.xml
> [12] https://www.tabs4acoustic.com/rss/fr/forums.xml
> [13] http://www.tabs4acoustic.com/rss/fr/forums.xml
> [14] https://www.tabs4acoustic.com/flux-rss.html
> [15] http://www.tabs4acoustic.com/flux-rss.html
> [16] https://www.tabs4acoustic.com/images/design/t4a_img.gif
> [17] http://www.tabs4acoustic.com/images/design/t4a_img.gif
> [18] https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> [19] http://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> [20] https://www.tabs4acoustic.com/recherche-t4a.html
> [21] http://www.tabs4acoustic.com/recherche-t4a.html
> [22] https://www.tabs4acoustic.com/images/design/t4a_mobile.png
> [23] http://www.tabs4acoustic.com/images/design/t4a_mobile.png
> [24] https://www.tabs4acoustic.com/cours-guitare/
> [25] http://www.tabs4acoustic.com/cours-guitare/index.html
> [26] https://www.tabs4acoustic.com/cours-guitare/theorie.html
> [27] http://www.tabs4acoustic.com/cours-guitare/theorie.html
> [28] https://www.tabs4acoustic.com/cours-guitare/technique.html
> [29] http://www.tabs4acoustic.com/cours-guitare/technique.html
> [30] https://www.tabs4acoustic.com/cours-guitare/lutherie.html
> [31] http://www.tabs4acoustic.com/cours-guitare/lutherie.html
> [32] https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> [33] http://www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> [34]
> https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
> [35] http://www.olympusconsulting.eu/
> [36] http://tabs4acoustic.om/
> [37] http://www.bxlug.be/?Nos-statuts
> [38] https://listes.domainepublic.net/listinfo/linux-bruxelles
> 
> _______________________________________________
> Linux-bruxelles :
> Èchanger, partager, s'informer par mails sur toute action, proposition
> accordée avec: http://www.bxlug.be/?Nos-statuts
> 
> Linux-bruxelles at lists.bxlug.be
> https://listes.domainepublic.net/listinfo/linux-bruxelles



Plus d'informations sur la liste de diffusion Linux-bruxelles