[Linux-bruxelles] problème avec wget -m et faire une copie pour consultation offline d'un site web

Aldo info at brlspeak.net
Dim 17 Mar 11:03:14 CET 2019


Coucou, 

merci pour tous ces bons conseils;
j'ai fait wget -m -r -U lynx http://www.tabs4acoustic.com/ et en effet il
repioche tout le site; ça permet dans mon cas de pouvoir mieux consulter la
liste d'accords mis en ligne, sans devoir passer par leur moteur de
recherche sur le site, je gagne bcp de temps.
Parcontre ça met bcp de temps à tout télécharger alors que j'avais
l'impression en lisant le flux wget pplus bas dans le fil, qu'il n'y en
avait que pour qqs 17 MB.
Je ne comprends pas bien pourquoi les webmasters empêchent ou "bloquent"
ainsi un accès en fonctio nde ton outil et ou navigateur: n'es-ce pas plus
logique que le contenu publié sur le net soit accessible à un maximum de
personnes ?!

Bon dimanche,

Aldo. 

On Sat, Mar 16, 2019 at 09:34:09PM +0100, Fredux wrote:
> woaw.. belle soluce..!
> Ça vaudrait le coup d'en faire un ptit résumé d'article à publier dans la
> rubriques truc zé astuces du bxlug.be :
> -ça alimente le contenu
> -ça remplit la rubriques peu à peu
> -ça se retrouve plus facilement que dans les mails (je parle pour moi, ok !)
> 
> Merci à l'équipe et toutes mes amitiés à vos neurones..
> 
> 
> Bon week-end,
> Fred
> 
> 
> 
> Le 2019-03-11 17:15, Depuydt, Patrick a écrit :
> >J'ai pas lu le man récemment, c'est juste que je l'ai dans les doigts
> >comme ça depuis des années :)
> >++
> >
> >On Mon, Mar 11, 2019 at 4:45 PM Manuel Schulte
> ><manuel.schulte at gmail.com> wrote:
> >
> >>Bien vu pour le user_agent, j'y avais pas pensé... Par contre pour
> >>le RTFM... Si tu avais bien lu, en utilisant -m (mirror), tu n'as
> >>pas besoin de -r ...
> >>
> >>En outre l'argument pour passer le user_agent est -U <user agent
> >>string> ou --user-agent=<user agent string>...
> >>
> >>A++
> >>
> >>Le lun. 4 mars 2019 à 10:37, Depuydt, Patrick <patrick at htag2.com> a
> >>écrit :
> >>
> >>Bon les mecs,
> >>
> >>Un peu de bon sens, réfléchissons ensemble:
> >>1) wget ce n'est pas un client web.
> >>2) Les sites peuvent savoir quel programme se connecte à un serveur
> >>web (c'est ce qu'on appelle le USER_AGENT)
> >>3) Il y a moyen de "faker" ce USER_AGENT
> >>4) La pluspart des blocages de bots se fait justement grâce à ce
> >>user agent
> >>
> >>Alors comment qu'on fait ?
> >>
> >>voici la formule magique (je vous renvoie au 'man wget' pour plus
> >>d'infos):
> >>
> >>#~: wget -r -m --header="User-Agent: Mozilla/5.0 (Windows NT 5.1;
> >>rv:23.0) Gecko/20100101 Firefox/23.0" https://www.tabs4acoustic.com
> >>[1]
> >>
> >>Resultat:
> >>
> >>[myuser at localhost ~]$ wget -m -r https://www.tabs4acoustic.com [1]
> >>--header="User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0)
> >>Gecko/20100101 Firefox/23.0"
> >>--2019-03-04 10:01:02-- https://www.tabs4acoustic.com/ [2]
> >>Resolving ****proxy_address**** (****proxy_address****)...
> >>XXX.XXX.XXX.XXX
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Last-modified header missing -- time-stamps turned off.
> >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/ [2]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/index.html [3]’
> >>
> >>[ <=>
> >>] 45,854 --.-K/s in 0.01s
> >>
> >>2019-03-04 10:01:03 (2.92 MB/s) -
> >>‘www.tabs4acoustic.com/index.html [3]’ saved [45854]
> >>
> >>Loading robots.txt; please ignore errors.
> >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/robots.txt
> >>[4]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 154 [text/plain]
> >>Saving to: ‘www.tabs4acoustic.com/robots.txt [5]’
> >>
> >>
> >100%[===========================================================================>]
> >>154 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (17.4 MB/s) -
> >>‘www.tabs4acoustic.com/robots.txt [5]’ saved [154/154]
> >>
> >>--2019-03-04 10:01:03--
> >>https://www.tabs4acoustic.com/images/favicon.ico [6]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 1150 (1.1K) [image/x-icon]
> >>Saving to: ‘www.tabs4acoustic.com/images/favicon.ico [7]’
> >>
> >>
> >100%[===========================================================================>]
> >>1,150 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (131 MB/s) -
> >>‘www.tabs4acoustic.com/images/favicon.ico [7]’ saved [1150/1150]
> >>
> >>--2019-03-04 10:01:03--
> >>
> >https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >>[8]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 125749 (123K) [text/css]
> >>Saving to:
> >>
> >‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >>[9]’
> >>
> >>
> >100%[===========================================================================>]
> >>125,749 --.-K/s in 0.03s
> >>
> >>2019-03-04 10:01:03 (3.78 MB/s) -
> >>
> >‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >>[9]’ saved [125749/125749]
> >>
> >>--2019-03-04 10:01:03--
> >>https://www.tabs4acoustic.com/rss/fr/t4a.xml [10]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 17031 (17K) [application/xml]
> >>Saving to: ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’
> >>
> >>
> >100%[===========================================================================>]
> >>17,031 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (155 MB/s) -
> >>‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’ saved [17031/17031]
> >>
> >>--2019-03-04 10:01:03--
> >>https://www.tabs4acoustic.com/rss/fr/forums.xml [12]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 244 [application/xml]
> >>Saving to: ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’
> >>
> >>
> >100%[===========================================================================>]
> >>244 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (26.2 MB/s) -
> >>‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’ saved [244/244]
> >>
> >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/flux-rss.html
> >>[14]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/flux-rss.html [15]’
> >>
> >>[ <=>
> >>] 31,548 --.-K/s in 0.003s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:04 (9.56 MB/s) -
> >>‘www.tabs4acoustic.com/flux-rss.html [15]’ saved [31548]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/images/design/t4a_img.gif [16]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 43 [image/gif]
> >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_img.gif
> >>[17]’
> >>
> >>
> >100%[===========================================================================>]
> >>43 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:04 (4.74 MB/s) -
> >>‘www.tabs4acoustic.com/images/design/t4a_img.gif [17]’ saved
> >>[43/43]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >>[18]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 13490 (13K) [image/png]
> >>Saving to:
> >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >>[19]’
> >>
> >>
> >100%[===========================================================================>]
> >>13,490 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:04 (212 MB/s) -
> >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >>[19]’ saved [13490/13490]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/recherche-t4a.html [20]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/recherche-t4a.html [21]’
> >>
> >>[ <=>
> >>] 91,363 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:04 (3.74 MB/s) -
> >>‘www.tabs4acoustic.com/recherche-t4a.html [21]’ saved [91363]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/images/design/t4a_mobile.png [22]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 1717 (1.7K) [image/png]
> >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_mobile.png
> >>[23]’
> >>
> >>
> >100%[===========================================================================>]
> >>1,717 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:04 (175 MB/s) -
> >>‘www.tabs4acoustic.com/images/design/t4a_mobile.png [23]’ saved
> >>[1717/1717]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/cours-guitare/ [24]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’
> >>
> >>[ <=>
> >>] 36,123 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:04 (2.18 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/index.html [25]’ saved
> >>[36123]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/cours-guitare/theorie.html [26]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/theorie.html
> >>[27]’
> >>
> >>[ <=>
> >>] 69,973 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (3.19 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/theorie.html [27]’ saved
> >>[69973]
> >>
> >>--2019-03-04 10:01:05--
> >>https://www.tabs4acoustic.com/cours-guitare/technique.html [28]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/technique.html
> >>[29]’
> >>
> >>[ <=>
> >>] 56,393 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (3.56 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/technique.html [29]’ saved
> >>[56393]
> >>
> >>--2019-03-04 10:01:05--
> >>https://www.tabs4acoustic.com/cours-guitare/lutherie.html [30]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/lutherie.html
> >>[31]’
> >>
> >>[ <=>
> >>] 37,164 --.-K/s in 0.003s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (10.7 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/lutherie.html [31]’ saved
> >>[37164]
> >>
> >>--2019-03-04 10:01:05--
> >>https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html [32]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> >>[33]’
> >>
> >>[ <=>
> >>] 36,074 --.-K/s in 0.003s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (10.7 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html [33]’
> >>saved [36074]
> >>
> >>[...]
> >>
> >>Et voilà, le tour est joué,... j'ai pas fait un clone complet non
> >>plus, je ne sait pas si il vas vraiment tout copier mais bon en tout
> >>cas il à l'air de le faire...
> >>
> >>Bien à la liste,...
> >>
> >>Je ne le répète à chaque fois mait TOUT EST ECRIT ! RTFM ! :)
> >>
> >>@pluche
> >>
> >>On Sat, Mar 2, 2019 at 6:19 PM Manuel Schulte
> >><manuel.schulte at gmail.com> wrote:
> >>
> >>Aldo,
> >>
> >>Le site est en https, pas en http. En http, le site ne répond même
> >>pas...
> >>Maintenant, j'ai essayé et comme toi, wget ne récupère qu'une
> >>seule page, index.html dont le contenu est "DTC"...
> >>Comme informaticien, ces 3 lettres me parlent... pour moi cela veut
> >>dire "Dans Ton Cul"... en d'autres termes, le site ne se laisse pas
> >>télécharger par un "web scaper" comme wget ou autre.
> >>
> >>Plus sérieusement, il y a selon moi plusieurs hypothèses pour
> >>expliquer cela: primo, wget. D'après la man page, il respecte les
> >>instructions contenues dans le fichier robots.txt des sites qu'il
> >>parcourt. Si ce fichier contient des directives lui interdisant de
> >>ne pas suivre les liens, etc. cela expliquerait pourquoi wget ne
> >>télécharge rien d'autre qu'une page index.html (en général la
> >>page d'accueil par défaut). En outre, wget ne parcourra que le site
> >>du domaine spécifié, si le reste du site est sous un autre
> >>domaine, il ne sera pas téléchargé.
> >>Tu peux essayer --span-hosts ou -H, -rH, mais c'est dangereux car tu
> >>pourrais te retrouver à télécharger récursivement tout le
> >>contenu d'internet sur ta machine...
> >>détails ici:
> >>
> >https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
> >>[34]
> >>
> >>A toi d'expérimenter un peu...
> >>Bonne chance et à++
> >>
> >>Manuel SCHULTE
> >>MANAGING DIRECTOR, OLYMPUS CONSULTING SPRLGSM : +32(0)498 881 718
> >>MAIL : manuel.schulte at olympusconsulting.eu
> >>WEB : http://www.olympusconsulting.eu/ [35]
> >>
> >>Le jeu. 28 févr. 2019 à 10:54, Aldo <info at brlspeak.net> a écrit :
> >>Bonjour à vous tous.
> >>
> >>Je voudrais savoir ce qui aurait changé avec wget, je n'arrive en
> >>effet plus
> >>du tout à télécharger une copie d'un site, que ce soit en
> >>utilisant l'option
> >>-m ou sa formulation --mirror.
> >>
> >>Je viens de lire un HowTo plus explicite, avec bcp plus d'options,
> >>eh bien
> >>il ne veut tj rien faire,
> >>se contente de repiocher la page index.html, c tout.
> >>
> >>Qq'un a une piste svp ?
> >>Voir un autre outil que wget ?
> >>
> >>Sinon, je fais: wget -m http://tabs4acoustic.om/ [36]
> >>(ou https://... mais ça ne change rien).
> >>
> >>Note: pour accéder à une info (ici un accord x ou y) j'ai déjà
> >>recours
> >>obligatoire au lien In Cache du moteur de recherche, sinon même là
> >>j'oublies.
> >>Es-ce dû à Lynx ? Un ami m'indique qu'avec Firefox lui non plus
> >>n'a pas
> >>accès au site.
> >>
> >>Vos lumières seront la bienvenue!
> >>
> >>Amicalement,
> >>
> >>Aldo.
> >>
> >>_______________________________________________
> >>Linux-bruxelles :
> >>Èchanger, partager, s'informer par mails sur toute action,
> >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> >>
> >>Linux-bruxelles at lists.bxlug.be
> >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> >>
> >>_______________________________________________
> >>Linux-bruxelles :
> >>Èchanger, partager, s'informer par mails sur toute action,
> >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> >>
> >>Linux-bruxelles at lists.bxlug.be
> >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > _______________________________________________
> >Linux-bruxelles :
> >Èchanger, partager, s'informer par mails sur toute action,
> >proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> >
> >Linux-bruxelles at lists.bxlug.be
> >https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> >
> >Le lun. 4 mars 2019 à 10:37, Depuydt, Patrick <patrick at htag2.com> a
> >écrit :
> >
> >>Bon les mecs,
> >>
> >>Un peu de bon sens, réfléchissons ensemble:
> >>1) wget ce n'est pas un client web.
> >>2) Les sites peuvent savoir quel programme se connecte à un serveur
> >>web (c'est ce qu'on appelle le USER_AGENT)
> >>3) Il y a moyen de "faker" ce USER_AGENT
> >>4) La pluspart des blocages de bots se fait justement grâce à ce
> >>user agent
> >>
> >>Alors comment qu'on fait ?
> >>
> >>voici la formule magique (je vous renvoie au 'man wget' pour plus
> >>d'infos):
> >>
> >>#~: wget -r -m --header="User-Agent: Mozilla/5.0 (Windows NT 5.1;
> >>rv:23.0) Gecko/20100101 Firefox/23.0" https://www.tabs4acoustic.com
> >>[1]
> >>
> >>Resultat:
> >>
> >>[myuser at localhost ~]$ wget -m -r https://www.tabs4acoustic.com [1]
> >>--header="User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0)
> >>Gecko/20100101 Firefox/23.0"
> >>--2019-03-04 10:01:02-- https://www.tabs4acoustic.com/ [2]
> >>Resolving ****proxy_address**** (****proxy_address****)...
> >>XXX.XXX.XXX.XXX
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Last-modified header missing -- time-stamps turned off.
> >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/ [2]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/index.html [3]’
> >>
> >>[ <=>
> >>] 45,854 --.-K/s in 0.01s
> >>
> >>2019-03-04 10:01:03 (2.92 MB/s) -
> >>‘www.tabs4acoustic.com/index.html [3]’ saved [45854]
> >>
> >>Loading robots.txt; please ignore errors.
> >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/robots.txt
> >>[4]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 154 [text/plain]
> >>Saving to: ‘www.tabs4acoustic.com/robots.txt [5]’
> >>
> >>
> >100%[===========================================================================>]
> >>154 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (17.4 MB/s) -
> >>‘www.tabs4acoustic.com/robots.txt [5]’ saved [154/154]
> >>
> >>--2019-03-04 10:01:03--
> >>https://www.tabs4acoustic.com/images/favicon.ico [6]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 1150 (1.1K) [image/x-icon]
> >>Saving to: ‘www.tabs4acoustic.com/images/favicon.ico [7]’
> >>
> >>
> >100%[===========================================================================>]
> >>1,150 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (131 MB/s) -
> >>‘www.tabs4acoustic.com/images/favicon.ico [7]’ saved [1150/1150]
> >>
> >>--2019-03-04 10:01:03--
> >>
> >https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >>[8]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 125749 (123K) [text/css]
> >>Saving to:
> >>
> >‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >>[9]’
> >>
> >>
> >100%[===========================================================================>]
> >>125,749 --.-K/s in 0.03s
> >>
> >>2019-03-04 10:01:03 (3.78 MB/s) -
> >>
> >‘www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >>[9]’ saved [125749/125749]
> >>
> >>--2019-03-04 10:01:03--
> >>https://www.tabs4acoustic.com/rss/fr/t4a.xml [10]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 17031 (17K) [application/xml]
> >>Saving to: ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’
> >>
> >>
> >100%[===========================================================================>]
> >>17,031 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (155 MB/s) -
> >>‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’ saved [17031/17031]
> >>
> >>--2019-03-04 10:01:03--
> >>https://www.tabs4acoustic.com/rss/fr/forums.xml [12]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 244 [application/xml]
> >>Saving to: ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’
> >>
> >>
> >100%[===========================================================================>]
> >>244 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:03 (26.2 MB/s) -
> >>‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’ saved [244/244]
> >>
> >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/flux-rss.html
> >>[14]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/flux-rss.html [15]’
> >>
> >>[ <=>
> >>] 31,548 --.-K/s in 0.003s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:04 (9.56 MB/s) -
> >>‘www.tabs4acoustic.com/flux-rss.html [15]’ saved [31548]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/images/design/t4a_img.gif [16]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 43 [image/gif]
> >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_img.gif
> >>[17]’
> >>
> >>
> >100%[===========================================================================>]
> >>43 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:04 (4.74 MB/s) -
> >>‘www.tabs4acoustic.com/images/design/t4a_img.gif [17]’ saved
> >>[43/43]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >>[18]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 13490 (13K) [image/png]
> >>Saving to:
> >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >>[19]’
> >>
> >>
> >100%[===========================================================================>]
> >>13,490 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:04 (212 MB/s) -
> >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >>[19]’ saved [13490/13490]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/recherche-t4a.html [20]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/recherche-t4a.html [21]’
> >>
> >>[ <=>
> >>] 91,363 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:04 (3.74 MB/s) -
> >>‘www.tabs4acoustic.com/recherche-t4a.html [21]’ saved [91363]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/images/design/t4a_mobile.png [22]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: 1717 (1.7K) [image/png]
> >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_mobile.png
> >>[23]’
> >>
> >>
> >100%[===========================================================================>]
> >>1,717 --.-K/s in 0s
> >>
> >>2019-03-04 10:01:04 (175 MB/s) -
> >>‘www.tabs4acoustic.com/images/design/t4a_mobile.png [23]’ saved
> >>[1717/1717]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/cours-guitare/ [24]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’
> >>
> >>[ <=>
> >>] 36,123 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:04 (2.18 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/index.html [25]’ saved
> >>[36123]
> >>
> >>--2019-03-04 10:01:04--
> >>https://www.tabs4acoustic.com/cours-guitare/theorie.html [26]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/theorie.html
> >>[27]’
> >>
> >>[ <=>
> >>] 69,973 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (3.19 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/theorie.html [27]’ saved
> >>[69973]
> >>
> >>--2019-03-04 10:01:05--
> >>https://www.tabs4acoustic.com/cours-guitare/technique.html [28]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/technique.html
> >>[29]’
> >>
> >>[ <=>
> >>] 56,393 --.-K/s in 0.02s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (3.56 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/technique.html [29]’ saved
> >>[56393]
> >>
> >>--2019-03-04 10:01:05--
> >>https://www.tabs4acoustic.com/cours-guitare/lutherie.html [30]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/lutherie.html
> >>[31]’
> >>
> >>[ <=>
> >>] 37,164 --.-K/s in 0.003s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (10.7 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/lutherie.html [31]’ saved
> >>[37164]
> >>
> >>--2019-03-04 10:01:05--
> >>https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html [32]
> >>Connecting to ****proxy_address****
> >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> >>Proxy request sent, awaiting response... 200 OK
> >>Length: unspecified [text/html]
> >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> >>[33]’
> >>
> >>[ <=>
> >>] 36,074 --.-K/s in 0.003s
> >>
> >>Last-modified header missing -- time-stamps turned off.
> >>2019-03-04 10:01:05 (10.7 MB/s) -
> >>‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html [33]’
> >>saved [36074]
> >>
> >>[...]
> >>
> >>Et voilà, le tour est joué,... j'ai pas fait un clone complet non
> >>plus, je ne sait pas si il vas vraiment tout copier mais bon en tout
> >>cas il à l'air de le faire...
> >>
> >>Bien à la liste,...
> >>
> >>Je ne le répète à chaque fois mait TOUT EST ECRIT ! RTFM ! :)
> >>
> >>@pluche
> >>
> >>On Sat, Mar 2, 2019 at 6:19 PM Manuel Schulte
> >><manuel.schulte at gmail.com> wrote:
> >>
> >>Aldo,
> >>
> >>Le site est en https, pas en http. En http, le site ne répond même
> >>pas...
> >>Maintenant, j'ai essayé et comme toi, wget ne récupère qu'une
> >>seule page, index.html dont le contenu est "DTC"...
> >>Comme informaticien, ces 3 lettres me parlent... pour moi cela veut
> >>dire "Dans Ton Cul"... en d'autres termes, le site ne se laisse pas
> >>télécharger par un "web scaper" comme wget ou autre.
> >>
> >>Plus sérieusement, il y a selon moi plusieurs hypothèses pour
> >>expliquer cela: primo, wget. D'après la man page, il respecte les
> >>instructions contenues dans le fichier robots.txt des sites qu'il
> >>parcourt. Si ce fichier contient des directives lui interdisant de
> >>ne pas suivre les liens, etc. cela expliquerait pourquoi wget ne
> >>télécharge rien d'autre qu'une page index.html (en général la
> >>page d'accueil par défaut). En outre, wget ne parcourra que le site
> >>du domaine spécifié, si le reste du site est sous un autre
> >>domaine, il ne sera pas téléchargé.
> >>Tu peux essayer --span-hosts ou -H, -rH, mais c'est dangereux car tu
> >>pourrais te retrouver à télécharger récursivement tout le
> >>contenu d'internet sur ta machine...
> >>détails ici:
> >>
> >https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
> >>[34]
> >>
> >>A toi d'expérimenter un peu...
> >>Bonne chance et à++
> >>
> >>Manuel SCHULTE
> >>MANAGING DIRECTOR, OLYMPUS CONSULTING SPRLGSM : +32(0)498 881 718
> >>MAIL : manuel.schulte at olympusconsulting.eu
> >>WEB : http://www.olympusconsulting.eu/ [35]
> >>
> >>Le jeu. 28 févr. 2019 à 10:54, Aldo <info at brlspeak.net> a écrit :
> >>Bonjour à vous tous.
> >>
> >>Je voudrais savoir ce qui aurait changé avec wget, je n'arrive en
> >>effet plus
> >>du tout à télécharger une copie d'un site, que ce soit en
> >>utilisant l'option
> >>-m ou sa formulation --mirror.
> >>
> >>Je viens de lire un HowTo plus explicite, avec bcp plus d'options,
> >>eh bien
> >>il ne veut tj rien faire,
> >>se contente de repiocher la page index.html, c tout.
> >>
> >>Qq'un a une piste svp ?
> >>Voir un autre outil que wget ?
> >>
> >>Sinon, je fais: wget -m http://tabs4acoustic.om/ [36]
> >>(ou https://... mais ça ne change rien).
> >>
> >>Note: pour accéder à une info (ici un accord x ou y) j'ai déjà
> >>recours
> >>obligatoire au lien In Cache du moteur de recherche, sinon même là
> >>j'oublies.
> >>Es-ce dû à Lynx ? Un ami m'indique qu'avec Firefox lui non plus
> >>n'a pas
> >>accès au site.
> >>
> >>Vos lumières seront la bienvenue!
> >>
> >>Amicalement,
> >>
> >>Aldo.
> >>
> >>_______________________________________________
> >>Linux-bruxelles :
> >>Èchanger, partager, s'informer par mails sur toute action,
> >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> >>
> >>Linux-bruxelles at lists.bxlug.be
> >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> >>
> >>_______________________________________________
> >>Linux-bruxelles :
> >>Èchanger, partager, s'informer par mails sur toute action,
> >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> >>
> >>Linux-bruxelles at lists.bxlug.be
> >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > _______________________________________________
> >Linux-bruxelles :
> >Èchanger, partager, s'informer par mails sur toute action,
> >proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> >
> >Linux-bruxelles at lists.bxlug.be
> >https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> >
> > _______________________________________________
> >Linux-bruxelles :
> >Èchanger, partager, s'informer par mails sur toute action,
> >proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> >
> >Linux-bruxelles at lists.bxlug.be
> >https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> >
> >
> >
> >Links:
> >------
> >[1] https://www.tabs4acoustic.com
> >[2] https://www.tabs4acoustic.com/
> >[3] http://www.tabs4acoustic.com/index.html
> >[4] https://www.tabs4acoustic.com/robots.txt
> >[5] http://www.tabs4acoustic.com/robots.txt
> >[6] https://www.tabs4acoustic.com/images/favicon.ico
> >[7] http://www.tabs4acoustic.com/images/favicon.ico
> >[8]
> >https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >[9]
> >http://www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> >[10] https://www.tabs4acoustic.com/rss/fr/t4a.xml
> >[11] http://www.tabs4acoustic.com/rss/fr/t4a.xml
> >[12] https://www.tabs4acoustic.com/rss/fr/forums.xml
> >[13] http://www.tabs4acoustic.com/rss/fr/forums.xml
> >[14] https://www.tabs4acoustic.com/flux-rss.html
> >[15] http://www.tabs4acoustic.com/flux-rss.html
> >[16] https://www.tabs4acoustic.com/images/design/t4a_img.gif
> >[17] http://www.tabs4acoustic.com/images/design/t4a_img.gif
> >[18] https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >[19] http://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> >[20] https://www.tabs4acoustic.com/recherche-t4a.html
> >[21] http://www.tabs4acoustic.com/recherche-t4a.html
> >[22] https://www.tabs4acoustic.com/images/design/t4a_mobile.png
> >[23] http://www.tabs4acoustic.com/images/design/t4a_mobile.png
> >[24] https://www.tabs4acoustic.com/cours-guitare/
> >[25] http://www.tabs4acoustic.com/cours-guitare/index.html
> >[26] https://www.tabs4acoustic.com/cours-guitare/theorie.html
> >[27] http://www.tabs4acoustic.com/cours-guitare/theorie.html
> >[28] https://www.tabs4acoustic.com/cours-guitare/technique.html
> >[29] http://www.tabs4acoustic.com/cours-guitare/technique.html
> >[30] https://www.tabs4acoustic.com/cours-guitare/lutherie.html
> >[31] http://www.tabs4acoustic.com/cours-guitare/lutherie.html
> >[32] https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> >[33] http://www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> >[34]
> >https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
> >[35] http://www.olympusconsulting.eu/
> >[36] http://tabs4acoustic.om/
> >[37] http://www.bxlug.be/?Nos-statuts
> >[38] https://listes.domainepublic.net/listinfo/linux-bruxelles
> >
> >_______________________________________________
> >Linux-bruxelles :
> >Èchanger, partager, s'informer par mails sur toute action, proposition
> >accordée avec: http://www.bxlug.be/?Nos-statuts
> >
> >Linux-bruxelles at lists.bxlug.be
> >https://listes.domainepublic.net/listinfo/linux-bruxelles
> _______________________________________________
> Linux-bruxelles :
> Èchanger, partager, s'informer par mails sur toute action, proposition accordée avec: http://www.bxlug.be/?Nos-statuts
> 
> Linux-bruxelles at lists.bxlug.be
> https://listes.domainepublic.net/listinfo/linux-bruxelles
> 

-- 
  |  Verstuurd vanaf mijn GNU/Linux  |  Envoyé de mon GNU/Linux  | 
  |  -----------------  Sent from GNU/Linux  ------------------  | 



Plus d'informations sur la liste de diffusion Linux-bruxelles