[Linux-bruxelles] problème avec wget -m et faire une copie pour consultation offline d'un site web

Depuydt, Patrick patrick at htag2.com
Dim 17 Mar 11:44:37 CET 2019


>
> Je ne comprends pas bien pourquoi les webmasters empêchent ou "bloquent"
> ainsi un accès en fonctio nde ton outil et ou navigateur


La raison est bien simple:
- Tous les navigateurs ne supportent pas les mêmes fonctions
- Les navigateurs ont un parsage du CSS/HTML qui peut être différent
- Certaines zones de sites peuvent être reservés à des utilisateurs
particuliers

Mais, la vraie raison est:
*On ne souhaite pas qu'un outil particulier vienne sur le site* soit:
- *pour le pomper*, car du coup on gagne plus d'argent avec les pubs et/ou
partenaires et du coup c'est plus dur de le maintenir et/ou développer; en
gros ça s'apperente un peu à du vol
- ça *évite les DDOS* provoqués par un outil qui demanderait trop à
l'infrastructure qui soutient le site.

Après y'a toutes les raisons statistiques etc. bref,...

@++


On Sun, Mar 17, 2019 at 11:03 AM Aldo <info at brlspeak.net> wrote:

> Coucou,
>
> merci pour tous ces bons conseils;
> j'ai fait wget -m -r -U lynx http://www.tabs4acoustic.com/ et en effet il
> repioche tout le site; ça permet dans mon cas de pouvoir mieux consulter la
> liste d'accords mis en ligne, sans devoir passer par leur moteur de
> recherche sur le site, je gagne bcp de temps.
> Parcontre ça met bcp de temps à tout télécharger alors que j'avais
> l'impression en lisant le flux wget pplus bas dans le fil, qu'il n'y en
> avait que pour qqs 17 MB.
> Je ne comprends pas bien pourquoi les webmasters empêchent ou "bloquent"
> ainsi un accès en fonctio nde ton outil et ou navigateur: n'es-ce pas plus
> logique que le contenu publié sur le net soit accessible à un maximum de
> personnes ?!
>
> Bon dimanche,
>
> Aldo.
>
> On Sat, Mar 16, 2019 at 09:34:09PM +0100, Fredux wrote:
> > woaw.. belle soluce..!
> > Ça vaudrait le coup d'en faire un ptit résumé d'article à publier dans la
> > rubriques truc zé astuces du bxlug.be :
> > -ça alimente le contenu
> > -ça remplit la rubriques peu à peu
> > -ça se retrouve plus facilement que dans les mails (je parle pour moi,
> ok !)
> >
> > Merci à l'équipe et toutes mes amitiés à vos neurones..
> >
> >
> > Bon week-end,
> > Fred
> >
> >
> >
> > Le 2019-03-11 17:15, Depuydt, Patrick a écrit :
> > >J'ai pas lu le man récemment, c'est juste que je l'ai dans les doigts
> > >comme ça depuis des années :)
> > >++
> > >
> > >On Mon, Mar 11, 2019 at 4:45 PM Manuel Schulte
> > ><manuel.schulte at gmail.com> wrote:
> > >
> > >>Bien vu pour le user_agent, j'y avais pas pensé... Par contre pour
> > >>le RTFM... Si tu avais bien lu, en utilisant -m (mirror), tu n'as
> > >>pas besoin de -r ...
> > >>
> > >>En outre l'argument pour passer le user_agent est -U <user agent
> > >>string> ou --user-agent=<user agent string>...
> > >>
> > >>A++
> > >>
> > >>Le lun. 4 mars 2019 à 10:37, Depuydt, Patrick <patrick at htag2.com> a
> > >>écrit :
> > >>
> > >>Bon les mecs,
> > >>
> > >>Un peu de bon sens, réfléchissons ensemble:
> > >>1) wget ce n'est pas un client web.
> > >>2) Les sites peuvent savoir quel programme se connecte à un serveur
> > >>web (c'est ce qu'on appelle le USER_AGENT)
> > >>3) Il y a moyen de "faker" ce USER_AGENT
> > >>4) La pluspart des blocages de bots se fait justement grâce à ce
> > >>user agent
> > >>
> > >>Alors comment qu'on fait ?
> > >>
> > >>voici la formule magique (je vous renvoie au 'man wget' pour plus
> > >>d'infos):
> > >>
> > >>#~: wget -r -m --header="User-Agent: Mozilla/5.0 (Windows NT 5.1;
> > >>rv:23.0) Gecko/20100101 Firefox/23.0" https://www.tabs4acoustic.com
> > >>[1]
> > >>
> > >>Resultat:
> > >>
> > >>[myuser at localhost ~]$ wget -m -r https://www.tabs4acoustic.com [1]
> > >>--header="User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0)
> > >>Gecko/20100101 Firefox/23.0"
> > >>--2019-03-04 10:01:02-- https://www.tabs4acoustic.com/ [2]
> > >>Resolving ****proxy_address**** (****proxy_address****)...
> > >>XXX.XXX.XXX.XXX
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Last-modified header missing -- time-stamps turned off.
> > >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/ [2]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/index.html [3]’
> > >>
> > >>[ <=>
> > >>] 45,854 --.-K/s in 0.01s
> > >>
> > >>2019-03-04 10:01:03 (2.92 MB/s) -
> > >>‘www.tabs4acoustic.com/index.html [3]’ saved [45854]
> > >>
> > >>Loading robots.txt; please ignore errors.
> > >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/robots.txt
> > >>[4]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 154 [text/plain]
> > >>Saving to: ‘www.tabs4acoustic.com/robots.txt [5]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>154 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (17.4 MB/s) -
> > >>‘www.tabs4acoustic.com/robots.txt [5]’ saved [154/154]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>https://www.tabs4acoustic.com/images/favicon.ico [6]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 1150 (1.1K) [image/x-icon]
> > >>Saving to: ‘www.tabs4acoustic.com/images/favicon.ico [7]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>1,150 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (131 MB/s) -
> > >>‘www.tabs4acoustic.com/images/favicon.ico [7]’ saved [1150/1150]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>
> > >
> https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >>[8]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 125749 (123K) [text/css]
> > >>Saving to:
> > >>
> > >‘
> www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >>[9]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>125,749 --.-K/s in 0.03s
> > >>
> > >>2019-03-04 10:01:03 (3.78 MB/s) -
> > >>
> > >‘
> www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >>[9]’ saved [125749/125749]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>https://www.tabs4acoustic.com/rss/fr/t4a.xml [10]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 17031 (17K) [application/xml]
> > >>Saving to: ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>17,031 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (155 MB/s) -
> > >>‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’ saved [17031/17031]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>https://www.tabs4acoustic.com/rss/fr/forums.xml [12]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 244 [application/xml]
> > >>Saving to: ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>244 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (26.2 MB/s) -
> > >>‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’ saved [244/244]
> > >>
> > >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/flux-rss.html
> > >>[14]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/flux-rss.html [15]’
> > >>
> > >>[ <=>
> > >>] 31,548 --.-K/s in 0.003s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:04 (9.56 MB/s) -
> > >>‘www.tabs4acoustic.com/flux-rss.html [15]’ saved [31548]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/images/design/t4a_img.gif [16]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 43 [image/gif]
> > >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_img.gif
> > >>[17]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>43 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:04 (4.74 MB/s) -
> > >>‘www.tabs4acoustic.com/images/design/t4a_img.gif [17]’ saved
> > >>[43/43]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >>[18]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 13490 (13K) [image/png]
> > >>Saving to:
> > >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >>[19]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>13,490 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:04 (212 MB/s) -
> > >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >>[19]’ saved [13490/13490]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/recherche-t4a.html [20]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/recherche-t4a.html [21]’
> > >>
> > >>[ <=>
> > >>] 91,363 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:04 (3.74 MB/s) -
> > >>‘www.tabs4acoustic.com/recherche-t4a.html [21]’ saved [91363]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/images/design/t4a_mobile.png [22]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 1717 (1.7K) [image/png]
> > >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_mobile.png
> > >>[23]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>1,717 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:04 (175 MB/s) -
> > >>‘www.tabs4acoustic.com/images/design/t4a_mobile.png [23]’ saved
> > >>[1717/1717]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/cours-guitare/ [24]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’
> > >>
> > >>[ <=>
> > >>] 36,123 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:04 (2.18 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/index.html [25]’ saved
> > >>[36123]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/cours-guitare/theorie.html [26]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/theorie.html
> > >>[27]’
> > >>
> > >>[ <=>
> > >>] 69,973 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (3.19 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/theorie.html [27]’ saved
> > >>[69973]
> > >>
> > >>--2019-03-04 10:01:05--
> > >>https://www.tabs4acoustic.com/cours-guitare/technique.html [28]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/technique.html
> > >>[29]’
> > >>
> > >>[ <=>
> > >>] 56,393 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (3.56 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/technique.html [29]’ saved
> > >>[56393]
> > >>
> > >>--2019-03-04 10:01:05--
> > >>https://www.tabs4acoustic.com/cours-guitare/lutherie.html [30]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/lutherie.html
> > >>[31]’
> > >>
> > >>[ <=>
> > >>] 37,164 --.-K/s in 0.003s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (10.7 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/lutherie.html [31]’ saved
> > >>[37164]
> > >>
> > >>--2019-03-04 10:01:05--
> > >>https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html [32]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> > >>[33]’
> > >>
> > >>[ <=>
> > >>] 36,074 --.-K/s in 0.003s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (10.7 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html [33]’
> > >>saved [36074]
> > >>
> > >>[...]
> > >>
> > >>Et voilà, le tour est joué,... j'ai pas fait un clone complet non
> > >>plus, je ne sait pas si il vas vraiment tout copier mais bon en tout
> > >>cas il à l'air de le faire...
> > >>
> > >>Bien à la liste,...
> > >>
> > >>Je ne le répète à chaque fois mait TOUT EST ECRIT ! RTFM ! :)
> > >>
> > >>@pluche
> > >>
> > >>On Sat, Mar 2, 2019 at 6:19 PM Manuel Schulte
> > >><manuel.schulte at gmail.com> wrote:
> > >>
> > >>Aldo,
> > >>
> > >>Le site est en https, pas en http. En http, le site ne répond même
> > >>pas...
> > >>Maintenant, j'ai essayé et comme toi, wget ne récupère qu'une
> > >>seule page, index.html dont le contenu est "DTC"...
> > >>Comme informaticien, ces 3 lettres me parlent... pour moi cela veut
> > >>dire "Dans Ton Cul"... en d'autres termes, le site ne se laisse pas
> > >>télécharger par un "web scaper" comme wget ou autre.
> > >>
> > >>Plus sérieusement, il y a selon moi plusieurs hypothèses pour
> > >>expliquer cela: primo, wget. D'après la man page, il respecte les
> > >>instructions contenues dans le fichier robots.txt des sites qu'il
> > >>parcourt. Si ce fichier contient des directives lui interdisant de
> > >>ne pas suivre les liens, etc. cela expliquerait pourquoi wget ne
> > >>télécharge rien d'autre qu'une page index.html (en général la
> > >>page d'accueil par défaut). En outre, wget ne parcourra que le site
> > >>du domaine spécifié, si le reste du site est sous un autre
> > >>domaine, il ne sera pas téléchargé.
> > >>Tu peux essayer --span-hosts ou -H, -rH, mais c'est dangereux car tu
> > >>pourrais te retrouver à télécharger récursivement tout le
> > >>contenu d'internet sur ta machine...
> > >>détails ici:
> > >>
> > >
> https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
> > >>[34]
> > >>
> > >>A toi d'expérimenter un peu...
> > >>Bonne chance et à++
> > >>
> > >>Manuel SCHULTE
> > >>MANAGING DIRECTOR, OLYMPUS CONSULTING SPRLGSM : +32(0)498 881 718
> > >>MAIL : manuel.schulte at olympusconsulting.eu
> > >>WEB : http://www.olympusconsulting.eu/ [35]
> > >>
> > >>Le jeu. 28 févr. 2019 à 10:54, Aldo <info at brlspeak.net> a écrit :
> > >>Bonjour à vous tous.
> > >>
> > >>Je voudrais savoir ce qui aurait changé avec wget, je n'arrive en
> > >>effet plus
> > >>du tout à télécharger une copie d'un site, que ce soit en
> > >>utilisant l'option
> > >>-m ou sa formulation --mirror.
> > >>
> > >>Je viens de lire un HowTo plus explicite, avec bcp plus d'options,
> > >>eh bien
> > >>il ne veut tj rien faire,
> > >>se contente de repiocher la page index.html, c tout.
> > >>
> > >>Qq'un a une piste svp ?
> > >>Voir un autre outil que wget ?
> > >>
> > >>Sinon, je fais: wget -m http://tabs4acoustic.om/ [36]
> > >>(ou https://... mais ça ne change rien).
> > >>
> > >>Note: pour accéder à une info (ici un accord x ou y) j'ai déjà
> > >>recours
> > >>obligatoire au lien In Cache du moteur de recherche, sinon même là
> > >>j'oublies.
> > >>Es-ce dû à Lynx ? Un ami m'indique qu'avec Firefox lui non plus
> > >>n'a pas
> > >>accès au site.
> > >>
> > >>Vos lumières seront la bienvenue!
> > >>
> > >>Amicalement,
> > >>
> > >>Aldo.
> > >>
> > >>_______________________________________________
> > >>Linux-bruxelles :
> > >>Èchanger, partager, s'informer par mails sur toute action,
> > >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> > >>
> > >>Linux-bruxelles at lists.bxlug.be
> > >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > >>
> > >>_______________________________________________
> > >>Linux-bruxelles :
> > >>Èchanger, partager, s'informer par mails sur toute action,
> > >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> > >>
> > >>Linux-bruxelles at lists.bxlug.be
> > >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > > _______________________________________________
> > >Linux-bruxelles :
> > >Èchanger, partager, s'informer par mails sur toute action,
> > >proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> > >
> > >Linux-bruxelles at lists.bxlug.be
> > >https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > >
> > >Le lun. 4 mars 2019 à 10:37, Depuydt, Patrick <patrick at htag2.com> a
> > >écrit :
> > >
> > >>Bon les mecs,
> > >>
> > >>Un peu de bon sens, réfléchissons ensemble:
> > >>1) wget ce n'est pas un client web.
> > >>2) Les sites peuvent savoir quel programme se connecte à un serveur
> > >>web (c'est ce qu'on appelle le USER_AGENT)
> > >>3) Il y a moyen de "faker" ce USER_AGENT
> > >>4) La pluspart des blocages de bots se fait justement grâce à ce
> > >>user agent
> > >>
> > >>Alors comment qu'on fait ?
> > >>
> > >>voici la formule magique (je vous renvoie au 'man wget' pour plus
> > >>d'infos):
> > >>
> > >>#~: wget -r -m --header="User-Agent: Mozilla/5.0 (Windows NT 5.1;
> > >>rv:23.0) Gecko/20100101 Firefox/23.0" https://www.tabs4acoustic.com
> > >>[1]
> > >>
> > >>Resultat:
> > >>
> > >>[myuser at localhost ~]$ wget -m -r https://www.tabs4acoustic.com [1]
> > >>--header="User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:23.0)
> > >>Gecko/20100101 Firefox/23.0"
> > >>--2019-03-04 10:01:02-- https://www.tabs4acoustic.com/ [2]
> > >>Resolving ****proxy_address**** (****proxy_address****)...
> > >>XXX.XXX.XXX.XXX
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Last-modified header missing -- time-stamps turned off.
> > >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/ [2]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/index.html [3]’
> > >>
> > >>[ <=>
> > >>] 45,854 --.-K/s in 0.01s
> > >>
> > >>2019-03-04 10:01:03 (2.92 MB/s) -
> > >>‘www.tabs4acoustic.com/index.html [3]’ saved [45854]
> > >>
> > >>Loading robots.txt; please ignore errors.
> > >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/robots.txt
> > >>[4]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 154 [text/plain]
> > >>Saving to: ‘www.tabs4acoustic.com/robots.txt [5]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>154 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (17.4 MB/s) -
> > >>‘www.tabs4acoustic.com/robots.txt [5]’ saved [154/154]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>https://www.tabs4acoustic.com/images/favicon.ico [6]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 1150 (1.1K) [image/x-icon]
> > >>Saving to: ‘www.tabs4acoustic.com/images/favicon.ico [7]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>1,150 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (131 MB/s) -
> > >>‘www.tabs4acoustic.com/images/favicon.ico [7]’ saved [1150/1150]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>
> > >
> https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >>[8]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 125749 (123K) [text/css]
> > >>Saving to:
> > >>
> > >‘
> www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >>[9]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>125,749 --.-K/s in 0.03s
> > >>
> > >>2019-03-04 10:01:03 (3.78 MB/s) -
> > >>
> > >‘
> www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >>[9]’ saved [125749/125749]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>https://www.tabs4acoustic.com/rss/fr/t4a.xml [10]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 17031 (17K) [application/xml]
> > >>Saving to: ‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>17,031 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (155 MB/s) -
> > >>‘www.tabs4acoustic.com/rss/fr/t4a.xml [11]’ saved [17031/17031]
> > >>
> > >>--2019-03-04 10:01:03--
> > >>https://www.tabs4acoustic.com/rss/fr/forums.xml [12]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 244 [application/xml]
> > >>Saving to: ‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>244 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:03 (26.2 MB/s) -
> > >>‘www.tabs4acoustic.com/rss/fr/forums.xml [13]’ saved [244/244]
> > >>
> > >>--2019-03-04 10:01:03-- https://www.tabs4acoustic.com/flux-rss.html
> > >>[14]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/flux-rss.html [15]’
> > >>
> > >>[ <=>
> > >>] 31,548 --.-K/s in 0.003s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:04 (9.56 MB/s) -
> > >>‘www.tabs4acoustic.com/flux-rss.html [15]’ saved [31548]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/images/design/t4a_img.gif [16]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 43 [image/gif]
> > >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_img.gif
> > >>[17]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>43 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:04 (4.74 MB/s) -
> > >>‘www.tabs4acoustic.com/images/design/t4a_img.gif [17]’ saved
> > >>[43/43]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >>[18]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 13490 (13K) [image/png]
> > >>Saving to:
> > >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >>[19]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>13,490 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:04 (212 MB/s) -
> > >>‘www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >>[19]’ saved [13490/13490]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/recherche-t4a.html [20]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/recherche-t4a.html [21]’
> > >>
> > >>[ <=>
> > >>] 91,363 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:04 (3.74 MB/s) -
> > >>‘www.tabs4acoustic.com/recherche-t4a.html [21]’ saved [91363]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/images/design/t4a_mobile.png [22]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: 1717 (1.7K) [image/png]
> > >>Saving to: ‘www.tabs4acoustic.com/images/design/t4a_mobile.png
> > >>[23]’
> > >>
> > >>
> >
> >100%[===========================================================================>]
> > >>1,717 --.-K/s in 0s
> > >>
> > >>2019-03-04 10:01:04 (175 MB/s) -
> > >>‘www.tabs4acoustic.com/images/design/t4a_mobile.png [23]’ saved
> > >>[1717/1717]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/cours-guitare/ [24]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/index.html [25]’
> > >>
> > >>[ <=>
> > >>] 36,123 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:04 (2.18 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/index.html [25]’ saved
> > >>[36123]
> > >>
> > >>--2019-03-04 10:01:04--
> > >>https://www.tabs4acoustic.com/cours-guitare/theorie.html [26]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/theorie.html
> > >>[27]’
> > >>
> > >>[ <=>
> > >>] 69,973 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (3.19 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/theorie.html [27]’ saved
> > >>[69973]
> > >>
> > >>--2019-03-04 10:01:05--
> > >>https://www.tabs4acoustic.com/cours-guitare/technique.html [28]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/technique.html
> > >>[29]’
> > >>
> > >>[ <=>
> > >>] 56,393 --.-K/s in 0.02s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (3.56 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/technique.html [29]’ saved
> > >>[56393]
> > >>
> > >>--2019-03-04 10:01:05--
> > >>https://www.tabs4acoustic.com/cours-guitare/lutherie.html [30]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/lutherie.html
> > >>[31]’
> > >>
> > >>[ <=>
> > >>] 37,164 --.-K/s in 0.003s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (10.7 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/lutherie.html [31]’ saved
> > >>[37164]
> > >>
> > >>--2019-03-04 10:01:05--
> > >>https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html [32]
> > >>Connecting to ****proxy_address****
> > >>(****proxy_address****)|XXX.XXX.XXX.XXX|:xxxx... connected.
> > >>Proxy request sent, awaiting response... 200 OK
> > >>Length: unspecified [text/html]
> > >>Saving to: ‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> > >>[33]’
> > >>
> > >>[ <=>
> > >>] 36,074 --.-K/s in 0.003s
> > >>
> > >>Last-modified header missing -- time-stamps turned off.
> > >>2019-03-04 10:01:05 (10.7 MB/s) -
> > >>‘www.tabs4acoustic.com/cours-guitare/faq-debuter.html [33]’
> > >>saved [36074]
> > >>
> > >>[...]
> > >>
> > >>Et voilà, le tour est joué,... j'ai pas fait un clone complet non
> > >>plus, je ne sait pas si il vas vraiment tout copier mais bon en tout
> > >>cas il à l'air de le faire...
> > >>
> > >>Bien à la liste,...
> > >>
> > >>Je ne le répète à chaque fois mait TOUT EST ECRIT ! RTFM ! :)
> > >>
> > >>@pluche
> > >>
> > >>On Sat, Mar 2, 2019 at 6:19 PM Manuel Schulte
> > >><manuel.schulte at gmail.com> wrote:
> > >>
> > >>Aldo,
> > >>
> > >>Le site est en https, pas en http. En http, le site ne répond même
> > >>pas...
> > >>Maintenant, j'ai essayé et comme toi, wget ne récupère qu'une
> > >>seule page, index.html dont le contenu est "DTC"...
> > >>Comme informaticien, ces 3 lettres me parlent... pour moi cela veut
> > >>dire "Dans Ton Cul"... en d'autres termes, le site ne se laisse pas
> > >>télécharger par un "web scaper" comme wget ou autre.
> > >>
> > >>Plus sérieusement, il y a selon moi plusieurs hypothèses pour
> > >>expliquer cela: primo, wget. D'après la man page, il respecte les
> > >>instructions contenues dans le fichier robots.txt des sites qu'il
> > >>parcourt. Si ce fichier contient des directives lui interdisant de
> > >>ne pas suivre les liens, etc. cela expliquerait pourquoi wget ne
> > >>télécharge rien d'autre qu'une page index.html (en général la
> > >>page d'accueil par défaut). En outre, wget ne parcourra que le site
> > >>du domaine spécifié, si le reste du site est sous un autre
> > >>domaine, il ne sera pas téléchargé.
> > >>Tu peux essayer --span-hosts ou -H, -rH, mais c'est dangereux car tu
> > >>pourrais te retrouver à télécharger récursivement tout le
> > >>contenu d'internet sur ta machine...
> > >>détails ici:
> > >>
> > >
> https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
> > >>[34]
> > >>
> > >>A toi d'expérimenter un peu...
> > >>Bonne chance et à++
> > >>
> > >>Manuel SCHULTE
> > >>MANAGING DIRECTOR, OLYMPUS CONSULTING SPRLGSM : +32(0)498 881 718
> > >>MAIL : manuel.schulte at olympusconsulting.eu
> > >>WEB : http://www.olympusconsulting.eu/ [35]
> > >>
> > >>Le jeu. 28 févr. 2019 à 10:54, Aldo <info at brlspeak.net> a écrit :
> > >>Bonjour à vous tous.
> > >>
> > >>Je voudrais savoir ce qui aurait changé avec wget, je n'arrive en
> > >>effet plus
> > >>du tout à télécharger une copie d'un site, que ce soit en
> > >>utilisant l'option
> > >>-m ou sa formulation --mirror.
> > >>
> > >>Je viens de lire un HowTo plus explicite, avec bcp plus d'options,
> > >>eh bien
> > >>il ne veut tj rien faire,
> > >>se contente de repiocher la page index.html, c tout.
> > >>
> > >>Qq'un a une piste svp ?
> > >>Voir un autre outil que wget ?
> > >>
> > >>Sinon, je fais: wget -m http://tabs4acoustic.om/ [36]
> > >>(ou https://... mais ça ne change rien).
> > >>
> > >>Note: pour accéder à une info (ici un accord x ou y) j'ai déjà
> > >>recours
> > >>obligatoire au lien In Cache du moteur de recherche, sinon même là
> > >>j'oublies.
> > >>Es-ce dû à Lynx ? Un ami m'indique qu'avec Firefox lui non plus
> > >>n'a pas
> > >>accès au site.
> > >>
> > >>Vos lumières seront la bienvenue!
> > >>
> > >>Amicalement,
> > >>
> > >>Aldo.
> > >>
> > >>_______________________________________________
> > >>Linux-bruxelles :
> > >>Èchanger, partager, s'informer par mails sur toute action,
> > >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> > >>
> > >>Linux-bruxelles at lists.bxlug.be
> > >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > >>
> > >>_______________________________________________
> > >>Linux-bruxelles :
> > >>Èchanger, partager, s'informer par mails sur toute action,
> > >>proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> > >>
> > >>Linux-bruxelles at lists.bxlug.be
> > >>https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > > _______________________________________________
> > >Linux-bruxelles :
> > >Èchanger, partager, s'informer par mails sur toute action,
> > >proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> > >
> > >Linux-bruxelles at lists.bxlug.be
> > >https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > >
> > > _______________________________________________
> > >Linux-bruxelles :
> > >Èchanger, partager, s'informer par mails sur toute action,
> > >proposition accordée avec: http://www.bxlug.be/?Nos-statuts [37]
> > >
> > >Linux-bruxelles at lists.bxlug.be
> > >https://listes.domainepublic.net/listinfo/linux-bruxelles [38]
> > >
> > >
> > >
> > >Links:
> > >------
> > >[1] https://www.tabs4acoustic.com
> > >[2] https://www.tabs4acoustic.com/
> > >[3] http://www.tabs4acoustic.com/index.html
> > >[4] https://www.tabs4acoustic.com/robots.txt
> > >[5] http://www.tabs4acoustic.com/robots.txt
> > >[6] https://www.tabs4acoustic.com/images/favicon.ico
> > >[7] http://www.tabs4acoustic.com/images/favicon.ico
> > >[8]
> > >
> https://www.tabs4acoustic.com/min/?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >[9]
> > >
> http://www.tabs4acoustic.com/min/index.html?b=css&f=main.css,foundation.min.css,menu.css,resp.css,smartbanner.css
> > >[10] https://www.tabs4acoustic.com/rss/fr/t4a.xml
> > >[11] http://www.tabs4acoustic.com/rss/fr/t4a.xml
> > >[12] https://www.tabs4acoustic.com/rss/fr/forums.xml
> > >[13] http://www.tabs4acoustic.com/rss/fr/forums.xml
> > >[14] https://www.tabs4acoustic.com/flux-rss.html
> > >[15] http://www.tabs4acoustic.com/flux-rss.html
> > >[16] https://www.tabs4acoustic.com/images/design/t4a_img.gif
> > >[17] http://www.tabs4acoustic.com/images/design/t4a_img.gif
> > >[18] https://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >[19] http://www.tabs4acoustic.com/images/android_accordeur_guitare.png
> > >[20] https://www.tabs4acoustic.com/recherche-t4a.html
> > >[21] http://www.tabs4acoustic.com/recherche-t4a.html
> > >[22] https://www.tabs4acoustic.com/images/design/t4a_mobile.png
> > >[23] http://www.tabs4acoustic.com/images/design/t4a_mobile.png
> > >[24] https://www.tabs4acoustic.com/cours-guitare/
> > >[25] http://www.tabs4acoustic.com/cours-guitare/index.html
> > >[26] https://www.tabs4acoustic.com/cours-guitare/theorie.html
> > >[27] http://www.tabs4acoustic.com/cours-guitare/theorie.html
> > >[28] https://www.tabs4acoustic.com/cours-guitare/technique.html
> > >[29] http://www.tabs4acoustic.com/cours-guitare/technique.html
> > >[30] https://www.tabs4acoustic.com/cours-guitare/lutherie.html
> > >[31] http://www.tabs4acoustic.com/cours-guitare/lutherie.html
> > >[32] https://www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> > >[33] http://www.tabs4acoustic.com/cours-guitare/faq-debuter.html
> > >[34]
> > >
> https://stackoverflow.com/questions/15434173/wget-downloads-only-one-index-html-file-instead-of-other-some-500-html-files
> > >[35] http://www.olympusconsulting.eu/
> > >[36] http://tabs4acoustic.om/
> > >[37] http://www.bxlug.be/?Nos-statuts
> > >[38] https://listes.domainepublic.net/listinfo/linux-bruxelles
> > >
> > >_______________________________________________
> > >Linux-bruxelles :
> > >Èchanger, partager, s'informer par mails sur toute action, proposition
> > >accordée avec: http://www.bxlug.be/?Nos-statuts
> > >
> > >Linux-bruxelles at lists.bxlug.be
> > >https://listes.domainepublic.net/listinfo/linux-bruxelles
> > _______________________________________________
> > Linux-bruxelles :
> > Èchanger, partager, s'informer par mails sur toute action, proposition
> accordée avec: http://www.bxlug.be/?Nos-statuts
> >
> > Linux-bruxelles at lists.bxlug.be
> > https://listes.domainepublic.net/listinfo/linux-bruxelles
> >
>
> --
>   |  Verstuurd vanaf mijn GNU/Linux  |  Envoyé de mon GNU/Linux  |
>   |  -----------------  Sent from GNU/Linux  ------------------  |
> _______________________________________________
> Linux-bruxelles :
> Èchanger, partager, s'informer par mails sur toute action, proposition
> accordée avec: http://www.bxlug.be/?Nos-statuts
>
> Linux-bruxelles at lists.bxlug.be
> https://listes.domainepublic.net/listinfo/linux-bruxelles
>
>
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: </pipermail/linux-bruxelles/attachments/20190317/7d116cca/attachment-0002.html>


Plus d'informations sur la liste de diffusion Linux-bruxelles