[Linux-bruxelles] lynx et option pour ignorer les liens img (gif, png, jpg)

Aldo info at brlspeak.net
Jeu 10 Juil 13:55:52 CEST 2008


Yo,

On Thu, Jul 10, 2008 at 11:12:33AM +0200, Gildas Cotomale wrote:
> > j'aimerais que lynx lancé à la ligne de commande (ou script) ignore
> > complètement les liens vers les gif/png/jpg.
> >
> 
> ?
> euh...
> quel est le sens de la manoeuvre ? je m'explique : si tu ôte les
> informations liées au document, celui-ci perd une bonne partie de son
> sens..

Le but d'épurer ainsi les  [machin.jpg]  ou autres  [LINK]  du document 
web, ont pour but d'"entraîner" la synthèse vocale pour laquelle je contribue
via le projet http://mbrolization.blinuxman.net

Mon but est simple: faire lire à cette synthèse des sites, et voir si le
rendu est correct, ou s'il a progressé suite à des implémentations dans le
fichier rules.fr du phonétiseur (CiceroTTS)

ça ne fausse pas trop le jeu; c'est juste une possibilité. ça bypasse ainsi
les pointeurs gif, png ou jpg qui sur certains sites sont sans alt-tag.


> > J'ai essayé ce qui suit, mais là il affiche des [LINK] à la place des
> > [btn_arrow.01.gif] [btn_arrow.02.gif]
> > ce qui n'est pas mon but.
> >
> > Ma commande est:
> >  lynx -dump -nolist -noreferer http://m.net >/tmp/dest.txt
> 
> [btn_arrow.01.gif] [btn_arrow.02.gif]
> 
> > ou
> >  lynx -dump -nolist -noreferer -verbose=off http://m.net >/tmp/dest.txt
> 
> [LINK]
> 
> >
> 
> -dump : tu vas récupérer l'affichage écran (i.e. ton document html

> parsé) ..dans ton fichier

> -nolist : il ne va pas lister les liens en fin de document, ce qui est
> un peu dommage car on perd des informations

Ici ça n'est pas utile que la synthèse, une fois le document lu fasse la
littanie des urls, elle lit ma foie assez bien les urls.

> -norefere : il ne transmet pas les entêtes "Referer"..
> -verbose : active les commentaires [LINK], [IMAGE] et [INLINE] avec
> les noms de fichiers de ces images...

Dans le script que j'ai fait, j'ai finalement ajouté des lignes sed pour
supprimer les [LINK] et les remplacer par le mot IMAGE sans les crochets.

> -image_links : active l'inclusion de liens pour toutes les image, mais
> c'est le contraire de ce que tu recherches...

Oui et certaines options n'ont pas de modèle -option=on ou =off 

> > Suis-je sinon obligé d'éteindre l'option dans la conf O)ptions ?
> >
> Disons qu'il fallait commencer par là pour tester si tu pouvais
> obtenir ce que tu recherches. (images verbeuses désactivées affiche
> INLINE, ce qui correspond à ce que fait l'option -verbose)..

En fait j'ai testé en mettant l'option show images sur ignore mais sur le
site france-info.com je n'ia rien vu changer.
Avec sed on supprime plus facilement l'effet de l'option -verbose=off

> Dans le pire des cas, tu sauvegarde ton fichier de configuration
> habituel, tu règles les options qu'il te faut, et tu as un nouveau
> fichier de configuration qu'il ne te reste plus qu'à ranger au chaud.
> après, tu lances tes scripts en utilisant ce fichier grâce à l'option
> -cfg=NomDuFichierQuiVa

J'ai fait cela aussi mais pas d'effet escompté; le contenu de mon
/tmp/.lynxrc est:

INCLUDE:/etc/lynx.cfg
MAKE_PSEUDO_ALTS_FOR_INLINES:FALSE

> Il y a quand même un avantage avec l'option -verbose, c'est qu'avec
> ton éditeur de texte, tu peux supprimer d'un coup tous les [LINK],
> [IMAGE] et [INLINE] (action scriptable avec ed, sed, vi, awk, php,
> perl, ...)

Es-ce une erreur que de mettre -verbose=off, j'ai un doute là-dessus? 

Aldo.




Plus d'informations sur la liste de diffusion Linux-bruxelles