[Linux-bruxelles] Outils libres de rétroingénierie de pages Web?

Rémi Laurent remi.laurent at fsugar.be
Ven 17 Aou 19:19:18 CEST 2007


* Robert Viseur - 17-08-2007 à 16h18:

> Bonjour, 
> 
> Je voudrais savoir si vous connaissez des outils libres de rétroingénierie de pages Web HTML (càd extraction structurée; ex.: extraire le prix, le stock et le nom du produit dans une fiche produit). 
> 
> Mes langages d'intérêt sont le Java, le Python et le PHP. 
> 
> Cordialement, 
> RV. 

JQuery en Javascript : http://jquery.com/
WWW::Mechanize en Perl : http://search.cpan.org/dist/WWW-Mechanize/
Hpricot en Ruby : http://code.whytheluckystiff.net/hpricot/

Non c'est pas fait exprès, mais je connais que ces trois là de mémoire
et aucun ne 'correspond' apparemment. (bien qu'avec l'implémentation de
JRuby et la facilité d'usage de Hpricot ça pourrait être bien, pour
l'avoir utilisé je peux dire que c'est très agréable ;)).

Sinon en cherchant du côté de 'HTML parser' ça sort parfois de bons
résultats sur google^Wson moteur de recherche favori.
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 189 octets
Desc: Digital signature
URL: </pipermail/linux-bruxelles/attachments/20070817/c9bb0bf4/attachment-0001.sig>


Plus d'informations sur la liste de diffusion Linux-bruxelles