[Linux-bruxelles] Indexation de documents

Stan Pinte stanpinte at fastmail.fm
Jeu 6 Mai 09:31:27 CEST 2004


Stephane Wirtel wrote:

>>j'ai implémenté un truc du genre au boulot, mais c'est bricolé :
>>en gros, tous les documents sont accessibles sur un site web.
>>Ils sont traduits en html (doc2html, pdf2html, .......) au vol lors de 
>>l'indexation par htdig, qui est utilisé pour les recherches.
>>    
>>
>Je vais me renseigner sur htdig.
>  
>
>>Ca fonctionne bien pour des documents statiques, mais comme on commence 
>>a avoir des documents qui changent souvent et qu'on veut ajouter une 
>>gestion des permissions sur le tout, on va passer a un index server e 
>>chez billou, ca sera moins cher que de developper un truc.
>>    
>>
>Yep, je comprends.
>  
>

si il s'agit de sharepoint, je vous promets du plaisir. Et non, 
développer soi-même un truc n'est pas forcément plus cher, surtout en 
utilisant la myriade d'outils libres qui existent déja.

Je suis moi-même sur un projet qui utilise plusieurs tools (WvWare, etc) 
pour transformer les .doc, .xls, .ppt, .pdf, .html en texte, puis de les 
indexer. ça marche super.

je peux donner plus d'infos.

Stan.

>>Si tu veux je peux demander la permission de te donner une copie des 
>>scripts utilisés, mais c'est assez trivial comme implémentation.
>>    
>>
>Demande toujours, et tiens moi au courant, s'il te plait.
>
>Merci
>
>Stef
>  
>

-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 261 octets
Desc: OpenPGP digital signature
URL: </pipermail/linux-bruxelles/attachments/20040506/287ba1b5/attachment-0001.sig>


Plus d'informations sur la liste de diffusion Linux-bruxelles