[Linux-bruxelles] Indexation de documents

Eric Hanuise ehanuise at fantasybel.net
Mer 5 Mai 22:13:27 CEST 2004


Stephane Wirtel wrote:
> Salut à tous, 
> 
> J'ai fais une recherche sur un thème très spécial, l'indexation de
> documents words,excel, etc... pour la société dans laquelle je fais mon
> stage. Le petit problème que j'ai constaté, est que je n'ai trouvé que
> des solutions propriétaires.
> 
> Est-ce que quelqu'un aurait-il déjà eu une solution de ce style, qui
> permettrait d'indéxer des documents, et d'en faire un résumé ( dans le
> cas de PDF, ou DOC).
> 
> J'ai une idée, cela serait d'employer du Java ou C++ avec le SDK
> d'OpenOffice. Mais avant de m'amuser avec cela, je voulais savoir si
> quelqu'un a déjà eu ce genre de probleme à résoudre.
> 
> A+ 
> 
> Stef
> 


j'ai implémenté un truc du genre au boulot, mais c'est bricolé :
en gros, tous les documents sont accessibles sur un site web.
Ils sont traduits en html (doc2html, pdf2html, .......) au vol lors de 
l'indexation par htdig, qui est utilisé pour les recherches.

Ca fonctionne bien pour des documents statiques, mais comme on commence 
a avoir des documents qui changent souvent et qu'on veut ajouter une 
gestion des permissions sur le tout, on va passer a un index server e 
chez billou, ca sera moins cher que de developper un truc.

Si tu veux je peux demander la permission de te donner une copie des 
scripts utilisés, mais c'est assez trivial comme implémentation.


-- 
----------------------------------------------------------------------
    Eric Hanuise - ehanuise at fantasybel dot net
                 "If it works, don't fix it"
----------------------------------------------------------------------
  ()  ascii ribbon campaign - against html mail
  /\         - against microsoft attachments

Why HTML in E-Mail is a Bad Idea
http://www.birdhouse.org/etc/evilmail.html




Plus d'informations sur la liste de diffusion Linux-bruxelles