[Linux-bruxelles] Google(r) et les ML

Emmanuel Di Pretoro edipreto at ulb.ac.be
Sam 29 Juin 23:21:45 CEST 2002


>Thibault Richard a écrit :
>> 
>> Est-ce qu'il ne suffit pas de mettre un fichier robots.txt qui explicite ce
>> qui ne doit pas être indexé ?
>
>en général c'est vrai pour les moteurs de recherches classiques. Mais je
>crois que google ne suit pas cette procédure car il suit les liens de
>pages en pages plutôt que de pomper tout ce qu'il peut d'un site. (je
>crois me souvenir avoir lu cela quelque part mais je ne sais plus ou...)
>

La plupart des bons crawlers essayent d'éviter de surcharger un serveur web en l'aspirant d'un coup, des stratégies sont donc mises en place pour prendre en premier les pages intéressantes. Ils constituent leurs bases de données de liens en parsant les documents téléchargés et en extrayant les liens présents dans les documents. Donc tous les crawlers naviguent de pages en pages ! La stratégie de Google consiste à déterminer quelles sont les pages pivots, il réalise cette analyse en se basant sur l'analyse des citations (bien connu des chercheurs, le fameux "publier ou mourir"). 

Mais pour se recadrer sur la demande initiale, il suffit d'un fichier robot.
txt pour interdire à un crawler d'indexer un répertoire. Il existe aussi une balise META en HTML, je ne retombe plus sur le nom exact, mais cela ressemble à un keyword 'robot', avec un nofollow.

Emmanuel Di Prétoro





Plus d'informations sur la liste de diffusion Linux-bruxelles