Recherche et mots vides
2006-10-13 #.net#ap#referencement
Hier, j'ai vu passer sur Blogmarks un lien vers un article pour construire un moteur de recherche avec Symfony. C'est l'occasion pour refaire un point sur les différentes pistes pour intégrer un moteur de recherche dans un site en ASP.NET :
- utiliser Lucene.Net, le portage de Lucene sous .NET : voir mojoPortal pour un exemple d'utilisation et l'article Full-Text Search for Your Intranet or Website using 37 Lines of Code,
- attendre de voir ce que va donner Nutch.Net, le portage de Nutch sous .NET : mais rien de rien pour l'instant,
- Searcharoo.NET : déjà testé sur PI et très simple à mettre en oeuvre mais pas vraiment efficace avec du contenu en français,
- essayer de bidouiller quelque chose à partir des sources de Beagle.
L'autre truc intéressant dans l'article sur Symfony, c'est les stops words (appelés mots vides en français), c'est à dire les mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. Dans PI, on en gère déjà empiriquement un certain nombre mais apparament, il existe des listes "officielles" :
- les French Stopwords sur Ranks.nl (serait la liste utilisée par les moteurs de recherche ?),
- la French stop word list du projet Snowball,
- une liste beaucoup plus complète des mots vides de Jean Veronis.
Et maintenant, la question qui se pose : si j'utilise des mots vides pour mon nom de domaine (ou mon titre de page, ou mon url...), est-ce que cela aura un impact sur mon référencement ? Est-ce qu'un nom de domaine tel que www.qui-quand-et-comment.com est viable ou est-ce que c'est une véritable hérésie ?