Comparaison de logiciels d'indexation et de recherche
Pourquoi?
- Pour retrouver l'information qui est dans chacun des systèmes qu'on utilise (rt/otrs, mantis, moinmoin, trac, drupal, mailing-lists, etc.)
- Pour chercher avant d'ajouter de l'information qui est déjà là
- Parce que nos ressources sont protégées et que google ne peut pas indexer tout ça
Logiciels disponibles
Je commence une revue des logiciels disponibles... C'est beaucoup moins beau que je pensais au départ, mais comme c'est pas un nouveau problème, il doit bien y avoir une solution. -- ScyrmAa 2006-09-16 16:07:29
Ce qu'on cherche
- Libre!
- Support utf8 et multilingue (au moins anglais/français)
- Support pour l'indexation de formats multiples : web (wiki/otrs/rt/ledger/...), mailing-lists, pdf, openoffice, office, etc. (irc? logfiles? ...)
- Interface web pour la recherche (et pour l'administration, si possible...)
- Un package debian
- Développement actif, ou au moins un support minimal s'il y a des bogues.
Htdig
Pros :
- Connu, testé, utilisé ...
- Indexe les sites protégés
- Package Debian
Cons :
- N'indexe pas les documents unicode/utf8 dans la dernière version.
- Développement au ralenti, si c'est pas mort. Les archives de la mailinglist font mention de la future version 4.0, mais rien de visible...
Open Web Spider
Pros :
- Développement actif
Cons :
L'interface web semble être à monter manuellement : http://www.openwebspider.org/openwebspider_php_example.php
- Pas de package Debian
Hyper Estraier
http://hyperestraier.sourceforge.net/
Namazu
http://www.namazu.org/ (en japonais)
Pros :
- package debian (namazu2)
- développement actif
- semble avoir une interface web intégrée
Cons :
- ...tout en japonais!
Swish-e
Pros :
- "Swish-e can index plain text, e-mail, PDF, HTML, XML, Microsoft® Word/PowerPoint/Excel and just about any file that can be converted to XML or HTML text."
- "Includes a web spider for indexing remote documents over HTTP"
- Il y a moyen de bâtir une interface en php, mais les exemples fournis sont en perl.
Cons :
- La version la plus récente date de décembre 2004
Swish++
http://swishplusplus.sourceforge.net/
Pros :
- Version réécrite / "améliorée" de swish-e
- Package debian
- Support actif (bugfix, mars 2006)
Cons :
- Indexe les documents microsoft, mais pas de support évident pour les pdf
Nutch
http://lucene.apache.org/nutch/
Pros :
- développement actif (juillet 2006)
Cons :
- dépend de lucene-java (java?)
- pas de package debian
Lurker
http://lurker.sourceforge.net/ Pour les archives de mail.
Pros :
- package debian
Cons :
- seulement pour les mailing-lists
Data Park
http://www.dataparksearch.org/
Pros :
- (bon) support multilingue (cjk, "accent insentive search", ...)
- interface web
Cons :
- Pas de package debian
mnogosearch
http://www.mnogosearch.org/download.html
Pros :
- package debian
- interface web (php)
- développement actif
greenstone
http://www.greenstone.org/cgi-bin/library?e=p-fr-homepref-utfZz-8&a=p&p=home
http://greenstone.sourceforge.net/wiki/index.php/GreenstoneWiki
Pros :
- indexe un gros paquet de formats
- support multilingue
Cons :
- pas de package debian
- pas certain que ça fait exactement ce qu'on veut
Xapian
A verifier, utilise par MoinMoin, je crois.
Liens à voir...
http://del.icio.us/millette/notification%2Bsoftware (axé sur l'accumulation des données plutôt que la recherche)