L'idée est simple : scanner tout les documents pour les stocker sous forme numérique. Ceci dit, afin de pouvoir joyeusement tous les entasser dans un même dossier tout en pouvant quand même s'y retrouver, il faut extraire les mots-clefs de ces documents. Et pour ça, certains softs libres de reconnaissance semblent maintenant assez avancés (dans le cas présent, Tesseract).
Pour couronner le tout, un système de recherche de document un peu plus adapté
que Google Desktop/beagle/jesaispasquoid'autre. Et paf, on obtient des
Chocapic(r)(tm) Scannerator.
Initialement développé sous la forme d'un simple script shell, je me suis dis que ça ferait un bon exercice à la programmation C++/Qt. Le fait d'avoir une interface graphique permet notamment de passer de pages portrait à paysage dans un même document (ceci dit, y'a toujours un script qui tourne en arrière-plan parce-que je suis une grosse feignasse).
$ svn co https://jflesch.kwain.net/svn/scannerator $ cd scannerator $ ./qmake.sh $ ./scannerator
Ce programme doit toujours avoir dans son répertoire courant de travail le script "scan_and_read.sh". Bien entendu, libre à vous d'adapter ce script si par exemple vous n'aimez pas Tesseract ou si vous êtes coincé avec une application toute pourrie en lieu et place de Sane.