Il se trouve que j'ai toujours détesté la paperasse. Non mais vraiment quoi. Je comprends toujours pas pourquoi on s'entête à couper des arbres alors qu'on a de nos jours les emails et les PDFs. Ce qui m'a notamment toujours frustré avec les papiers, c'est d'en chercher un dans la masse.
Un exemple : vous avez besoin de vos relevés bancaires des 3 derniers mois. Si vous êtes organisé comme moi (c'est à dire "pas"), vous avez tout vos relevés en vrac dans un dossier, dans un ordre plus que douteux. Vous me direz, pour résoudre ce problème, je pourrais simplement améliorer mon système de tri. Mais non ! C'est trop facile. Je suis ingénieur maintenant. Je me dois donc de mettre au point une solution over-complexe afin d'annihiler définitivement le problème ! Et étant ingénieur informaticien, je me devais d'utiliser mon ordinateur pour ça. De plus, ma soeur m'a récemment refilé son ancien scanner complètement compatible Linux. Ce scanner dormant dans un coin, il me fallait aussi trouver un moyen de le rentabiliser.
L'idée de base, c'était donc de scanner tout mes documents. Mais pour pouvoir les retrouver, il me fallait pouvoir y associer des mots-clefs. J'aurais pu entrer les mots-clefs à la main, mais face à la quantité de paperasse en stock, ça aurait pris des millénaires. Heureusement, là encore, mon ami l'ordinateur et mes amis les logiciels libres m'offrent une solution : la reconnaissance de texte. Après ça, il me suffisait d'utiliser Google Desktop pour indexer et retrouver mes documents. Et me voilà passant une après-midi et une soirée à tester les différents logiciels de reconnaissance de texte libre puis à créer un script pour scanner à la chaîne mes documents. Puis encore une bonne partie de la journée suivante à tout scanner. Miracle, les premiers résultats sont concluants : Je tape "octobre 2008" dans Google Desktop et je trouve mon relevé ! :-)
Bon, maintenant que ce fut fait, il me restait différents problèmes:
Pas de visibilité sur ce que je venais de scanner : quand je scanne à la
chaîne, je ne prends pas le temps d'ouvrir mon visionneur d'images pour
vérifier chaque scan. Suffit que j'oublie de préciser à mon script que c'était
une page en format paysage plutôt que portrait, et paf, dmc la reconnaissance
de texte. Pas possible non plus d'alterner portrait et paysage au sein d'un
même document (par document, j'entends un ensemble de pages). De plus, Google
Desktop c'est bien, mais c'est visiblement pas prévu pour : Le résultat
retourné par les recherches, c'est le fichier texte, mais il est plein de caca,
moi ce que je veux, c'est le JPG. Des fois aussi, la reconnaissance se foire en
milieu de mot-clef, donc savoir à partir de "fle" tout les mots que le logiciel
de reconnaissance a cru lire, ça pourrait être utile. J'ai par exemple:
"flesch", "fleschjer", "flesci", etc.
Une journée et demi de travail en plus, un réapprentissage du C++ et Qt, et poc, voila le Scannerator. Oui je sais le nom est à chier, mais il m'en fallait un vite. D'ailleurs le code aussi est à chier (MVC ? pourquoi faire ? :P), mais m'en fout, me fallait aussi un truc qui marche vite et bien.