2008/07/11

Tout lire en console en libre bien sûr

Je vais ici faire un récapitulatif des utilisataires qui permette de lire plein de format différent en console, je ne parle pas ici de framebuffer, le but étant de récupérer le contenu de différents types de fichiers, et éventuellement de pouvoir les traiter.

Le Format .doc MS Word

Souvent on vous envoies des documents .doc, au format MS Word donc, vous avez beau expliquer autour de vous que vous ne voulez rien dans ce format vous en recevez quand, même, une bonne solution pour pouvoir les lire / récupérer le texte contenu sans sortir l'artillerie lourd (OOo, abiword ou kword) c'est d'utiliser antiword c'est vieux, mais ça marche très très bien. (GPLv2)

Les Formats .xls ou .ppt (MS Excel ou MS Powerpoint

Tout comme les .doc, vous ne voulez pas de ces document mais on vous les envoie quand même, dans ces cas là il ne vous reste plus qu'a utiliser le bon vieux xlhtml. (GPLv2)

Les Formats HTML

Dans ce cas la il y a une pléthore d'outils, les principaux sont lynx avec l'option -dump (GPLv2) avec la même option, il y a links (GPLv2), elinks (GPLv2)

mais il y a aussi en beaucoup plus léger html2text (GPLv2)

Les formats OpenDocument

il y a odt2txt (GPLv2) pour aller lire les formats OpenDocument (Texte, Tableur Présentation) cerise sur le gâteau, il permet également d'aller lire les anciens documents .sxw (OpenOffice 1.x)

Le format .ps PostScript

le package ghostscript (GPLv2 et CPLv1) fourmit le binaire ps2ascii qui permet permet donc de récupérer le texte contenu dans le fichier postscript.

Le format .pdf Portable Document Format

poppler (GPLv2) et xpdf (GPLv2) fournissent la même gamme d'outils (normale poppler se base sur xpdf) pour manipuler les pdf, parmi tous ces outils on retrouve pdftotext.

Le format .djvu DJVU

le projet djvulibre (CPLv2) fournit tout un ensemble d'outil de manipulation de fichiers djvu en console, il offre entre autre djvutxt.

Mention spéciale pour tous les formats de document MS (Word, Excel, PPT, RTF)

catdoc fournit trois binaires : catdoc pour lire les document .doc et .rtf, xls2csv pour les excel et catppt pour les PowerPoint. Le gros plus de catdoc est la conversion possible vers latex.

Voila pour le petit point sur les outils permettant de lire/manipuler en console divers formats de documents.

Si comme moi vous lisez vos mail avec mutt, tous ces outils pourront vous être utiles, un autre outil qui pourra vous servir est demoroniser en effet si vous recevez des mails envoyés depuis outlook, ils sont souvent en html (SAYMAL) mais en html foireux en plus, demoroniser est un outil qui remettera le tout en html propre, il suffit ensuite de passer le résultat dans html2text pour pouvoir les lire correctement.

Name :
URL (optional) :
Write here: "ETOOMUCHSPAM"
Comments :