jueves, 9 de junio de 2011

Convertir PDF de imagenes a texto con OCRAD

Bookmark:
  • Agregar a Technorati
  • Agregar a Del.icio.us
  • Agregar a DiggIt!
  • Agregar a Yahoo!
  • Agregar a Google
  • Agregar a Meneame
  • Agregar a Furl
  • Agregar a Reddit
  • Agregar a Magnolia
  • Agregar a Blinklist
  • Agregar a Blogmarks
Requisitos: tener el programa ghostscript y ocrad
sudo aptitude install gs ocrad

Aqui tenemos un ejemplo de como se realiza la conversión de un documento PDF a un archivo de texto, en este caso el PDF era de imágenes por lo cual se filtró a través de un OCR como lo es OCRAD:
gs -sPAPERSIZE=a4 -sDEVICE=pnmraw -r300 -dNOPAUSE -dBATCH -sOutputFile=- -q Dropbox/UAH/may-ago-2011/Analisis-Sistemas/Ingenieria.de.Software.-.Ian.Sommerville.7ma.Edicion.PRENTICE-HALL.pdf | ocrad > ian.somerville.txt

El resultado es que ya tengo en modo texto un librillo de ingeniería de software que estaba en imágenes listo para "copiar y pegar" parte de su contenido, sin utilizar herramientas privativas, y solo con un par de lineas en la terminal...

Fuentes:
GNU/OCRAD manual

No hay comentarios: