Cómo extraer texto de un documento PDF

Puede resultar muy frustrante intentar extraer texto de un archivo PDF para utilizarlo en otra aplicación. No es raro que los gráficos se interpongan en el camino o que el diseño del documento dificulte que la prueba se transfiera en oraciones significativas. Aunque no es imposible extraer texto con un método de copiar y pegar, puede llevar mucho tiempo y no permite exportar el texto del archivo PDF a un formato diferente. Sin embargo, existen algunas formas de extraer texto de un archivo PDF.

Extraer texto con Acrobat Reader

Paso 1

Abra el archivo en Acrobat Reader. En Windows, seleccione «Archivo -> Exportar documento a texto», asigne un nombre al documento y guárdelo.

Paso 2

Copie el texto en un sistema operativo Mac o Linux accediendo al menú Ver y seleccionando «Continuo» o «Orientado continuo». (El primero le proporcionará el texto en una columna, mientras que el segundo formateará el texto como páginas una al lado de la otra). Vaya a «Editar -> Seleccionar todo» y luego «Editar -> Copiar».

Utilice la herramienta Seleccionar si solo desea extraer parte del texto. Haga clic en la herramienta «Seleccionar texto» y luego elija la información que desee. En un documento formateado en varias columnas, primero deberá utilizar la herramienta «Seleccionar columna». Vaya a «Editar -> Copiar».

Convertir PDF a HTML

Paso 2

Extraiga y convierta archivos en la línea de comando. Los usuarios de Linux pueden usar un comando de conversión básico que cambiará un archivo .pdf a un archivo .txt: «pdftotext filename.pdf». Asegúrese de reemplazar el nombre del archivo con el nombre del archivo PDF.

Descarga un programa de conversión de PDF a texto. Hay una serie de programas de código abierto y gratuitos disponibles, como PDFBox y Easy PDF to Text Converter (ver Recursos a continuación). Muchos de estos programas también pueden convertir archivos PDF a HTML.