Paso 3: Apéndice: comandos de la utilidad de Poppler.
pdftohtml sintaxis
pdftohtml [opciones] [archivo pdf] [archivo de html]
Opciones disponibles
Un resumen de opciones se incluyen a continuación.
-h, - help - Mostrar Resumen de opciones.
-f - primera página para imprimir
-l - última página para imprimir
-q - no imprimir cualesquiera mensajes o errores
-v - impresión copyright y la información de versión
-p - intercambio de enlaces de .pdf con .html
-c - generar salida complejo
-i - ignorar imágenes
-sin marcos - generar sin marcos. No admite en modo de salida compleja.
-stdout - utilizar la salida estándar
-zoom - zoom del documento pdf (predeterminado 1.5)
-xml - salida para procesamiento posterior de XML
-enc - nombre de codificación de texto de salida
-opw - contraseña de propietario (para archivos cifrados)
-upw - contraseña del usuario (para archivos cifrados)
extracción de texto de fuerza - escondido - escondido
-dev - nombre del dispositivo de salida para Ghostscript (png16m, jpeg etc.)
-nomerge - no fusionar los párrafos
-nodrm - configuración de DRM del documento de anulación
pdftohtml ejemplos
pdftohtml prueba.pdf test.html
Este comando le da un simple archivo HTML adecuado para leer o copiar el contenido textual del archivo PDF. Puedes agarrar el texto desde el navegador y pegar en otras aplicaciones. No produce los archivos PNG, así que no serás capaz de ver los gráficos incrustados. Es una gran utilidad si desea extraer el texto de un archivo de Adobe.
Si desea ver gráficos, usted necesitará usar la opción -c (como en "complejo"):
pdftohtml prueba.pdf - c test.html
Esta opción produce archivos HTML individuales, uno para cada página del archivo PDF, con las referencias PNG mezcladas. Los gráficos en el PDF original se muestran en un explorador y la parte del texto se puede cortar y pegar. El tamaño total de los archivos HTML y PNG generado con la opción - c tienden a ser más o menos equivalente a la del PDF original.