Paso 1: Extracción de diversas fuentes
Estos pasos están involucrados en todo el proceso:
1. extracción de diversas fuentes
a. XML - para extraer datos de archivos XML pueden utilizarse analizadores SAX, que es un analizador de acceso secuencial de eventos basado en API. Analizadores SAX operan secuencialmente en cada pieza del documento XML. Extraemos los elementos del archivo XML basado en los metadatos proporcionados junto con el archivo de origen.
b. hoja de cálculo - para extraer datos de hoja de cálculo podemos utilizar Apache POI API. PDI apoya xls y xlsx formatos. Proporciona soporte para trabajar con documentos de Microsoft Excel y es capaz de manejar formatos XLS y XLSX de hojas de cálculo.
c. archivos – para extraer los datos de archivos planos, leemos el archivo secuencialmente usando el lector de flujo basado en los metadatos proporcionados junto con.