@yarlisai/file-parsers
Análisis de documentos enrutado por extensión — PDF, CSV, DOCX, XLSX, PPTX, HTML, JSON, YAML y más, con adaptadores de proveedores opcionales cargados de forma diferida.
Análisis de documentos enrutado por extensión — PDF, CSV, DOCX, XLSX, PPTX, HTML, JSON, YAML, Markdown y texto plano, con adaptadores de proveedores opcionales cargados de forma diferida.
Instalación
npm install @yarlisai/file-parsersLas bibliotecas de proveedores son dependencias de pares opcionales — instala solo las necesarias para los formatos que vayas a analizar (pdf-parse, csv-parse, mammoth, officeparser, exceljs, cheerio, js-yaml). Cada adaptador carga su biblioteca de proveedor en el primer análisis de ese formato; JSON, Markdown y texto plano no requieren ningún proveedor.
Fuente: packages/file-parsers ·
npm ·
CHANGELOG
Por qué
@yarlisai/file-parsers sigue el contrato puerto/adaptador: los consumidores dependen de un puerto (la interfaz FileParser) y la factoría createParserRegistry() enruta una extensión de archivo al adaptador correcto en tiempo de ejecución. Añadir un formato consiste en un nuevo archivo de adaptador y una entrada en el registro.
Uso
import { isSupportedFileType, parseBuffer, parseFile } from '@yarlisai/file-parsers'
if (isSupportedFileType('pdf')) {
const fromDisk = await parseFile('/tmp/report.pdf')
const fromMemory = await parseBuffer(buffer, 'csv')
}El README del paquete incluye una guía de inicio rápido completa. mybotbox-platform en sí mismo es el consumidor de referencia — apps/sat/lib/file-parsers/ es una capa ligera que reexporta este paquete para la ruta de la API de análisis de archivos y el procesador de documentos de la base de conocimiento.