MyBotBoxMyBotBox

@yarlisai/file-parsers

拡張子ベースのルーティングによるドキュメント解析 — PDF、CSV、DOCX、XLSX、PPTX、HTML、JSON、YAML など、遅延読み込みのオプションベンダーアダプター付き。

拡張子ベースのルーティングによるドキュメント解析 — PDF、CSV、DOCX、XLSX、PPTX、HTML、JSON、YAML、Markdown、プレーンテキストに対応し、遅延読み込みのオプションベンダーアダプターを搭載。

インストール

npm install @yarlisai/file-parsers

ベンダーライブラリはオプションのピア依存関係です — 実際に解析するフォーマットに必要なものだけをインストールしてください(pdf-parsecsv-parsemammothofficeparserexceljscheeriojs-yaml)。各アダプターは、該当フォーマットの初回解析時にベンダーライブラリを読み込みます。JSON、Markdown、プレーンテキストはベンダー不要です。

なぜこのパッケージを使うのか

@yarlisai/file-parsersポート/アダプターコントラクト に従っています。利用者はポート(FileParser インターフェース)に依存し、createParserRegistry() ファクトリーが実行時にファイルの拡張子を適切なアダプターへルーティングします。新しいフォーマットの追加は、アダプターファイル1つとレジストリエントリ1つを追加するだけです。

使い方

import { isSupportedFileType, parseBuffer, parseFile } from '@yarlisai/file-parsers'

if (isSupportedFileType('pdf')) {
  const fromDisk = await parseFile('/tmp/report.pdf')
  const fromMemory = await parseBuffer(buffer, 'csv')
}

このパッケージの README には完全なクイックスタートが含まれています。mybotbox-platform 自体がリファレンス実装の利用者であり、apps/sat/lib/file-parsers/ はファイル解析 API ルートとナレッジベースドキュメントプロセッサー向けにこのパッケージを再エクスポートする薄いシムです。

関連リンク