証憑(しょうひょう)は、請求書・領収書から項目を抜き出す「文書 → JSON 抽出」の精度を測るための、正解付き評価データセットです。和暦・軽減税率・源泉徴収・適格請求書(インボイス制度)・収入印紙税といった日本語帳票特有のロジックを、正解側で算術まで検証してあります。

抽出パイプラインを作ると、必ず「精度をどう測るか」で詰まります。本物の請求書は個人情報を含むため評価に使えず、正解 JSON を一件ずつ手で作るのも現実的ではありません。証憑は、その ground truth(正解データ)を肩代わりするためのものです。

測るもの / 測らないもの

採点の対象は、きれいなテキスト入力に対する抽出の正しさです。具体的には、和暦から西暦への変換、相対日付の解決、軽減税率 8% と標準税率 10% の区分、源泉徴収額の計算、収入印紙税、全角・記号の正規化など、日本語の帳票で間違えやすい箇所を見ます。

測らないのは OCR・レイアウト解析(画像 → テキスト)です。入力は document_text というテキストを前提にしているので、紙やスキャン画像からの読み取り精度は対象外になります。

収録(無料サンプル)

  • 請求書 20 件 / 領収書 10 件。すべて合成データで、実在の企業・個人情報は含みません。
  • 各レコードは document_text(現実的な本文)+ expected_output(正解 JSON)+ 難易度・難所タグの組です。
  • JSON Schema、検証スクリプト、採点スクリプトを同梱しています。採点スクリプトは、自分の抽出器の精度を難所別に分解して出してくれます。

作り方(三段検証)

正解データそのものの信頼性を上げるため、三段階の検証を通したものだけを収録しています。

  1. 生成 — 難所を織り込んだ本文と、その正解を作る。
  2. 二次監査 — 本文だけを根拠に、裏付け・正規化・正解リークの有無を点検する。
  3. 機械検証 — スキーマ適合に加えて、算術を全件検算する。明細・税率区分・合計・源泉徴収額・収入印紙税まで電卓を当てる。

三段すべてを通過しなかったレコードは落としています。

使うシーン

  • 内製した抽出器の回帰テスト — モデルやプロンプトを変えたとき、難所別のスコアがどこで落ちたかを見る。「軽減税率の区分だけ悪化した」のような形で原因に当たれます。
  • 会計 / 経理 SaaS の新規参入時のベンチ — 自社の抽出精度を、特定前提に依存しない共通のものさしで測る。社内データだけだと評価が甘くなりがちなところを補えます。
  • LLM アプリ / エージェントの CI 組み込み — 採点スクリプトをそのままパイプラインに差し込み、リリース前に抽出精度のしきい値チェックを回す。

比較

正解データを自前で作る場合、本物の請求書は個人情報の壁があり、合成しても「正解が本当に正しいか」を誰も検算していない、という問題が残ります。とくに源泉徴収や軽減税率の区分は、人が手で正解を作ると取り違えが起きやすいところです。

証憑は、その正解側を三段検証で固めてあるのが差分です。きれいなテキスト入力に絞っているぶん、OCR の良し悪しに評価がぶれず、抽出ロジックそのものの精度だけを切り出して見られます。

入手

  • 無料サンプル(Hugging Face) — いますぐダウンロードできます。データセットページ
  • フル版(文書タイプ別 2,000〜5,000 件・商用ライセンス) — 近日公開。価格はタイプ別 $59、バンドル $229 を予定しています。
  • 制作の記録は Build に書き残していきます。

用途は抽出精度の評価です。税務・会計の助言ではありません。税率区分などは特定前提下の一例であり、実務判断は専門家にご確認ください。