Name: 証憑 · Shōhyō — 日本語の請求書・領収書を JSON 抽出する評価データセット
Brand: Aulvem
SKU: japanese-invoice-receipt-extraction-eval

証憑（しょうひょう）は、請求書・領収書から項目を抜き出す「文書 → JSON 抽出」の精度を測るための、正解付き評価データセットです。和暦・軽減税率・源泉徴収・適格請求書（インボイス制度）・収入印紙税といった日本語帳票特有のロジックを、正解側で算術まで検証してあります。

抽出パイプラインを作ると、必ず「精度をどう測るか」で詰まります。本物の請求書は個人情報を含むため評価に使えず、正解 JSON を一件ずつ手で作るのも現実的ではありません。証憑は、その ground truth（正解データ）を肩代わりするためのものです。

測るもの / 測らないもの

採点の対象は、きれいなテキスト入力に対する抽出の正しさです。具体的には、和暦から西暦への変換、相対日付の解決、軽減税率 8% と標準税率 10% の区分、源泉徴収額の計算、収入印紙税、全角・記号の正規化など、日本語の帳票で間違えやすい箇所を見ます。

測らないのは OCR・レイアウト解析（画像 → テキスト）です。入力は document_text というテキストを前提にしているので、紙やスキャン画像からの読み取り精度は対象外になります。

収録（無料サンプル）

正解データそのものの信頼性を上げるため、三段階の検証を通したものだけを収録しています。

三段すべてを通過しなかったレコードは落としています。

内製した抽出器の回帰テスト — モデルやプロンプトを変えたとき、難所別のスコアがどこで落ちたかを見る。「軽減税率の区分だけ悪化した」のような形で原因に当たれます。
会計 / 経理 SaaS の新規参入時のベンチ — 自社の抽出精度を、特定前提に依存しない共通のものさしで測る。社内データだけだと評価が甘くなりがちなところを補えます。
LLM アプリ / エージェントの CI 組み込み — 採点スクリプトをそのままパイプラインに差し込み、リリース前に抽出精度のしきい値チェックを回す。

正解データを自前で作る場合、本物の請求書は個人情報の壁があり、合成しても「正解が本当に正しいか」を誰も検算していない、という問題が残ります。とくに源泉徴収や軽減税率の区分は、人が手で正解を作ると取り違えが起きやすいところです。

証憑は、その正解側を三段検証で固めてあるのが差分です。きれいなテキスト入力に絞っているぶん、OCR の良し悪しに評価がぶれず、抽出ロジックそのものの精度だけを切り出して見られます。

用途は抽出精度の評価です。税務・会計の助言ではありません。税率区分などは特定前提下の一例であり、実務判断は専門家にご確認ください。