おはようございます。今日の税務AIまわりは、派手な新機能よりも「どう改善し続けるか」に話題が集まりました。申告、月次、レビューの現場で、AIを入れるだけではなく、人間の判断をどこに残すかが焦点になっています。
今日の数字
7,000件。OpenAIとCreteのTax AI事例で言及された税務申告処理件数です。準備時間を3分の1に削減し、最大97%精度を実現したという数字は、会計事務所のAI活用が検証段階を越えつつあることを示しています。
📌 OpenAI Tax AI事例、7,000件処理と97%精度が示すもの
解説
OpenAIのTax AI事例で注目すべき点は、単に税務申告をAIで早く処理したことではありません。Creteの会計事務所ネットワークで7,000件の税務申告を処理し、準備時間を3分の1に削減し、最大97%精度を実現したという成果の裏側に、「人間の修正を学習材料として扱う」設計があります。
税務AIで難しいのは、最初から完璧な判断を出すことではなく、現場で起きた修正を次にどう生かすかです。たとえば、ある控除の扱いをスタッフが修正した場合、それを単なる手戻りとして終わらせるのか、失敗パターンとして記録し、次回の判定条件やレビュー観点に反映するのかで、半年後の精度は大きく変わります。
会計事務所に置き換えると、これは記帳チェックや税区分判定にもそのまま当てはまります。AIが出した仕訳を人間が直すだけなら、毎月同じ修正が発生します。一方で、修正理由を分類し、再発しやすい取引先、摘要、証憑パターンを蓄積できれば、AIは「入力を代行する道具」から「事務所の判断基準を覚える業務基盤」に近づきます。
重要なのは、AIの精度を単発の正答率で見るのではなく、修正履歴を含めた改善ループで見ることです。税務は説明責任が求められる領域なので、ブラックボックス化した自動化よりも、どの修正がなぜ起き、次にどう反映されたかを追える仕組みの方が実務に向いています。
この記事は「役割を持ったAIが、現場の修正を記憶しながら改善されていく仕組み」の実例🧐✨
— Koichi Nishizuka (@KoichiNishizuka) 2026年5月27日
ここで作られている Tax AI… https://t.co/9SHlyZAMhb pic.twitter.com/iIIyM1E3Fn
📌 freee×AIの月次自動化で、事務所間の生産性差が広がる
解説
freeeとAIの連携については、月次自動化を進めている事務所と、手作業中心の事務所の差がすでに数倍に開き始めているという指摘がありました。ここで大事なのは、単なる「DXの進み具合」ではなく、AIに合わせて業務プロセスを作り替えられているかどうかです。
会計ソフトを使っていても、証憑確認、摘要判断、税区分修正、顧問先への確認依頼が人手のまま残っていれば、月次のボトルネックはあまり変わりません。一方で、freee APIやClaudeのようなAIを組み合わせ、記帳チェック、異常検知、確認事項の抽出まで一連の流れに組み込むと、人間の作業は「全部見る」から「例外を見る」へ移ります。
この変化は、処理時間だけでなく担当者の働き方にも影響します。AIが一次チェックを担うと、スタッフは入力件数ではなく、例外判断、顧問先への質問設計、税法上の最終確認に時間を使えるようになります。結果として、同じ人数でも処理できる件数や、顧問先に返せる示唆の量が変わります。
ただし、freee×AIの効果は、ツールをつなげただけでは出ません。どのデータをAIに渡すか、どの判断をAIに任せるか、どの閾値で人間レビューに戻すかを設計する必要があります。事務所ごとの勘定科目運用、顧問先ごとの例外、過去の修正履歴が整理されていないと、AIは便利な補助にはなっても、月次全体を変えるほどの基盤にはなりにくいです。
税理士として現場から実感する。AI×freeeで月次を自動化した事務所と手作業の事務所では生産性に数倍の差が既に出てる。「DX」じゃなく「AIに適応できるか否か」で業界が二極化していく未来はもう始まってる。適応できる今のうちに動いた事務所が生き残る。 https://t.co/SDgFVyQQlD
— 國井大地|税理士がAIを本気で使ってみた (@redelta_jp) 2026年5月26日
📌 税務AIの自己改善は、ログ、eval、承認フローが土台
解説
税務AIの自己改善について、「現場の失敗を成長燃料に変える仕組み」が最大のポイントだという投稿もありました。ここでいう自己改善は、AIが勝手に税務判断を変えていくという意味ではありません。ログ、eval、承認フロー、人間レビューを組み合わせ、どの失敗をどう改善対象にするかを管理する考え方です。
会計事務所でAIを運用すると、必ず誤判定や不足情報が出ます。摘要だけでは判断できない取引、証憑の読み取りミス、顧問先固有の処理方針、税区分の例外などです。これらを担当者の経験だけで吸収すると、AI導入後も属人化は残ります。むしろ、AIの出力理由が曖昧なまま広がる分、人間だけの属人化より説明が難しくなることもあります。
そのため、失敗を記録する単位が重要になります。単に「間違い」と残すのではなく、入力データの不足、ルール未整備、プロンプト不備、判定基準の揺れ、レビュー設計の不足といった形で分けておくと、次の改善につながります。evalはその改善が本当に効いたかを確認する仕組みです。過去に間違えたパターンをテストケースとして残せば、AIやプロンプトを更新したときに再発を検知できます。
承認フローも欠かせません。税務判断を含む変更は、AIが提案し、人間が確認し、必要に応じて事務所の標準ルールへ反映する流れが自然です。安全な自己改善とは、AIに任せ切ることではなく、人間のレビュー結果を構造化し、次の実務で迷わない形に戻すことです。
追記
— re-a g1359402 (@re_a_takaki) 2026年5月28日
今回のTax AIで一番面白いのは
AIがいきなり天才税理士になった話ではなく
人間が修正する
その差分が記録される
失敗パターンが見える
evalになる
Codexが改善案を作る
人間がレビューして本番へ戻す
という
現場の失敗をそのまま成長燃料に変える仕組みが作られたこと
これはかなり大きい…
今日の共通点は、AIを単なる自動入力係として見ていないことです。成果を出している事例ほど、人間の修正、レビュー、承認を次の精度改善に戻す仕組みを作っています。会計事務所のAI導入は、ツール選定より先に運用設計の勝負になってきました。