WO2020250930A1

WO2020250930A1 - 数値集合の修正箇所検出方法及びそのシステム

Info

Publication number: WO2020250930A1
Application number: PCT/JP2020/022846
Authority: WO
Inventors: 廣川　佐千男; 祐輔戸▲崎▼; 鈴木　孝彦
Original assignee: 国立大学法人九州大学
Priority date: 2019-06-13
Filing date: 2020-06-10
Publication date: 2020-12-17

Abstract

【解決課題】　特定の集合のどの部分に誤りがあるかをより高い精度で推定する手法を提供することを目的とする。【解決手段】　コンピュータによって実行されるデータ修正／改ざん判定方法であり、当該コンピュータは、以下の工程を実行するものであり、解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値としてメモリに格納する工程と、当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換し、変換後数値の特定の桁の値の分布を、変換方法毎に集計する工程と、前記数値集合に含まれる同一ＩＤで参照される各数値について、前記変換後数値の特定の桁の値のベンフォードの分布からの乖離を特定し、その乖離を変換方法の個数分、累積することで累積乖離度を算出する工程と、上記累積乖離度を各数値間で比較することで特定の数値の修正／改ざん可能性を判定する工程とを有するデータ修正／改ざん判定方法が提供される。

Description

数値集合の修正箇所検出方法及びそのシステム

　本発明は、ベンフォードの法則を用いた数値集合の訂正箇所検出方法及びそのシステムに関する。

　（ベンフォードの法則）
　現代社会では多くの行動が、その根拠となるデータに基づいて決定されており、データの信憑性は重要である。

　自然な数値データの集合について成り立つ法則として、ベンフォードの法則が知られている。ベンフォードの法則とは、任意の数値の集合における各数値の上位１桁目の数字の出現頻度には法則性があり、その集合がベンフォードの法則に従わなければ、なんらかの不整合があると考えられるというものである。
このベンフォードの法則は従来から統計データの不正検出に使われてきた。

　（ベンフォードの法則とは）
　自然な数値データの集合について上位１桁目の数字ｄ（１２３の場合にはｄ＝１）の出現確率は、ｌｏｇ_ｋ（１＋１／ｄ）となる、というものである。

　例えば、日本の行政区画毎の人口分布についての数値ｄの分布を調べると、図１に示すようにベンフォード分布に従うことになる。

　（ベンフォードに関連する研究）
　従来、ベンフォードの法則を用いた数値データの信憑性の評価を行った方法として、以下の非特許文献１、２に開示されたものが公知である。

　まず、非特許文献１に開示されたもので、Ｎｉｇｒｉｎｉらが会計データに対して、ベンフォードの法則を適用し、数値データの信憑性を検証する方法を示したものである。

　また、非特許文献２に開示されたものは、Ｒａｕｃｈらが，ベンフォードの法則を用いて、ＥＵ加盟国の経済データの信憑性を調査したものである。１９９９年から２００９年までのＥｕｒｏｓｔａｔのデータを分析し、ギリシャが報告したデータがベンフォードの法則から最も乖離していることを示したものである。

　しかしながら、上記の各非特許文献に記載されたベンフォードの法則に関する信憑性の評価は、いずれも集合全体として誤りがあるかを判定するにすぎないものであり、その集合のどの部分（どの数値）に誤りがあるのかを判定するものではなかった。

M.J.Nigrini,Benford'sLawApplicationsforForensicAccounting,Auditing,andFraudDetection,ISBN:9781118152850,Wiley,2012。

Rauch,B.,Goettsche,M.,Braehler,G.,Engel,S.FactandFictioninEU-GovernmentalEconomicDataGermanEconomicReviewvol.12(3),pp.243-255,2011

　この発明は、上記従来の技術における課題に基づいてなされたものであり、その目的は、特定の集合のどの部分に誤りがあるかをより高い精度で推定する手法を提供することを目的とするものである。

　上記目的を達成するため、本発明によれば、以下の手段が提供される。

　（１）　コンピュータによって実行されるデータ修正／改ざん判定方法であり、
　当該コンピュータは、以下の工程を実行するものである
　解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値としてメモリに格納する工程と、
　当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換し、変換後数値の特定の桁の値の分布を、変換方法毎に集計する工程と、
　前記数値集合に含まれる同一ＩＤで参照される各数値について、前記変換後数値の特定の桁の値のベンフォードの分布からの乖離を特定し、その乖離を変換方法の個数分、累積することで累積乖離度を算出する工程と、
　上記累積乖離度を各数値間で比較することで特定の数値の修正／改ざん可能性を判定する工程と、
　を有することを特徴とするデータ修正／改ざん判定方法。

　（２）　上記（１記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記累積乖離度を各数値間で比較し、累積乖離度の高い１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とする方法。

　（３）　上記（２記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記累積乖離度を各数値間で比較し、所定の閾値以上の累積乖離度を有する１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とする方法。

　（４）　上記（３記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記全数値の累積乖離度に基づいて前記所定の閾値を決定する工程をさらに有する
　ことを特徴とする方法。

　（５）　上記（２記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記累積乖離度を各数値間で比較して高い順にソートした場合に、ソート順序が所定順位以上の１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とする方法。

　（６）　上記（５記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記全数値の累積乖離度に基づいて前記所定順位を決定する工程をさらに有する
　ことを特徴とする方法。

　（７）　上記（１記載の方法において、
　前記特定の桁は上位ｎ位（ｎは前記変換後数値のうち最小値の桁数ｍ以下の整数）の桁であることを特徴とする方法。

　（８）　上記（７記載の方法において、
　前記複数の特定の変換方法は、２つ以上の異なる基数を用いた基数変換である
　ことを特徴とする方法。

　（９）　上記（８記載の方法において、
　前記２以上の異なる基数ｋは、前記数値集合における基数変換後の変換後数値の最大値と最小値の桁数が２．６以上異なるものから選択されたものである
　ことを特徴とする方法。

　（１０）　上記（９記載の方法において、
　前記基数は３以上の値から選ばれたものである
　ことを特徴とする方法。

　（１１）　上記（１記載の方法において、
　前記前記累積乖離度は、特定の数値について前記特定の変換方法で変換された複数の変換後数値についてベンフォード分布から乖離する変換後数値の個数である
　ことを特徴とする方法。

　（１２）　上記（１記載の方法において、
　前記前記累積乖離度は、特定の数値について前記特定の変換方法で変換された複数の変換後数値と、そのうちベンフォード分布から乖離する変換後数値の比率である
　ことを特徴とする方法。

　（１３）　上記（１記載の方法において、
　さらに、
　特定の数値を追加で受け取る工程をさらに有し、
　前記判定する工程は、この追加で受け取った数値について前記累積乖離度を算出し、この累積乖離度を他の数値の累積乖離度と比較することで、当該追加で受け取った数値の修正／改ざん可能性をリアルタイムで判定するものである
　ことを特徴とする方法。

　（１４）　上記（１記載の方法において、
　さらに、
　修正／改ざん以外の理由で乖離度が高い数値を排除する工程を有する
　ことを特徴とする方法。

　（１５）　コンピュータによって実行されるシステムであり、
　コンピュータが、解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値としてメモリに格納する手段と、
　コンピュータが、当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換し、変換後数値の特定の桁の値の分布を、変換方法毎に集計する手段と、
　コンピュータが、前記数値集合に含まれる同一ＩＤで参照される各数値について、前記変換後数値の特定の桁の値のベンフォードの分布からの乖離を特定し、その乖離を変換方法の個数分、累積することで累積乖離度を算出する手段と、
　コンピュータが、上記累積乖離度を各数値間で比較することで修正／改ざん可能性を判定する手段と、
　を有するデータ修正／改ざん判定システム。

　（１６）　上記（１５記載のシステムにおいて、
　前記修正／改ざん可能性を判定する手段は、
　前記累積乖離度を各数値間で比較し、累積乖離度の高い１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とするシステム。

　（１７)　請求項１５記載のシステムにおいて、
　前記特定の桁は上位ｎ位（ｎは前記変換後数値のうち最小値の桁数ｍ以下の整数）の桁であることを特徴とするシステム。

　（１８)　請求項７記載のシステムにおいて、
　前記複数の特定の変換方法は、２つ以上の異なる基数を用いた基数変換である
　ことを特徴とする方法。

　（１９）　上記（１５記載のシステムにおいて、
　さらに、
　特定の数値を追加で受け取る手段をさらに有し、
　前記判定する工程は、この追加で受け取った数値について前記累積乖離度を算出し、この累積乖離度を他の数値の累積乖離度と比較することで、当該追加で受け取った数値の修正／改ざん可能性をリアルタイムで判定するものである
　ことを特徴とするシステム。

　（２０)　コンピュータによって実行されるデータ修正／改ざん判定のためのコンピュータソフトウエアプログラム製品であり、
　記憶媒体に格納され、コンピュータに以下の、
　解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値としてメモリに格納する工程と、
　当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換し、変換後数値の特定の桁の値の分布を、変換方法毎に集計する工程と、
　前記数値集合に含まれる同一ＩＤで参照される各数値について、前記変換後数値の特定の桁の値のベンフォードの分布からの乖離を特定し、その乖離を変換方法の個数分、累積することで累積乖離度を算出する工程と、
　上記累積乖離度を各数値間で比較することで修正／改ざん可能性を判定する工程と
　を実行させる手段
　を有することを特徴とするコンピュータソフトウエアプログラム製品。

　なお、本発明の上述した以外の特徴については、以下の実施形態の項及び図面から当業者に明らかにされる。

図１は、日本の行政区画ごとの人口の分布を示す模式図。

図２は、統計データの修正前と修正後の変化を示す説明図。

図３は、同じく、統計データの修正前と修正後の変化を示す説明図。

図４は、修正前の統計データとベンフォード分布の関係を示す模式図。

図５は、修正後の統計データとベンフォード分布の関係を示す模式図。

図６は、本発明の一実施形態を示すシステム構成図。

図７は、同じく、動作を示すフローチャート。

図８は、同じく、５進数についてのベンフォード分布との関係を示す模式図。

図９は、同じく、６進数についてのベンフォード分布との関係を示す模式図。

図１０は、同じく、特定の数値についての乖離度を説明する説明図。

図１１は、同じく、評価のための出力リストを示す模式図。

図１２は、同じく、本発明の評価性能に係る各指標を示すグラフ。

図１３は、同じく、比較対象である最尤法による評価性能に係る各指標を示すグラフ。

図１４は、同じく、本発明による方法と比較対象の方法を示す表。

図１５は、同じく、１０進法のみを用いた場合の一致度を示す図。

図１６は、同じく、最尤法の性能が上回る場合の分析を示す図。

図１７は、同じく、修正したデータによる評価性能を示すグラフ。

図１８は、同じく、修正したデータによる評価性能を示すグラフ。

　以下、この発明の一実施形態を図面を参照して説明するが、その前に、本発明を完成する起因となった発明者らによる仮説及び知見について詳しく説明する。

　（障害雇用者水増し問題）
　本発明の知見を得るにあたっては、まず、日本の公的機関の雇用障害者数を対象に、ベンフォードの法則に従うか否かを検証した。対象としたのは、厚生労働省が公表していた雇用障害者数に水増しが行われていたという事件である。

　厚生労働省は毎年６月１日時点での公的機関の障害者雇用状況を取りまとめ、「障害者雇用状況の集計結果」公表している。問題となった集計結果は、平成２９年までの障害者雇用状況を公表していた。

　しかし、雇用障害者数について、不適切な算入が行われたという疑惑が浮上し、そのため、、報告内容の再点検を行うこととなったものである。

　その結果、厚生労働省は、平成３０年１０月２２日に、再点検後の集計結果を公表した。

　これ対して、本発明者らは、当該不適切な集計結果と、再点検後の正しい集計結果を用いて検証を行った。

　以下詳しく説明する。

　平成３０年８月２８日に公表した「国の行政機関における平成２９年６月１日現在の障害者の任免状況の再点検結果について」及び同年９月７日に公表した「立法機関及び司法機関における平成２９年６月１日現在の障害者の任免状況の再点検結果について」の記事には、公的機関の雇用障害者数の数値が表形式で記載されている。

　雇用障害者数は、一つの機関で雇用されている障害者数のことである。

　上記資料に記載されている機関数は全部で４３３機関（ｃ＝１～４３３）であり、それには以下の機関が含まれていた。

　・行政機関
　・立法機関
　・司法機関
　・都道府県知事部局
　・その他の都道府県機関
　・都道府県教育委員会
　・独立行政法人等。

　再調査の結果判明したのは、当初の公表では、雇用障害者数が結果として図２に示すように１０００人以上の水増しするように修正（改ざん）されていたことである。その結果、最初の発表では法定雇用率２．３％(Ｈ２９)を上回るとされていた官公庁による障碍者雇用が、実はそれを大幅に下回っていたという問題が発覚したのである。

　（ベンフォードの法則による分析）
　そこで、発明者らは、改ざん後の数値集合データと改ざん前の数値集合データがそれぞれベンフォードの法則の法則に従うかを検証した。

　分析した数値集合データに含まれるセル（数値）の数は４２２（空白セルと数値が０のセルは除く）個である。そのうち、訂正前（改ざん発覚前のデータ）と訂正後（改ざんが発覚し修正したデータ）で数値が異なるセルは約４０％（０．３９５）（１６７/４２２）であった。

　そして、まず、訂正前の障害者数のセルの集合と、訂正後の障害者数のセルの集合がそれぞれベンフォード（１０進数）に従うかを分析した。

　障害者数のセルについて、上位１桁目の数字をカウントし、理論分布と比較した。セルの集合がベンフォードの法則に従うか否かの判定には、カイ二乗検定（有意水準５％）を用いた。
そして、観測度数をＯ_ｄ、期待度数をＰ_ｄとして検定統計量Ｘ^２を以下の式で求めた。

式１

　上記の検討の結果、以下のことが判明した
　・修正前の分布は図４に示すようにベンフォードの法則に従わない。(χ２検定　Ｐ<＝０．０１)
　・修正後の雇用障害者数の分布は、図５に示すように、ベンフォードの法則に従わないとはいえない。

　（１０進数だけの処理の結果と本発明者らの仮説・知見）
　上記の分析から発明者らは以下の知見を得たものである。
（１）１０進数だけを用いたベンフォード解析では、特定の集合全体がベンフォードに従っているかいないかを導きだせるのみであり、どの数値に改ざんの可能性があるかを判定することはできない。
（２）一方で、自然な数値データの集合では10以外の基数のk進法においても，ベンフォードの法則が成り立つのではないか。

　本発明は、このような知見に基づいてなされたものであり、基本的にベンフォードの法則を応用し，数値データの誤り箇所を推定する手法を提案するものである。

　（本発明の構成）
　本発明は，自然な数値データの集合では１０以外の基数のｋ進法においても，ベンフォードの法則が成り立つという仮説、知見に基づいて、鋭意検証を行い、完成されたものである。

　図６は、本発明の実施形態に係るシステムを示すものである。

　このシステム１は、ＣＰＵ２，ＲＡＭ３，入出力部４が接続されてなるバス５に、データ格納部６とプログラム格納部７が接続されている。

　データ格納部６には、数値集合データ９と、基数毎の変換数値集合データ１０と、基数毎の数値分布データ１１と、数値修正可能性評価結果１２とが格納されている。

　また、プログラム格納部７には、解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値として格納する数値集合取得部１４と、当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換することで、変換方法毎の変換後数値からなる複数種類の変換数値集合を生成する基数変換処理部１５と、前記変換前若しくは変換後数値集合の夫々について、各数値集合に含まれる数値の特定の桁の数値分布を求める数値分布生成処理部１６と、前記数値集合に含まれる同一ＩＤで参照される各数値について、各対応する前記数値分布その数値の前記特定の桁値がベンフォードからのかい離度を算出し、そのかい離度をｎ種類分、累積する乖離度累積処理部１７と、上記累積されたかい離度に基づいて各数値を並び替えることで修正／改ざん可能性を判定する訂正可能性判定処理部１８とを有する。

　上記データ格納部６及びプログラム格納部７は、実際には、ハードディスクなどの記憶部であり、上記各構成は、上記ＣＰＵ２により呼び出されてＲＡＭ３上に展開されてＯＳ等の他の必要なプログラムと協働して実行されることで本発明の各構成要素として機能するものである。

　なお、上記構成は、本発明に関連する構成のみ記載したものであり、上記ＯＳ等の基本プログラムやその他のプログラム（ドライバ等含む）についてはその記載を省略している。

　以下、上記各構成を、その動作を通じて詳細に説明する。

　（実施例１）
　図７は、このシステムによる動作処理を示すフローチャートである。以下、上記システム動作をこのフローチャート（ステップＳ１～Ｓ５）を参照して説明する。

　（数値集合の取得）
　この実施例では、解析する数値集合として、すでに存在する静的数値集合もしくは、時々刻々累積される動的数値集合を用いる。静的集合を用いる例としては、前述したような過去の統計情報から改ざんされた数値を見つける場合である。また動的数値集合としては、例えばクレジットカード等の決済情報の中からリアルタイムに改ざん情報を発見する場合である。後者の場合には、新たに入力された数値をすでに累積されている数値集合に照らして修正あるいは改ざんされた情報であるかをリアルタイムに判定することができる。

　上記数値集合取得部１４は、その集合に含まれる各数値にＩＤを付して上記データ格納部６に格納する（数値集合９）（ステップＳ１）。

　以下では、数値集合９として、前述した雇用者数統計情報を用いる場合を例にとって説明する。この統計情報には、４２２個の雇用機関Ｖ（ｃ）（ｃ＝１～４２２）の障碍者雇用数ｒ（ｃ）が、この機関のＩＤに関連付けられて格納されている。

　（基数変換）
　ついで、上記基数変換処理部５が、上記集合９に含まれる各数値を３～１６の基数ｋで基数変換して、基数変換後の数値集合を生成する（ステップＳ２）。

　例えば、前記した数値集合中、ＩＤ３１４の機関Ｖ（ｃ）＝Ｖ（３１４）の雇用数ｒ（ｃ）が「１７」である場合、この数値１７を基数変換処理すると以下のようになる。

　　３進数　　　１２２
　　４進数　　　１０１
　　５進数　　　３２
　　６進数　　　２５
　　７進数　　　２３
　　８進数　　　２１
　　９進数　　　１８
　　１０進数　　１７
　　１１進数　　１６
　　１２進数　　１５
　　１３進数　　１４
　上記基数変換処理部１５は、上記の変換を上記４２２個の数値集合に含まれるすべての数値ｒ（ｃ）（ｃ＝１～４２２の４２２個の数値）について行い、基数ｋ毎に上記データ格納部６に格納する（基数毎の変換数値分布１０）。

　（数値分布の生成及び検証）
　ついで前記数値分布生成処理部１６が、数値集合中の基数変換後の数値の１桁目の値（ｆｓｄ（ｘ、ｋ）：ｘ＝数値、ｋ＝基数）を算出する。

　数値ｘ＝１７の場合、各基数ｋに対応するｆｓｄは以下のようになる。

　　３進数　　　１
　　４進数　　　１
　　５進数　　　３
　　６進数　　　２
　　７進数　　　２
　　８進数　　　２
　　９進数　　　１
　　１０進数　　１
　　１１進数　　１
　　１２進数　　１
　　１３進数　　１
　ついで、前記数値分布生成処理部１６は、前記数値集合に含まれるすべての数値（４２２個の数値）について、基数ｋごとに上記ｆｓｄの出現数の分布を生成し（ステップＳ３）、前記乖離度累積処理部１７が上記生成された分布に応じてベンフォードからの乖離度を累積する（ステップＳ４）。

　図８は、上記すべての数値について、基数ｋ＝５（５進数）についてのｆｓｄの出現数の分布を累積したものを表示したものである。すなわち、４２２個（ｘ＝１～４２２）のｆｓｄ（ｘ、５）を、累積してプロットして、ベンフォード分布を求めたものである。

　これによれば、例えば４２２個の数値のうちの１つの数値ｘ＝１７を５進数に変換した場合の「３２」の１桁目の値は３（ｆｓｄ（１７，５）＝３）であるが、この「３」の出現回数は、ベンフォード分布を下回っていることがわかる。下回っている場合は訂正可能性は低いと推定される。

　一方、図９に示すように、数値１７を６進数に変換した場合の「２５」の１桁目の値は２（ｆｓｄ（１７，６）＝２）であるが、この「２」の出現回数はベンフォード分布を上回っている。このように上回っている場合、は訂正可能性は高いと推定し、当該数値「１７」についてこの基数での１桁目の数字のベンフォードからの乖離度を計算する。

　そして、前記４２２個の各数値ｒ（ｃ）について、上記ベンフォードからの乖離度を、すべての基数ｋ（３～１６）について累積する。

　この方法を図１０を参照して説明する。

　この図は、数値１７について、１桁目の値がベンフォードから乖離しているものを黒丸で示している。この黒丸のベンフォードの分布からの乖離度を、すべての基数ｋ＝３～１６に亘って足し合わせることでベンフォードからの乖離度の累積値を計算することができる（ステップＳ４）。

　この例では、上記集合における数値１７の乖離度の累積値は０．６５５２となる。

　（出力）
　次に、前記判定部１８が、上記で累積した乖離度に基づき、上記集合に含まれるすべての機関Ｖ（ｃ）を、図１１に示すようにランキング出力する。

　この実施形態では、このランキングは、乖離度累積値の高い順に並べ替えられている。

　ここで、このランキングの高い順から修正（改ざん）可能性が高いということができるので、このランキングについての順位についての閾値（例えば１０位以上等）もしくは、具体的な累積値の閾値（例えば０．５等）と比較して、その数値よりも高いＩＤを出力する。

　この閾値は、ユーザが指定することもできるが、このシステムが自動的に判定してもよい。

　例えば、ランキング３位までの値（ＩＤ＝３１、１５７，４６，３７の各機関）もしくは、累積値０．７７以上の機関（ＩＤ＝３１、１５７，４６，３７の各機関）を改ざん可能性の高い数値として出力する。

　したがって、この出力に基づいて、当該機関についての数値を再調査することで、より迅速的かつ効率的に修正／改ざんを発見することができる。

　このような構成によれば、修正・改ざん可能性の高いランキングのリストを得ることができるとともに、具体的に改ざん可能性の高い数値を特定することができるので、すべての数値を再調査する必要がなくなる。

　（実施例２）
　なお、上記の乖離度は、実際の累積値だけでなく、図１０に示す黒丸の数（ベンフォード分布より高かった基数の数）で表現してもよい。この例を上記雇用統計に適用した場合の例を、実施例２として以下に説明する。

　この実施例では、上記判定部１８による判定は具体的には以下の関数を用いて行う。

　・Ｐｂｅｎ（ｋ、ｄ）
　　基数kのときの一桁目の値（ＦＳＤ）であるdのベンフォードの法則での出現確率である。

　・Ｐｂｅｎ（ｋ、ｄ）＝ｌｏｇ_ｋ（１＋１／ｄ）
　　例えば、Ｐｂｅｎ（１０，１）＝０．３０１である。（１０進数の１の出現確率は０．３０１）。

　・ｆｓｄ（ｘ、ｋ）
　　数値ｘを基数ｋで記述したときのＦＳＤであるdを表す関数であり、
　　例えば、ｆｓｄ（１２３，１０）＝１
　　ｆｓｄ（１８、３）＝２　である。

　・ｖ（ｃ）
　機関ｃにおける修正前の雇用障害者数であり、
　　例えば、ｖ（２（総務省））＝１１０　である。

　・ｒ（ｃ）
　機関ｃにおける修正後の雇用障害者数であり、
　　例えば、ｒ（２（総務省））＝４０　である。

　・Ｃ_ａｌｌ
　修正前の雇用障害者数ｖ（ｃ）が未記載でなく，かつ０でない機関ｃの集合であり、
　　Ｃ_ａｌｌ＝｛ｃ１、ｃ２、ｃ３、…｝＝｛内閣官房、内閣法制局、内閣府、…｝
　　Ｃ_ａｌｌの要素数（本論文の分析対象となる機関の数）は，
　　｜Ｃ_ａｌｌ｜＝４２２である．｜Ｓ｜は集合Ｓの要素数を意味する。

　・Ｃ_ｋｄ
　　v(c)を基数kで表現したとき，ＦＳＤであるdが同じになる機関cの集合であり、
　　Ｃｋｄ＝｛ｃ｜ｆｓｄ（ｖ（ｃ）、ｋ））
　　例えば、Ｃ_１０１＝｛消費者庁、総務省、外務省、…｝
　　　　　　Ｃ_１０２＝｛宮内庁、財務省、観光庁、…｝　である。

　・ＯｖｅｒＳ（ｃ）
ある範囲の基数kに対するｏｖｅｒ（ｃ、ｋ）の総和．本論文では（３、…、１６）の範囲を使う。

　この値は、上記ベンフォードに従わなかった基数の数となる。

式２

　例えばＯｖｅｒＳ（外務省）＝１４
　　　　ＯｖｅｒＳ（徳島大学）＝０　となる。

　このような計算方法によれば、各機関には、基数ｋに対応する値が割り当てられ、そのランキングを作ることができる。

　（評価・検証）
　以下は、この実施形態２による得られた結果の検証結果を示すものである。

　図１２は、本発明の推定性能の評価結果を示すものである。

　この実施例では、上記ＯｖｅｒＳ（ｃ）がＯｖｅｒＳ（ｃ）>ｉとなる場合，ｖ（ｃ）を誤りと判定する．以下のグラフは、ｖ（ｃ）≠ｒ（ｃ）となる機関cを正例として，しきい値iを変化させた場合の評価値を示すものである。

　（最尤法の推定性能）
　本発明の推定精度を検証するために、比較対象として最尤法を用いたものを図１３に示す。この最尤法を用いるにあたっては、前記した既知の訂正割合として０．３９５（約４０％）を用い、Ｃ_ｋｄがｖ（ｃ）≠ｒ（ｃ）となるｃを多く含むか否かの判定をベンフォードの法則ではなく，Ｃ_ｋｄ中のｖ（ｃ）≠ｒ（ｃ）の数から評価した。

　（ランダム判定法の推定性能）
　また、ランダム判定法による性能推定、すなわち、ベースラインとしてセルｖ（ｃ）の誤りをランダムに判定する方法を考える。これによれば、正しい判定となる確率は，０．３９５であり，この値がＰｒｅｃｉｓｉｏｎと等しいすべてのセルを誤りと判定するときＲｅｃａｌｌ＝１となる。

　（本発明と最尤法、ランダム判定法との比較結果）
　図１４は、本発明と上記最尤法、ランダム判定法との推定能力の比較結果である。

　これによれば、本発明の優位性が明らかである。

　（１０進数のみによる場合の性能評価）
　なお、１０進数のみによる場合との比較をするために、これで性能評価を実行すると、図１５に示すようになる。

　このことにより、１０進数だけでは効果がないことがわかる。

　（最尤法が上回る場合の修正）
　一方、図１６に示すように、Ｃ_ａｌｌ中のｖ（ｃ）＝ｘの出現回数を見ると、値「９」の出現回数が周囲の値と比べて突出している。そこで、ｖ（ｃ）＝９である機関を調べてみると，１７機関中１０機関が「～県警察本部」となっていることがわかった。この問題に対応するため、本発明では、出現回数が非常に多い値については「誤り」と判定するようにデータを修正しても良い。

　すなわち、出現回数の多い警察本部を全て取り除き，残りの３７６機関のデータについて，本発明による手法（提案手法）（ＯｖｅｒＳ（ｃ））と最尤法（ＷｒｏｎｇＳ（ｃ））の推定性能を比較した（図１７）。

　ここで、Ｐｂは提案手法のＰｒｅｃｉｓｉｏｎ，Ｒｂは提案手法のＲｅｃａｌｌ，Ｐｍｌは最尤法のＰｒｅｃｉｓｉｏｎ，Ｒｍｌは最尤法のRecallを示す。その結果，しきい値ｉ＝１２、１１での本発明による手法（提案手法）の推定性能は向上した。一方、最尤法はあまり変化がなかった。このことから，本発明において，訂正以外の他の原因によるベンフォードの法則からの外れ値を取り除くことで，より高い推定性能を示すことが示された。

　（基数範囲について）
　本実施例では，基数（ｋ＝３、…、１６）までを選択し，ベンフォードの法則からの乖離を見積もったが、これに限定されるものではなく、原理的に３以上のいかなる基数にも対応できる。

　（最大基数の選択）
　本実施例で基数ｋの最大値を１６としたのは，基数ｋにおけるベンフォードの法則が，数値データの最大値と最小値の桁が２．６以上異なる場合に限定したためである。

式３

　しかし、一方で、発明者らは基数の最大値を１７～３６まで変化させてみたが，推定性能は変化しなかった。このことから，本実施例においては，最大基数は１６で十分であると考えられる。

　（小さい基数の選択的利用）
　９（＝３²)進数でベンフォードの法則に従わない数値集合について，３進法での評価を重ねて行うべきか直感的には疑問が残る。このため発明者らは、基数の下限を変化させて本発明の手法の推定性能を試験した（Ｐｒｅｃｉｓｉｏｎが最大の場合）。しかし、この試験結果によれば、基数の下限を限定することについては特異的な効果が見られないことが分かる（図１８）。

　（本発明の効果）
　本発明の実施例では，まず，2018年に判明した障害者雇用状況の集計結果の誤りについて，修正前のデータがベンフォードの法則に従わず，修正後のデータはベンフォードの法則から外れているとはいえないことを確認した。次に，基数ｋ（ｋ＝３、…、１６）でのベンフォードの法則を利用し，数値データの誤り箇所を推定する本発明の方法を提案した．さらに，修正前と修正後のデータを用いて，提案手法の推定性能を評価した。

　本発明によれば、誤りが多い一部の箇所を推定することが可能になった。
なお、本発明は雇用障害者数以外の数値集合データについて，も適用可能である。
また、時系列で流れてくる数値データを補足し、どの時間帯に誤った数値が含まれているかをタイムリーに判定することも可能である。

　この場合、一定時間毎（例えば１分毎）に、過去１分間の間に入力された数値を本発明の方法で検証することによってその時間帯に改ざんされた数値が含まれているか及び改ざんされた可能性の高い数値を特定することができる。

　なお、この発明は上記一実施形態のものに限定されるものではなく、発明の要旨を変更しない範囲で種々変形可能である。

　たとえば、上記一実施形態では、数値集合の各数値に対する複数の変換方法は基数変換であったがこれに限定されるものではなく、特定の法則にしたがう変換方法であれば基数変換には限定されない。

　また、上記一実施形態では、ベンフォード分布との乖離を分析する所定の桁は最上位の桁であったがこれに限定されるものではなく、上記ｎ位の桁（ｎは前記変換後数値のうち最小値の桁数ｍ以下の整数）であれば良い。

　１…システム
　２…ＣＰＵ
　３…ＲＡＭ
　４…入出力部
　５…バス
　６…データ格納部
　７…プログラム格納部
　９…数値集合データ
　１０…変換数値集合データ
　１１…数値分布データ
　１２…数値修正可能性評価結果
　１４…数値集合取得部
　１５…基数変換処理部
　１６…数値分布生成処理部
　１７…乖離度累積処理部
　１８…訂正可能性判定処理部

Claims

コンピュータによって実行されるデータ修正／改ざん判定方法であり、
　当該コンピュータは、以下の工程を実行するものである
　解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値としてメモリに格納する工程と、
　当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換し、変換後数値の特定の桁の値の分布を、変換方法毎に集計する工程と、
　前記数値集合に含まれる同一ＩＤで参照される各数値について、前記変換後数値の特定の桁の値のベンフォードの分布からの乖離を特定し、その乖離を変換方法の個数分、累積することで累積乖離度を算出する工程と、
　上記累積乖離度を各数値間で比較することで特定の数値の修正／改ざん可能性を判定する工程と、
　を有することを特徴とするデータ修正／改ざん判定方法。
　請求項１記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記累積乖離度を各数値間で比較し、累積乖離度の高い１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とする方法。
　請求項２記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記累積乖離度を各数値間で比較し、所定の閾値以上の累積乖離度を有する１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とする方法。
　請求項３記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記全数値の累積乖離度に基づいて前記所定の閾値を決定する工程をさらに有する
　ことを特徴とする方法。
　請求項２記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記累積乖離度を各数値間で比較して高い順にソートした場合に、ソート順序が所定順位以上の１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とする方法。
　請求項５記載の方法において、
　前記修正／改ざん可能性を判定する工程は、
　前記全数値の累積乖離度に基づいて前記所定順位を決定する工程をさらに有する
　ことを特徴とする方法。
　請求項１記載の方法において、
　前記特定の桁は上位ｎ位（ｎは前記変換後数値のうち最小値の桁数ｍ以下の整数）の桁であることを特徴とする方法。
　請求項７記載の方法において、
　前記複数の特定の変換方法は、２つ以上の異なる基数を用いた基数変換である
　ことを特徴とする方法。
　請求項８記載の方法において、
　前記２以上の異なる基数ｋは、前記数値集合における基数変換後の変換後数値の最大値と最小値の桁数が２．６以上異なるものから選択されたものである
　ことを特徴とする方法。
　請求項９記載の方法において、
　前記基数は３以上の値から選ばれたものである
　ことを特徴とする方法。
　請求項１記載の方法において、
　前記前記累積乖離度は、特定の数値について前記特定の変換方法で変換された複数の変換後数値についてベンフォード分布から乖離する変換後数値の個数である
　ことを特徴とする方法。
　請求項１記載の方法において、
　前記前記累積乖離度は、特定の数値について前記特定の変換方法で変換された複数の変換後数値と、そのうちベンフォード分布から乖離する変換後数値の比率である
　ことを特徴とする方法。
　請求項１記載の方法において、
　さらに、
　特定の数値を追加で受け取る工程をさらに有し、
　前記判定する工程は、この追加で受け取った数値について前記累積乖離度を算出し、この累積乖離度を他の数値の累積乖離度と比較することで、当該追加で受け取った数値の修正／改ざん可能性をリアルタイムで判定するものである
　ことを特徴とする方法。
　請求項１記載の方法において、
　さらに、
　修正／改ざん以外の理由で乖離度が高い数値を排除する工程を有する
　ことを特徴とする方法。
　コンピュータによって実行されるシステムであり、
　コンピュータが、解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値としてメモリに格納する手段と、
　コンピュータが、当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換し、変換後数値の特定の桁の値の分布を、変換方法毎に集計する手段と、
　コンピュータが、前記数値集合に含まれる同一ＩＤで参照される各数値について、前記変換後数値の特定の桁の値のベンフォードの分布からの乖離を特定し、その乖離を変換方法の個数分、累積することで累積乖離度を算出する手段と、
　コンピュータが、上記累積乖離度を各数値間で比較することで修正／改ざん可能性を判定する手段と、
　を有するデータ修正／改ざん判定システム。
　請求項１５記載のシステムにおいて、
　前記修正／改ざん可能性を判定する手段は、
　前記累積乖離度を各数値間で比較し、累積乖離度の高い１または複数数値を修正／改ざん可能性の高い数値として特定するものである
　ことを特徴とするシステム。
　請求項１５記載のシステムにおいて、
　前記特定の桁は上位ｎ位（ｎは前記変換後数値のうち最小値の桁数ｍ以下の整数）の桁であることを特徴とするシステム。
　請求項７記載のシステムにおいて、
　前記複数の特定の変換方法は、２つ以上の異なる基数を用いた基数変換である
　ことを特徴とする方法。
　請求項１５記載のシステムにおいて、
　さらに、
　特定の数値を追加で受け取る手段をさらに有し、
　前記判定する工程は、この追加で受け取った数値について前記累積乖離度を算出し、この累積乖離度を他の数値の累積乖離度と比較することで、当該追加で受け取った数値の修正／改ざん可能性をリアルタイムで判定するものである
　ことを特徴とするシステム。
　コンピュータによって実行されるデータ修正／改ざん判定のためのコンピュータソフトウエアプログラム製品であり、
　記憶媒体に格納され、コンピュータに以下の、
　解析対象の数値集合を取得し、各数値をＩＤと共に変換前数値としてメモリに格納する工程と、
　当該集合に含まれる各変換前数値を２以上の異なる変換方法で変換し、変換後数値の特定の桁の値の分布を、変換方法毎に集計する工程と、
　前記数値集合に含まれる同一ＩＤで参照される各数値について、前記変換後数値の特定の桁の値のベンフォードの分布からの乖離を特定し、その乖離を変換方法の個数分、累積することで累積乖離度を算出する工程と、
　上記累積乖離度を各数値間で比較することで修正／改ざん可能性を判定する工程と
　を実行させる手段
　を有することを特徴とするコンピュータソフトウエアプログラム製品。