文献情報
文献番号
199900096A
報告書区分
総括
研究課題名
国民生活基礎調査を中心とした公開用ミクロデータベースの編成
課題番号
-
研究年度
平成11(1999)年度
研究代表者(所属機関)
松田 芳郎(東京国際大学経済学部)
研究分担者(所属機関)
- 安田 聖(一橋大学経済研究所)
- 塚田 武重(一橋大学経済研究所)
- 馬場 康雄(統計数理研究所)
- 伴 金美(大阪大学経済学部)
- 寺崎 康博(東京理科大学経営学部)
- 舟岡 史雄(信州大学経済学部)
研究区分
厚生科学研究費補助金 行政政策研究分野 統計情報高度利用総合研究事業
研究開始年度
平成11(1999)年度
研究終了予定年度
-
研究費
2,000,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
1995年の統計審議会の答申「統計行政の新中長期構想」は、2~3年を目途としてミクロ標本データの公開を検討するよう求めてきた。現時点での各省庁の対応は、必ずしもその実現をみるには至っていない。しかし、規模による偏りが大きく、標本データでは対応の難しい事業所データと異なり、世帯データは、プライバシーが守られるならば、この様な標本データの公開には原理的には消極的になる必要はない。
厚生省の国民生活基礎調査は、他の省庁の世帯調査データでは得られない各種の調査事項を含んでおり、貴重な統計データを提供している。しかし、その一方でプライバシーに関わる調査事項も多く含んでいることも確かであり、その統計利用は、これまでは、主として集計された結果表の利用にとどまっている。
そこで、国民生活基礎調査のデータを広く有効利用することを可能にする公開用ミクロ標本データ作成の可能性の検討を行なうため、国民生活基礎調査のミクロデータを使用して、トップコーディング等の処理を行なった標本データを編成するとともに、大標本調査年同士をリンケージしたミクロ統計データベースを編成することを目的とする。
厚生省の国民生活基礎調査は、他の省庁の世帯調査データでは得られない各種の調査事項を含んでおり、貴重な統計データを提供している。しかし、その一方でプライバシーに関わる調査事項も多く含んでいることも確かであり、その統計利用は、これまでは、主として集計された結果表の利用にとどまっている。
そこで、国民生活基礎調査のデータを広く有効利用することを可能にする公開用ミクロ標本データ作成の可能性の検討を行なうため、国民生活基礎調査のミクロデータを使用して、トップコーディング等の処理を行なった標本データを編成するとともに、大標本調査年同士をリンケージしたミクロ統計データベースを編成することを目的とする。
研究方法
公開できるミクロ標本データについては、統計調査の個票データから、簡単に個人を特定できる住所・氏名等を削除した匿名ミクロデータとし、さらに再標本抽出することによって、不確定の度合いを増加させる事とする。また、悪意のある者が、被調査者を特定しようとしたときに、特定できないように特異標本除去等の作業も必要である。一方で、秘匿の度合いを高めると、データの情報の損失量が多くなり、そのデータの有用性が低下することが懸念されることとなる。したがって、プライバシーの保護に配慮しながら最大利用可能な情報量について、次の2段階に分けて研究を行なう。
第一段階の検討は、匿名化標本データを作成する技法の開発である。検討は、①原データから再抽出する際の抽出率及び抽出方法の検討。②個人を特定しやすい地域区分の統合方法の検討。③個別属性の組み合わせパターンによる原データで一意なものを、母集団で一意と仮定したときの秘匿方法の検討。④その他の秘匿すべき事項の秘匿方法の検討、を行なう。
第二段階の検討は、集計量による分析と多変量解析の技法の応用によるモデル分析とに分かれる。①集計量による分析は、乗率の偏りと有効数値による桁数の吟味とが不可欠である。②モデル分析は、想定しうる理論仮説に対応して、調査項目の合成による秘匿がどこまで有用であるかを分析する。
これらの研究を行なうためには、国民生活基礎調査の目的外申請を行ない、自由に使用できる個別データによる研究が必要である。
そのほか、外部利用なデータとして、一般的に入手可能なデータからどの程度の情報が得られるかについて情報収集を行ない、外部データからのプライバシー保護に関する研究も行なう。
第一段階の検討は、匿名化標本データを作成する技法の開発である。検討は、①原データから再抽出する際の抽出率及び抽出方法の検討。②個人を特定しやすい地域区分の統合方法の検討。③個別属性の組み合わせパターンによる原データで一意なものを、母集団で一意と仮定したときの秘匿方法の検討。④その他の秘匿すべき事項の秘匿方法の検討、を行なう。
第二段階の検討は、集計量による分析と多変量解析の技法の応用によるモデル分析とに分かれる。①集計量による分析は、乗率の偏りと有効数値による桁数の吟味とが不可欠である。②モデル分析は、想定しうる理論仮説に対応して、調査項目の合成による秘匿がどこまで有用であるかを分析する。
これらの研究を行なうためには、国民生活基礎調査の目的外申請を行ない、自由に使用できる個別データによる研究が必要である。
そのほか、外部利用なデータとして、一般的に入手可能なデータからどの程度の情報が得られるかについて情報収集を行ない、外部データからのプライバシー保護に関する研究も行なう。
結果と考察
現在、目的外承認申請を行なっているところであり、承認が得られしだい、実際の個別データを用いて研究に取り掛かることとしている。したがって、今年度は目的外申請の手続きと、目的外申請が承認されるまでの間、個別データを用いた研究方法について検討を行なってきた。
第一段階における検討は以下のようである。
(1)リサンプルする際の抽出方法及び抽出率について
以下の2つの方法について比較検討を行なうとともに、抽出方法及び抽出率についての検討。
集計ウェイトに比例して5分の1、10分の1の世帯の抽出と、個人の抽出の双方を行う。
調査の際に抽出に使用した調査地区又は調査単位区ごとに5分の1、10分の1の抽出を行い、集計用乗率を付与する。
(2)地方区分の集約方法について
個人を特定しやすい地方区分を、どの程度までまとめるべきかについて、以下の4つの区分又はその組み合わせ方法についての検討。
都道府県区分
地方別区分
都市階級別区分
地域の社会属性区分(新規のカテゴリー)
(3)組み合わせによる秘匿データの処理方法について
いくつかの項目を組み合わせて見ることにより、その個人が特定される危険があるデータについての処理については、個別データ間の距離計算の問題として確率論から検討されているものの、実際の開示危険性とデータの有用性を考慮すると、やや疑問の点が残る。そこで、実際にリサンプルデータを使用する立場に立って、最終的には一つ一つのデータを見て秘匿処理することとなると思われるが、それを体系的にまとめることが可能かどうかの検討を行なう。
(4)その他の秘匿事項に関しては、プライバシー意識が高い項目等について、その項目の秘匿方法等に関し、検討を重ねる。
第二段階における検討を以下のように行なう。
(5)データベースの作成
データベースの変数の持たせ方
データベースの変数が持つ数字は平均値であるため、変数は数量データはそのまま使用できるが、数量データ以外はその数字が順序変数であるなど、意味がなくてはならない。しかし、調査票の設計上そのような回答肢になっていない。これらを何らかに変換する必要がある。
異常値の処理
地方・年齢階級にまとめる際に、データが少なくなると、異常値があると、その結果が大きく左右される。そこで、異常値の処理が大きな問題となるため、その処理方法について検討する必要がある。
変数の数とデータリンク
データベースの変数の数は多ければ多いほど、多くの問題の解析に対処できることとなる。しかし、例えば健康票に調査世帯数が少ない所得票・貯蓄票の調査事項を盛り込むと、集計できる標本数が少なくなる。したがって、結果の安定性と変数の数についての検討する必要がある。また、健康票の場合、世帯ではなく個人で集計することも可能であり、その際の世帯事項の変数の持たせ方も検討する必要がある。
第一段階における検討は以下のようである。
(1)リサンプルする際の抽出方法及び抽出率について
以下の2つの方法について比較検討を行なうとともに、抽出方法及び抽出率についての検討。
集計ウェイトに比例して5分の1、10分の1の世帯の抽出と、個人の抽出の双方を行う。
調査の際に抽出に使用した調査地区又は調査単位区ごとに5分の1、10分の1の抽出を行い、集計用乗率を付与する。
(2)地方区分の集約方法について
個人を特定しやすい地方区分を、どの程度までまとめるべきかについて、以下の4つの区分又はその組み合わせ方法についての検討。
都道府県区分
地方別区分
都市階級別区分
地域の社会属性区分(新規のカテゴリー)
(3)組み合わせによる秘匿データの処理方法について
いくつかの項目を組み合わせて見ることにより、その個人が特定される危険があるデータについての処理については、個別データ間の距離計算の問題として確率論から検討されているものの、実際の開示危険性とデータの有用性を考慮すると、やや疑問の点が残る。そこで、実際にリサンプルデータを使用する立場に立って、最終的には一つ一つのデータを見て秘匿処理することとなると思われるが、それを体系的にまとめることが可能かどうかの検討を行なう。
(4)その他の秘匿事項に関しては、プライバシー意識が高い項目等について、その項目の秘匿方法等に関し、検討を重ねる。
第二段階における検討を以下のように行なう。
(5)データベースの作成
データベースの変数の持たせ方
データベースの変数が持つ数字は平均値であるため、変数は数量データはそのまま使用できるが、数量データ以外はその数字が順序変数であるなど、意味がなくてはならない。しかし、調査票の設計上そのような回答肢になっていない。これらを何らかに変換する必要がある。
異常値の処理
地方・年齢階級にまとめる際に、データが少なくなると、異常値があると、その結果が大きく左右される。そこで、異常値の処理が大きな問題となるため、その処理方法について検討する必要がある。
変数の数とデータリンク
データベースの変数の数は多ければ多いほど、多くの問題の解析に対処できることとなる。しかし、例えば健康票に調査世帯数が少ない所得票・貯蓄票の調査事項を盛り込むと、集計できる標本数が少なくなる。したがって、結果の安定性と変数の数についての検討する必要がある。また、健康票の場合、世帯ではなく個人で集計することも可能であり、その際の世帯事項の変数の持たせ方も検討する必要がある。
結論
これまでの当研究班の参加者が、個別データを実際に使用した結果を基礎に討論を重ねてきたが、新しい取組についてはまだ、個別データを使用していないので、詳細なことは述べることができない。
現時点は、これ迄の検討結果から、パブリックユースデータの作成は、最終的にはいくつかの異なった利用方法に対応した処理段階に分けることにすると良いと考えている。最も秘密の保護が厳しい一般の人が使用できるような情報量の限定されたデータから、秘密の保護のための情報量の限定が最も少ないデータを、特定の場所でのみ宣誓職員方式により使用させるまで、いくつかの段階に応じたデータを作成することが必要ではないかと考えている。なお、国民生活基礎調査は、プライバシー意識の高い項目を含んでおり、公開用ミクロデータの作成は、慎重を要する。
現時点は、これ迄の検討結果から、パブリックユースデータの作成は、最終的にはいくつかの異なった利用方法に対応した処理段階に分けることにすると良いと考えている。最も秘密の保護が厳しい一般の人が使用できるような情報量の限定されたデータから、秘密の保護のための情報量の限定が最も少ないデータを、特定の場所でのみ宣誓職員方式により使用させるまで、いくつかの段階に応じたデータを作成することが必要ではないかと考えている。なお、国民生活基礎調査は、プライバシー意識の高い項目を含んでおり、公開用ミクロデータの作成は、慎重を要する。
公開日・更新日
公開日
-
更新日
-