文献情報
文献番号
202208006A
報告書区分
総括
研究課題名
全国がん登録の円滑な運用のための検証に関する研究
課題番号
20EA1007
研究年度
令和4(2022)年度
研究代表者(所属機関)
東 尚弘(国立研究開発法人 国立がん研究センター がん対策研究所 がん登録センター)
研究分担者(所属機関)
- 南 和宏(統計数理研究所)
- 祖父江 友孝(国立大学法人大阪大学 大学院医学系研究科 社会医学講座環境医学)
- 増田 昌人(琉球大学医学部附属病院第二内科)
- 塚田 庸一郎(国立がん研究センター がん対策研究所がん登録センター院内がん登録室)
- 榊原 直喜(国立研究開発法人 国立がん研究センター がん対策研究所)
研究区分
厚生労働科学研究費補助金 疾病・障害対策研究分野 がん対策推進総合研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究費
9,231,000円
研究者交替、所属機関変更
-
研究報告書(概要版)
研究目的
がん登録等の推進に関する法律に基づき全国がん登録は2016年診断症例以降、全国の病院から義務的届出が開始され、2019年に初年罹患数が995,131例発表された。前年の2015年地域がん登録の罹患数903,914例から約9万例増加しており、地域がん登録の毎年数万例程度の増加に比べると急な増加である。これは制度移行の影響と考えられている。全国がん登録制度の運用の安定化と改善と信頼のためには①データの質評価と、②全国がん登録情報の提供におけるデータ匿名化の安全性評価の確立の2点が必要不可欠である。本研究は特にデータの質と安全なデータ利用について、全国がん登録制度の健全な運営を確保するための検証を行い、体制に反映させることが目的である。
研究方法
①データの質評価
全国がん登録の届出数や情報内容の質を評価するため、全国がん登録の運営上で算出される指標を設定し、制度移行の影響などについてのモニタリングを行った。
また、予後情報の精度を評価するために、国立がん研究センター中央病院の院内がん登録の2016年症例、2017年症例(通院継続者を除く)について、住民票照会による追跡等で、生存状況の評価を行った。
②データ匿名化の安全性評価の確立
提供における匿名化個票の安全性確保、データ公表における秘匿性と有用性確保のバランスについて以下のような検討を行った。
1)匿名化された情報の提供における安全性の検討
2016年、2017年の匿名化された全国がん登録データを用い、提供されるデータの安全性について、k-匿名化による評価・検討を行った。
2)全国がん登録情報の匿名化指標の開発
がん登録情報の地域情報に国土交通省の位置参照情報を結合し、地域の位置座標に基づき地域領域を柔軟に分割する匿名化アルゴリズムを開発した。この提案手法の有効性を示すため、従来の地域レベルの調整による匿名化アルゴリズムも合わせて実装し、匿名処理で生成されるグループ間の均一性を有用性の指標として両者の比較を実証的に行った
全国がん登録の届出数や情報内容の質を評価するため、全国がん登録の運営上で算出される指標を設定し、制度移行の影響などについてのモニタリングを行った。
また、予後情報の精度を評価するために、国立がん研究センター中央病院の院内がん登録の2016年症例、2017年症例(通院継続者を除く)について、住民票照会による追跡等で、生存状況の評価を行った。
②データ匿名化の安全性評価の確立
提供における匿名化個票の安全性確保、データ公表における秘匿性と有用性確保のバランスについて以下のような検討を行った。
1)匿名化された情報の提供における安全性の検討
2016年、2017年の匿名化された全国がん登録データを用い、提供されるデータの安全性について、k-匿名化による評価・検討を行った。
2)全国がん登録情報の匿名化指標の開発
がん登録情報の地域情報に国土交通省の位置参照情報を結合し、地域の位置座標に基づき地域領域を柔軟に分割する匿名化アルゴリズムを開発した。この提案手法の有効性を示すため、従来の地域レベルの調整による匿名化アルゴリズムも合わせて実装し、匿名処理で生成されるグループ間の均一性を有用性の指標として両者の比較を実証的に行った
結果と考察
①データの質評価
制度移行の影響のモニタリング指標として、「診断施設不明例」の経過を集計値で追跡したところ、2016年は69,141例(7.0%)、2017年は59,606例(6.1%)、2018年は54,489例(5.6%)、2019年は49,482例(5.0%)と漸減傾向であった。
また、予後情報の精度については、2019年の全国がん登録の死亡情報と突合したところ、院内で生存状況が確認できた16,890名(生存11,327名、死亡5,563名)のうち、死亡が確認されている者で、全国がん登録でも死亡が確認できた者は5,529例(99.4%)、確認できなかった者は34名(0.6%)であった。また、院内で生存が確認された者は全国がん登録でも全て生存が確認でき(100%)、ほぼ実態に近い生死状況を把握できていた。
②データ匿名化の安全性評価の確立
1)匿名化された情報の提供における安全性の検討
基本的な安全性確認のため、ICD-10のみ、ICD-O-3の部位コードのみ、ICD-O-3部位コードと組織型コード、さらに性別、年齢を組み合わせた時のk-匿名化の評価として、ユニーク(k=1)となる症例を集計した。ユニークになるものはICD-O-3の部位分類のみで58件、ICD-10分類では86件、部位組織分類まで含めると4,639件であった。これらユニーク(k=1)となる症例を削除しても、全体の件数は200万件以上のためデータの有用性という意味では特に問題ないと思われた。一方で、ICD-O-3の部位・組織分類やICD-10分類、性別、年齢を加えるとユニークな症例が増えるため、必要な項目とその有用性に応じて検討をする必要があると考えられた。
2)全国がん登録情報の匿名化指標の開発
今回の提案手法をがん登録情報の住所情報に適用したところ、既存の地域レベルを調整する匿名化アルゴリズムと比較して、グループ間の均一性を定量化するDiscenability指標において、5%から16%の改善が確認された。また同一グループに含まれる地域情報の隣接性についても従来手法の結果に比べて際立った改善が実現できることが示された。
制度移行の影響のモニタリング指標として、「診断施設不明例」の経過を集計値で追跡したところ、2016年は69,141例(7.0%)、2017年は59,606例(6.1%)、2018年は54,489例(5.6%)、2019年は49,482例(5.0%)と漸減傾向であった。
また、予後情報の精度については、2019年の全国がん登録の死亡情報と突合したところ、院内で生存状況が確認できた16,890名(生存11,327名、死亡5,563名)のうち、死亡が確認されている者で、全国がん登録でも死亡が確認できた者は5,529例(99.4%)、確認できなかった者は34名(0.6%)であった。また、院内で生存が確認された者は全国がん登録でも全て生存が確認でき(100%)、ほぼ実態に近い生死状況を把握できていた。
②データ匿名化の安全性評価の確立
1)匿名化された情報の提供における安全性の検討
基本的な安全性確認のため、ICD-10のみ、ICD-O-3の部位コードのみ、ICD-O-3部位コードと組織型コード、さらに性別、年齢を組み合わせた時のk-匿名化の評価として、ユニーク(k=1)となる症例を集計した。ユニークになるものはICD-O-3の部位分類のみで58件、ICD-10分類では86件、部位組織分類まで含めると4,639件であった。これらユニーク(k=1)となる症例を削除しても、全体の件数は200万件以上のためデータの有用性という意味では特に問題ないと思われた。一方で、ICD-O-3の部位・組織分類やICD-10分類、性別、年齢を加えるとユニークな症例が増えるため、必要な項目とその有用性に応じて検討をする必要があると考えられた。
2)全国がん登録情報の匿名化指標の開発
今回の提案手法をがん登録情報の住所情報に適用したところ、既存の地域レベルを調整する匿名化アルゴリズムと比較して、グループ間の均一性を定量化するDiscenability指標において、5%から16%の改善が確認された。また同一グループに含まれる地域情報の隣接性についても従来手法の結果に比べて際立った改善が実現できることが示された。
結論
データ提供における匿名化個票の安全性確保、データ公表における秘匿性と有用性確保のバランスの双方に関して、これまでの検討を踏まえた解析を行った。
これらの研究結果から、「診断施設不明例」は、制度安定化を評価するための指標の一つになると考えられた。また、k-匿名化及び匿名化アルゴリズムの活用により、より安全かつ有用な全国がん登録情報の提供が可能になると考えられた。
これらの研究結果から、「診断施設不明例」は、制度安定化を評価するための指標の一つになると考えられた。また、k-匿名化及び匿名化アルゴリズムの活用により、より安全かつ有用な全国がん登録情報の提供が可能になると考えられた。
公開日・更新日
公開日
2023-07-04
更新日
-