全国がん登録の円滑な運用のための検証に関する研究

文献情報

文献番号
202208006A
報告書区分
総括
研究課題名
全国がん登録の円滑な運用のための検証に関する研究
課題番号
20EA1007
研究年度
令和4(2022)年度
研究代表者(所属機関)
東 尚弘(国立研究開発法人 国立がん研究センター  がん対策研究所 がん登録センター)
研究分担者(所属機関)
  • 南 和宏(統計数理研究所)
  • 祖父江 友孝(国立大学法人大阪大学 大学院医学系研究科 社会医学講座環境医学)
  • 増田 昌人(琉球大学医学部附属病院第二内科)
  • 塚田 庸一郎(国立がん研究センター がん対策研究所がん登録センター院内がん登録室)
  • 榊原 直喜(国立研究開発法人 国立がん研究センター がん対策研究所)
研究区分
厚生労働科学研究費補助金 疾病・障害対策研究分野 がん対策推進総合研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究費
9,231,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
がん登録等の推進に関する法律に基づき全国がん登録は2016年診断症例以降、全国の病院から義務的届出が開始され、2019年に初年罹患数が995,131例発表された。前年の2015年地域がん登録の罹患数903,914例から約9万例増加しており、地域がん登録の毎年数万例程度の増加に比べると急な増加である。これは制度移行の影響と考えられている。全国がん登録制度の運用の安定化と改善と信頼のためには①データの質評価と、②全国がん登録情報の提供におけるデータ匿名化の安全性評価の確立の2点が必要不可欠である。本研究は特にデータの質と安全なデータ利用について、全国がん登録制度の健全な運営を確保するための検証を行い、体制に反映させることが目的である。
研究方法
①データの質評価
全国がん登録の届出数や情報内容の質を評価するため、全国がん登録の運営上で算出される指標を設定し、制度移行の影響などについてのモニタリングを行った。 
また、予後情報の精度を評価するために、国立がん研究センター中央病院の院内がん登録の2016年症例、2017年症例(通院継続者を除く)について、住民票照会による追跡等で、生存状況の評価を行った。
②データ匿名化の安全性評価の確立
提供における匿名化個票の安全性確保、データ公表における秘匿性と有用性確保のバランスについて以下のような検討を行った。
1)匿名化された情報の提供における安全性の検討
2016年、2017年の匿名化された全国がん登録データを用い、提供されるデータの安全性について、k-匿名化による評価・検討を行った。
2)全国がん登録情報の匿名化指標の開発
がん登録情報の地域情報に国土交通省の位置参照情報を結合し、地域の位置座標に基づき地域領域を柔軟に分割する匿名化アルゴリズムを開発した。この提案手法の有効性を示すため、従来の地域レベルの調整による匿名化アルゴリズムも合わせて実装し、匿名処理で生成されるグループ間の均一性を有用性の指標として両者の比較を実証的に行った
結果と考察
①データの質評価
制度移行の影響のモニタリング指標として、「診断施設不明例」の経過を集計値で追跡したところ、2016年は69,141例(7.0%)、2017年は59,606例(6.1%)、2018年は54,489例(5.6%)、2019年は49,482例(5.0%)と漸減傾向であった。
また、予後情報の精度については、2019年の全国がん登録の死亡情報と突合したところ、院内で生存状況が確認できた16,890名(生存11,327名、死亡5,563名)のうち、死亡が確認されている者で、全国がん登録でも死亡が確認できた者は5,529例(99.4%)、確認できなかった者は34名(0.6%)であった。また、院内で生存が確認された者は全国がん登録でも全て生存が確認でき(100%)、ほぼ実態に近い生死状況を把握できていた。
②データ匿名化の安全性評価の確立
1)匿名化された情報の提供における安全性の検討
基本的な安全性確認のため、ICD-10のみ、ICD-O-3の部位コードのみ、ICD-O-3部位コードと組織型コード、さらに性別、年齢を組み合わせた時のk-匿名化の評価として、ユニーク(k=1)となる症例を集計した。ユニークになるものはICD-O-3の部位分類のみで58件、ICD-10分類では86件、部位組織分類まで含めると4,639件であった。これらユニーク(k=1)となる症例を削除しても、全体の件数は200万件以上のためデータの有用性という意味では特に問題ないと思われた。一方で、ICD-O-3の部位・組織分類やICD-10分類、性別、年齢を加えるとユニークな症例が増えるため、必要な項目とその有用性に応じて検討をする必要があると考えられた。
2)全国がん登録情報の匿名化指標の開発
今回の提案手法をがん登録情報の住所情報に適用したところ、既存の地域レベルを調整する匿名化アルゴリズムと比較して、グループ間の均一性を定量化するDiscenability指標において、5%から16%の改善が確認された。また同一グループに含まれる地域情報の隣接性についても従来手法の結果に比べて際立った改善が実現できることが示された。
結論
データ提供における匿名化個票の安全性確保、データ公表における秘匿性と有用性確保のバランスの双方に関して、これまでの検討を踏まえた解析を行った。
これらの研究結果から、「診断施設不明例」は、制度安定化を評価するための指標の一つになると考えられた。また、k-匿名化及び匿名化アルゴリズムの活用により、より安全かつ有用な全国がん登録情報の提供が可能になると考えられた。

公開日・更新日

公開日
2023-07-04
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2023-07-04
更新日
-

研究報告書(紙媒体)

文献情報

文献番号
202208006B
報告書区分
総合
研究課題名
全国がん登録の円滑な運用のための検証に関する研究
課題番号
20EA1007
研究年度
令和4(2022)年度
研究代表者(所属機関)
東 尚弘(国立研究開発法人 国立がん研究センター  がん対策研究所 がん登録センター)
研究分担者(所属機関)
  • 祖父江 友孝(国立大学法人大阪大学 大学院医学系研究科 社会医学講座環境医学)
  • 柴田 亜希子(山形大学医学部放射線医学講座)
  • 増田 昌人(琉球大学がんセンターセンター長 診療教授)
  • 塚田 庸一郎(国立がん研究センター がん対策情報センターがん登録センター院内がん登録室)
  • 榊原 直喜(国立研究開発法人 国立がん研究センター がん対策研究所)
  • 南 和宏(統計数理研究所)
研究区分
厚生労働科学研究費補助金 疾病・障害対策研究分野 がん対策推進総合研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
がん登録等の推進に関する法律に基づき2016年から開始された全国がん登録は、2019年に初年罹患数が初めて発表された。全国がん登録を真に役立て円滑に運用していくためには、罹患数の正確性と二次利用データの安全性を確保していく必要がある。
全国がん登録の質の懸念点として、①罹患数が正しいか、②死亡情報が正しいか、が想定される。①は、がん罹患数が2016年で急増、2017年は漸減と、制度の変化による影響が考えられるため、その安定化をモニターする指標が必要と考えられる。②は、全国がん登録では、死亡票と既登録情報が連結されなかった場合は「生存」とされるため、長期に予後を追跡するほど影響は大きくなる。
二次利用データの安全性については、提供する個票データの安全性と、公表する集計データにおける個人識別性という安全性の問題が存在する。
本研究は以上を評価し、全国がん登録を円滑に運営していくための知見を提供することを目的としている。


研究方法
①データの質評価
1)全国がん登録の届出数や情報内容の質の評価のため、診断年の整理に活用可能な指標を設定し、制度移行の影響などについてモニタリングを行った。
2)予後情報の精度評価のため、国立がん研究センター中央病院の院内がん登録の2016年、2017年症例について、住民票照会等で生存状況の評価を行い、東京都からの法第20条に基づく生存確認情報の返却データと比較した。
②データ匿名化の安全性評価の確立
提供における匿名化個票の安全性確保、データ公表における秘匿性と有用性確保のバランスについて検討した。
1)2016年、2017年の匿名化された全国がん登録データを用い、提供データの安全性について、k-匿名化による評価・検討を行った。
2)がん登録情報の地域情報に国土交通省の位置参照情報を結合し、地域領域を柔軟に分割する匿名化アルゴリズムを開発した。また、従来の地域レベルの調整による匿名化アルゴリズムも合わせて実装し、匿名処理で生成されるグループ間の均一性を有用性の指標として両者の比較を実証的に行った。

結果と考察
①データの質評価
1)制度移行の影響のモニタリング指標として「診断施設不明割合」を考案した。診断年変更の割合がほぼ一定とした場合、診断施設不明割合は、名寄せの成功率に比例すると考えられるため、診断年の確からしさを表す指標として活用可能と考えた。
2)予後情報の精度について、2019年の全国がん登録の死亡情報と突合したところ、院内で生存状況が確認できた16,890名のうち、全国がん登録でも死亡が確認できた者は5,529例(99.4%)、生存が確認できた者は全てであり、ほぼ実態に近い生死状況を把握できていた。

②データ匿名化の安全性評価の確立
1)ICD-10のみ、ICD-O-3の部位コードのみ、ICD-O-3部位コードと組織型コード、性別、年齢を組み合わせた時のk-匿名化の評価として、ユニーク(k=1)となる症例を集計した。また、複数属性の組み合わせとして、性別、年齢、都道府県コードを組み合わせたクロス集計による頻度分布を解析した。これら3つの属性のクロス分析の結果、単独では識別リスクが低い属性でも複数属性の値による絞り込みで識別リスクが高まることが分かり、多次元データの適切なクラスタリングが、匿名化処理における今後の重要な検討事項であることを確認した。
2)今回の提案手法では、既存の匿名化アルゴリズムと比較し、グループ間の均一性を定量化するDiscenability指標は5%から16%と改善し、同一グループに含まれる地域情報の隣接性についても従来手法に比べて際立った改善が示された。
全国がん登録制度の安定化を図るには、データの質評価が重要である。本研究では、制度移行の影響を反映した指標として診断施設不明例を用いたが、最新年では5~6%の減少傾向を認めており、今後も精度は向上していくと考えられた。
また、予後情報の精度については、国立がん研究センター中央病院のデータを用いて評価したが、登録精度については、都道府県によって多少ばらつきがあることに留意する必要がある。
提供データのk-匿名化による安全性の評価・検討では、単独では識別リスクが低い属性であっても複数属性の値による絞り込みで識別リスクが高まることが分かったため、必要な項目とその有用性に応じた検討が必要であると考えられた。



結論
データ提供における匿名化個票の安全性確保、データ公表における秘匿性と有用性確保のバランスの双方に関して、これまでの検討を踏まえた解析を行った。
これらの研究結果から、「診断施設不明例」は、制度安定化を評価するための指標の一つになると考えられた。また、k-匿名化及び匿名化アルゴリズムの活用により、より安全かつ有用な全国がん登録情報の提供が可能になると考えられた。

公開日・更新日

公開日
2023-07-04
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2023-07-04
更新日
-

研究報告書(紙媒体)

行政効果報告

文献番号
202208006C

収支報告書

文献番号
202208006Z