全国がん登録の円滑な運用のための検証に関する研究

文献情報

文献番号
202008035A
報告書区分
総括
研究課題名
全国がん登録の円滑な運用のための検証に関する研究
課題番号
20EA1007
研究年度
令和2(2020)年度
研究代表者(所属機関)
東 尚弘(国立研究開発法人 国立がん研究センター がん対策情報センターがん登録センター)
研究分担者(所属機関)
  • 祖父江 友孝(国立大学法人大阪大学 大学院医学系研究科 社会医学講座環境医学)
  • 柴田 亜希子(国立研究開発法人国立がん研究センター がん対策情報センターがん登録センター)
  • 南 和宏(統計数理研究所)
研究区分
厚生労働科学研究費補助金 疾病・障害対策研究分野 がん対策推進総合研究
研究開始年度
令和2(2020)年度
研究終了予定年度
令和4(2022)年度
研究費
9,231,000円
研究者交替、所属機関変更
-

研究報告書(概要版)

研究目的
がん登録等の推進に関する法律に基づき、全国がん登録は2016年診断症例以降、全国の病院から義務的届出が開始され、2019年に初年罹患数が995,131例発表された。これは前年の2015年地域がん登録の罹患数903,914例から約9万例の増加であり、地域がん登録の毎年数万例程度の増加に比べると急な増加である。これは制度移行の影響と考えられている。
 全国がん登録制度の運用の安定化と改善と信頼のためには①データの質評価が必要不可欠である。さらに、未着手の課題として、2019年度から始まった全国がん登録情報の提供の②データ匿名化の安全性評価の確立の2点が必要である。本研究は、特にデータの質と安全なデータ利用について、今後の全国がん登録制度の健全な運営を確保するための上記検証活動を行い今後の体制に反映させることを目的としている。
研究方法
①データの質評価
a.登録数や情報内容の質、及びb.死亡情報の突合確率、の2つの焦点がある。a登録数については前述の制度移行の影響が、届出件数、治療開始後の届出割合、既登録との突合確率、遡り調査回答の診断年分布などの処理過程の各段階における症例数を記述し観察することで影響の大きさを検討し、適切な指標を同定する。
b.死亡情報については、これまで国からの死亡情報を提供されている院内がん登録や一部の地域がん登録で行われていた住民票照会による生存状況確認との差異が生じる可能性がある。そこで2016年症例サンプルについて従来の住民票照会を1、3年目に行う。
②データ匿名化の安全性評価の確立
a. 匿名化個票の提供における安全性確保、b.データ公表における秘匿性と有用性確保のバランス、の2つの焦点がある。本年度は、代表的な安全性指標であるk-匿名化の枠組みで匿名化処理の問題定式化を行った。k-匿名化では、レコードの属性情報を外観識別性の高い準識別子と機密属性に分類することが要件になるため、その判断の前提となる現実的な攻撃者モデルを3種類定義し、それぞれのモデルにおける属性情報の外観識別性を3段階で評価した。
結果と考察
3年計画の1年目ということで、以下を行った。2年目以降のための集計方法(指標)の検討、準備データの収集、データの解析を開始し、全国がん登録の円滑な運用のために必要な要素についての準備的な解析を進めた。
①データの質評価
・登録数や情報内容の質は、制度としての安定性に関連していることから、その制度安定性の指標を検討した。制度移行における罹患統計への影響を反映した指標としては、初診届出不明例の数、割合が考えられた。また、前届出件数、整理症例数割合なども指標として考えられた。今後、実際の算出も検討する。
・予後情報の精度を検討するために国立がん研究センター中央病院の2016年症例の通院継続者を除く症例に対しての住民票照会による追跡を行った。3,824人を調査、3,749人に関しての住民票照会が可能であり、死亡2,343名、生存1,333名、不明73名(追跡不能72名、除票1名)であった。この結果を3年目に全国がん登録と情報と突合して検討する。
②データ匿名化の安全性評価の確立
全国がん登録匿名データの申出を行い、匿名化データの安全性の基準として、手始めに、一般的に入手可能な情報を要素としてk-匿名化の評価を行った。単一属性としては、「診断時年齢」、「市区町村コード」、「ICD10コード」等を用い、個々の値の頻度分布を解析した。年齢については、ある年齢以上の情報をグループ化するトップコーディングの処理が必要であることが分かった。また市区町村コード、ICD10についても匿名化処理における適切なグループ化方法が重要な検討事項であることを確認した。複数属性の組み合わせとして、「性別」、「年齢」、「都道府県コード」の3つの属性のクロス分析の結果、単独では識別リスクが低い属性であっても複数属性の値による絞り込みで識別リスクが高まることが分かり、多次元データの適切なクラスタリングが、匿名化処理における今後の重要な検討事項であることを確認した。
これらから、匿名化処理を行う際、個々の属性情報ごとに一般化処理を行うのではなく、多次元データのデータ空間の領域分割問題として匿名化の問題を捉え、柔軟なデータのクラスタリングを行う匿名化アルゴリズムが必要と言える。匿名化データの安全性と有用性(情報損失)とでトレードオフが適切に取られるかについては実証的に評価する必要がある。
結論
全国がん登録の精度は開始後5年が経とうとしているが、そのデータ活用は始まったばかりである。円滑な運用のために試行錯誤しながら本研究班においてその検討を深めていく。

公開日・更新日

公開日
2021-06-16
更新日
-

研究報告書(PDF)

公開日・更新日

公開日
2021-06-02
更新日
-

研究報告書(紙媒体)

収支報告書

文献番号
202008035Z
報告年月日

収入

(1)補助金交付額
12,000,000円
(2)補助金確定額
10,735,258円
差引額 [(1)-(2)]
1,264,742円

支出

研究費 (内訳) 直接研究費 物品費 5,151,949円
人件費・謝金 0円
旅費 0円
その他 2,814,309円
間接経費 2,769,000円
合計 10,735,258円

備考

備考
新型コロナウイルス感染症の影響により、海外旅費がゼロになり、研究計画も変更したため、返金が発生した。

公開日・更新日

公開日
2021-06-16
更新日
-