研究の要点

  • SNSと深層学習を組み合わせて、熱中症関連の日本語のツイートを分類し、その有効性を評価。
  • 熱中症リスクの早期検出を可能にする、時空間レベルでのイベントベースサーベイランスを提示。
  • 気候変動による熱中症の増加や新たな感染症の流行のリスク低減に寄与。

上智大学大学院地球環境学研究科の安納 住子教授らの研究グループは、SNSと深層学習を用いて、熱中症リスクを時空間レベルで早期に検知することが可能であることを実証しました。

近年、健康リスクを早い段階で検知することを目的として行う調査(イベントベースサーベイランス)においてSNS投稿の活用が注目されています。SNS投稿には、投稿者の感情、潜在意識、時間、場所などの情報が含まれており、これらを収集・分析することで、感染症の流行などを早期に検知し、迅速な対応を行うことが可能となります。日本においては、投稿された情報の信頼性や言語の複雑さなどの理由から、SNS投稿を収集・分析して活用した研究例は少ないのが現状です。そこで本研究では、transformer(*1)をベースとした深層学習モデルを用いて熱中症関連の日本語のX(旧Twitter)の投稿(ツイート)を分類し、その妥当性について評価しました。また、正しく分類されたツイートと熱中症による救急搬送者のデータと合わせて分析し、時空間レベルでのイベントベースサーベイランスの可能性を調査しました。

研究の結果、transformerベースの深層学習モデルは、日本語のツイートの分類において高い性能を示すことがわかりました。また、時空間とアニメーションによる可視化により、正しく分類されたツイートと熱中症による救急搬送者との間に相関があることが明らかとなりました。本研究は、日本語のツイートとtransformerに基づく深層学習モデルの利用の潜在的な有用性の高さを実証するものであり、高い時空間レベルでのイベントベースサーベイランスを通じて、熱中症リスクの早期検出が可能であることを示しています。

 本研究成果は、2025年1月4日に国際学術誌「Scientific Reports」にオンライン掲載されました。

研究の背景

サーベイランスシステムは、一定のデータを収集・分析し、特定の現象や状況を監視・評価するシステムで、感染症の流行追跡や環境汚染の監視などに活用されています。現在、熱中症による救急搬送件数のデータ収集にもサーベイランスシステムが使用されています。しかし、データの収集・分析、症例の特定に時間がかかるため、公衆衛生対応に遅れが生じるという課題があります。この問題を解決するために、潜在的な公衆衛生リスクとなる異常なイベントを早期に検出し、迅速な対応を可能にするイベントベースサーベイランスの実装が期待されています。

近年、イベントベースサーベイランスにおけるSNS投稿の利用が注目されています。特に、X(旧Twitter)の投稿(ツイート)には、投稿者の感情に加え、潜在意識、時間、場所など、観察データからは得られない情報が含まれており、予期しない異常なイベントを早期に検出し、迅速に対応することが可能とされています。英語圏の疾患関連ツイートは、機械学習や深層学習を活用して分類され、データが利用されていますが、日本語の疾患関連ツイートに関する研究は、言語の複雑さやツイートの信頼性の問題から、ほとんど行われていません。

このため、本研究では、熱中症に関連する日本語のツイートの真偽を正確に分類するため、transformerを基盤とした学習済み言語モデルの性能を評価しました。さらに、正確に分類されたツイートと熱中症救急搬送者のデータを時空間とアニメーションで視覚化することで、本手法の有効性を検証しました。

研究結果の詳細

調査地域として、熱中症による救急搬送者数が東京都、埼玉県、大阪府に次いで4位の愛知県名古屋市を選びました。また、名古屋市の気温上昇率は東京、福岡に次いで大都市で3番目に大きく、深刻なヒートアイランド現象が生じている地域でもあります。

データは、名古屋市消防局から提供を受けた、2017年4月22日から2022年9月30日までのブロックレベルでの熱中症関連救急搬送データを利用しました。Twitter API v2とBEARER_TOKENを用いて、同期間に投稿された日本語で「暑い」というキーワードを含むツイートを収集し、バウンディングボックスを用いて調査範囲を絞り込んだ結果、27,040ツイートのデータセットが得られました。熱中症データと日本語の「暑い」というキーワードを含むツイートには時系列的な相関が見られたことから、日本語の「暑い」は熱中症イベントを表すのに適切な単語であると判断し、これらのツイートを実験に用いました。

3つの深層学習モデル(BERT-base、RoBERTa-base、LUKE Japanese base lite)と1つの機械学習モデル(SVM)、計4つのモデルの性能について、データセットを用いて評価しました。その結果、いずれの深層学習モデルにおいても、機械学習モデルよりも良好なスコアが得られることが明らかとなりました。その中でも特に、LUKE Japanese base liteが最も高いスコアを示すことがわかりました(正解率: 85.52%、適合率: 87.90%、再現率: 82.72%、F1スコア: 85.23%)。

最後に、正しく分類されたツイートと熱中症の救急搬送者に関するデータをそれぞれ時空間とアニメーションで視覚化することにより、イベントベースサーベイランスシステムが熱中症を初期段階で検出して、対応する可能性を調査しました。その結果、これらに妥当な相関関係があることが明らかとなりました。

以上の結果から、transformerをベースとした深層学習モデルは、ツイートの分類において優れた性能を発揮することが明らかになりました。本手法は、パンデミックの可能性がある感染症への対応にも拡張でき、全国的な警報システムの構築への応用が期待されます。

一方で、検証に必要な熱中症データを提供している都道府県はまだ少ないという課題があります。今後、全国的な警報システムを構築するためには、都道府県にイベントベースのサーベイランスの重要性を訴え、熱中症データ提供への協力を要請し、全都道府県を対象とした実験を実施することが不可欠であると考えられます。

※ 本研究は、中部大学IDEASの共同研究プログラムによる支援を受けて実施したものです。

【用語】

*1: transformer
 深層学習モデルの1つであり、主に自然言語処理に使用される。文章の翻訳、要約、分類、感情分析などのタスクで優れた性能を発揮する。

論文名および著者

媒体名

Scientific Reports

論文名

Using transformer-based models and social media posts for heat stroke detection

オンライン版URL

https://doi.org/10.1038/s41598-024-84992-y

著者

Sumiko Anno, Yoshitsugu Kimura & Satoru Sugita


本リリース内容に関するお問合せ先

上智大学大学院 地球環境学研究科 兼務:応用データサイエンス学位プログラム

教授 安納 住子 (E-mail:sumiko_anno@sophia.ac.jp)

報道関係のお問合せ先

上智学院広報グループ

sophiapr-co@sophia.ac.jp

上智大学 Sophia University