DeepLearningと高性能コンピュータリソースを活用した矯正歯科治療

高齢化による医療需要と医療費の増加が世界的に深刻な問題となっています。これに対して、より洗練された医療システムを通じてより良い医療を提供することが必須です。

本プロジェクトでは、その一例として、先進機械学習技術と高性能コンピュータリソースを活用した矯正歯科治療における医療施術の効率化に取り組んでいます。

本プロジェクトの具体的な取り組み

  • 不正咬合や顎変形症に対する重症度指標である Index of Orthodontic Treatment Priority (IOTN)を、口腔内写真から自動算出する。これを用いて矯正歯科治療の要否判定を自動化する。
  • 顔のX線写真やセファログラムから、形態学術的な特徴点を抽出する。
  • 所見や治療計画書を自動作成する。
  • 患者の問題点抽出とそれに対応した治療法のリコメンドを作成する。

矯正歯科治療要否判定

治療要否判定

治療要否判定

歯科医療では適切な時期に矯正歯科治療を行うことが重要である。治療要否判定にはIndex of Orthodontic Treatment Need (IOTN) の評価基準が用いられる。この判定には歯科専門医の熟練した経験が必要である。治療要否判定の汎用化が可能となれば根拠に基づく医療を提供する上で大きな意義を持つ。患者の正面上下左右から撮影された口腔内画像を入力とした治療要否判定の汎用化を目的として、画像認識技術として注目されConvolutional Neural Network (CNN) の活用が考えられる。しかし、CNN を用いると52.5 %の精度でしか正しい判定が行えない。低精度の要因として2 点考えられる。第1 に、5 方向の口腔内画像の治療要否の分類を混在して学習する点、第2 に、治療要否判定の対象が患者一人であり、画像を1 枚ずつ学習する単一CNN では一患者の画像の関連性を学習できない点である。

治療要否判定を行う並列CNN

治療要否判定を行う並列CNN

本研究では上記2 点の問題を解決し、5 方向の口腔内画像の特徴を同時に学習して治療要否判定を行う並列CNNを提案する。本提案の中核は、5 つのCNNから得た異なる特徴テンソルを連結させる点にある。5 方向の口腔内画像を各方向に対応するCNN に入力することで、5 方向を混在して学習する必要性を排除する。その後、一患者の画像を対応するCNNに並列に入力し、各CNN から得られた入力画像の特徴を表すテンソルを1 つに連結させ、5 方向全ての特徴を表す連結特徴テンソルを作成する。学習時には、この連結特徴テンソルを入力して得られる予測値が、専門医の判定する治療要否を表す値に近付くように並列CNN モデルのパラメータ調整を行う。これにより単一のCNN ではできない、5 方向の口腔内画像全ての特徴を同時に考慮した学習と分類を可能にする。

本論文の評価では300 患者分の口腔内画像に対して6 分割交差検証を行い、単一CNN と並列CNN の治療要否判定の正解率を比較した。実験の結果、治療要否判定の問題において提案する並列CNN が単一CNN よりも高精度の分類を行うことが判明した。分類に用いるCNN の数を変化させる実験を通して、5 方向の口腔内画像を混在した学習の必要性の排除と連結特徴テンソルによる学習が精度を向上させることも確認した。学習に用いる画像数を変化させる実験を通して、画像数が多いほど精度が向上することについても確認した。同時に、性能評価のためにIOTN の5 レベルの判定も行い、IOTN 判定においても並列CNNは単一CNN よりも高精度の分類を行うことが判明した。

矯正歯科治療のための顔画像特徴記述文生成

顔画像特徴記述文生成

顔画像特徴記述文生成

矯正歯科では患者の口腔内や顔の画像から歯科医師が所見を作成し、所見を基に治療計画を立案する。本研究では、大阪大学歯学部附属病院矯正科に蓄積された顔画像および所見を訓練データとする深層学習の技法を用いて、患者の顔画像より、所見を構成する特徴記述文集合を生成する手法の開発を行う。技術的には、画像に説明文を付与する Neural Image Caption (NIC) を基盤技術として採用する。NIC は Convolutional Neural Network (CNN)とRecurrent Neural Network (RNN) を連結して、画像の説明文を生成する。NIC を矯正歯治療の所見に適用する場合、所見の文集合全体を 1 つの文と見なして生成することになるが、入力する文が長くなると RNN の精度 (単語の出現確率や順序の学習精度) が低下することが知られている。また、所見は歯科医師によって記載の差異があるため、所見全体の生成を検討する場合、学習の困難さが増加し、内容の正確さが低下することが問題となる。

本研究では、所見内容の正確さを高めるための顔画像特徴記述文の生成手法を提案する。NIC では、RNN への最初の入力単語は単に文頭を表す特殊単語であり、その後の文生成の流れは CNN により抽出された画像の特徴量に完全に依存している。本研究では、NIC のRNN 部分への最初の入力単語として、生成する特徴記述文の特徴に対応するキーワードを用いる。キーワードは歯科医師が所見を生成する際に注目する観点を表す。RNN の出力は時系列的に過去の入力全てに影響を受けるので、生成される文は画像の特徴量とキーワードによって決定されることになる。これにより、注目する特徴の異なる特徴記述文を生成することが可能となる。

本研究の評価では、2 要素からなる特徴記述文集合の生成タスクによって、提案手法とオリジナルの NIC を比較した。生成した特徴記述文の内容の正確さを評価するために、機械翻訳の分野で頻繁に利用されている BLEU score を利用した。BLEU score は、正解文中にあるn-gram の生成文中での一致率を考慮した値である。交差検定による評価の結果、提案モデルは n = 1 4 の全てにおいて、NIC よりも高い BLEU score を示した。これにより、提案手法は NICよりも 2 要素からなる特徴記述文集合を正確な内容で生成できることが確認された。