正確なオート

ニュース

ホームページホームページ / ニュース / 正確なオート

Nov 13, 2023

正確なオート

Volume sulle comunicazioni sulla natura

Nature Communications volume 13、記事番号: 1867 (2022) この記事を引用

7083 アクセス

6 引用

17 オルトメトリック

メトリクスの詳細

大規模なオープンアクセスの医用画像データセットに正確かつ効率的にラベルを付けることができないため、医療における人工知能モデルの広範な実装は制限されています。 しかし、このような公共データベースの注釈を自動化する試みはほとんどありませんでした。 たとえば、1 つのアプローチは、新しいモデルのトレーニングに使用されるこれらのデータセットのサブセットの労働集約的な手動ラベル付けに焦点を当てていました。 この研究では、以前に検証された説明可能な AI (xAI) モデル由来のアトラスとの類似性に基づいて、標準化された自動ラベル付けの方法について説明します。このアトラスについては、ユーザーが希望する精度レベル (確率) の定量的なしきい値を指定できます。 -類似度、pSim メトリック)。 私たちの xAI モデルは、トレーニング セットから派生した参照アトラスとの比較に基づいて各臨床出力ラベルの pSim 値を計算することで、ユーザーが選択した高レベルの精度で外部データセットに自動的にラベル付けできることを示します。人間の専門家たちの。 さらに、再トレーニング用に自動的にラベル付けされた検査を使用して元のモデルを微調整することで、パフォーマンスが維持または向上し、その結果、高精度でより一般化されたモデルが得られることを示します。

医療用人工知能 (AI) を臨床現場全般、特に放射線科現場に導入することは、プラチナ レベルとして機能する非常に大規模な画像データセットを正確にラベル付けするために必要な時間、コスト、専門知識によって主に制限されています。臨床的に関連する AI モデルをトレーニングするためのグラウンド トゥルース。 したがって、ユーザーが選択した精度レベルで大規模な外部データセットに自動的かつ効率的に注釈を付ける機能は、医療に付加価値をもたらし、広く受け入れられる、影響力があり重要な医療 AI モデルを開発する上で非常に価値があると考えられます。医療コミュニティ。 このようなアプローチは、既存の AI モデルの精度を向上させる再トレーニングに役立つ可能性があるだけでなく、説明可能なモデル由来のアトラスベースの方法論 1 を使用することで、オープンソース データセットのラベル付けの標準化にも役立つ可能性があります 2、3、4、5。 、提供されたラベルがノイズを含んでいる、不正確である、または存在しない可能性があります。 このような標準化により、最初の小さいながらも十分に注釈が付けられたデータセットからの正確なモデルの構築、促進、トレーニング、および再トレーニングに必要なデータポイントの数が削減される可能性があります 1,6。

この研究では、ユーザーが目的の量的しきい値を指定できるモデル由来のアトラスベースのアプローチを使用して、以前に検証された説明可能な AI (xAI) モデルとの類似性に基づいて標準化された自動ラベル付けの方法を開発および実証します。精度のレベル (類似性の確率、または pSim メトリクス)。 pSim 値の範囲は、類似性の「ベースライン」尤度 (pSim = 0、選択性が最も低い) から類似性の「最大」尤度 (pSim = 1、最も選択性が高い) までです。 pSim は、テストセットから導出された画像特徴とモデルの参照アトラス (つまり、ライブラリ) から取得された画像特徴の間の比較によって計算されます。 このモデル由来のアトラスは、モデル構築中にトレーニング セットのケース (図 1a、b) から構築されます (図 1a)。 計算された pSim 値は、「パッチ類似性」と「信頼性」という 2 つのモデル関連パラメーター間の調和平均を反映しています (方法、図 1b、c)。

xAI モデル由来のアトラス ベースのアプローチを使用した、以前に検証された 5 ラベル胸部 X 線 (CXR) 検出説明可能 AI (xAI) モデルとの類似性に基づく、標準化された自動ラベル付け方法。 a 当社の定量モデル由来のアトラスベースの説明可能な AI システムは、パッチの類似性と信頼度の間の調和平均に基づいて、自動ラベル付けの類似確率 (pSim) 値を計算します。 結果として得られる pSim メトリクスは、「モード選択」アルゴリズムに適用して、外部入力画像を選択した信頼しきい値にラベル付けしたり、pSim 値がこの選択したしきい値を下回ることをユーザーに警告したりできます。 b モデル由来のアトラスベースの方法では、クラス活性化マッピング (CAM) 38,39 とモデルからの予測確率に基づいて、臨床出力ラベルごとにパッチの類似性と信頼度が計算されます。 c 次に、パッチの類似性と信頼性の間の調和平均を使用して、モード選択における各臨床出力ラベルの pSim が計算されます。

具体的には、5 つの異なる胸部 X 線 (CXR) 画像ラベル (心肥大、胸水、肺水腫、肺炎、無気肺) を検出するための既存の AI モデルを、3 つの大規模なオープンソース データセット (CheXpert2、MIMIC3、およびNIH4—そして結果として得られたラベルを 7 人の人間の専門放射線科医のラベルと比較しました。 注目すべきことに、選択された pSim しきい値と、外部データセットからのモデルによって特定された (つまりキャプチャされた) ケースの数の間には逆関係があります。 言い換えれば、類似性の可能性のしきい値が高くなるほど、外部データベースからモデルでラベル付けされたケースと類似していると識別されるケースが少なくなります。

私たちの xAI モデルは、モデルのトレーニング セットから派生した参照アトラスとの比較に基づいて各臨床出力ラベルの pSim 値を計算することで、ユーザーが選択した任意の高レベルの精度で外部データセットに自動的にラベル付けできることを示しました。人間の専門家を超えています。 さらに、再トレーニング用に自動的にラベル付けされた試験を使用して元のモデルを微調整することにより、パフォーマンスが維持または向上し、その結果、高精度でより一般化されたモデルが得られることも示しました。 最大の類似性を達成するために必要な pSim しきい値は臨床出力ラベルによって異なりますが、専門家が注釈を付けたグラウンド トゥルース ラベルの比較的小さなサブセットとモデル ラベルの比較に基づいてこれらの値が特定されると、残りの外部ラベルに適用できます。データセット。あらかじめ決められた高い信頼レベルの精度で、その臨床出力ラベルに対して陽性となる可能性が高い検査を特定します。 結果として得られるラベルは、元のモデルの微調整や再トレーニングに適用できます。

我々は、後前方投影 (PA) CXR 上の次の 5 つの異なるラベルを検出するための xAI モデルを開発しました: 心肥大、胸水、肺水腫、肺炎、および無気肺 (方法を参照)。 以前のレポートの通り、私たちのモデルは説明可能性を高めるためのアトラス作成と予測に基づく計算モジュールを備えていました (図 1)1。 予測基準を使用して、パッチ類似度値 (0 と 1 の間の確率) を計算しました。 私たちのモデルには、信頼確率計算モジュールも含まれています (図 1a および b)。 パッチの類似性と信頼モデルの出力間の調和平均を使用して、研究された各臨床出力ラベルの定量的類似確率(pSim)値(0から1の間)を計算しました(図1c)。

2015年2月から2019年2月まで当施設で実施されたCXR検査は、RIS(放射線情報システム)およびPACS(画像アーカイブおよび通信システム)から特定され、440,852件の研究のデータセットが得られました。 関連する放射線医学レポートがない場合、ビュー位置情報(例えば、前後投影、ポータブルなど)がない場合、または必須の患者識別子(医療記録番号、年齢、または性別を含むがこれらに限定されない)がない場合、検査は除外されました。 117,195人の患者を表す267,180件の検査からの合計400,886枚のCXR画像と、対応する放射線医学レポートが遡及的に収集されました(補足図1)。 ルールベースの自然言語処理 (NLP) モデル (補足表 1) を使用して、放射線医学レポートから 20 の病理学的ラベルを自動的に抽出しました。これらのラベルには、陽性、陰性、または無視の 3 つのラベルのいずれかが割り当てられました。 自動化された NLP データ マイニングとクリーンアップの後、49,096 人の患者 (58% 男性、平均年齢 62 ± 18 歳) からの 151,700 件の前後方向 CXR ビューと、69,404 人の患者 (50% 男性、平均年齢 57 歳) からの 90,023 件の後前方 (PA) CXR ビューをアーカイブしました。 ±19年)。 各ビュー位置に対して 1000 枚の画像をテスト セットとしてランダムに選択しました。 重複しない患者からの残りの検査は、トレーニングセットと検証セットに分けられました(補足図1)。 トレーニング セットと検証セットのラベルは、自動化された NLP 割り当てのみから決定されましたが、テスト セットのラベルは、当院の米国認定放射線科医 3 名の合意によって決定されました (詳細は補足表 1 を参照)。注釈用の「Mark-it」ツール (https://markit.mgh.harvard.edu、マサチューセッツ州、米国)7。 私たちの xAI モデルは、合計 138,686 個の CXR のトレーニング データセットを使用した教師あり学習によってトレーニングされ、最初の 5 つの臨床出力ラベル (補足表 2) の検出に関して、受信者動作特性下面積 (AUROC) 曲線 8 の平均 0.95 + 0.02 を達成しました。 、独立したテストセット (メソッド)。

私たちは、xAI CXR 自動ラベル付けモデルを、CheXpert (n = 29,420 PA CXR)、MIMIC (n = 71,223)、および NIH (n = 67,310)2,3 という 3 つの大規模なオープンソース データセットから入手可能な PA CXR 画像に適用しました。 4. ラベリングの精度を評価するために、5 つのラベルのそれぞれについてモデルによって決定された「ポジティブ」ケースと「ネガティブ」ケースのサブセットをランダムに選択し、10 の pSim 値範囲 (0 ~ 0.1、0.1 ~ 0.2、0.2) のそれぞれに均等に分布させました。 -0.3、…、0.9 ~ 1.0)、専門家によるレビュー用(図 2 ~ 4)。 グラウンドトゥルース(GT)は、7 人の専門サブスペシャリスト放射線科医(胸部放射線科で 12 ~ 25 年の経験を持つ 3 人、救急放射線科で 1 ~ 6 年の経験を持つ 4 人)の多数派のコンセンサスとして定義されました。 各 pSim 値範囲における、臨床出力ラベル (心肥大、胸水、肺水腫、肺炎、および無気肺) ごとの GT および各リーダーの個別の評価を図 2 および 3 に示します。 2–4a (左上)。 図1〜図4において、 2–4b (右上) では、モデルの自動ラベル付けに適用された pSim 値 (x 軸) と、(i) モデルの陽性的中率 (PPV) と陰性的中率 (NPV) の両方との関係をグラフ化しています。評価とグランドトゥルース。 (ii) モデルの真陽性捕捉率 (TPCR) と真陰性捕捉率。それぞれ、合計真陽性 (GT による) を合計陽性 (GT による) で割ったもの、および合計の真陰性 (GT による) を割ったものとして定義されます。トータルマイナス(GTによる)による。 図1〜図4において、 2~4c (左下) および図 2~4c (左下)。 2 ~ 4d (右下) は、それぞれ、各 pSim しきい値 (x 軸) でモデルによって評価された偽陽性 (GT による) および偽陰性 (GT による) ケースの数を、データセットによって階層化して示します (つまり、GT による)。 、CheXpert、MIMIC、または NIH)、100% PPV または NPV を達成する最適な最低 pSim しきい値が示されています。 注目すべきことに、図2および図3に示すように、100%のPPVまたはNPVに必要とされる可能な最も低いpSim閾値は、最大の「正確な捕捉率」に対応する。 2-4b。

私たちは、xAI CXR 自動ラベル付けモデルを 3 つの大規模なオープンソース データセット (CheXpert、MIMIC、NIH) に適用しました。 5 つの臨床出力ラベルのうち 2 つ (心肥大および胸水) について、モデルによって決定された「陽性」および「陰性」症例のサブセットをランダムに選択し、10 の pSim 値範囲 (0 ~ 0.1、0.1) のそれぞれに均等に分布しました。 -0.2、0.2 ~ 0.3、…、0.9 ~ 1.0)、専門家のレビュー用。 a では、7 人の個々のリーダー (列 A ~ G) のそれぞれに対する肯定的 (明るい赤) と否定的 (明るい青) の評価がグラフで表示され、コンセンサス グラウンド トゥルース (GT、多数決で決定) が最後の列に表示されます。 (太字の赤または太字の青)。 b では、陽性的中率 (PPV = [GT による真陽性]/[モデルによる合計陽性]、赤い三角、Y 軸左) と陰性的中率 (NPV = [GT による真陰性]/[合計陰性]) [モデル別]、青い実線の円、y 軸左) のモデルの評価が、モデルによって適用された pSim しきい値 (x 軸) と対比してグラフ化されます。 b (y 軸右) には、モデルの真陽性捕捉率 (TPCR、赤い点線の三角形) と真陰性捕捉率 (TNCR、青い点線の円) も表示されます。それぞれ、TPCR = [GT による真陽性 (TP) として定義されます。 ]/[GT による合計陽性 (a からの太字の赤色の数字)] および TNCR = [GT による真陰性 (TN)]/[GT による合計の陰性 (a からの太字の青色の数字)]。 c (左下) と d (右下) は、それぞれ、各 pSim しきい値 (x 軸) でモデルによって評価された偽陽性 (GT による FP) と偽陰性 (GT による FN) のケースの数です。データセット (CheXpert、MIMIC、または NIH; 括弧内はモデルによる陽性または陰性の症例の総数) ごとに層別化して示し、示されているように (太字の緑色の三角形) 100% PPV または NPV を達成する最適な最低 pSim 閾値を示します。

a ~ d のキャプションについては、図 2 を参照してください。

a ~ d のキャプションについては、図 2 を参照してください。

また、図のテキストボックスに示されているように、 図 2 ~ 4c、d、および図 5 では、モデルの精度は、外部のオープンソース データセットの利用可能なプールされたパブリック ラベルの精度と比べて良好です。 図 5 はさらに、自動ラベル付けモデルの AUROC パフォーマンスが、各臨床出力ラベルについて、pSim = 0 ベースライン値ラベル付け閾値と最適 pSim 値ラベル付け閾値 (すなわち、図 2 ~ 4c、d) に示すように、100% の精度を達成する最小 pSim 値。

CheXpert、MIMIC、NIH オープンソース データセットに適用された xAI CXR 自動ラベル付けモデルの AUROC パフォーマンスが、5 つのラベル付けされた臨床出力ラベルごとに示されています: a 心肥大、b 胸水、c 肺水腫、d 肺炎、そして無気肺。 比較は、個々の専門放射線科医のパフォーマンス (A ~ G、赤丸)、およびプールされた外部アノテーションのパフォーマンス (青四角、n = 臨床出力ラベルごとにラベル付けされた利用可能な外部症例の数) と行われます。 ROC 曲線(y 軸感度、x 軸 1 特異度)は、ベースライン pSim = 0 閾値(拡大ボックス)と最適 pSim 閾値(つまり、100% の精度を達成する最も低い pSim 閾値)の両方について示されています。 2–4c および d)。

7 人の専門放射線科医全員と xAI モデルの間で完全な一致があり、調査された 5 つの臨床出力ラベルのそれぞれに陽性の自動ラベル付けされた CXR 画像のサンプルを補足図 2 に示します。 各画像のモデルによって適用される pSim しきい値および各ラベルについて完全に一致した PA CXR 検査の数/パーセントも表示されます。 注目すべきことに、肺炎陽性とラベル付けされた全検査 50 件のうち、各読者と完全に一致したモデルによって肺炎と特定された陽性検査は 14 件のみでした (28%)。 図に示すように、他の 4 つのラベルと完全に一致する陽性ラベルの割合は、心肥大 78% (39/50)、胸水 78% (39/50)、肺水腫 43% (17/40)、および無気肺 46% (23/50)。

補足表 3 では、自動ラベル付けモデルを 3 つの完全な公開オープンソース CXR データセット、CheXpert (n = 29,420)、MIMIC (n = 71,223)、および NIH (n = 67,310) に適用しました。 各臨床出力ラベルの精度を最大にするために最適化された pSim 閾値で捕捉された症例数の大きさを示すためです (PPV、NPV = 1; 図 2 ~ 4 による)。 3 つの完全な公開データセット (補足表 3、C) のモデルのラベルをプールすると、心肥大 (134,076/167,953) については 80%、胸水については 68% (114,230/167,953)、肺水腫については 27% の捕捉率が得られました ( 45,660/167,953)、肺炎は 20% (33,308/167,953)、無気肺は 28% (47,436/167,953) でした。 注目に値するのは、3 つの公開データセットからプールされた結果に対するモデルの平均 CXR 「キャプチャ レート」が、図 3 と図 4 のグラフに示されているものと密接に一致していることです。 2~4b、モデルと専門放射線科医の両方によってラベル付けされた、ランダムに選択された検査のサブセット(n = 90~100)について。

5 つの自動ラベル付けされた臨床出力ラベル (図 6) のそれぞれについて、以下を比較しました。(i) 3 つのプールされた完全な公開データセットからキャプチャされた、陽性自動ラベル付けされた CXR のパーセント (補足表 3 より)。 (ii) モデルと 7 人の専門読者全員の間で完全に一致したケースの割合 (補足図 2 より)。 (iii) PPV = 1 のような最低の pSim 値 (「1-pSim@PPV1」としてグラフ化、図 2 ~ 4c より)、および (iv) NPV = 1 のような最低の pSim 値 (「1-pSim@PPV1」としてグラフ化) pSim@NPV1」、図 2 ~ 4d より)。 これらのパラメーター (心肥大、胸水など) の値が高い臨床出力ラベルは、モデル自動ラベル付けの効率と信頼性が高いことに対応します。 より低い値の臨床出力ラベル (肺水腫、肺炎など) は、モデルの自動ラベル付けの効率と信頼性が低いことに対応します。 注目すべきことに、無気肺の場合、「1-pSim@PPV1」は「1-pSim@NPV1」よりも高く、モデルがこのラベルを「判断」するのが正しい(つまり、真陽性を正しく自動ラベル付けする)というより高い信頼性を示しています。 )このラベルを「除外」するよりも(つまり、真陰性を正しく自動ラベル付けする)。 この関係は、他の 4 つのラベルでは逆転しました (たとえば、モデルが肺炎または肺水腫を「除外」するよりも、モデルが正しく「除外」できるという信頼性が高くなります)。

自動ラベル付けされた 5 つの臨床出力ラベル (心拡大 (青色)、胸水 (オレンジ)、無気肺 (灰色)、肺水腫 (緑色)、および肺炎 (黄色)) のそれぞれについて、以下を比較しました。 (i) 陽性率自動ラベル付けされた CXR は、3 つのプールされた完全な公開データセットから「キャプチャ」されました (つまり、補足表 3、C の「プールされたキャプチャ%」)。 (ii)モデルと7人の専門読者全員の間で完全に一致したケースの割合(つまり、補足図2の「完全一致%」)。 (iii) PPV = 1 のような最低の pSim 値 (図 2 ~ 4、c から「1-pSim」としてグラフ化)、および (iv) NPV = 1 のような最低の pSim 値 (「1-pSim」としてグラフ化) pSim」、図 2 ~ 4、d) より。 y 軸値が高い臨床出力ラベル (例、心肥大、胸水) は、モデルの自動ラベル付け効率/信頼性が高いラベルに対応します。 y 軸値が低い臨床出力ラベル (肺炎、肺水腫など) は、モデルの自動ラベル付けの効率/信頼性が低いラベルに対応します。 無気肺のグラフでは、「1-pSim@PPV1」が「1-pSim@NPV1」よりも高いことに注目してください。これは、臨床出力ラベルの「決定」においてモデルが正しいという確信度が高いと解釈できます (つまり、臨床出力ラベルを「除外」する場合(つまり、真陰性を正しく自動ラベル付けする)よりも、真陽性を正しく自動ラベル付けします。 この関係は、他の 4 つの臨床出力ラベルでは逆転します (たとえば、モデルが肺炎または肺水腫を「除外」するよりも、モデルが正確に「除外」できるという信頼性が高くなります)。

5 つの自動ラベル付けされた臨床出力ラベルのそれぞれについて、7 人の専門放射線科医間の観察者間のばらつきを推定するペアワイズ カッパ統計を図 7 に示します。 これらの値の範囲は次のとおりです: 心肥大 0.82 ~ 0.92、胸水 0.78 ~ 0.94、肺水腫 0.57 ~ 0.86、肺炎 0.38 ~ 0.80、および無気肺 0.47 ~ 0.78。 これらの範囲の分布は、図 6 に示す、モデルの臨床出力ラベルごとの自動ラベル付け効率および信頼度メトリクスとよく相関しており、心肥大と胸水が評価者間で最も一致していることを示し、肺炎、肺水腫、および無気肺は評価者間の一致を示しています。少なくとも。

5 つの自動ラベル付けされた臨床出力ラベル (a 心肥大、b 胸水、c 肺水腫、d 肺炎、および e 無気肺) のそれぞれについて、観察者間の変動を推定するペアごとのカッパ統計が、それぞれ色分けされたマトリックスに表示されます。

図 8 では、その pSim メトリクスを使用したモデルの自動ラベル付けパフォーマンスを、(1) パッチ類似度 (「焦点」空間的位置特定に関連する CAM 計算に基づく) または (2) 信頼確率 (関連する) のいずれかを使用した場合と比較しています。最終モデル出力ラベルの「グローバル」確率分布) のみ)。 私たちの新しい分析は、定量的 pSim 閾値の使用が、パッチ類似性または信頼度計算のいずれか単独よりも利点がある可能性があることを示唆しています。これは、専門家の間で評価者間の一致が最も低い臨床診断出力ラベル (肺炎および肺水腫) で特に顕著です。 (図7)。 これらの結果は、顕著性マップに関するモデルの「説明可能性」に影響を与えます。 最近の論文では、顕著性マップ技術は非常に多様であり、「医用画像の高リスク領域での使用にはさらなる精査が必要」であると結論付けています。 著者らは、「ローカリゼーションがネットワークの望ましい出力である場合は、検出モデルまたはセグメンテーション モデルを使用すること」を推奨しています。 しかし、私たちのアプローチの注目すべき特徴は、定量的な pSim 値 (モデル導出アトラスから計算) に基づく説明可能性であり、これは、議論したように、パッチの類似性または信頼度の計算のみを使用して作成された顕著性マップよりも付加価値がある可能性があります9。

信頼確率のみ(出力ラベルの全体的な確率分布を反映)、パッチ類似性のみ(出力ラベルの焦点空間的位置を反映)を使用して、5 つの臨床出力ラベルのそれぞれについて真陽性捕捉率(TPCR)のパフォーマンスを比較しました。 、および pSim (図 1 のように、信頼確率とパッチ類似性の間の調和平均を反映)。 これらの結果は、画像所見の評価者間での高い一致を反映する 2 つのモデル出力ラベル (図 7 に示すように、a 心拡大と b 胸水) が 3 つの信頼レベル指標間で良好な一致を示し、高い TPCR を示している点で注目に値します。それぞれ。 図 7 の評価者間一致度が低い 2 つの出力ラベル (c 肺水腫と d 肺炎) では、pSim のパフォーマンスは、両方のパッチ類似性のパフォーマンスと、肺炎ではあるが肺水腫の信頼確率のパフォーマンスを大幅に上回っています。 この違いは、パッチの類似性が局所的な局所的な画像所見(例えば、肺炎の臨床診断で見られる)の検出に対してより感度が高いのに対し、信頼確率は全体的な所見(例えば、 、肺水腫の臨床診断で見られるように)。 無気肺の結果は、通常、CXR に関する全体的な所見よりも焦点が絞られた所見であるが、同様に説明できるかもしれない。

また、パフォーマンスの一貫性、一般化可能性、データセットのサイズ、アーキテクチャの間の関係も調査しました。 アーキテクチャに関しては、現在のモデルと、ResNet-5010、MobileNet v211、MnasNet12 を含む 3 つの追加の異なるモデル アーキテクチャとの間に優れた一貫性がありました (補足図 3)。 私たちの結果も同様に、データセットのサイズと不均一性に関して一貫した堅牢な一般化可能性を示唆しています(表1、補足表3および4)。

ユーザーが指定したパフォーマンス レベルで外部データセットに一般化するシステムの能力を実証するために、3 つの公開データセットからの自動ラベル付けされた CXR 検査を使用した反復的な再トレーニングを通じて元のモデルを微調整しました (表 1)。 再トレーニングのために選択された CXR 検査 (n = 31,020) には、少なくとも 1 つの陽性ラベル、そのラベルの最適閾値以上の pSim 値がありました (図 2-4c、2-4d、および 5 による)。 、以前にテスト セットの一部として使用されていた場合は除外されました。 元のモデルのパフォーマンスを微調整モデルのパフォーマンスと比較した結果 (表 1 および補足表 4)、3 つの公開データセットからのローカル データとより一般化されたデータの両方を使用してトレーニングされた微調整モデルの精度が同等または向上していることが示されました。 - ローカル データのみを使用してトレーニングされた元のモデルと比較します。

大規模な医用画像データセットの正確かつ効率的なアノテーションは、医療における AI モデルのトレーニング、したがって広範な実装における重要な制限です13、14、15、16、17、18、19、20、21、22。 しかし、これまでのところ、このような大規模なオープンアクセス データベースのラベル付けを自動化する試みはほとんど文献に記載されていません 2、3、4、5、6。 たとえば、あるアプローチでは、労働集約的で手動で注釈が付けられた外部データセットのサブセットを使用して新しい AI モデルを開発し、これらのモデルを残りのデータベースに適用することに焦点を当てていました6。 このようなアプローチの精度は、(1) モデルのベースライン パフォーマンスだけでなく、(2) 症例の組み合わせと外部データセットの画質の違いによっても制限される可能性があります。 さらに、我々の研究結果が示すように、(3) 公共データベースで提供されるラベルが正確またはクリーンであるとは想定できません。 たとえば、一部の公開データセットでは、そのようなラベルが、適切なプラチナ レベルの参照標準による検証なしに、潜在的にノイズの多い NLP 派生アノテーションから生成されている可能性があります。

この研究では、モデル派生アトラスベースのアプローチを使用して、以前に検証された xAI モデルとの類似性に基づいて標準化された自動ラベル付けの方法を実証します。ユーザーは、必要な精度レベルの定量的しきい値を指定できます。 pSim メトリック。 具体的には、5 つの異なる CXR 臨床出力ラベル (心拡大、胸水、肺水腫、肺炎、無気肺) を検出するための既存の AI モデルを、3 つの大規模な公開オープンソース データセット (CheXpert、MIMIC、およびNIH) は、結果として得られたラベルを 7 人の人間の専門放射線科医のラベルと比較しました。

私たちの xAI モデルは、取得したトレーニング セットから派生した参照アトラスとの比較に基づいて各ラベルの pSim 値を計算することで、ユーザーが選択した任意の高レベルの精度で外部データのサブセットに自動的にラベルを付けることができることを示しました。あるいは人間の専門家のそれを超えています(図5)。 さらに、再トレーニング用に自動的にラベル付けされた試験を使用して元のモデルを微調整することにより、パフォーマンスが維持または向上し、その結果、高精度でより一般化されたモデルが得られることも示しました。

アノテーションに使用される pSim 値は、画像ラベリングの精度 (つまり、pSim 値が高いほど、ラベルの精度が高くなります) と画像ラベリングの効率 (つまり、pSim 値が高いほど、検査の数が少なくなります) との間のトレードオフを反映しています。モデルが注釈用に選択したもの)。 PPV、NPV = 1 となるように各出力ラベルの pSim しきい値を決定するために、プールされた 3 つのオープンソース データベースから「陽性」検査と「陰性」検査のサブセットをランダムに選択し、10 の pSim 値範囲のそれぞれに均等に分散しました ( 0 ~ 0.1、0.1 ~ 0.2、0.2 ~ 0.3、…、0.9 ~ 1.0)、図のとおり。 2 ~ 4 (pSim 範囲ごとに 10 件の試験、合計 100 件)。 注目に値するのは、試験の選択にこのアプローチを使用したことで、専門家による人間によるレビューのために提示されたケースの数が比較的少ないにもかかわらず (n = 100)、微調整後に非常に高いレベルのラベル付け精度とモデルのパフォーマンスを達成できたことです。

自動ラベル付けアプローチの効率を評価するために、xAI モデルを 3 つの完全な公開データセットに適用し、次のパラメーターに従って 5 つの自動ラベル付けされた臨床出力ラベルを比較しました。 (i) 陽性自動ラベル付けされた CXR の割合3 つのプールされた公開データセットからのデータ (つまり、キャプチャ率)、(ii) モデルと 7 人の専門家リーダー全員との間で完全に一致するケースの割合、(iii) キャプチャされたすべての陽性ケースが true となるようなアノテーションの最小 pSim 値陽性(つまり、PPV の最適 pSim = 1)、および(iv)キャプチャされたすべての陰性ケースが真陰性となるようなアノテーションの最低 pSim 値(つまり、NPV の最適 pSim = 1)。 図 6 に示すように、注釈付きの臨床出力ラベルごとに、これらのパラメーターの大きさの間に強い相関関係があることがわかりました。プールされた 3 つの公開データセットからの陽性捕捉率も、図 6 にグラフ化された捕捉率と強い相関があることは注目に値します。図。 2~4b、モデルと放射線科医の専門家の両方によってラベル付けされた検査のサブセット(n = 90~100)。 さらに、各臨床出力ラベルについて報告されたパラメーター値は、図 7 に示す観察者間の変動のカッパ値とよく一致しました。

まとめると、私たちの結果は、各臨床出力ラベルに最適な pSim で完全な公開データセットに適用された自動ラベル付けモデルの全体的な精度と効率が、サブセットに適用されたモデルの精度と効率と同様である可能性があることを示唆しています。 7 人の放射線科医の専門家が注釈を付けた検査結果。 これらの結果はまた、心拡大と胸水(CXR 解釈におけるより客観的な所見の 2 つ)については、自動ラベリング効率が高く、ラベル精度への信頼度が高いこと、および肺炎や胸水については、自動ラベリング効率が低く、ラベル精度への信頼度が低いことも示唆しています。肺水腫 - CXR 解釈におけるより主観的な評価のうち 2 つ。 実際、特定の臨床出力ラベル (0 ≤ pSim ≤ 1 および pSimoptimal = PPV/NPV = 1 となる最小 pSim 値) の量「1-pSimoptimal」が大きいほど、そのラベルの信頼性と堅牢性は高くなります。モデルの NLP トレーニング セットから派生した「記憶された」参照アトラスとの類似性に基づく臨床出力ラベル。

私たちのアプローチを他のブラックボックス分類モデルのアプローチと区別する重要な特徴は、説明可能性です。 pSim メトリクスは、モデルが所定の精度レベルで実行されているというフィードバックを提供します。 ブラックボックス分類法を使用した外部データセットのラベル付けは、それぞれの個別のデータセット (例: CheXpert、NIH、および MIMIC) に十分な代表検査を保証するために多数の手動ラベルが必要になる可能性があるため、私たちのアプローチよりも労働集約的である可能性があります。サンプリングされてきました。 ただし、pSim を使用して定量的な類似確率を推定すると、正確なモデルのパフォーマンスを得るために十分な検査がサンプリングされているというユーザーの信頼が高まる可能性があります。 将来的には、このような専門家による手動のアノテーションは、任意の機関の任意のプラットフォームに対して 1 回だけ実行するだけで済み、自動化された継続的な微調整と再トレーニングが容易になる可能性があります。 実際、最近の論文では、「単一の施設のデータでトレーニングされた脳病変セグメンテーション モデルの場合、2 番目の施設で適用するとパフォーマンスが低下するが、2 番目の施設からのトレーニング データを少量 (10%) 追加すると、モデルが 2 番目の施設でその潜在的なパフォーマンス レベルを最大限に達成できるようになりました。」 私たちのアプローチは、初期トレーニング セットの 10% より大幅に少ないデータを使用して、同等以上のパフォーマンス レベルへの微調整または再トレーニングを容易にする可能性を秘めています23。

私たちのアプローチのもう 1 つの注目すべき側面は、システムの導入に関連しています。 pSim 値のしきい値を各クラスに個別に適用できます。評価者間一致度が高く、注目度の高い臨床出力ラベルには低い pSim 値を選択し、相互一致が低い、ノイズが多く主観的で非特異的な臨床出力ラベルには高い pSim 値を選択します。 -評価者の合意。後者では、ラベル付き検査の数が少なくなります(つまり、捕捉率が低くなります)。 pSim 値を採用すると、AI モデルのどの臨床出力ラベルが最も確実に注釈付けされ、どのラベルを改善する必要があるかを定量化するのに役立ち、システムの堅牢性を測定できるようになります。 xAI システムの導入も HIPAA に準拠しており、モード選択 (図 1) ではカテゴリのエンコードされた予測確率分布とアトラスの UMAP 変換 24 からの圧縮情報のみが使用されるため、患者を特定できるソース データを保存する必要がありません。

自動ラベル付けに対する現在の他のアプローチには、半教師あり学習 6,25 および自己教師あり学習 26,27,28,29 が含まれています。 ただし、これらのアプローチはクラス間の相関が低いことを前提としているため、クラス間相関が高いマルチラベル CXR 分類モデルについてはそのパフォーマンスが検証されていません。 転移学習と微調整も、独自に開発したモデルを外部データセットに適用する場合のパフォーマンスを向上させるために試みられています30、31、32。しかし、異なる機関が同様のカテゴリに対して異なる定義を使用し、データを取得する可能性が高いため、これらの方法は多くの場合実用的ではありません。わずかに異なる定義に基づいた外部ラベルを使用すると、そのようなデータが新しいモデルのトレーニングまたは再トレーニングに使用されるときに、かなりのノイズが発生する可能性があります。 ただし、私たちのアプローチでは、確立されたモデルの類似確率とユーザー定義の類似確率を使用して、標準化されたラベルを生成できます。 モデル由来のアトラスベースのアプローチは、クラス間相関が低く、クラス内相関が高い小さなパッチ領域に焦点を当てることで計算問題を簡素化し、3 つの大規模な公開オープンソース CXR データセットの自動ラベル付けにおいて、同等またはそれを超える高い精度と効率を達成できます。人間の専門家のものです。

私たちの自動ラベル付け AI モデルは、一般的に人間の知能 33 のいくつかの特性、特に放射線科医を模倣する行動を反映しています。 具体的には、私たちのシステムは、トレーニングセットに存在する検査臨床出力ラベルの「メモリ」にアクセスし、新しい外部検査データ内の臨床出力ラベルとの類似性を定量的に推定できるという点で「スマート」です。 各臨床出力ラベルの「1-pSimoptimal」メトリックは、効率的で正確なラベル付けのためのシステムの「インテリジェンス」の尺度を提供し、その値 (0 から 1 の間) は、臨床出力ラベルの品質 (つまり、グラウンドトゥルースの精度) を反映します。初期トレーニングに使用される NLP 由来のデータセット。 このモデルは、参照アトラスから検討中の臨床出力ラベルの例をそれらに関連する pSim 値とともに表示することにより、説明機能を通じてユーザーにフィードバックを提供することもできます。 このインタラクションにより、モデルが期待どおりに動作しているというさらなるレベルの信頼がユーザーに提供されます。 この点で、当社のシステムは、医療用画像装置の精度と効率を向上させるための拡張インテリジェンス ツールとみなすことができます。

実際、私たちのモデルの 1 つの制限は、そのラベル付けの精度と効率が初期トレーニング セットの品質に直接比例することです。 これは、心肥大と胸水(モデルトレーニング用に NLP によって特定された放射線医学レポートに日常的に正しく記載されている 2 つの注目度の高い臨床出力ラベル)が肺水腫や肺炎よりも効率の高い指標(図 2 および 6)を持つ理由を説明するのに役立つ可能性があります(図 2 および 6)。 3) はより非特異的であり、放射線科医によって評価が異なります。 これは、無気肺を除くすべての臨床出力ラベル (図 4) について、図 6 の NPV = 1 の 1-pSimoptimal 値が PPV = 1 の 1-pSimoptimal 値よりも高い理由の説明にも役立つ可能性があります (図 4)。目立つ、より非特異的な臨床出力ラベルは、通常、存在する場合にのみCXR放射線学レポートに記載されますが、存在しない場合には言及されません(つまり、NLP由来のトレーニングセットから学習したモデルは、より高いレベルの確実性を持つため、無気肺が存在する場合は、無気肺が存在しない場合よりも 1-pSimoptimal 値が高くなります)。 一方、肺水腫と肺炎は、通常、それらが存在する可能性がある場合(例、肺水腫や肺炎の証拠がない場合)よりも、それらが明らかに存在しない場合(例、肺水腫や肺炎の証拠がない場合)、より高いレベルの確実性をもってCXRレポートに記載されます。肺水腫または肺炎)。

さらに、心肥大と胸水は局所的で目立つ領域の画像所見であるため、信頼確率よりもパッチ類似性の方が高い TPCR パフォーマンスを示します (図 8)。 同様に、無気肺(通常、肺水腫や肺炎よりも離散的で局所的な局所的CXR所見)の場合、パッチ類似性とpSim(図8)の両方が、信頼確率と比較して良好なTPCRパフォーマンスを示します。 逆に、パッチ類似性よりも信頼確率の方が TPCR パフォーマンスが優れている唯一のラベルである肺水腫の場合 (図 8)、この結果は、全体的で局所的ではない水腫の検出では信頼確率の方が感度が高いという事実と一致しています。これらの特徴は、CXR での肺水腫所見と日常的に関連付けられています (つまり、肺水腫は両側肺野全体にびまん性に視覚化されます)。

5 つの異なるラベルに対する信頼確率、パッチ類似性、および pSim 間のパフォーマンスの違いの説明 (図 8) が、図 1 と 2 に示されているリーダーのパフォーマンスとリーダーの変動性と非常に密接に対応していることは注目に値します。 これは、心肥大と胸水(および無気肺)は非常に目立つ客観的なCXR所見であるのに対し、肺水腫と肺炎はより非特異的な主観的評価であるという「常識」の臨床的洞察を裏付けるだけでなく、これは、人間のパフォーマンスを反映する際のモデルの説明可能性 (各ラベルに適切な pSim 値の割り当てを通じて) を強調しています。これは、モデルのトレーニングに使用された放射線科医に基づくグランド トゥルースに起因すると考えられます。

私たちのモデルのもう 1 つの制限は、私たちが提案する xAI システムでは、予測の基礎を提供し、モード選択モジュールを操作するために、かなりの計算リソースと記憶スペースが必要であることです。 ただし、Explainable モジュールは独立して動作するように設計されているため、特定のサーバーの仕様に従って機能を調整した xAI システムを差分的に展開できます。

要約すると、(i) 既存のモデル由来のアトラスとの類似性に基づいて、ユーザーが選択した定量的信頼レベルで、5 つの異なる CXR 画像臨床出力ラベルの自動ラベル付けのための説明可能な AI モデルを開発および実証しました。 (ii) 再トレーニング用に自動的にラベル付けされた試験を使用してこの既存のモデルを微調整することで、パフォーマンスが維持または向上し、その結果、高精度でより一般化されたモデルが得られることを示しました。 これらの結果は、3 つの大きな独立したデータセットから選択された、0 から 1 までの pSim しきい値の均等な分布を表す 100 件の検査のみに対する人間の専門家の注釈によって達成されたことは注目に値します。 これは、説明可能な AI モデル由来のアトラスとの定量的類似性に基づく私たちのアプローチが、研究対象のオープンソース データベースのサイズに関係なく、高精度で完全に自動化されたラベル付けを提供できる可能性があることを示唆しています。

結論として、大規模な医用画像データベースに自動的、正確、効率的に注釈を付ける機能は、医療コミュニティに付加価値をもたらし、医療コミュニティに広く受け入れられる重要で影響力の高い AI モデルを開発する上で非常に価値がある可能性があります。 私たちのアプローチは、微調整と再トレーニングを通じて既存の AI モデルの精度を向上させるだけでなく、オープンソース データセットのラベルを標準化するのにも役立ちます(提供されるラベルにノイズが含まれたり、不正確になったり、欠落したりする可能性があります)。既存の検証済みモデルとの定量的な類似性。 自動ラベル付けに pSim メトリクスを使用すると、正確なモデル構築に必要なアノテーション付きデータの量が削減される可能性があり、それにより、人間の専門家による非常に大規模なデータセットに対する労働集約的な手動ラベル付けの必要性が軽減されます。

この研究は医療保険の相互運用性と説明責任法に準拠しており、インフォームド・コンセントを放棄した臨床的に取得したデータの遡及的分析についてマサチューセッツ総合病院の治験審査委員会によって承認されました。

開発データセットには、2015 年 2 月から 2019 年 2 月の間に取得された CXR 画像が含まれていました。すべての DICOM (医療におけるデジタル画像および通信) 画像は、データ分析前に匿名化されました。 一貫したデータセットを作成するために、関連する放射線医学レポート、ビュー位置情報 (例: AP/PA 投影、ポータブルなど)、および必須の患者 ID (医療記録番号、年齢、性別)。 検査に複数の CXR 画像が含まれる場合、単一の CXR 画像のみが含まれます。 各ビュー位置に対して 1000 枚の画像をテスト セットとしてランダムに選択しました。 重複しない患者からの残りの検査は、トレーニングセットと検証セットに分けられました(補足図1)。

トレーニングおよび検証セットのラベルは、自動化された NLP 割り当てのみから決定されましたが、テスト セットのラベルは、「マーク」を使用して、当院の米国認定放射線科医 3 名の合意によって決定されました (詳細は補足表 1 を参照)。 -it」ツール (https://markit.mgh.harvard.edu、MA、USA) 注釈用 7。

フィードフォワード方式で各層を他のすべての層に接続する高密度接続畳み込みネットワーク (DenseNet-121)34 が、20 個の病理学的ラベルの検出および分類システムを開発するために選択されました。 Pytorch35、36 の公式リポジトリから入手可能な事前トレーニング済みモデルは、1000 個の出力を持つ最後の完全接続層と最初の畳み込み層が 21 個の出力に置き換えられた後、トレーニング データセットと NLP のラベルを使用した教師あり学習によって微調整されました (つまり、 、20 の病理学的ラベルとビュー位置)、およびそれぞれ 1 チャネル深さの入力を使用します。 ネットワーク トポロジは AdamW37 を使用して最適化され、バッチ サイズ 144、学習率 \(1\times 1{0}^{-4}\)、ベータ 1 0.9、ベータ 2 0.999 を使用しました。 \(1\times 1{0}^{-8}\) のイプシロン、および \(1\times 1{0}^{-5}\) の重み減衰。 トレーニング ステップでは、幾何学的変換 (-10 から 10 への回転、110% へのスケーリング、512 × 512 へのランダム クロップ、1% の確率でのランダムな水平反転) を適用することにより、リアルタイム データ拡張が実行されました。 すべての実験は Tesla V100 SXM 32 GB [NVIDIA DGX、カリフォルニア州、米国] の 4 つの GPU で実行され、すべての深層学習モデルは Pytorch (v.1.2.0) で実装されました。

バイナリ クロス エントロピー (BCE) 損失関数は、各クラス ラベル (\({\alpha }_{P}^{c}\) および \({\alpha }_{) の正サンプルと負サンプルの比率によって重み付けされました。 N}^{c}\))、複数ラベル分類の場合4。 追加の 2 つの重みを検討しました。最初の重みは、有効サンプル数の比率 (\({\alpha }_{s}^{c}\)、20 の臨床検査における陽性ラベルと陰性ラベルの最大合計数) を反映する必要がありました。各臨床出力ラベルの無視ラベルを考慮しているため、出力ラベルを c 番目のラベルの出力ラベルで割ってトレーニングします。 AI モデルをトレーニングする際、ターゲットのビュー位置を持つサンプルだけでなく、他のビュー位置を持つサンプルを使用すると、モデルの汎化パフォーマンスを向上できることが実験的に判明したため、損失に 2 番目の重み (α(ν)) を追加しました。サンプルの影響をターゲットビュー位置と相対的に制御する機能。 重み付けされた BCE 損失関数は、次の式で与えられます。 (1):

ここで、x は CXR 画像を表し、モデルの出力は \({{{{{\bf{y}}}}}}=\{{y}^{1},{y}^{2},..., {y}^{J}\}\) は J クラスの予測確率を示し、v は画像の視点位置、\({{{{\bf{t}}}}}=\{ {t}^{1},{t}^{2},...,{t}^{J}\}\) は、NLP によって抽出された臨床出力ラベルのラベルを意味します。 また、\({\alpha }_{s}^{c}\) は \((\left|{P}^{m}\right|+\left|{N}^{m}\ と定義されますright|)/(\left|{P}^{c}\right|+\left|{N}^{c}\right|)\) を考慮した有効サンプル数の異なるクラス間で公平性を保つため「0」と「1」のみで、「−1」はありません。 ここで、\(\left|{P}^{c}\right|\) と \(\left|{N}^{c}\right|\) は、「1」と「0」の合計数です。 c label のラベルの s、m は「1」と「0」の両方の最大合計数を持つクラス インデックスを意味します (\(m={{\arg }}\mathop{{{\max }}} \nolimits_{c}(\left|{P}^{c}\right|+\left|{N}^{c}\right|)\))。 \({\alpha }_{P}^{c}=\frac{\left|{P}^{c}\right|+\left|{N}^{c}\right|}{ \left|{P}^{c}\right|}\) と \({\alpha }_{N}^{c}=\frac{\left|{P}^{c}\right|+\ left|{N}^{c}\right|}{\left|{N}^{c}\right|}\) 正と負の不均衡を解決します。 α(ν) は、ν がターゲット ビューの場合は ω に設定され、その他の場合は 1 に設定されます。

図 1 に示すように、検証済みの CXR AI モデルとの類似性に基づいた自動データセットのラベル付けでは、2 つの定量的なアトラスベースのパラメーター、「パッチ類似性」と「信頼性」確率 (0 から 1 の間の値) を計算する必要があります。 「パッチ類似性」の計算では、クラス アクティベーション マッピング (CAM) に基づいてパッチ アトラスが生成されます 38,39。 「信頼性」の計算では、予測された確率に基づいて分布アトラスが生成されます (図 1a、b)。 次に、パッチの類似性と信頼値の間の調和平均を使用して、各臨床出力ラベルの pSim が計算されます (図 1c)。

システム全体の堅牢性を向上させるために、6 つの DenseNet-121 モデルのアンサンブルが非重み付け平均を使用して構成され、最終的な確率が 6 つのモデルによって予測された確率の平均として決定されます40。 これら 6 つのモデルは、PA ビューの 3 つの重み (つまり、α(ν) の ω = 1.1、1.5、および 2.0) で独立してトレーニングし、それぞれ AUROC と精度によって最大化された 2 つのモデルを選択することによって構築されます。 Distribution-atlas を作成するには、完全なトレーニング データセットに対してトレーニングされた AI モデルを使用して推論を実行し、トレーニング データセットの正サンプルと負サンプルの 2 つの確率分布を取得します。 これらの確率分布は、各臨床出力ラベルの分布アトラスとして保存されます。

クラス アクティベーション マッピングの位置特定パフォーマンスを向上させるために、単一の CAM のノイズ成分を除去し、重要な成分のみを追加し、それを式 1 で正規化することにより、アンサンブル手法を開発しました。 (2)、アンサンブル CAM は、単一 CAM 間の重複領域を鮮明に強調表示することができました。

ここで \({{{{{{\bf{CAM}}}}}}}_{{{{{{\bf{E}}}}}}}^{{{{{\bf{c} }}}}}}\) は、アンサンブル CAM 行列 \({{{{{{\bf{CAM}}}}}}}_{{{{{{\bf{s}}}}}} を意味します}^{{{{{{\bf{c}}}}}}\) は、s 番目の単一モデルから生成された c クラスの CAM 行列であり、S はモデルの数を示します。 Uτ は、\({u}_{i,j}={{{{{\rm{u}}}}}}({{{{{{\bf{CAM}}}}) の成分を持つ行列を示します}}}_{{{{{{\bf{s}}}}}}^{{{{{{\bf{c}}}}}}}(i,j)-\tau )\) τ未満のCAM値をノイズ成分として判定し、除去する。 u は単位ステップ関数、⊙ はアダマール積、Normalize は 0 ~ 1 の標準範囲に変換するための線形スケールです。

パッチ アトラスを作成するには、各クラスの CAM から生成された高解像度 CAM (512 × 512) 上で主要な輪郭を検索し、輪郭を含めるバウンディング ボックスを選択し、それをパッチとして定義して保存します (1 つ)この研究では、CAM からの 2 つのパッチが考慮されます)。 各臨床出力ラベルについて、パッチは、AI モデルの予測確率が 0.9 以上である CXR 画像のみからの典型的な代表的なパターンとして保存されます。 すべての臨床出力ラベル 24 のパッチを使用して、コサイン メトリック ベースの UMAP モデルをトレーニングします。 UMAP モデルは、パッチを 2 次元の埋め込み空間の座標に変換します。この空間のユークリッド距離が小さいほど、コサイン類似性が高くなります。 したがって、自動ラベル付け方法の場合、パッチ アトラスは、2 次元埋め込み空間と UMAP モデル内のすべてのパッチの座標で構成されます (図 1b)。 さらに、パッチ アトラスは、より高度なスキームを使用して作成できます41、42。

図 1b に示すようにパッチの類似性を計算するには、予測ベース (\({{{{{{\boldsymbol{\Psi }}}}}}}_{{{{{{\rm {pb}}}}}}}^{{{{{\rm{c}}}}}}\)) は、入力画像の UMAP 変換座標とパッチアトラスを作成し、式として最小距離を持つ K ベースを選択します。 (3):

ここで \({{{{{{\boldsymbol{\Omega }}}}}}}_{{{{{{\rm{pb}}}}}}}^{{{{{{\rm{c }}}}}}}(k)\) は、パッチアトラスの中で k 番目の最小ユークリッド距離を持つパッチを示し、ユークリッド距離は \({\left|\left|{{{{{ {\rm{f}}}}}}}_{{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}({ {{{{{\bf{y}}}}}}_{{{{{{{\rm{p}}}}}}}^{{{{{{\rm{c}}}}} }})-{{{{{{\rm{A}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}} }}}}}^{{{{{{\rm{c}}}}}}}(i)\right|\right|}_{2}{for\; i}=1,\ldots ,{ n}({{{{{{\rm{A}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}} }}}}^{{{{{{\rm{c}}}}}}})\)。 さらに、 \({{{{{{\rm{f}}}}}}_{{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c }}}}}}}\) は、C クラスのトレーニング済み UMAP モデル、\({{{{{{\bf{y}}}}}}_{{{{{{\rm{p} }}}}}}^{{{{{{\rm{c}}}}}}}\) は、入力画像 \({{{{{{\rm{ A}}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}}}}}^{{{{{{\ rm{c}}}}}}}\) はパッチアトラス、\(n({{{{{{\rm{A}}}}}}}_{{{{{\rm{ P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}})\) は、パッチアトラス。 パッチの類似性は、AI モデルが予測ベース (\({{{{{{\boldsymbol{\Psi }}}}}}_{{{{{{\ rm{pb}}}}}}}^{{{{{\rm{c}}}}}}}\))、定量的な指標として。 メトリックは、埋め込み空間内の K 個のパッチの予測に基づいて、入力画像のパッチがどれだけ近いかのパーセンタイルによって計算されます。

ここで \({{{{{\rm{f}}}}}}_{{{{{{\rm{D}}}}}}}^{{{{{\rm{c} }}}}}}\) は、パッチアトラスのすべてのパッチの平均ユークリッド距離の分布に基づいて、入力画像の K 近傍パッチの平均ユークリッド距離のパーセンタイルを計算する関数を示します。

図 1b に示すように、臨床出力ラベルの正の予測確率と負の予測確率の間の信頼レベルの尺度として、分布アトラスに基づいた信頼度メトリックを提案します。 この定量的メトリクスは、式で簡単に定義されます。 (5) および (6) は、陽性および陰性の予測サンプルの場合、次のようになります。

c クラスの予測確率が \({y}^{c}\) であると仮定して、パーセンタイル (\({{{{{\rm{f}}}}}}_{{{ {{{\rm{P}}}}}}^{{{{{{\rm{c}}}}}}}({y}^{c})\)) 正の分布アトラスおよびパーセンタイル (\({1-{{{{{\rm{f}}}}}}}_{{{{{{\rm{N}}}}}}}^{{{{{ \rm{c}}}}}}}({y}^{c})\)) は負の分布アトラスにあります。 次に、2 つのパーセンタイル間の差が信頼度として計算されます。 各臨床出力ラベルに対する xAI モデルの予測能力は、分布アトラス上の 2 つの確率密度曲線 (正と負) の形状と交差度に関連しているため、式 1 と式 2 に基づいて定義される信頼度メトリックは、 (5) および (6) は、異なる統計分布間の p 値に類似した定量的尺度を提供します。 言い換えれば、ラベルの信頼値が高いほど、入力画像が正しいラベルにマッピングされている可能性が高くなり、誤ったマッピングの可能性が低くなります。 さらに、このメトリクスには、同じ予測確率であっても、モデルの各クラスの分布アトラス上の臨床出力ラベル特性のさまざまな分布に従って、さまざまな信頼レベルを定量化する機能があります。

私たちの自動データセット ラベリング手法は、各入力画像の信頼性とパッチ類似性 (式 (7) の pSimilarity) の間の調和平均を使用して pSim 値を計算します。

各臨床出力ラベルの pSim 閾値は、図に示すように、100% PPV および NPV を達成できる最も低い pSim 値によって選択されます。 2~4。

モデル設計の追加機能には、「モード選択」アルゴリズムが含まれており、選択された pSim しきい値を使用して、次のいずれかを行うことができます。 (1) 所定のレベル内の画像ラベル (ポジティブ、ネガティブ、またはラベルなし) を決定します。 -クラスの pSim 値が選択したしきい値より大きい場合は信頼度 (「自己アノテーション モード」)、または (2) pSim が選択した信頼レベルのしきい値を下回った場合は人間のユーザーに警告します (「再-注釈モード」)。 「再アノテーション モード」は現在の研究には適用されませんでしたが、これは説明機能の一部として、将来のアプリケーションやモデルの展開に役立つ可能性があります (pSim の「モード選択」に関する詳細は、こちらを参照)。方法ボックス 1)。

入力: c クラス (yc)、ConfidenceP、ConfidenceN、およびパッチ類似性の予測確率

%[step-1] yc と THpos で陽性候補か陰性候補かの 2 つのグループに分ける

\({y}^{c}\ge T{H}_{{pos}}\) の場合:

%[step-2] 陽性候補のモードとアノテーションを決定する

% 類似確率、pSim

pSim = 2 信頼度 P p類似度 / (信頼度 P + p類似度)

pSim > = pSim しきい値 (PPV、NPV = 1) の場合:

モード = 自己注釈モード

ラベル = 1% 陽性ラベル

それ以外

モード = 再アノテーション モード

ラベル = -1% ラベルなし

それ以外

%[step-2] 除外候補のモードとアノテーションを決定する

pSim = 自信N

pSim > = pSim しきい値 (PPV、NPV = 1) の場合:

モード = 自己注釈モード

ラベル = 0 % ネガティブラベル

それ以外

モード = 再アノテーション モード

注釈 = −1% ラベルなし

AUROC の統計的有意性を評価するために、次のプロセスによるノンパラメトリック ブートストラップ アプローチを使用して 95% CI を計算しました。まず、置換を含む 1000 ケースのテスト データセットから 1000 ケースがランダムにサンプリングされ、サンプリングされたデータに対して DCNN モデルが評価されました。お試しセット。 このプロセスを 2000 回実行した後、AUROC の分布から 2.5 ~ 97.5 パーセンタイルの間隔を使用して 95% CI が得られました。 選択した動作点におけるモデルのパーセント精度、感度、および特異性の 95% CI は、二項比率 CI を使用して計算されました。

外部データセットには AP ビューと PA ビューの両方が含まれていましたが、一貫性と利便性の両方を考慮し、潜在的な交絡変数を最小限に抑えるために、私たちの研究は PA ビューのみで実施されました。 具体的には、メタデータ ファイルに PA ラベルが含まれる CheXpert v1 (n = 223,414) および NIH (n = 112,120) データセットから、それぞれ 29,420 個と 67,310 個の PA CXR を収集しました。 明確なラベルがなかった MIMIC v1 (n = 369,188) データセットから、内部モデルを適用して PA 投影と AP 投影を区別したところ、71,223 個の PA CXR (特異度 0.999、感度 = 0.998) が返されました。

研究デザインの詳細については、この記事にリンクされている Nature Research レポートの概要をご覧ください。

7 人の専門読者によって 3 つのオープン データセットに適用された 5 つのカテゴリのラベルは、https://github.com/MGH-LMIC/AutoLabels-PublicData-CXR-PA からアクセスできます。 この研究のために生成されたトレーニング、検証、テストのデータセットは匿名化されています。 このデータの非 DICOM 画像形式は、正式なリクエストがあれば、研究目的で対応著者 ([email protected]) から 15 営業日以内に入手可能になります。

モデル開発のコードは、https://github.com/MGH-LMIC/CXR-autolabeling からアクセスできます。

Lee、H.ら。 小さなデータセットから急性頭蓋内出血を検出するための説明可能な深層学習アルゴリズム。 ナット。 バイオメッド。 工学 3、173–182 (2019)。

記事 Google Scholar

アービン、J.ら。 Chexpert: 不確実性ラベルと専門家による比較を備えた大規模な胸部 X 線写真データセット。 人工知能に関する AAAI 会議議事録、33、590–597 (2019)。

ジョンソン、A.、他。 MIMIC-CXR-JPG - 構造化ラベル付きの胸部 X 線写真 (バージョン 2.0.0)。 PhysioNet https://doi.org/10.13026/8360-t248 (2019)。

Wang、X.ら。 Chestx-ray8: 病院規模の胸部 X 線データベースと、一般的な胸部疾患の弱い教師による分類と位置特定に関するベンチマーク。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2097 ~ 2106 年 (2017 年)。

Bustos, A.、Pertusa, A.、Salinas, JM、de la Iglesia-Vayá, M. Padchest: マルチラベルの注釈付きレポートを備えた大規模な胸部 X 線画像データセット。 医学。 アナル画像。 66、101797 (2020)。

記事 Google Scholar

Kim、TK、Paul、HY、Hager、GD、Lin、CT 深層学習ベースの自動結核スクリーニングのためのデータセット キュレーション方法を洗練しています。 J. ソラック。 ディス。 12、5078–5085 (2020)。

記事 Google Scholar

Witowski、J.、他。 MarkIt: 医療画像研究にブロックチェーンを活用した共同人工知能注釈プラットフォーム。 今日のヘルスケアにおけるブロックチェーン (2021)。

Powers, D. 評価: 精度、再現率、F 因子から ROC、情報提供、顕著性、相関関係まで。 J.マッハ。 学ぶ。 テクノロジー。 2、37–63 (2008)。

Google スカラー

アルン、N.ら。 医療画像における異常の位置を特定するための顕著性マップの信頼性を評価します。 ラジオル。 アーティフ。 知性。 3、e200267 (2021)。

記事 Google Scholar

He, K.、Zhang, X.、Ren, S.、Sun, J. 画像認識のための深層残差学習。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、770–778、(2016)。

Sandler, M.、Howard, A.、Zhu, M.、Zhmoginov, A.、Chen, LC Mobilenetv2: 逆残差と線形ボトルネック。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、4510–4520、(2018)。

Tan, M. 他 Mnasnet: モバイル向けのプラットフォーム対応ニューラル アーキテクチャ検索。 コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、2820–2828、(2019)。

Lakhani, P. & Sundaram, B. 胸部 X 線撮影における深層学習: 畳み込みニューラル ネットワークを使用した肺結核の自動分類。 放射線学 284、574–582 (2017)。

記事 Google Scholar

Baltruschat, IM、Nickisch, H.、Grass, M.、Knopp, T. & Saalbach, A. マルチラベル胸部 X 線分類のための深層学習アプローチの比較。 科学。 議員9、1-10(2019)。

記事 CAS Google Scholar

Pasa, F.、Golkov, V.、Pfeiffer, F.、Cremers, D. & Pfeiffer, D. 胸部 X 線結核の迅速なスクリーニングと視覚化のための効率的なディープ ネットワーク アーキテクチャ。 科学。 議員9、1-9(2019)。

記事 CAS Google Scholar

Wang, L.、Lin, ZQ & Wong, A. Covid-net: 胸部 X 線画像から covid-19 症例を検出するための、カスタマイズされたディープ畳み込みニューラル ネットワーク設計。 科学。 議員 10、1–12 (2020)。

記事 Google Scholar

Rajpurkar、P. et al. CheXaid: HIV 患者の胸部 X 線を使用した医師による結核診断のためのディープラーニング支援。 NPJ 桁。 医学。 3、1–8 (2020)。

記事 Google Scholar

Oh、Y.、Park、S.、Ye、JC 限られたトレーニング データ セットを使用した cxr のディープ ラーニング covid-19 機能。 IEEEトランス。 医学。 イメージング 39、2688–2700 (2020)。

記事 Google Scholar

ナム、JG 他胸部 X 線写真上の悪性肺結節の深層学習ベースの自動検出アルゴリズムの開発と検証。 放射線学 290、218–228 (2019)。

記事 Google Scholar

シム、Yら。 ディープ畳み込みニューラル ネットワーク ベースのソフトウェアにより、放射線科医による胸部 X 線写真上の悪性肺結節の検出が向上します。 放射線学 294、199–209 (2020)。

記事 Google Scholar

Sung、J.ら。 胸部 X 線写真の複数の主要所見に対する深層学習ベースの検出システムの付加価値: ランダム化クロスオーバー研究。 放射線学 202818、(2021)。

ゼック、JR 他胸部 X 線写真で肺炎を検出するための深層学習モデルの可変一般化パフォーマンス: 断面研究。 PLoS医学。 15、e1002683 (2018)。

記事 Google Scholar

ラウスチェッカー、AM 他。 ディープラーニング脳 MRI 病変セグメンテーション アルゴリズムの施設間の移植性。 ラジオル。 アーティフ。 知性。 4、e200152 (2021)。

記事 Google Scholar

マッキネス、L.ら。 UMAP: 均一多様体近似と射影。 Journal of Open Source Software、3、861 https://doi.org/10.21105/joss.00861 (2018)。

Berthelot、D.、他。 ミックスマッチ: 半教師あり学習への総合的なアプローチ。 神経情報処理システムの進歩、5050–5060 (2019)。

He, K.、Fan, H.、Wu, Y.、Xie, S. & Girshick, R. 教師なし視覚表現学習の勢いのコントラスト。 コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、9729–9738、(2020)。

Chen, T.、Kornblith, S.、Norouzi, M.、Hinton, G. 視覚表現の対比学習のためのシンプルなフレームワーク。 機械学習に関する国際会議議事録、1597 ~ 1607 年、(2020)。

キャロン、M.、他。 クラスターの割り当てを対比させることによる視覚的特徴の教師なし学習。 神経情報処理システム (NeurIPS) の進歩に関する議事録、(2020)。

Hadsell, R.、Chopra, S.、LeCun, Y. 不変マッピングの学習による次元削減。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、1735 ~ 1742 年、(2006)。

アイダホ州アポストロポロスおよびタタニア州ムペシアナ 新型コロナウイルス感染症 (Covid-19): 畳み込みニューラル ネットワークによる転移学習を利用した X 線画像からの自動検出。 物理学。 工学科学。 医学。 43、635–640 (2020)。

記事 Google Scholar

シンHCほかコンピューター支援検出のための深層畳み込みニューラル ネットワーク: CNN アーキテクチャ、データセットの特性、転移学習。 IEEEトランス。 医学。 イメージング 35、1285–1298 (2016)。

記事 Google Scholar

Yosinski、J. et al. ディープ ニューラル ネットワークの機能はどの程度転送可能ですか? 神経情報処理システムの進歩 27 (2014)。

コルブ、DA 体験学習: 学習と発達の源としての経験 (FT プレス、2014)。

Huang, G.、Liu, Z.、Van Der Maaten, L.、Weinberger, KQ 高密度に接続された畳み込みネットワーク。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、4700–4708、(2017)。

デン、J.、他。 Imagenet: 大規模な階層型画像データベース。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、248 ~ 255、(2009)。

Paszke、A. et al. Pytorch: 命令型スタイルの高性能深層学習ライブラリ。 神経情報処理システムの進歩 32 (2019)。

Loshchilov, I. & Hutter, F. 分離された重み減衰正則化。 学習表現に関する国際会議にて、(2019)。

Zhou, B.、Khosla, A.、Lapedriza, A.、Oliva, A.、Torralba, A. 識別ローカリゼーションのための深い特徴の学習。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2921 ~ 2929、(2016)。

セルバラジュ、RR、他。 Grad-CAM: 勾配ベースのローカリゼーションを介したディープネットワークからの視覚的な説明。 コンピューター ビジョンに関する IEEE 国際会議議事録、618 ~ 626、(2017)。

Ju, C.、Bibaut, A.、van der Laan, M. 画像分類のための深層畳み込みニューラル ネットワークを使用したアンサンブル法の相対的なパフォーマンス。 J.Appl. 統計 45、2800–2818 (2018)。

記事 MathSciNet Google Scholar

Ahn, J.、Cho, S.、および Kwak, S. は、ピクセル間の関係を使用したインスタンス セグメンテーションの学習を弱く教師付きで行いました。 コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、2209 ~ 2218、(2019)。

Jo、S.、Yu、IJ Puzzle-CAM: 部分的および完全な機能のマッチングによりローカリゼーションが向上しました。 2021 IEEE 画像処理国際会議 (2021)。

Stehman、SV 主題分類精度の尺度の選択と解釈。 遠隔感覚環境。 62、77–89 (1997)。

記事 ADS Google Scholar

リファレンスをダウンロードする

私たちの研究は、オープンデータセットを実用的に利用する方法を提供します。 胸部 X 線画像の共有にすでに多大な時間と労力を費やしていただいている CheXpert、MIMIC、NIH に感謝します。 また、エンタープライズ メディカル イメージング (EMI) チームの Thomas J. Schultz 氏と Eric Michael L'Italien 氏、およびデータ キュレーションにご協力いただいたマサチューセッツ総合病院放射線科の Sehyo Yune 氏、Meonchan Kim 氏、Jan Sylwester Witowski 氏にも感謝いたします。 また、DGX システムを研究に利用できるようにしてくれた Nvidia と臨床データ サイエンス センター (CCDS) に感謝します。

これらの著者は同様に貢献しました: Doyun Kim、Jouwon Chung。

米国マサチューセッツ州ボストン、マサチューセッツジェネラルブリガムアンドハーバード医科大学放射線科

キム・ドユン、チョン・ジュウォン、チェ・ジョンムン、マーク・D・スーッチ、ジョン・コンクリン、マリア・ガブリエラ・フィゲイロ・ロンゴ、ジャンヌ・B・アックマン、ブレント・P・リトル、ミレナ・ペトラノビッチ、マンヌーディープ・K・カルラ、マイケル・H・レフ&シンホ・ドゥ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

DK、JJ、MHL、SD が研究を開始し、計画しました。 DK、JC、JMC、SD が厳選したデータ。 MDS、JC、MGFL、JBA、BPL、MP、MKK がデータを解釈し、注釈を付けました。 DK、JJ、MHL、SD はデータと結果を分析しました。 DK、JJ、JBA、MP、BPL、MHL、SD が原稿を執筆しました。

シンホドゥへの対応。

MHL は GE ヘルスケアおよび武田薬品、ロシュ、シージェン製薬会社のコンサルタントであり、シーメンス ヘルスケアから機関研究の支援を受けています。 BPL と JBA は、学術教科書の副編集者および著者として Elsevier, Inc. からロイヤルティを受け取ります。 SDはDoaiのコンサルタントであり、TplusとMediblocから研究支援を受けています。 MKKは、Siemens Healthineers、Coreline Inc.、Riverain Tech Inc.から機関研究支援を受けています。JMCは、保健省が資金提供する韓国健康産業開発研究院(KHIDI)を通じた韓国健康技術研究開発プロジェクトからの助成金によって部分的に支援されました。福祉、大韓民国 (HI19C1057)。 残りの著者は競合する利益を宣言していません。

Nature Communications は、この研究の査読に貢献してくれた Chang Min Park 氏、Eric Oermann 氏、およびその他の匿名の査読者に感謝します。 査読者レポートが利用可能です。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Kim, D.、Chung, J.、Choi, J. 他説明可能な AI モデルとの定量的な類似性に基づいて胸部 X 線画像を正確に自動ラベル付けします。 ナットコミューン 13、1867 (2022)。 https://doi.org/10.1038/s41467-022-29437-8

引用をダウンロード

受信日: 2021 年 8 月 20 日

受理日: 2022 年 3 月 14 日

公開日: 2022 年 4 月 6 日

DOI: https://doi.org/10.1038/s41467-022-29437-8

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

BMC医学 (2023)

ネイチャー生体医工学 (2022)

科学レポート (2022)

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。