ヴィン博士

ブログ

ホームページホームページ / ブログ / ヴィン博士

Nov 18, 2023

ヴィン博士

Dati scientifici Volume 9,

Scientific Data volume 9、記事番号: 429 (2022) この記事を引用

8653 アクセス

23 件の引用

2 オルトメトリック

メトリクスの詳細

既存の胸部 X 線データセットのほとんどには、X 線写真上の位置を指定せずに、所見のリストからのラベルが含まれています。 これにより、胸部異常の検出と位置特定のための機械学習アルゴリズムの開発が制限されます。 この研究では、ベトナムの 2 つの主要病院から遡及的に収集された 100,000 件を超える胸部 X 線スキャンのデータセットについて説明します。 この生データから、合計 17 人の経験豊富な放射線科医によって手動で注釈が付けられた 18,000 枚の画像を公開します。これらの画像には、異常を囲む長方形の 22 個のローカル ラベルと、病気の疑いのある 6 個のグローバル ラベルが付けられています。 公開されたデータセットは、15,000 のトレーニング セットと 3,000 のテスト セットに分かれています。 トレーニング セットの各スキャンは 3 人の放射線科医によって独立してラベル付けされましたが、テスト セットの各スキャンは 5 人の放射線科医の合意によってラベル付けされました。 これらの注釈手順を容易にするために、DICOM 画像用のラベル付けプラットフォームを設計および構築しました。 すべての画像は、トレーニング セットとテスト セットの両方のラベルとともに DICOM 形式で公開されています。

測定

胸部X線検査による病気や異​​常所見

テクノロジーの種類

AIを活用して病気や異常所見を発見

サンプルの特徴 - 場所

ベトナム

胸部 X 線写真 (胸部 X 線または CXR とも呼ばれる) 用のコンピューター支援診断 (CAD) システムは、大規模なラベル付きデータセットの利用可能性と、高性能教師あり学習アルゴリズムの最近の進歩のおかげで、最近大きな成功を収めています 1,2。 3、4、5。 これらのシステムは、ディープ畳み込みニューラル ネットワーク (CNN)6 を活用して、一般的な肺疾患と関連所見の分類において専門家レベルのパフォーマンスに達することができます。 CNN のトレーニングは、注釈付き画像の高品質データセットに大きく依存します。 ただし、このようなデータセットの構築には、次のようないくつかの制約があるため、コストと時間がかかります。(1) 医療データは病院や医療センターから取得するのが困難です。 (2) 医師による手動の注釈は費用がかかります。 (3) 医療画像の注釈付けには、人間の偏見を克服するために数人の専門読者の合意が必要です7。 (4) 大規模な医療データセットを管理し、注釈を付けるための効率的なラベル付けフレームワークが欠けています。

CXR の注目すべき公開データセットには、ChestX-ray8、ChestX-ray148、Padchest9、CheXpert2、MIMIC-CXR10 などがあります。 ChestX-ray8 の拡張バージョンである ChestX-ray14 は、米国国立衛生研究所 (NIH) によってリリースされ、30,000 人以上の患者からの 112,000 件を超える CXR スキャンが含まれています。 手動で注釈を付けないと、このデータセットはラベルの品質に関連する重大な問題を引き起こします11。 Padchest は 160,000 枚を超える CXR 画像で構成されており、そのうち 27% は放射線科医によって 174 の異なる所見と 19 の診断を手作業でラベル付けされました。 データセットの残りの部分は、自然言語処理 (NLP) ツールを使用してラベル付けされました。 最近リリースされた CheXpert は、65,240 人の患者の 200,000 件を超える CXR を提供します。これらの CXR は、医療レポートからキーワードを抽出する自動ルールベースのラベラーを使用して、14 の観察の存在に対してラベル付けされています。 同じラベル付けメカニズムを採用した MIMIC-CXR には、DICOM 形式の 377,110 枚の画像とフリーテキストの放射線医学レポートが含まれています。 表 1 は、前述のデータセットと、JSRT12、Indiana13、MC14、SH14 などの中程度のサイズの他のデータセットの概要を示しています。

既存の CXR データセットのほとんどは、キーワード マッチング (CheXpert2 や NIH ラベラー 8 など) または NLP モデルを使用してフリーテキストの放射線医学レポートから疾患ラベルを抽出する、自動化されたルールベースのラベラーに依存しています。 これらのツールはラベルを大規模に作成できますが、同時に、高率の不一致、不確実性、エラーが発生します 11,15。 これらのノイズの多いラベルは、現実世界の設定で評価した場合に、深層学習ベースのアルゴリズムが報告されたパフォーマンスから逸脱する可能性があります16。 さらに、レポートベースのアプローチでは、CXR 画像を所見および診断の事前定義リスト内の 1 つまたは複数のラベルに関連付けるだけで、その位置は特定されません。 注釈付きの異常位置を含む CXR データセットがいくつかありますが、深層学習モデルをトレーニングするには小さすぎるか (JSRT)、詳細が十分ではありません (PadChest)。 CXR の解釈は、画像レベルの分類だけがすべてではありません。 放射線科医の観点からは、画像上で異常の位置を特定することがさらに重要です。 これは、臨床現場における CXR 用 CAD システムのアプリケーションが依然として非常に限定されている理由の一部を説明します。

高品質のラベルが付いた大規模な CXR データセットを研究コミュニティに提供する取り組みとして、私たちは 108 病院 (H108) とハノイ病院から遡及的に収集された DICOM 形式の 100,000 枚を超える生画像から VinDr-CXR データセットを構築しました。医科大学病院 (HMUH)、ベトナム最大の病院の 2 つ。 公開されたデータセットは、重要な所見の位置特定と一般的な胸部疾患の分類の両方を伴う 18,000 件の後前方 (PA) ビューの CXR スキャンで構成されています。 これらの画像には、少なくとも 8 年の経験を持つ 17 人の放射線科医のグループによって、22 の重大な所見 (ローカル ラベル) と 6 つの診断 (グローバル ラベル) の存在について注釈が付けられました。 各検出結果は境界ボックスを使用して位置特定されます。 ローカルラベルとグローバルラベルは、標準的な放射線医学レポートの「所見」セクションと「印象」セクションにそれぞれ対応します。 データセットを 2 つの部分、15,000 スキャンのトレーニング セットと 3,000 スキャンのテスト セットに分割します。 トレーニング セットの各画像には 3 人の放射線科医が個別にラベルを付けましたが、テスト セットの各画像の注釈はさらに慎重に処理され、5 人の放射線科医の合意から得られました。 ラベル付けプロセスは、Picture Archiving and Communication System (PACS) 上に構築された VinDr Lab17 と呼ばれる社内システムを介して実行されました。 すべての DICOM 画像と、トレーニング セットとテスト セットの両方のラベルがリリースされます。 このデータセットのわずかに変更されたバージョンは、Kaggle プラットフォーム (https://www.kaggle.com/c/vinbigdata-chest-xray-abnormalities-detection/) で VinBigData 胸部 X 線異常検出チャレンジを組織するために使用されました。

私たちの知る限り、VinDr-CXR は現在、トレーニング セットとテスト セットの両方に放射線科医が生成したアノテーションを備えた最大の公開 CXR データセットです。 私たちは、このデータセットにより、CXR スキャンでの胸部病変と疾患の位置特定と分類の両方のための新しい機械学習モデルの開発と評価が加速すると考えています。

VinDr-CXR データセットの構築は、図 1 に示すように、(1) データ収集、(2) データ フィルタリング、(3) データ ラベリングの 3 つの主要なステップに分かれています。 2018 年から 2020 年にかけて、ベトナムの 2 つの病院、HMUH と H108 のローカル PACS サーバーから、100,000 件を超える CXR を DICOM 形式で遡及的に収集しました。 イメージング データは、フィリップス、GE、富士フイルム、シーメンス、東芝、キヤノン、サムスン、ケアストリームなどの有名な医療機器メーカーのさまざまなスキャナーから取得されました。 この研究の倫理的認可は、研究開始前に HMUH および H108 の治験審査委員会 (IRB) によって承認されました。 この後ろ向き研究はこれら 2 つの病院の臨床ケアやワークフローに影響を与えず、データ内の患者を特定できる情報はすべて削除されていたため、患者のインフォームドコンセントを取得する必要はなくなりました。

VinDr-CXR データセット作成の流れ: (1) DICOM 形式の生画像は病院の PACS から過去に遡って収集され、患者のプライバシーを保護するために匿名化されました。 (2) 他のモダリティ、他の身体部分、低品質、または間違った向きの画像などの無効なファイルは、CNN ベースの分類器によって自動的に除外されました。 (3) Web ベースのラベル付けツールである VinDr Lab は、DICOM データを保存、管理し、リモートで注釈を付けるために開発されました。15,000 枚の画像からなるトレーニング セット内の各画像は、3 人の放射線科医のグループによって個別にラベル付けされ、テスト内の各画像は3,000 枚の画像のセットは、5 人の放射線科医の総意によってラベル付けされました。

患者のプライバシー 18 を保護するために、画像に関連付けられた個人を特定できる情報はすべて削除されるか、ランダムな値に置き換えられます。 具体的には、患者の名前、患者の生年月日、患者 ID、取得日時などの保護医療情報 (PHI)19 のすべての DICOM タグを削除する Python スクリプトを実行しました。限られた数の DICOM のみを保持しました。 RAW画像を処理するために必要な属性。 保持される属性の全リストを表 1 (補足資料) に示します。 次に、画像データ上に表示されるテキスト情報 (つまり、患者の識別情報を含む可能性のあるピクセルの注釈) を自動的に削除するための単純なアルゴリズムが実装されました。 結果として得られた画像は、病院のシステムからデジタル送信される前に、すべてのテキストが削除されていることを確認するために手動で検証されました。

収集された生データの大部分は成人の PA ビュー CXR のものでしたが、胸部以外の身体部分の画像 (DICOM タグの不一致による)、小児スキャン、低品質画像、側面 CXR などの異常値も大量に含まれていました。 これらの画像の例を図 2 に示します。すべての外れ値は、軽量の畳み込みニューラル ネットワーク (CNN) であるバイナリ分類器を使用してデータセットから自動的に除外されました。 この分類器のトレーニング手順は、この文書の範囲外です。

有効な (左) と無効な (右) CXR スキャンの例。 CNN ベースの分類器がトレーニングされ、外れ値を自動的にフィルターするために使用されました。 成人の有効な PA ビュー CXR のみがラベル付けのために保持されました。

VinDr-CXR データセットは、成人症例における合計 28 の所見と診断に対してラベル付けされました: (1) 大動脈拡大、(2) 無気肺、(3) 心肥大、(4) 石灰化、(5) 鎖骨骨折、(6) 硬化、 (7) 浮腫、 (8) 肺気腫、 (9) PA の拡大、 (10) 間質性肺疾患 (ILD)、 (11) 浸潤、 (12) 肺腔、 (13) 肺嚢胞、 (14) 肺混濁、 (15) 縦隔移動、(16) 結節/腫瘤、(17) 肺線維症、(18) 気胸、(19) 胸膜肥厚、(20) 胸水貯留、(21) 肋骨骨折、(22) その他の病変、(23) ) 肺腫瘍、(24) 肺炎、(25) 結核、(26) その他の疾患、(27) 慢性閉塞性肺疾患 (COPD)、および (28) 所見なし。 これらのラベルは、ローカル ラベル (1 ~ 22) とグローバル ラベル (23 ~ 28) の 2 つのカテゴリに分類されました。 ローカル ラベルは所見の位置を特定する境界ボックスでマークする必要がありますが、グローバル ラベルは放射線科医の診断印象を反映する必要があります。 各ラベルの定義の詳細は、表 2 (補足資料) に記載されています。 このラベルのリストは、2 つの病院の最も経験豊富な放射線科医からなる委員会によって提案されました。 これらのラベルの選択では、2 つの要素が考慮されました。1 つ目は、それらが普及していること、2 つ目は、CXR 上で区別できることです。 図 3 は、放射線科医によって注釈が付けられたローカルラベルとグローバルラベルの両方が付けられたいくつかのサンプルを示しています。

放射線科医の注釈が付いたCXRの例。 放射線科医によってマークされた異常所見(局所ラベル)は、視覚化を目的として元の画像上にプロットされます。 グローバル ラベルは太字で表示され、各例の下部にリストされています。 パソコンで表示し、拡大して詳細を確認するとよいでしょう。

ラベル付けプロセスを容易にするために、VinDr Lab と呼ばれる Web ベースのフレームワークを設計および構築し、17 人の経験豊富な放射線科医のチームにリモートでデータに注釈を付けさせました。 ラベル表示プロセスに参加した放射線科医は全員、放射線診断学の認定を受けており、ベトナム保健省から医療従事者証明書を受け取りました。 フィルタリングされたデータから 18,000 件の CXR のセットがランダムに選択され、そのうち 15,000 件のスキャン (正常: 10,606 件のスタディ、異常: 4394 件のスタディ) がトレーニング セットとして機能し、残りの 3,000 件のスキャン (正常: 2052 件のスタディ、異常: 948 件のスタディ) がトレーニング セットとして機能します。お試しセット。 トレーニング セット内の各サンプルは、ブラインド方式で注釈を付けるために 3 人の放射線科医に割り当てられました。 さらに、参加した放射線科医は全員、関連する臨床情報を知らされていませんでした。 このテストセットでは、5 人の放射線科医が 2 段階のラベル付けプロセスに参加しました。 最初の段階では、各画像に 3 人の放射線科医が個別に注釈を付けました。 第 2 段階では、より高いレベルの経験を持つ他の 2 人の放射線科医が、前の 3 人のアノテーターのアノテーションをレビューし、最終的なラベルを決定するために相互にコミュニケーションを図りました。 図 3 (補足資料) に示すように、最初のアノテーター間の意見の相違は、2 人の査読者によって慎重に議論され、解決されました。 最後に、彼らの意見の一致は基準となる真実です。

ラベル付けが完了すると、18,000 個の CXR のラベルが JavaScript Object Notation (JSON) 形式でエクスポートされました。 次に、その内容を解析し、注釈を単一のカンマ区切り値 (CSV) ファイルの形式に整理しました。 その結果、ラベル、境界ボックスの座標、およびそれらに対応する画像 ID を含む 1 つの CSV ファイルが提供されました。 トレーニング セットの場合、各サンプルには 3 人の異なる放射線科医の注釈が付いています。 テスト セットについては、5 人の放射線科医の合意ラベルのみを提供します。 患者の人口統計や各所見や病理の有病率などのデータ特性を表 2 にまとめます。トレーニング セット内のすべてのラベルの分布を図 4 に示します。すべての画像をトレーニングのラベルとともにリリースしました。セットとテストセット。

VinDr-CXR のトレーニング セットに関する所見と病理の分布。

VinDr-CXR データセットは、パブリック ダウンロード用に PhysioNet に送信されています20。 すべてのイメージング データと、トレーニング セットとテスト セットの両方に対応するグラウンド トゥルース ラベルを提供します。 画像は 2 つのフォルダーに編成され、1 つはトレーニング用、もう 1 つはテスト用でした。 各画像には、DICOM タグ (0008,0018) によって提供される SOP インスタンス UID の値からエンコードされた一意の匿名識別子があります。 エンコード プロセスは、Python hashlib モジュールによってサポートされていました ([sec:code]コードの利用可能性を参照)。 放射線科医によるトレーニング セットのローカル アノテーションは、CSV ファイル annotations_train.csv で提供されました。 テーブルの各行は、画像 ID (image_id)、放射線科医 ID (rad_id)、ラベルの名前 (class_name)、および境界ボックスの座標 (x_min、y_min、x_max、y_max) の属性を持つ境界ボックスを表します。 ここで、rad_id は 17 人の放射線科医の ID をエンコードし、(x_min, y_min) はボックスの左上隅の座標、(x_max, y_max) は右下隅の座標です。 一方、トレーニング セットの画像レベルのラベルは、次のフィールドを持つ別の CSV ファイル、image_labels_train.csv に保存されました: 画像 ID (image_id)、放射線科医 ID (rad_ID)、および所見と診断の両方のラベル (labels) 。 具体的には、各画像 ID には、さまざまな病状に対応する複数のラベルのベクトルが付いており、陽性のものは「1」でエンコードされ、陰性のものは「0」でエンコードされます。 同様に、テスト セットの境界ボックスの注釈と画像レベルのラベルは、それぞれ annotations_test.csv と image_labels_test.csv に記録されました。 唯一の違いは、テスト セットの CSV ファイルの各行が放射線科医 ID に関連付けられていないことです。

データの匿名化は制御されていました。 特に、米国の HIPAA (https://www.hhs.gov/hipaa/for-professionals/privacy) を満たすために、患者の個人を特定できるすべての健康情報が削除されていることを確認するために、すべての DICOM メタデータが解析され、手動でレビューされました。 /laws-regulations/index.html)、欧州 GDPR (https://gdpr-info.eu/)、および現地のプライバシー法。 すべての CXR スキャンのピクセル値も注意深く検査されました。 すべての画像は、10 名の人間の読み取りチームによってケースバイケースで手動でレビューされました。 このレビュープロセス中に、アルゴリズムによって削除されなかったプライベートなテキスト情報を含む少数の画像がデータセットから除外されました。 手動レビュー プロセスは、CNN ベースの分類器が検出できなかった外れ値サンプルを特定して破棄するのにも役立ちました。 ラベリングプロセスの品質を管理するために、放射線科医が生成したラベルを自動検証するための VinDr Lab の基礎となる一連のルールを開発しました。 これらのルールにより、アノテーターは、グローバル ラベルの選択を忘れたり、グローバル ラベルとして「検出なし」を選択したときに画像上の病変をマークしたりするなどの機械的なミスを防ぐことができます。 注釈者が完全に盲目になることを保証するために、画像は各注釈者に割り当てられる前にランダムにシャッフルされました。

データセットをダウンロードするには、ユーザーは PhysioNet Credentialed Health Data License 1.5.0 (https://physionet.org/content/vindr-cxr/view-license/1.0.0/) と呼ばれる日付使用契約 (DUA) に同意する必要があります。 。 DUA を受け入れることにより、ユーザーはデータを共有しないこと、およびデータセットは科学研究および教育目的にのみ使用でき、患者、施設、病院を再特定しようとしないことに同意します。 このリソースを調査する出版物では、著者はこの元の論文を引用する必要があります。 また、そのような著者がコードとモデルを公開することも奨励します。これは、コミュニティが実験を再現し、医療画像分野の研究を促進するのに役立ちます。

DICOM 画像のロードと処理に使用されるコードは、次のオープンソース リポジトリに基づいています。Python 3.7.0 (https://www.python.org/)。 Pydicom 1.2.0 (https://pydicom.github.io/); OpenCV-Python 4.2.0.34 (https://pypi.org/project/opencv-python/); および Python ハッシュリブ (https://docs.python.org/3/library/hashlib.html)。 データの匿名化と外れ値検出のコードは、https://github.com/vinbigdata-medical/vindr-cxr で公開されました。

Rajpurkar、P. et al. 胸部 X 線写真診断のためのディープラーニング: 現役の放射線科医に対する CheXNeXt アルゴリズムの遡及的比較。 PLoS Medicine 15、e1002686、https://doi.org/10.1371/journal.pmed.1002686 (2018)。

記事 PubMed PubMed Central Google Scholar

アービン、J.ら。 CheXpert: 不確実性ラベルと専門家による比較を備えた大規模な胸部 X 線写真データセット。 人工知能に関する AAAI 会議議事録、33、590–597 (2019)。

記事 Google Scholar

Majkowska、A. et al. 深層学習モデルを使用した胸部 X 線写真の読影: 放射線科医が判断した参照標準と母集団を調整した評価による評価。 放射線学 294、421–431、https://doi.org/10.1148/radiol.2019191293 (2020)。

論文 PubMed Google Scholar

唐、Y.-X. 他。 ディープ畳み込みニューラル ネットワークを使用した胸部 X 線写真の異常分類の自動化。 npj デジタル医療 3、1–8、https://doi.org/10.1038/s41746-020-0273-z (2020)。

記事 Google Scholar

Pham、HH、Le、TT、Tran、DQ、Ngo、DT、Nguyen、HQ 階層的な疾患依存性と不確実性ラベルを利用した CNN による胸部 X 線画像の解釈。 ニューロコンピューティング 437、186–194 (2021)。

記事 Google Scholar

LeCun, Y.、Bengio, Y.、ヒントン, G. 深層学習。 Nature 512、436–444、https://doi.org/10.1038/nature14539 (2015)。

記事 ADS CAS Google Scholar

ミシガン州ラザック、S. ナズ、A. ザイブ。医療画像処理のためのディープラーニング: 概要、課題、将来。 BioApps における分類、323–350、https://doi.org/10.1007/978-3-319-65981-7_12 (Springer、2018)。

Wang, X. et al. ChestX-ray8: 病院規模の胸部 X 線データベースと、一般的な胸部疾患の弱い教師による分類と位置特定に関するベンチマーク。 コンピューター ビジョンとパターン認識 (CVPR) に関する IEEE 会議議事録、2097 ~ 2106 年、https://doi.org/10.1109/CVPR.2017.369 (2017)。

バストス、A.、ペルトゥサ、A.、サリナス、J.-M. & de la Iglesia-Vayá、M. Padchest: マルチラベルの注釈付きレポートを備えた大規模な胸部 X 線画像データセット。 医用画像解析 66、101797 (2020)。

記事 Google Scholar

ジョンソン、A.E. 他 MIMIC-CXR は、フリーテキストレポートを備えた匿名化された公開されている胸部 X 線写真データベースです。 科学的データ 6、317、https://doi.org/10.1038/s41597-019-0322-0 (2019)。

記事 PubMed PubMed Central Google Scholar

Oakden-Rayner, L. ChestXray14 データセットの探索: 問題。 https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems/ (2017)。 (オンライン; 2020 年 5 月 4 日にアクセス)。

白石純 ほか肺結節の有無にかかわらず胸部 X 線写真のデジタル画像データベースの開発: 放射線科医による肺結節の検出の受信機動作特性分析。 American Journal of Roentgenology 174、71–74、https://doi.org/10.2214/ajr.174.1.1740071 (2000)。

論文 CAS PubMed Google Scholar

Demner-Fushman、D. et al. 配布および検索のために放射線検査のコレクションを準備します。 米国医療情報学会誌、23、304–310、https://doi.org/10.1093/jamia/ocv080 (2016)。

論文 PubMed Google Scholar

イェーガー、S.ら。 肺疾患のコンピューター支援スクリーニング用の 2 つの公開胸部 X 線データセット。 医学および外科における定量的イメージング 4、475–477 https://doi.org/10.3978/j.issn.2223-4292.2014.11.20 (2014)。

PubMed PubMed Central Google Scholar

Oakden-Rayner, L. 大規模な公開医療画像データセットの調査。 学術放射線学 27、106–112、https://doi.org/10.1016/j.acra.2019.10.006。 特集: 人工知能 (2020)。

Nagendran, M. et al. 人工知能と臨床医: 深層学習研究の設計、報告基準、主張の系統的なレビュー。 BMJ 368、https://doi.org/10.1136/bmj.m689 (2020)。

Nguyen, NT et al. VinDr Lab: 医療 AI 用のデータ プラットフォーム。 https://github.com/vinbigdata-medical/vindr-lab (2021)。

ベトナム国会。 規則 40/2009/QH12 (医療検査および治療に関する法律)。 http://vbpl.vn/hanoi/Pages/vbpqen-toanvan.aspx?ItemID=10482。 (オンライン; 2020 年 12 月 11 日にアクセス) (2009)。

Isola , S. & Al Khalili , Y. 保護された健康情報 (PHI)。 https://www.ncbi.nlm.nih.gov/books/NBK553131/ (2019)。

Nguyen, HQ、Pham, HH、Le, LT、Dao, M. & Lam, K. VinDr-CXR: 放射線科医の注釈が付いた胸部 X 線写真のオープン データセット。 PhysioNet https://doi.org/10.13026/3akn-b287 (2021)。

リファレンスをダウンロードする

著者らは、画像データベースへのアクセスを提供し、VinDr-CXR データセットを公開することに同意してくれたハノイ医科大学病院と Hospital 108 に感謝の意を表します。 データ収集とラベル付けプロセスに参加していただいた放射線科医、医師、技術者を含む協力者の皆様に特に感謝いたします。

これらの著者は同様に貢献しました: Ha Q. Nguyen、Khanh Lam、Linh T. Le。

これらの著者は同様に貢献しました: Dung D. Le、Chi M. Pham、Hang TT Tong、Diep H. Dinh、Cuong D. Do、Luu T. Doan、Cuong N. Nguyen、Binh T. Nguyen、Que V. Nguyen、Au D. ホアン、ヒエン N. ファン、アン T. グエン、フオン H. ホー。

Vingroup Big Data Institute、ハノイ、ベトナム

ハ Q. グエン、ヒエウ H. ファム、ダット Q. トラン、ズン B. グエン、ミン ダオ & ヴァン ヴー

スマート ヘルス センター、VinBigData JSC、ハノイ、ベトナム

ハ Q. グエン、ヒエウ H. ファム、ダット T. ゴ、ギア T. グエン、ニャン T. グエン

病院 108、放射線科、ハノイ、ベトナム

カーン・ラム、ズン・D・レ、チー・M・ファム、ハン・TT・トン、ディエップ・H・ディン、クオン・D・ドゥ

ハノイ医科大学病院、放射線科、ハノイ、ベトナム

リン・T・レ、ルー・T・ドアン、クオン・N・グエン、ビン・T・グエン、クエ・V・グエン、オー・D・ホアン、ヒエン・N・ファン、アン・T・グエン

ベトナム、ハノイのビン大学工学およびコンピュータサイエンス学部

ヒイウ・H・ファム

VinUni-Illinois Smart Health Center、VinUniversity、ハノイ、ベトナム

ヒイウ・H・ファム

タムアン総合病院、放射線科、ホーチミン市、ベトナム

フォン・H・ホア

イェール大学、数学学部、ニューヘブン、コネチカット州、06511、米国

ヴーより

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

HQN、KL、LL が研究を設計しました。 HQN、Nghia T. Nguyen、MD、VV がラベルのフレームワークを設計しました。 HHP と DBN はデータの匿名化を実行しました。 HHP は外れ値フィルタリングのアルゴリズムを開発しました。 DT、DBN、DTN、および Nhan T. Nguyen がデータの収集と分析を実施しました。 KL、LL、DL、CP、HT、DD、CD、LD、CN、BN、QN、AH、HNP、AN、PH はデータに注釈を付け、ラベル付けツールを改善するためのコメントを作成しました。 HQN と HHP が論文を執筆しました。 著者全員が原稿をレビューしました。

Hieu H. Pham への往復書簡

この研究は、Vingroup JSC から資金提供を受けました。 資金提供者は、研究の設計、データの収集と分析、出版の決定、または原稿の準備において何の役割も果たしていませんでした。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Nguyen、HQ、Lam、K.、Le、LT 他 VinDr-CXR: 放射線科医の注釈が付いた胸部 X 線写真のオープン データセット。 Sci Data 9、429 (2022)。 https://doi.org/10.1038/s41597-022-01498-w

引用をダウンロード

受信日: 2021 年 8 月 4 日

受理日: 2022 年 6 月 23 日

公開日: 2022 年 7 月 20 日

DOI: https://doi.org/10.1038/s41597-022-01498-w

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

科学レポート (2023)

科学データ (2023)

SN コンピュータサイエンス (2023)

ネイチャーマシンインテリジェンス (2022)