自己

ニュース

Nov 14, 2023

自己

Edizione di biologia della comunicazione

Communications Biology volume 5、記事番号: 1162 (2022) この記事を引用

3397 アクセス

1 引用

7 オルトメトリック

メトリクスの詳細

単一細胞のセグメント化は、生物顕微鏡画像から定量的データを抽出するために必要なプロセスです。 過去 10 年間、このプロセスを支援する機械学習 (ML) 手法が登場しましたが、その圧倒的多数は教師あり学習 (SL) に該当し、ML アルゴリズムをトレーニングするには、前処理され、人間が注釈を付けたラベルの膨大なライブラリが必要になります。 。 このような SL 前処理は労働集約的であり、バイアスが生じる可能性があり、エンドユーザー間で異なり、より大きな細胞生物学コミュニティ全体で効果的に利用できる堅牢なモデルが可能であることはまだ示されていません。 ここでは、この前処理の問題に対処するために、連続画像間の細胞の動きを利用して ML 分類器を自己トレーニングする自己教師あり学習 (SSL) アプローチを提供します。これにより、調整可能なパラメーターや厳選された画像を必要とせずに細胞と背景のセグメンテーションが可能になります。 。 モーションを活用することで、エンドユーザー データに基づいて直接トレーニングする正確なセグメンテーションを実現し、光学モダリティに依存せず、現代の SL 手法よりも優れたパフォーマンスを発揮し、完全に自動化された方法で実行するため、エンドユーザーのばらつきや偏見が排除されます。 私たちの知る限り、この SSL アルゴリズムはこの種の取り組みとしては初のものであり、広範な細胞生物学研究コミュニティにとって理想的なセグメンテーション ツールの候補となる魅力的な機能を備えています。

生細胞顕微鏡の微速度撮影画像に保存される情報は、細胞生物学にとって最も重要です。 特に、二次元 (2D) 細胞の培養と実験は、学術研究と産業研究、規制プロセス、商業パイプラインの両方で広く普及しています。 したがって、多くの場合細胞セグメンテーションの形式で行われる定量的バイオイメージ分析ツールの必要性が十分に確立されています。 過去 10 年にわたり、機械学習は細胞セグメンテーションの強力な方法として台頭してきました 1、2、3。 機械学習は、データと人間による注釈付きラベルを組み合わせて、対象の特徴を識別するための分類子モデルを形成するフレームワークである教師あり学習 (SL) を提供します。 特に、人工ニューラル ネットワーク (ANN) は、通常、標準の画像処理パイプラインよりも優れたパフォーマンスを発揮するため、近年、生体画像解析で人気の SL 技術となっています 3,4。

機械学習の主な欠点は、データを大量に消費することです。 特に、ANN は通常、複雑なデータセットで良好なパフォーマンスを得るために、通常データ前処理と呼ばれるステップで膨大な量のラベル付きデータを必要とします。 たとえば、Microsoft の COCO などの標準的なコンピュータ ビジョン トレーニング ライブラリには、ANN を適切にトレーニングするための 100 万を超えるラベル オブジェクトが含まれています5。 このアプローチの問題は、細胞生物学における画像が、インターネット関連のコンピューター ビジョンの問題 (動物認識など) に典型的な画像と比較した場合、信じられないほど多様であることです。 その結果、このニーズに対応するために、さらに大規模なトレーニング ライブラリを作成するための大規模な取り組みが数多く行われています。たとえば、最近厳選された EVICAN6 (26,000 個のラベル付きオブジェクト)、CellPose7 (70,000 個のラベル付きオブジェクト)、および LIVEcell8 (160 万個のラベル付きオブジェクト) ライブラリが挙げられます。より大規模な細胞生物学研究コミュニティが簡単に利用できる堅牢なモデルを実現したいと考えています。 ただし、ANN を含むすべての SL の根底にあるのは、モデルがトレーニング中に使用されたものと同様のデータに対してのみ信頼性の高いパフォーマンスを発揮するという事実です9。 この「ビッグ ライブラリ」アプローチは、細胞顕微鏡法を具体化する幅広い細胞型、光学モダリティ、顕微鏡構成、2D および 3D 細胞外環境、およびカスタマイズされた実験条件には匹敵しません。これらすべては継続的に進化しています。 機械学習の共通のモットーである「疑わしい場合は再トレーニングする」は、この事実を明確に証明していますが、モデルのトレーニングは決して簡単なものではなく、多くの場合エンドユーザーの負担となる、悪名高い労働集約的なタスク 10 です。

この分野では、トレーニング ライブラリに関して「大きいほど良い」という哲学を追求し続けることができますが、主観的な要素がデータのラベル付けを介して機械学習モデルに入力され、抽出されたデータにバイアスが効果的に焼き付けられるという認識が高まっています。定義が不十分で判断が難しい方法でトレーニング プロセスによってデータが収集される。 さらに、モデルの重みの不透明な性質と、これほど大きなパラメータ空間にまたがる場合の潜在的なオーバーフィッティングのため、大規模なライブラリの有効性については依然として疑問が残っています。 より広範な細胞生物学コミュニティへの機械学習へのアクセシビリティを高めるには、「大きいほど良い」トレーニング戦略に依存しない代替アプローチが必要です。 代替戦略の 1 つは自己教師あり学習 (SSL) です。 SSL は、データの監視やラベル付けの手段として、データ自体に含まれるいくつかの基礎的な機能を活用し、エンドユーザー自身のデータから直接学習できるため、労力をかけて厳選されたライブラリやそこに含まれるバイアスの必要性を排除できるため、有望です。 生細胞のタイムラプス画像の場合、細胞の種類、光学モダリティ、その他の実験設定、つまりモーションに関係なく、データの自己ラベル付けに使用できる顕著なデータ構造があります。

ここでは、連続画像間のオプティカル フローが、細胞セグメンテーション (ゼロ ショット学習) のデータを自己ラベルする手段として使用できることを示します。 次に、この自己ラベル付けされたデータを使用してトレーニングし、細胞とバックグラウンドを分類するアルゴリズムを構築します。これを完全に自動化した方法で行うことができます。 私たちは、5 つの光学モダリティ (蛍光およびタグフリーの両方) および広範に異なる実験設定にわたるさまざまな生細胞画像でアルゴリズムを検証し、より広範な細胞生物学研究コミュニティへの適用可能性を示します。 生細胞のタイムラプス画像に固有の動きを活用することで、(1) SSL により人間の介入が排除されることを示します。 拡張し続けるトレーニング ライブラリを構築する必要はありません。(2) SSL は完全な自動化を可能にし、細胞生物学におけるバイアスを排除し、再現可能な機械学習の取り組みを生み出す上で重要な前進です。(3) SSL は特定の細胞タイプに依存しません。光学モダリティまたは実験環境。 これら 3 つの利点をすべて組み合わせると、堅牢で再現性が高く、ユーザーがアクセスできるセル セグメンテーション ツールが実現します。

私たちは、分析対象のデータから直接自己監視の手段としてモーションを活用することで、数万を超えるラベルの厳選されたライブラリを備えた最先端の ANN ジェネラリスト モデルよりも優れたパフォーマンスを発揮することを示します。 私たちの知る限り、この研究は、この種のものとしては初めての完全に自動化された一般的なセル セグメンテーション アルゴリズムを表しています。 さらに重要なことは、当社の SSL アプローチは機械学習の前処理の問題に直接対処し、細胞生物学研究室にとって公平な機械学習へのアクセシビリティを高めるための道筋を提供することです。

細胞をセグメント化するための手動および教師あり学習アプローチを自己教師ありアルゴリズムに置き換えるために、生細胞顕微鏡検査に常に存在する表現型の特徴の 1 つである動きを利用しました。 生細胞顕微鏡法によって捕捉された常に存在するダイナミクスは、フレームごとの画像特徴の変動または「フロー」を識別するように設計されたオプティカル フロー (OF) アルゴリズムの適用に最適です。 オプティカル フロー アルゴリズムは、ピクセル値の空間シフトによって 2 つの画像を関連付けることができるという前提に基づいています。 これらの変位の計算に使用される方法は、動きの検出、自律走行車の誘導、移動プラットフォームから取得した画像の安定化、医療画像の位置合わせ、あるいはこの研究の場合は細胞の動きのセグメンテーションなど、さまざまなイメージングの目的に適合します15。 細胞は非常に変形しやすく、生細胞画像には通常、スキャンステージの動きによるジッターが組み込まれているという事実を説明するために、多重解像度のファーンバック変位16(FD)オプティカルフローアルゴリズムが採用されました(補足注3)。

自己教師あり学習と自動モデル生成に対する私たちのアプローチは、FD を使用してトレーニング プロセスを自動化することから始まります (図 1)。 典型的なセグメンテーション戦略には、時間フレーム (t) での単一画像内の静的情報の利用が含まれますが、これでは一般化可能な方法で「セル」ピクセルと「背景」ピクセルを区別することが困難になる可能性があります (図 1a)。 対照的に、私たちのアプローチは、連続する時間フレーム (t-1、t) からの画像に基づく FD 計算から始まります。 これにより、細胞内運動のユビキタスな性質を活用し、力学ベースの特徴ベクトルを構築することができます。最も高い変位を持つピクセルは自動的に「細胞」ピクセルとしてラベル付けされ、最も低い変位を持つピクセルは自動的に「背景」ピクセルとしてラベル付けされます。どちらのカテゴリーにも当てはまらないものはラベルなしのままです (図 1b、c)。 この自動自己標識は、特定の光学モダリティ、細胞型、または表現型の原理に依存しないため、広く適用できることに注意してください。 オプティカル フローを自己教師あり学習に適用する堅牢性は、アルゴリズムが細胞全体の移動だけでなく細胞内の動きも検出するという事実から生まれます。 その結果、細胞小器官や膜変動などの内部構造成分の運動が分類プロセスに寄与し、蛍光標識細胞に適用した場合には、蛍光標識分子も同様に寄与します。

a 細胞セグメンテーション技術の大部分は、「細胞」と「背景」を区別する手段として単一の画像フレームとその中に含まれる静的情報を利用し、多くの場合ヒストグラムで表されます。 自己教師ありアルゴリズムは、自動化された方法でピクセルに自己ラベルを付ける手段としてオプティカル フローを利用します。 b 生細胞のタイムラプス画像では細胞内ダイナミクスが広く普及しているため、連続画像のペアごとに FD を計算できます \(\left(t-1,{t}\right)\)。 FD は各ピクセルに関連付けられたベクトルとして表すことができます (右)。 c FD の大きさは、t における単一画像のピクセル強度を連続画像間で計算された FD ベクトルの大きさに共プロットする二変量ヒストグラムに示されているように、背景から細胞を区別する手段を提供します \(\left( t-1、{t}\右)\)。 変位が最も高いピクセルには自動的に「セル」(緑色の破線の左側) というラベルが付けられ、最も低いピクセルには「背景」(黄色の破線の右側) というラベルが付けられます。 どちらの基準も満たさないピクセルはラベルなしのままですが、自己ラベル付きピクセルは分類用のトレーニング データ セットの作成に使用されます。 時間増分: 600 秒、スケール バー = 20 μm。

FD ベースの自己ラベル付けアプローチは、「セル」および「背景」ラベル付きピクセルのセットを出力し、各時点で追加のエントロピーおよび勾配特徴ベクトルを生成するために使用されます。 これらの静的特徴ベクトルは、分類子モデルのトレーニングと生成に使用され、最終ステップで細胞セグメンテーションのために画像内のすべてのピクセルに適用されます。

FD 自己ラベル付けに基づくセグメンテーションへの完全な自己監視型アプローチを、複数 (上) と 1 つの強調表示された MDA-MB-231 細胞 (下) のタイムラプス DIC 画像を使用して図 2 に示します。 生の画像 (図 2a、b) からは、個々の細胞の多くの部分が背景に溶け込んでいるように見えます。 ただし、FD 自己ラベル付け戦略が適用される場合、アルゴリズムは、変位の大きさが大きいピクセルを自動的に識別し、緑色のピクセルとして強調表示されます (図 2c、d)。これらのピクセルは、正しく「セル」とラベル付けされる確率が最も高いものとして選択されます。 この識別は、図 1b の青いオプティカル フロー ベクトルで強調されているように、細胞全体の動きまたは細胞内ダイナミクスによるものである可能性があります。 背景を自動的にラベル付けするために、セグメントにわたるアルゴリズム、つまり、セルだけでなく近くの背景ピクセルからの動きもキャプチャするリベラルな (低い) FD しきい値が採用されます。 アルゴリズムはこれらのピクセル値をゼロに設定し、残りのピクセルを「背景」としてラベル付けします (図 2c、d 黄色のピクセル)。 FD によって教師なしの方法で「セル」または「背景」とラベル付けされると (画像ペア \(\left(t-1,{t}\right)\))、エントロピーおよび勾配特徴ベクトル (画像からの静的特徴) at t) は、ローカル近傍ピクセルを使用して、これらのトレーニング ピクセルごとに生成されます (補足 1、図 S1)。 これらの追加の特徴ベクトルは、ピクセル単位で画像全体に適用される単純ベイジアン分類器モデルをトレーニングおよび生成するために使用されます。 エントロピーおよび勾配特徴ベクトルから得られた情報により、FD トレーニング ステップでラベル付けされなかったピクセル (図 2c、d グレー ピクセル) を分類できるようになります。 コントラスト強調画像(図2b)とモデル生成セグメンテーション(図2e、f、青緑色のピクセル)は、アルゴリズムが高い忠実度で細胞をセグメント化できることを示しています(DIC画像/セグメント化された境界オーバーレイ、図2g)。 重要なのは、このラベル付け、トレーニング、分類の手順が \(\left(t-1,{t}\right)\) 画像の連続するペアごとに再帰的に実行され、分類子モデルが背景や表現型の変化に適応できるようになることです。 FD を使用して、最も高い変位ピクセルを「セル」として、最も低い変位ピクセルを「背景」としてラベル付けすることにより、ラベル付けプロセスが自動化 (または「自己監視」) され、手動入力や厳選されたトレーニング ライブラリは必要ありません。

a いくつかの強調表示された MDA-MB-231 細胞および 1 つの単一の MDA-MB-231 細胞のコントラスト強調された DIC 画像は、細胞内に固有の強度の範囲を示しています。 (対物レンズ 20 倍)。 c、d FDによる教師なし学習: 高閾値FDを使用して、最も高い変位の大きさを示すピクセルのみを選択し、それらを「セル」(緑色のピクセル)としてラベル付けします。 同様に、低しきい値 FD は、高流量領域よりもはるかに広い範囲の変位量を持つピクセルを識別するために使用されます。 変位の大きさが最も低いピクセルには、「背景」(黄色のピクセル) というラベルが付けられます。 これらの領域の間で FD を示すピクセルはラベルなしのままです (灰色のピクセル)。 e、f 自己ラベル付きトレーニング データによる教師あり学習。 次に、自己ラベル付けされたピクセル (緑と黄色) を使用して静的特徴ベクトルが生成され、それが分類器モデルのトレーニングに使用されます。 g 青い輪郭は、FD トレーニング済みモデルによって「セル」として分類されたすべてのピクセルの輪郭を示す結果のセグメンテーションであり、b の画像にも重ねられています。 このプロセスはタイム ステップごとに繰り返されるため、最新の画像を使用してトレーニング データが更新されます。 スケールバー: 25 μm (20X 対物レンズ、時間増分: 300 秒)。

コントラストが非常に低い画像の場合、最初の FD しきい値設定を考慮すると、堅牢なセグメンテーションを行うには「セル」とラベル付けされたトレーニング ピクセルが少なすぎる可能性があります。 このような場合、アルゴリズムは、「セル」ピクセルに関連付けられたエントロピーを計算し、関連付けられた「セル」エントロピー特徴ベクトルが「背景」エントロピー特徴ベクトルのエントロピー特徴ベクトルと明確に区​​別されるまで、繰り返し FD しきい値を下げます。

この研究の中心的なテーマは、教師ありトレーニングを必要とする機械学習アプローチは時間がかかり、主観的であり、最終的には効果がなくなる可能性があるということです。 トレーニング プロセスは、機械学習アプローチの中で最も時間がかかる部分として広く認識されています。 多くの機械学習アルゴリズム、特に深層学習技術は不透明な性質があるため、トレーニング データ セットの成功または失敗の背後にある理由がエンド ユーザーにはわからないことがよくあります。 したがって、このプロセスは試行錯誤の 1 つであり、モデルのパフォーマンスが適切であると判断されない場合は再トレーニングが必要になります 14。 自己教師ありアプローチによってセグメンテーションを評価するために、多様な画像データセットを編集しました(図3、補足注2、表S1)。 厳選されたトレーニング ライブラリを使用した教師あり学習アプローチとの比較のために、最近人気のある人工ニューラル ネットワーク CellPose7 を選択しました。これは、複数の光学モダリティ、細胞タイプ、およびオブジェクトにまたがる 70,000 個の手動で注釈が付けられたオブジェクトで事前トレーニングされたモデルで構成されています。 私たちのアプローチと同様に、CellPose は、より広範な細胞生物学研究コミュニティに適用されるジェネラリスト モデルになるようにトレーニングされており、さらに自動分析のオプションがあるため、比較に理想的なアルゴリズムとなっています。 F1 スコア メトリックは、各データ セットに対して各方法で実行されたセグメンテーションの品質を評価するために計算されました。 データ セットごとにセルが手動でセグメント化され、各メソッドのセグメント化に対するグランド トゥルースとして機能します。 各メソッドの真陽性 (TP)、偽陽性 (FP)、および偽陰性 (FN) はピクセル単位で計算されます。 F1 スコアは次のように定義されます。

a Hs27 線維芽細胞の位相コントラスト (10X 対物レンズ、時間増分: 1200 秒) b 粘菌の透過光 (10X 対物レンズ、時間増分: 60 秒) c MDA-MB-231 の位相コントラスト (10X 対物レンズ、時間増分: 600 秒) d 単一の Hs27 細胞の IRM 画像 (対物レンズ 40 倍、時間増分: 600 秒)。 e MDA-MB-231 細胞の DIC 画像(対物レンズ 20 倍、時間増分: 120 秒) f lifeAct(GFP アクチン複合体)をトランスフェクトした単一の A549 細胞(擬似カラー)の蛍光画像と関連する FD ベクトル プロット(対物レンズ 100 倍) 、時間増分: 10 秒)。 インセット i、ii、iii は、ボックスで囲まれた画像領域を強調表示します。 白い矢印は、動きの欠如または自動サイズ フィルタリングのいずれかにより、正しく「背景」とラベル付けされた破片の例を示しています。 画像は、低コントラストの特徴や背景の不均一性を強調するためにコントラストが強調されています。 DIC 画像 e は、細胞特徴の干渉による影を強調するためにシャープ フィルターでさらに強調されました。 スケールバー: a、b、c: 50 μm。 d、e:25μm。 f:10μm。

図 3 の画像は、このアプローチの一般性を示しており、自己教師ありアルゴリズムがサイズ フィルタリングや穴埋めなどの一般的に必要な手動入力をさらに自動化する方法も示しています。 セグメント化された細胞は、さまざまな細胞タイプ、イメージングモダリティ、倍率、時間増分から取得した画像から処理されました (補足注 2、表 S1)。 FD アルゴリズムにより、教師あり機械学習アプローチでユーザーが調整できる一般的なパラメーターである自動サイズ フィルターへの直接的なアプローチが可能になりました。 これを達成するために、FD のスタンドアロン アプリケーションが画像に適用されましたが、これには上記の自己調整とモデル構築の追加手順がありませんでした。 一部のセルの特徴は失われていますが、このよりシンプルで高速なアプローチは、平均セル サイズを推定し、はるかに小さなオブジェクトを除外するのに十分な精度を備えていることが判明し、サイズ フィルタリング プロセスを自動化します。 無関係な破片には生細胞の動きが欠けていることが多いため、この破片も FD アルゴリズムによって自動的にバックグラウンドとしてラベル付けされました。 図 3a、b は、ヒト線維芽細胞のセグメンテーション (10 倍、位相差) とはるかに小さい細胞性粘菌アメーバ細胞のセグメンテーション (10 倍、位相差) を比較することにより、自己教師ありコードがフィルターのサイズを変更しながら、異なるサイズの細胞タイプにも適応できることを示しています。透過光)、それぞれ。 Hs27画像内の無関係なデブリの特徴(図3a、白い矢印)は、サイズと強度が図3bの細胞性粘菌細胞と類似しているにもかかわらず、「背景」として正しく識別されます。 図3a、bで観察された背景の不均一性は、「細胞」と誤ってラベル付けされる可能性がありますが、フレーム \(t-1\) からフレーム \(t\) まで比較的一定のままであるため、正しく識別されます。 図3cのMDA-MB-231細胞のセグメンテーション結果(10X、位相差)は、丸みを帯びた図3c(i)から拡散した図3c(ii)まで、広範囲の表現型に適応するアルゴリズムの能力を示しています。これは、連続する画像ペアでモデルを継続的に再トレーニングすることで、ユーザー入力を必要とせずに有効になります。

このアルゴリズムは、図 3d–f に示すように、さまざまな光学モダリティと倍率に対して堅牢に機能します。 図 3d、e は、IRM 画像 (40X、Hs27 細胞) および DIC 画像 (20X、MDA-MB-231) からのセグメンテーションの結果です。 蛍光イメージングの例として、倍率 100 倍での GFP アクチンタグ付き A549 細胞の自己監視セグメンテーションを図 3f に示します。 追加オプションとして、図 3f のベクトル プロットに示すように、FD はアルゴリズムのラベル付け要素としてだけでなく、測定ツールとしても適用できます。 プロットされた FD ベクトル (青) は、フレーム間の測定された GFP タグ付きアクチンの流れの大きさと方向を表示します。 このような測定は、細胞内タンパク質およびカルシウムシグナル伝達動態の定量化に役立つことが示されています17、18、19。

画像処理ベースの機械学習アルゴリズムでは手動入力が必要になることが多い穴埋めも、このアプローチによって自動化されています。 穴埋め入力が必要な一般的な例としては、核を貫通しない蛍光タグや、位相差などのタグフリー顕微鏡モードの場合、アルゴリズムが干渉強化されたセルエッジとセルエッジを関連付けるのが困難な大きなスプレッドセルが挙げられます。閉じた葉状仮足。 私たちは、イメージングモダリティや、細胞膜、核、細胞質のいずれをイメージングするかに関係なく、細胞内の動きが遍在的にFDによって検出されることを発見しました。 「細胞」とラベル付けされた領域内の特定のピクセルでは、動き検出が行われないよりもはるかに一般的であるため、固定形態的ぼかしツール (半径 5 ピクセルの円形) は、細胞の種類や顕微鏡の構成に関係なく、確実に穴を埋めることが判明しました。 計算されたセル面積は、ブラーツール半径の範囲に対して不変であることがわかりました(補足注4、図S3)。 いずれの場合も、オプティカル フローを使用して動きを識別し、半径 5 ピクセルのぼかしツールを使用すれば、セルを正しく埋めるのに十分でした。

F1 スコアによる SSL アプローチと CellPose の比較を図 4 に示します。各モデルで使用された注釈付きラベルの数や、オブジェクト (セル) に適用された注釈付きラベルの数など、各データセットの簡単な説明が上部に示されています。 ) 各データセット内。 CellPose7 は、強度勾配を識別するように訓練された比較的新しい教師あり学習フレームワークであり、一般的な U-Net ニューラル ネットワーク アーキテクチャに基づいています20。 これを達成するために、著者らは、蛍光画像とタグなし画像の両方を含む、手動で注釈が付けられた 70,000 個のオブジェクトからモデルをトレーニングするために多大なリソースを費やしました。これは、細胞内の顕微鏡検査の一般的なモードとより特殊なモードの両方を表すデータセットに直接適用されました。生物学。 対照的に、私たちの SSL は人間の入力を必要とせずにデータセット自体でトレーニングされました (#L = 0)。 図 4 は、SSL がデータセット全体で良好なパフォーマンスを示し、~0.7 ~ 0.9 の F1 スコアを達成し、多様な生細胞画像全体で堅牢なパフォーマンスを示していることを示しています。 SSL は、この研究で検証に使用された 4 つのデータ セット(主に低倍率のマルチセル データ セット)で CellPose より優れたパフォーマンスを示しました。 単一細胞の高倍率である残りの 2 つのデータセットでは、各メソッドのパフォーマンスは統計的に同等でした。 データセットの CellPose セグメンテーションの詳細は、補足注 5 の図と図 2 に示されています。 S4~S9。

一番上の行には、倍率、光学モダリティ、細胞タイプ、画像特性の簡単な説明が注釈として付けられたデータセットの名前が含まれます。 #L はモデルのトレーニングに使用される注釈付きラベルの数を表し、#O は特定のデータ セット内のモデルによってセグメント化されるオブジェクトの数を表します。 *CellPose には、自動的に推定できるサイズ フィルターという単一のパラメーターがありますが、一部のデータ セットでは、このサイズ フィルターを手動で調整することで最適なセグメンテーションが見つかりました。 以下の図は、データ セットの最終イメージに重ねられたグラウンド トゥルース (緑色の実線)、SSL (シアン色の大きな破線)、および CellPose (赤色の小さな破線) のアウトラインを示しています。

過去 10 年間、機械学習 (ML) の応用、特に細胞セグメンテーションへの教師あり学習技術の応用に多大な努力と改善が見られました。 ただし、教師あり学習フレームワークの明確に定義された性質により、データと対応するラベルの間の関係に関する多くの仮定が隠蔽される可能性があります。つまり、前処理ステップ中に人間がラベル付けとトレーニングのプロセスを積極的に監視しているということです。 大幅な改善により ML がよりアクセスしやすくなったにもかかわらず 7、10、21、この教師あり学習の前処理要件が、ML がコンピューター科学者からより広範な細胞生物学研究コミュニティにまだ広く移行していない理由の 1 つです。これが効率を妨げ、深刻な課題を引き起こしています。生体画像解析の再現性を確保します。 したがって、この分野では、ユーザーからの入力なしにあらゆる研究グループの細胞画像をセグメント化できる高水準の一般戦略を目指して努力することが重要です。 実際、これは 2018 年のデータ サイエンス ボウルの範囲であり、蛍光タグ付き核のセグメンテーションのための完全に自動化されたアルゴリズムの確立を目指していました 22。 当社の SSL アプローチは、この考え方の自然な拡張であり、自動化をタイムラプス画像の細胞セグメンテーション全体にまで拡張します。この作業の目標は、入力や構成を必要とせずに広く適用可能な ML 戦略 (1) を作成することです。エンドユーザーから提供され、(2) データの前処理 (つまり、手動のラベル付け) が不要です。

当社の SSL アプローチは、タイムラプス画像のデータ構造に埋め込まれた動的特徴ベクトルであるファーンバック ディスプレイスメント (FD) を介して、新しい画像ごとに再トレーニングする継続的に進化するモデルを構築することでこれを実現します。 FD から、モデルのトレーニング用に追加の静的特徴ベクトルを簡単に生成できます。 この研究では、主にそのような 2 つの静的特徴ベクトル (勾配とエントロピー) を研究しましたが、この点に関してコードはモジュール式であり、アプリケーションに基づいて追加できる画像特徴が多数あります。 オプティカルフローはこれまで生物学的画像に使用されてきましたが、主に蛍光タグ付きタンパク質の時空間特性評価の文脈で使用されており 23,24 、一般的な方法で細胞のセグメンテーションに適用されることはほとんどありません 15。 ここでは、FD によって捕捉された細胞ダイナミクスの進化が、ML アルゴリズムを継続的に自己トレーニングするための強力な手段として活用できることを示します。 この継続的なトレーニングの結果の 1 つは、セグメント化される同じ画像がトレーニングにも使用されるため、時間の経過とともに必然的に変化する細胞の特徴や背景照明を事前に手動で予測する必要がなくなることです。

近年、ライフ サイエンスに適用される ML が急激に増加している 25 ため、生体画像解析に適用される ML の再現性を確保するためのベスト プラクティスの確立と導入に一層の注目が集まっています。 多くの場合、議論は、ML モデルがどのようにトレーニングされ適用されたかに関する透明性を達成するために、トレーニング データセット、データ拡張、使用されたハイパーパラメーターなどのレポート文書などの問題を中心に行われます。 ここで概説した当社の SSL 戦略の邪魔にならないアプローチは、完全に自動化されているという事実により、これらの問題の多くを簡潔に回避します。エンドユーザーがデータを作成するだけであれば、ライフサイエンスにおける ML の再現性について最近確立された「ゴールドスタンダード」26 を簡単に達成できます。利用可能。 ただし、このゴールドスタンダードでも、前処理ステップでのトレーニングデータの選択とアノテーションの両方の際にネットワーク自体に組み込まれるバイアスに関する懸念には対処していません11、12、13、14。 たとえば、LIVEcell ライブラリの作成者は、自分たちの作品の産業および規制上の適用によるバイアス 8 を避けるために、ライブラリの注釈を構造化および管理することに細心の注意を払いました。 ただし、これらの注意深い手順は、実装に伴うコストとリソースが膨大であるため、研究ベースの ML トレーニング ライブラリにはほとんど適用されません。 繰り返しになりますが、SSL によって可能になる自動化は、データのラベル付け/前処理におけるバイアスの懸念を大幅に回避し、より広範な規模での ML 取り組みの再現性を確保するための魅力的な戦略を提供します。

一般に、モデルのトレーニングは、細胞生物学における機械学習のアクセシビリティ 10 と再現性 14 の両方にとって大きな障壁となります。 トレーニングが完了すると、最初にトレーニングされたデータと同様のデータにモデルを効果的に適用できます。 ただし、新しく別個のデータセットに対する事前トレーニング済みモデルの使用、つまり転移学習は、ML、特に SL アプローチが苦労している現在のハードルです。 大規模で多様なトレーニング ライブラリを使用しているにもかかわらず、検証データ セットでの CellPose のパフォーマンスが比較的低いことは、最先端の ANN のパフォーマンスがトレーニング データ セットの選択とキュレーションにどれほど敏感であるかを証明しています。 。 この点において CellPose は特別なものではなく、むしろこの現象は SL アプローチ、特に ANN において体系的であることに注意してください 27。

ここで紹介するアルゴリズムは、過度に洗練されたアーキテクチャではないため、多くの ML パイプラインに共通する強力な計算能力やインフラストラクチャを必要としません10。 それとはまったく逆に、このコードはラップトップ上でのみ検証されており、高解像度の顕微鏡データに対してこのアルゴリズムを使用した場合、許容可能な処理時間を達成できました。 たとえば、テストに使用したミッドレンジのラップトップでは、1216 × 1920 の 8 ビット画像のペアを約 7 秒でセルフセグメント化できます。 これにより、主に Windows ベースの顕微鏡システムに焦点を当てている一般的な細胞生物学研究室が、当社の SSL アルゴリズムにアクセスできるようになります。 アルゴリズムを構築する際に、最初にランダム フォレスト、SVM、K 最近傍などの分類器を検討しました。 ただし、ナイーブ ベイズ分類器は、特徴の独立性を単純に仮定しているため、バイアスと分散のトレードオフが良好であることが知られており、ここで概説するセル セグメンテーションのコンテキストで堅牢に機能することがわかっているため、柔軟で効果的なオプションとして選択されました。

提示されている SSL アルゴリズムには制限があります。 まず、おそらく最も明白なことですが、これは生細胞画像にのみ適用できます。 第 2 に、オプティカル フローによる自己標識の性質上、細胞を背景から正確に区別するには、安定した実験設定が必要です。顕微鏡のステージが横に移動したり、焦点が移動したりする場合、細胞のみが存在すると仮定します。安定した背景を基準とした移動は無効です。 私たちの実験では、今日市販されている生細胞顕微鏡がこの基準を満たすのに十分以上に安定しており、満たさない場合でも自動位置合わせソフトウェア (ImageJ に含まれるものなど) を簡単に組み込むことができることがわかりました。 現在の形式では、ソフトウェアはセマンティック セグメンテーションのみを対象として設計されており、インスタンス セグメンテーション (つまり、接触しているセルの分離) は対象として設計されていません。 ただし、コードはモジュール式に設計されており、今後の作業は、SSL によって生成されたバイナリ マスクに分水界メソッドなどの凝集解除技術を追加することに焦点を当てます。

私たちの知る限り、この研究は、細胞の種類、光学モダリティ、またはその他の細胞生物学の実験装置(たとえば、さまざまな研究室)にわたって適用できる、自動細胞セグメンテーションのためのこの種の最初の取り組みを表しています。 私たちのアプローチの核心は、細胞を背景から区別するモデルのトレーニング データを自己ラベル付けする手段として、微速度生細胞画像の連続画像間でオプティカル フロー、特にファルネベック変位 (FD) を利用することです。 この自己教師あり戦略により、完全な自動化が可能になります。教師あり学習手法の労力が大幅に削減され、トレーニング データのキュレーションとラベル付けからバイアスの原因が排除され、全体として、細胞生物学研究室への ML の利用可能性を高め、戦略を導入するためのステップとなります。これは ML での再現性に役立ちます。

すべての哺乳類細胞は、10% ウシ胎児血清 (ATCC、#30-2020) を添加した DMEM (ATCC、#30-2002) 中で 37 °C、5% CO2 で培養され、哺乳類細胞のすべてのイメージングは​​無血清下で行われました。条件 (DMEM のみ)。 Hs27 線維芽細胞 (ATCC、#CRL 1634) は、前述のように石英コンタクト ガイダンス チップの平面セクション上で画像化されました 28。 MDA-MB-231 細胞 (ATCC #HTB-26) は、前述のように 25 μg/mL フィブロネクチン (Gibco #33016015) または官能化金コーティングされたカバースリップでコーティングされたガラス底ウェルプレート上でイメージングされました 29。 A549 細胞 (ATCC #CCL-185) は、前述のように石英ナノ構造チップの平面セクション上で画像化されました 30。 細胞性粘菌細胞は野生型 AX2 株で、ジョンズ ホプキンス大学の Devreotes 研究室から寛大に寄贈され、HL5 で 22 °C で無菌的に培養し、前述のようにガラス底ウェル プレート上で画像化しました 31。 顕微鏡モード、倍率、開口数、カメラ、画像間の待ち時間など、各細胞タイプの顕微鏡検査の詳細は補足ノート 2 に記載されています。

セグメント化された各画像は、時系列の 2 つの連続した画像から生成されました (N = 2)。 自己教師ありの方法論は、厳選されたデータセットやユーザーが決定したパラメーター設定に依存せず、画像データから自動的にトレーニングするため、本質的にブラインド化され、再現可能です。

研究デザインの詳細については、この記事にリンクされている Nature Research レポートの概要をご覧ください。

図1〜図4で評価した画像。 3、4 は補足データの TIFF ファイルとして入手でき、Zenodo32 で入手可能なコード パッケージにも含まれています。

SSL アプリケーションは、Windows、Mac、Linux オペレーティング システム用のスタンドアロン GUI ダウンロードとして、また別の SSL Matlab ソース コード パッケージとして入手できます。 どちらのパッケージも Zenodo32 からダウンロードできます。 これらはそれぞれ補足ソフトウェア 1 および補足ソフトウェア 2 としてここに含まれており、関連する ReadMe ファイルは補足ノート 6、7 に再掲されています。

Sommer, C. & Gerlich, DW 細胞生物学における機械学習 – コンピューターに表現型を認識させる方法。 J. Cell Sci. 126、5529–5539 ​​(2013)。

CAS PubMed Google Scholar

ディープラーニングにはスコープタイムがかかります。 ナット。 方法 16、1195–1195 (2019)。

モーエン、E. et al. 細胞画像解析のためのディープラーニング。 ナット。 方法 16、1233–1246 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

フォーク、T.ら。 U-Net: 細胞計数、検出、形態計測のための深層学習。 ナット。 方法 16、67–70 (2019)。

論文 CAS PubMed Google Scholar

リン、T.Y. 他。 コンピュータービジョンに関するヨーロッパ会議 (Springer、2020)。

Schwendy, M.、Unger, RE & Parekh, SH EVICAN - 細胞と核のセグメンテーションにおけるアルゴリズム開発のためのバランスの取れたデータセット。 バイオインフォマティクス 36、3863–3870 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Stringer, C.、Wang, T.、Michaelos, M.、Pachitariu, M. Cellpose: 細胞セグメンテーションのためのジェネラリスト アルゴリズム。 ナット。 方法 18、100–106 (2021)。

論文 CAS PubMed Google Scholar

エドランド、C.ら。 LIVECell - ラベルフリーの生細胞セグメンテーションのための大規模なデータセット。 ナット。 メソッド 18、1 ~ 8 (2021)。

Möckl, L.、Roy, ​​AR & Moerner, W. 単一分子顕微鏡検査における深層学習: 基礎、注意事項、および最近の開発。 バイオメッド。 オプション。 エクスプレス 11 号、1633 ~ 1661 年 (2020)。

記事 PubMed PubMed Central Google Scholar

フォン・シャミエ、L.ら。 ZeroCostDL4Mic を使用して顕微鏡用の深層学習を民主化します。 ナット。 共通。 12、1–18 (2021)。

Google スカラー

von Chamier, L.、Laine, RF & Henriques, R. 顕微鏡用人工知能: 知っておくべきこと。 生化学学会トランス。 47、1029–1040 (2019)。

記事 Google Scholar

ムナフォ、MR 他再現可能な科学のためのマニフェスト。 ナット。 ハム。 振る舞い。 1、1–9 (2017)。

記事 Google Scholar

Zhong, Q.、Busetto, AG、Fededa, JP、Buhmann, JM & Gerlich, DW タイムラプス顕微鏡用の細胞形態ダイナミクスの教師なしモデリング。 ナット。 方法 9、711–713 (2012)。

論文 CAS PubMed Google Scholar

Laine, RF、Arganda-Carreras, I.、Henriques, R.、Jacquemet, G. 深層学習ベースの生体画像解析における複製危機の回避。 ナット。 方法 18、1136–1144 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Robitaille, MC、Byers, JM、Christodoulides, JA & Raphael, MP 一般的な単一セル セグメンテーション用の堅牢なオプティカル フロー アルゴリズム。 PLoS One 17、e0261763 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

Farneback, G.、画像解析、Proceeding Vol. 2749 コンピューターサイエンスの講義ノート (J. Bigun & T. Gustavsson 編) 363–370 (Springer、2003)。

Buibas, M.、Yu, D.、Nizar, K. & Silva, GA オプティカル フローを使用した細胞ニューラル ネットワークにおけるカルシウム シグナリングの時空間ダイナミクスのマッピング。 アン。 バイオメッド。 工学 38、2520–2531 (2010)。

記事 PubMed PubMed Central Google Scholar

デルピアノ、J. et al. 共焦点顕微鏡における蛍光点信号の運動解析のためのオプティカル フロー技術のパフォーマンス。 マッハ。 ヴィス。 応用 23、675–689 (2012)。

記事 Google Scholar

リー、RM 他オプティカル フローを使用したスケールにわたるトポグラフィーに基づくアクチン ダイナミクスの定量化。 モル。 バイオル。 セル 31、1753 ~ 1764 年 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Ronneberger, O.、Fischer, P.、Brox, T.、医用画像コンピューティングとコンピュータ支援介入に関する国際会議 (Springer、2020)。

Berg, S. et al. Ilastik: (バイオ) 画像分析のための対話型機械学習。 ナット。 方法 16、1226–1232 (2019)。

カイセド、JC et al. イメージング実験全体にわたる核セグメンテーション: 2018 Data Science Bowl。 ナット。 メソッド 16、1247–1253 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

リー、R.ら。 オプティカル フローを使用したスケールにわたるトポグラフィーに基づくアクチン ダイナミクスの定量化。 モル。 バイオル。 セル 31、1753 ~ 1764 年 (2020)。

コリン、O.ら。 アクチンに富んだ接着マイクロドメインの時空間ダイナミクス: 基板の柔軟性の影響。 J.細胞Sci. 119、1914 ~ 1925 年 (2006)。

論文 CAS PubMed Google Scholar

ウォルシュ、I.ら。 DOME: 生物学における教師あり機械学習の検証に関する推奨事項。 ナット。 メソッド 18、1122–1127 (2021)。

論文 CAS PubMed Google Scholar

ハイル、BJら。 ライフサイエンスにおける機械学習の再現性の基準。 ナット。 方法 18、1132–1135 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Azulay, A. & Weiss, Y. なぜ深層畳み込みネットワークは小さな画像変換に対してそれほどうまく一般化できないのでしょうか? arXiv https://doi.org/10.48550/arXiv.1805.12177 (2018)。

ロビタイユ、MC 他細胞接触誘導用のモノリシック石英プラットフォーム。 コミューンさん。 10、242–251 (2020)。

記事 CAS Google Scholar

ロビタイユ、MC 他 cRGD 表面活性の低下の問題とそれに対して何ができるか。 Acs Appl. メーター。 インターフェース 12、19337–19344 (2020)。

論文 CAS PubMed Google Scholar

Raghu, D. et al. 単一エクソソーム検出用に設計されたナノプラズモニック ピラー。 PLoS One https://doi.org/10.1371/journal.pone.0202773 (2018)。

ミャオ、YCら。 興奮性シグナル伝達ネットワークの閾値を変更すると、細胞の移動モードが変化します。 ナット。 セルバイオル。 19、329–340 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

Robitaille, MC, Byers, JM, Christodoulides, JA & Raphael, MP 生細胞画像をセグメント化するための自己教師あり機械学習コードとデータ (Matlab およびスタンドアロン GUI)。 ゼノド https://doi.org/10.5281/zenodo.7108601 (2022)。

リファレンスをダウンロードする

著者らは、Dictyostelim discoideum 細胞株についてジョンズ・ホプキンス大学の Devreotes 研究室に感謝の意を表します。 MCR は、National Research Council Research Associateship Program および Jerome and Isabella Karle Distinguished Scholar Fellowship Program からの支援に感謝します。 このプロジェクトへの資金は、海軍研究所の基礎研究プログラムを通じて海軍研究局と国防高等研究計画庁の生物技術局から提供されました。

米国海軍研究所、材料科学および技術部門、米国ワシントン DC

マイケル・C・ロビタイユ、ジェフ・M・バイヤーズ、ジョセフ・A・クリストドゥリデス、マーク・P・ラファエル

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

MCR: 概念化、方法論、調査、データキュレーション、ソフトウェア、視覚化、および執筆。 JMB: 概念化、方法論、形式的分析、ソフトウェア、および視覚化。 JAC: リソース、検証、執筆。 MPR: 概念化、資金調達、方法論、調査、ソフトウェア、視覚化、および執筆。

マーク・P・ラファエルへの通信。

著者らは競合する利害関係を宣言していません。

査読情報 この原稿は、以前に別の Nature Portfolio 誌で査読されています。 この原稿は、Communications Biology でのさらなる審査なしで出版に適していると考えられました。 主な取り扱い編集者: Gene Chong。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

ロビタイユ、MC、バイヤーズ、JM、クリストドゥリデス、JA 他生細胞画像セグメンテーションのための自己教師あり機械学習。 Commun Biol 5、1162 (2022)。 https://doi.org/10.1038/s42003-022-04117-x

引用をダウンロード

受信日: 2022 年 8 月 26 日

受理日: 2022 年 10 月 14 日

公開日: 2022 年 11 月 2 日

DOI: https://doi.org/10.1038/s42003-022-04117-x

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。