単一の希少細胞タイプのアノテーションのためのスケーラブルなスパースニューラルネットワークフレームワーク

Edizione di biologia della comunicazione

Communications Biology volume 6、記事番号: 545 (2023) この記事を引用

1368 アクセス

15 オルトメトリック

メトリクスの詳細

自動細胞型アノテーション法は、その高速かつ正確な利点により、単一細胞 RNA シーケンス (scRNA-seq) 解析でますます使用されています。しかし、現在の方法では、scRNA-seq データセットの不均衡を説明できず、より小さな集団からの情報が無視されることが多く、重大な生物学的分析エラーにつながります。ここでは、自動アノテーションタスク用の適応重みサンプリングとドロップアウト技術を組み込んだ統合スパースニューラルネットワークフレームワークである scBalance を紹介します。さまざまなスケールと不均衡の度合いを持つ 20 個の scRNA-seq データセットを使用して、scBalance がデータセット内およびデータセット間のアノテーションタスクの両方で現在の手法よりも優れていることを実証します。さらに、scBalance は、気管支肺胞細胞ランドスケープに示されているように、100 万レベルのデータセットで希少な細胞タイプを識別する際に優れた拡張性を示します。また、scBalance は一般的に使用されるツールよりも大幅に高速で、使いやすい形式で提供されるため、Python ベースのプラットフォームでの scRNA-seq 解析に優れたツールとなっています。

Tang らによって単一細胞 RNA 配列決定 (scRNA-seq) が初めて確立されて以来、 2009 年 1 に、この技術はさまざまな生物学研究分野の科学者の間で急速に普及しました。サンプルの平均遺伝子発現レベルのみを測定する従来のバルク RNA シーケンスと比較して、scRNA-seq は細胞特異的レベルでトランスクリプトームをプロファイリングする強力な方法を提供します。したがって、個々の細胞の分析が可能になり、細胞の不均一性についてより有益な洞察が得られる可能性があります。 scRNA-seq 技術の開発は、がん研究 2,3、新型コロナウイルス解析 4,5、発生生物学研究 6 など、いくつかの生物学的研究分野で広く使用されています。これらの研究では、細胞集団の発見と同定が最も重要な研究の 1 つです。タスク。

通常、細胞タイプのアノテーションには 2 つのステップが含まれます: (1) 細胞を異なるサブグループにクラスター化するステップ、および (2) 既知のマーカー遺伝子に基づいて各グループを特定のタイプで手動でラベル付けするステップ。 Seurat7 や Scanpy8 などの古典的な機械学習ベースの手法や、scDHA9 や CLEAR10 などの新しく公開された深層学習ベースの手法など、多数の教師なし機械学習アルゴリズムが開発されています。ただし、これらの方法は時間がかかり、負担がかかる場合があります。マーカー遺伝子についてあまり知識がない人にとって、このアプローチは予想よりもはるかに長い時間がかかる可能性があります。対照的に、自動細胞型アノテーション方法では、手動による標識プロセスの影響を受けません。教師なし手法とは異なり、自動細胞型識別ツールは主に教師あり学習フレームワークに基づいて設計されています。高速かつ正確な機能を利用して、単一細胞実験で細胞の種類を識別するための主要なツールになりつつあります。適切にアノテーションが付けられた scRNA-seq アトラスの前例のないブームと、Human Cell Atlas プロジェクトの急速な推進 11,12 により、自動アノテーションツールはこれまで以上に幅広い見通しに直面しています。現在までに、32 の自動アノテーションツールが開発および公開されています13。たとえば、SingleCellNet14 は、ランダムフォレスト分類器を利用して、クロスプラットフォームおよびクロス種のアノテーションタスクを解決します。 ACTINN15 は、バッチ効果を克服するために単純な人工ニューラルネットワークを実装します。

近年、多数のツールが確立されていますが、そのほとんどは、まれな細胞型が存在するため、集団全体を識別できないことがよくあります。細胞構成の観点から見ると、一般的な細胞タイプとまれな細胞タイプが存在する scRNA-seq データセットは常に不均衡です。まれな集団は、単一細胞データセット内のごく一部の細胞です。たとえば、特に大規模なデータセットでは、樹状細胞は通常、末梢血単核球 (PBMC) の 1 ～ 5% を占めます 16,17。自動アノテーションツールをトレーニングすると、分類器は一貫して情報を学習できないため、クエリデータセット内のこれらのセルタイプを識別することが困難になります。しかし、これらの希少集団は、特に疾患研究において重要となる可能性があります18。最近、いくつかのクラスター検出方法がこの点に注目しています 19,20 が、細胞集団の不均衡に焦点を当てた分類方法はほとんどありませんでした。その一方で、既存の方法には他に 2 つの主要な欠陥があることもわかりました。 (1) スケーラビリティの欠如。最近の scRNA-seq 実験プラットフォームにより、百万レベルの細胞の研究が可能になりました 21,22。注目すべきことに、最新の COVID PBMC アトラスの 1 つは 150 万セルに達しています 17。したがって、計算速度の制限により、自動アノテーションパッケージは 100 万レベルのデータセットに対して拡張性が低くなります。さらに、大規模な参照データセットにより、分類器トレーニングで希少細胞タイプを学習する際の課題がさらに増え、現在のソフトウェアではマイナーグループを識別することがさらに困難になります。最近発表された論文では、トレーニングスケールが 600 K セルに引き上げられました 23 が、100 万レベルのセルアトラスでのスケーラビリティをうまく報告した公開ツールはありません。 (2) 既存ツールの互換性は期待したほど良くありません。既存の Python ベースのツールのうち、ACTINN15、scPretrain24、scCapNet25、MarkerCount26 などのツールのほとんどはスクリプトベースです。 Seurat と Scanpy がどちらも標準ソフトウェアリポジトリ (PyPI など) からダウンロードできるパッケージであることを考慮すると、サーバー上で外部 Python スクリプトを実行すると、ユーザーの負担がさらに増加します。また、一部のツールはメンテナンスが終了しているか、使用できません。これらすべての課題により、スケーラブルな方法でメジャーな細胞タイプとマイナーな細胞タイプをラベル付けするバランスの取れた機能を備えた新しいアノテーションツールが必要になります。

ここでは、あらゆるスケールの scRNA-seq データセット内の希少細胞タイプを自動的にラベル付けできるスパースニューラルネットワークフレームワークである scBalance を紹介します。 scBalance は、重み付けサンプリングとスパースニューラルネットワークの組み合わせを活用しており、これにより、一般的な (主要な) 細胞集団のアノテーション効率を損なうことなく、マイナーな (希少な) 細胞タイプの情報がより多くなります。データセット内およびデータセット間のアノテーションタスクの両方で、さまざまな程度の細胞集団の不均衡とスケールを持つ実際のデータセットで scBalance を評価し、そのパフォーマンスを Scmap-cell27、Scmap-cluster27、SingleCellNet14、SingleR28、scVI29、 scPred30、MARS31。各メソッドは、Scmap-cell は KNN に基づいており、SingleCellNet はランダムフォレストに基づいており、scVI と MARS は深層学習ベースのメソッドであるなど、従来の機械学習アルゴリズムを表しています。その中でも、私たちの方法は、主要な細胞型の注釈付けにおいて高い精度を維持しながら、まれな細胞型の識別においてこれらのツールを常に上回っていました。さらに、scBalance は、すべてのデータセットサイズにわたって他のアプローチを上回る高速で安定した計算速度を実証しました。さらに、scBalance は、公開されている COVID 免疫細胞アトラス 17 (150 万細胞) でのトレーニングに成功し、公開されている気管支肺胞洗浄液 (BALF) scRNA-seq データセットでさらに注釈が付けられ、新しい細胞型が発見されました 32。満足のいくことに、私たちの方法では、元の分析よりも多くの希少な細胞タイプが同定されました。当社のユーザーフレンドリーなアプリケーションは Scanpy および Anndata と互換性があり、PyPI から簡単にダウンロードして Scanpy の外部 API として使用できます (https://github.com/yuqcheng/scBalance)。

scBalance は、スケーラブルな方法で、特に希少細胞タイプに対する正確かつ高速な細胞タイプのアノテーションを実行するための統合的な深層学習フレームワークを提供します (図 1)。 scBalance の構造には、不均衡な scRNA-seq データセットに適応する重みサンプリング技術と、細胞型に効率的に注釈を付けるスパースニューラルネットワークの 2 つの部分が含まれています。

a この方法は、データセットバランシングモジュールとドロップアウトニューラルネットワークモジュールを含む教師あり学習フレームワークに基づいて構築されています。ステップ 1 上部: 適応加重サンプリングを使用すると、scBalance は参照データセット内の各セルタイプの重みを自動的に選択し、トレーニングバッチを構築します。下: ユーザーは、内部バランシングメソッドを使用する代わりに、scSynO などの外部データセットバランシングメソッドを選択できます。この場合、分類子のみが使用されます。ステップ 2: トレーニング中に、scBalance は、クロスエントロピー損失が収束するまで、3 層ニューラルネットワークからミニバッチを繰り返し学習します。 b さまざまな段階でのドロップアウト設定。トレーニング段階では、scBalance はネットワーク内のニューロンをランダムに無効にします。ドロップアウト層はレート 0.5 のバイナリです。ドロップされたすべてのユニットはテスト段階で再接続されます。予測は完全に接続されたニューラルネットワークによって処理されます。 c バランシング手法の評価では、私たちのサンプリング手法が単純なオーバーサンプリング手法やダウンサンプリング手法、さらには SMOTE 手法よりも優れていることが示されています。 p 値は、scBalance および SMOTE の有意性検定から得られます (各箱ひげ図の n = 5)。 d さまざまなサンプリング手法間の実行時間の比較。

まず、既存のすべてのツールとは異なり、特別に設計された重みサンプリング手法を使用して、不均衡な scRNA-seq データセットを適応的に処理します。合成ベースの手法を使用する既存の手法 33,34 とは異なり、私たちの手法はバランス手法をトレーニングバッチに組み込んでおり、新しいポイントが生成されないため、メモリ領域を節約し、トレーニングを高速化できます。この設計は、新しいデータセットポイントの生成が非現実的であるアトラススケールのデータセットに特に役立ちます。 scBalance では、できる限り多くの情報を保持し、トレーニング時間の膨大なコストを回避するために、各トレーニングバッチでまれな集団 (少数クラス) をランダムにオーバーサンプリングし、一般的な細胞タイプ (多数クラス) をアンダーサンプリングします (図) .1a、ステップ 1)。サンプリングプロセスは置換によって行われ、サンプリング比は、参照セットによって提供される真のラベルのセルタイプの割合として定義される、さまざまな参照データセットに適応します。これにより、オーバーサンプリングにおけるオーバーフィッティングが最小限に抑えられ、scBalance の一般化機能の期待できるパフォーマンスが維持されます。一方、共通集団における膨大な重複発現情報に関しては、メジャークラスのアンダーサンプリングにより、scBalance は豊富なトレーニング情報を備えた比較的小さなトレーニングサイズを使用できます。この設計を活用することで、scBalance は希少な細胞タイプの特徴を学習する際に優れたパフォーマンスを発揮するだけでなく、すべての主要な細胞タイプを分類する強力な能力を維持するため、全体的なアノテーションの精度も向上します。当社の内部サンプリング手法のパフォーマンスを証明するために、単純なオーバーサンプリングやダウンサンプリング、合成マイノリティオーバーサンプリング手法 (SMOTE) などの一般的に使用されているバランシング手法を使用してベンチマークを実施しました。結果は、内部バランシング方法が単純なオーバーサンプリングおよびダウンサンプリングと比較して分類精度を向上させ、合成方法SMOTEよりも優れていることを示しています（図1cおよび補足図1）。特に、私たちの方法は、通常使用されるバランシング方法と比較して、より高速で省スペースのバランシングソリューションを提供します（図1d、補足図2a、b、および補足データ1）。私たちの方法はトレーニングプロセスと結合されているため、新しいデータポイントを生成する必要がなく、時間とメモリ領域が節約されます。さらに、scBalance は、特定のマイナー細胞タイプをより詳細な粒度で調査したいユーザー向けのインターフェースも提供します。 scSynO34 などの外部サンプリング方法でデータセットを処理できるようになります。この場合、scBalance 分類器のみが使用されます。

さらに、参照データセットと予測データセットは、10X プラットフォームや Smart-seq プラットフォームなどの異なるシーケンスプラットフォームやプロトコルによって生成される可能性があるため、遺伝子検出のドロップアウトやランダムシーケンスエラーなどの異なるノイズが自然に導入されることに気づきました 35。この問題に対処するために、scBalance はランダムノイズを過学習イベントの一種とみなし、この問題を軽減するために Dropout36 手法を実装します。ドロップアウト層は、オーバーフィッティングを低減する優れた能力により、リサンプリングされたマイナーセルタイプに対する scBalance の学習能力も強化します。さらに、scBalance はアトラス規模のトレーニングシナリオ用のネットワーク再利用オプションを提供し、ユーザーが同じデータセットに対してモデルを再度トレーニングするという多大な時間コストを回避できるようにします (図 1a、ステップ 3)。

まとめると、scBalance は、各層にバッチノルムとドロップアウト設定を備えた 3 つの隠れ層ネットワーク構造を提供します。活性化関数は指数線形単位 (ELU)37 として設定され、出力層は Softmax を使用します。トレーニングモード (図 1a、ステップ 2) では、トレーニングプロセスに対するノイズの影響を軽減するために、隠れ層のユニットがランダムに無効になります。予測モードでは、ネットワークは完全接続ステータスとして設定され、転送プロセスで使用されるすべてのパラメータが維持されます。モデルの評価とバックプロパゲーションは、クロスエントロピー損失関数と Adam オプティマイザーに基づいています。トレーニングと予測のプロセスを高速化するために、scBalance には分類器の実行時間を 25 ～ 30% 短縮するグラフィックスプロセッシングユニット (GPU) モードも含まれています。全体として、scBalance は、まれな細胞タイプや主要な細胞タイプに対して高い分類精度を達成しながら、さまざまなタイプのノイズや不均衡なデータセットを処理できるように適切に設計されています。

私たちは、ベースラインテストで scBalance の希少細胞タイプ識別能力を初めて実証しました。パフォーマンスを評価するために、不均衡の程度と細胞数が異なる 12 個の scRNA-seq データセットを使用し、トレインセットとテストセットに分割しました。より包括的なテストを確実にするために、ほとんどのデータセットはさまざまなシーケンスプラットフォームから生成されます (「方法」および表 1 を参照)。これらのデータセットの真のラベル情報は、予測結果を評価する場合にのみ利用できます。ここでは、scBalance を、scRNA-seq 細胞型の同定に広く使用されている 7 つの方法（SingleCellNet14、SingleR28、scVI29、scmap-cell27、scmap-cluster27、scPred30、MARS31）と比較しました。ここで、scPred と MARS は、細胞型の同定を行う能力も主張しています。彼らの論文では不均衡な単一細胞データセットが説明されており、scVI と MARS は scBalance のような深層学習ベースの手法です。ベンチマークの比較が公正な実験のもとで行われることを保証するために、各ツールに均一な前処理プロセスを使用し、すべてのパラメーターをデフォルトとして設定しました。すべての実験は、分類の変動性を定量化するために 5 重交差検証に基づいて実行されました。詳細なプロトコルは「メソッド」を参照してください。 Cohenのカッパスコアを使用して、scBalanceおよび他の7つの方法のパフォーマンスを定量的に評価しました（図2a）。結果によると、scBalance は、これら 12 個のデータセットのほとんどで、最高のコーエンカッパスコアを達成することにより、他のすべての手法を上回っています。特に、scBalance は、Campbell や Zillions などの大規模で複雑なデータセットで特に優れたパフォーマンスを発揮します。また、scBalance のパフォーマンスは、これら 7 つのメソッドすべての中で最も安定しており、さらなるアトラススケールのリファレンストレーニングに有利です。 Cohen の kappa スコアは少数派クラスに敏感なメトリクスを提供するため、このスコアで優れていることは、scBalance が希少集団のアノテーションにおいてより優れているという予備的な証拠を与えます。

a 複数のデータセットに対する既存の方法と比較した、Cohen の Kappa スコアによって測定された全体的なアノテーションパフォーマンス (データセット名の後にセル番号が示されています)。 scBalance は、12 のデータセットすべてにわたって少数の細胞集団を正確に特定する点で、他の方法よりも常に優れています。 (各バープロットとエラーバーについて n = 5。エラーバーは平均値 ± 標準偏差として定義されます)。 b Baron Human データセットでの細胞タイプ固有の精度ベンチマーク (各箱ひげ図の n = 5)。各セル型名の後の数字は、その型のセルの数を表します。 scBalance は、他の方法と比較して、希少細胞の種類を識別する際に高い精度を実現します。

scBalanceがマイナー細胞集団に正確に注釈を付ける能力をより適切に実証するために、各細胞タイプの精度をさらに調査し、マイナー細胞タイプの識別の改善によって全体的な高いパフォーマンスが正確に得られるかどうかを示しました（図2bおよび補足図）。 2～4、および補足データ 2)。これらのデータセットを 3 つのクラスに分類しました。(1) Baron Human、Lake、Zillions などの単純なセル構成を持つ大規模なデータセット。 (2) Muraro、Baron Mouse、Deng などの単純なセルの背景を持つ小さなデータセット。 (3) 複雑な細胞構造を持つデータセット (Zheng 68 K など)。これは主に T 細胞とそのサブタイプで構成されているため、細胞は高い類似性を共有しています。まず、Baron Human データセット（図 2b および補足データ 3）に対する scBalance のパフォーマンスを分析し、すべてのメソッドがベータセルやアルファセルなどの大規模な集団に対して良好に機能することを発見しました。ただし、マストセルやイプシロンセルなどのマイナーな細胞タイプでは、scBalance のパフォーマンスは依然として安定して有望ですが、他の方法ではこれらの希少な細胞タイプのほとんどを認識できません。これらの結果は、scBalance が通常のデータセット内の少数の細胞集団に注釈を付ける能力を示しています。同様の結果は、小規模なデータセットの結果にも見られます (補足図 3)。さらに、複雑な細胞背景を持つデータセットに対する scBalance のパフォーマンスにも興味がありました。 Zheng 68 K データセット (補足図 4) の結果を分析したところ、scBalance が依然として希少細胞タイプを特定し、他のタイプでは高い精度を維持する最良の方法であることがわかりました。この結果により、現実世界の問題において scBalance に実用的な利点がさらに与えられます。さらに、各細胞タイプの scBalance の真の陽性検出感度をよりよく理解するために、これら 3 つのデータセットにおける scBalance の精度を分析しました (補足表 1 ～ 3)。結果は、scBalance が他の方法と比較して、特に複雑な細胞バックグラウンドの下でマイナー細胞タイプを識別するための最も堅牢で感度の高い方法であることを示しています。

要約すると、scBalance は主要なセルタイプだけでなくマイナーなセルタイプも正常に識別する安定した機能を備えているため、ベースラインアノテーションタスクで良好に機能します。

現実的なシナリオでは、クエリ scRNA-seq プロファイルに使用されたものとは異なるプロトコルから生成されたデータセットを使用して、ユーザーがアノテーションツールをトレーニングする可能性があることが予想されます。ただし、異なるシーケンスプラットフォームを使用すると、より多くのノイズが導入される可能性があり、データセット内のアノテーションタスクよりもデータセット間のアノテーションタスクに大きな影響を与える可能性があります 38。クロスプロトコルタスクにおける scBalance の汎化能力を向上させるために、ドロップアウト手法を使用して、技術的な変動に対してモデルをより堅牢にしました。まず、さまざまなシーケンスプラットフォームからの PBMCBench データセット（図 3a および補足図 5、および補足データ 4）と、以前の研究で使用されたさまざまなプロトコルからの膵臓データセットで、ドロップアウトありの scBalance とドロップアウトなしの scBalance の比較実験を実施しました39（補足図6および補足データ5)。結果は、ドロップアウトを伴う scBalance が汎化能力を向上させ、すべてのデータセットのセットに対するデータセット間アノテーションタスクのパフォーマンスの向上につながることを示しています。さらに、クロスデータセットアノテーションタスクにおけるバッチ効果に対する scBalance の堅牢性を実証しました。一般的に使用されるバッチ補正ツールである Combat40 を使用して、バッチ補正ありとなしの scBalance の分類パフォーマンスを比較し、scBalance のパフォーマンスがバッチ補正によってさらに向上できるかどうかを評価しました (補足図 7 および補足データ 6)。結果は、scBalance のパフォーマンスがバッチ補正によって大きな影響を受けたり改善されなかったことを示しており、私たちの方法自体がバッチ効果の潜在的な悪影響に対して堅牢であることを示唆しています。

scBalance ではドロップアウト技術が利用され、モデルの一般化とノイズに対する堅牢性が強化されています。 b scBalance の全体的なアノテーション精度は、さまざまなプロトコルで生成されたデータセットに対する他の方法と比較されます。各実験ペアは「Train Dataset_Test Dataset」という名前が付けられ、Cohen のカッパスコアが全体的な指標として使用されます。 (42 のトレーニングペアすべてを表示するには、各箱ひげ図の n = 42)。 c データセット間のアノテーションタスクで希少細胞タイプを正確に識別する scBalance の機能が実証されています。 (42 のトレーニングペアすべてを表示するには、各箱ひげ図の n = 42)。 d UMAP 視覚化は、scBalance が、さまざまなアプローチにわたって希少細胞集団を識別する際に他の方法よりも優れていることを示しています。すべてのメソッドは PBMC データセット (SMART-Seq2) でトレーニングされ、PBMC データセット (10xv3) 内の細胞型を予測するために使用されました。

バッチ効果下での scBalance のパフォーマンスと希少細胞タイプを識別する能力をさらに評価するために、データセット間のアノテーションタスクに他のアノテーション方法を含めるようベンチマークを拡張しました。 PBMCbench データセット (「メソッド」および表 1 を参照) を利用して、評価指標として Cohen のカッパスコアを使用して、すべてのプロトコルペアで各メソッドのパフォーマンスをテストおよび評価しました。一方、私たちは、総細胞数の 5% 未満の細胞タイプとして定義した少数細胞集団に対する scBalance の分類精度に特に興味を持っていました。したがって、全体的な精度とともに、希少細胞タイプのアノテーション能力も定量化しました。図3bにまとめられた結果は、scBalanceがすべての実験にわたって最高の平均スコアを達成したことを示しています（図3bおよび補足データ7）。 2 番目に優れた方法と比較して、scBalance は平均スコアを 0.85 から 0.95 に高めました。さらに、scBalance はほとんどのテストペアで最良の方法でもあり、データセット間タスクでの優秀性を実証しました。特に、各方法のレアタイプ分類精度も分析しました（図3c）。その結果は、データセット間タスクのほとんどのテストペアで少数の集団を正確に識別する点で、scBalanceが他の方法よりも優れていることを示しています。 scBalance の実用性と効率をさらに示すために、他の方法をバッチ補正方法と組み合わせて使用した場合のデータセット間アノテーションタスクでのパフォーマンスを評価する追加のベンチマーク実験を実施しました (補足図 8 および補足データ 8)。結果は、図 3b と比較して、ほとんどの方法がバッチ効果補正前処理後に改善を示した (平均改善の範囲は 1 ～ 4%) 一方で、scBalance はデータセット間のアノテーションタスクに関して引き続き他の方法を上回っていることを示唆しています。これは、scBalance が依然としてこのタスクに使用できる最も効率的なツールの 1 つであることを示しています。次に、希少細胞集団の分類結果についてさらに洞察を得るために、均一多様体近似および投影（UMAP）を使用して、予測ラベルまたは真のラベルを使用して上位 3 つの最もパフォーマンスの高い方法のクラスタリング結果を視覚化しました（図 3d）。）。私たちの分析により、真のラベルと比較して、SingleCellNet は scBalance よりも巨核球細胞および CD16+ 単球に対して不正確なアノテーションを表示することが明らかになりました。同様に、scVI は巨核球細胞に対してより不正確なラベルを示し、CD16+ 単球の分類にも完全に失敗しました。対照的に、scBalance は 6 種類の細胞すべてに対して最も正確なアノテーション結果を提供し、2 つの希少細胞集団、巨核球と CD16+ 単球の標識に成功しました。まとめると、結果は、scBalance がクロスプラットフォームのアノテーションタスクに対して既存の方法よりも堅牢なパフォーマンスを提供し、技術的変動の影響下で希少細胞集団を識別する卓越した能力を維持していることを示しています。

実行時間は、実際の単一細胞解析環境におけるアノテーションツールにとって最も重要なことの 1 つであり、スケーラビリティに対する最大の障害であると考えられています。計算速度におけるscBalanceの優位性を強調するために、基本的な機械学習モデルが異なる6つの代表的な手法の比較結果を示しました（図4）。 GPU を使用するため、GPU 計算を使用しない他の方法との比較を公平にするために、scBalance-CPU と scBalance-GPU を別々に示しました。まず、さまざまな処理装置での scBalance のパフォーマンスを比較しました。結果は、scBalance-GPU では実行速度が大幅に向上し、scBalance-CPU と比較して実行時間が 50% 以上短縮されたことを示しています (図 4a)。特に、scBalance-GPU は、異なるセル番号のデータセットに対して堅牢なパフォーマンスを提供します。実行時間は、30,000 セルから 60,000 セルのサンプルで比較的安定しています。この堅牢性により、scBalance には、大規模なデータセットに高速に注釈を付ける潜在的な拡張機能が与えられます。 scBalance-CPU と他の 5 つの方法との比較結果も示しました。すべてのメソッドは CPU に基づいていますが、scBalance は期待できる実行速度も提供します。特に、30,000 セルを超えるデータセットでは、scBalance により実行時間が他の 5 つの方法の 10% に短縮されます。最大のデータセットでは、scBalance は SingleR と比較して 20 倍以上の計算速度を実現します (図 4b)。時間がかかるという利点もあるため、scBalance は大規模なデータセットのアノテーションにおいて優れたツールになります。

a 異なるプロセッサを使用した異なるスケールのデータセットでの scBalance の実行時間の比較。私たちの方法は、高いスケーラビリティを備えた高速な実行時間を実現します。 b さまざまなサイズのデータセットに対する 6 つの異なるメソッドの実行時間の比較。すべてのメソッドは CPU 上でテストされます。 scBalance は、テストされたすべてのデータセットサイズにわたって他の方法よりも優れたパフォーマンスを発揮します。

セルアトラスのサイズが増大し続けるにつれて、アノテーションツールのスケーラビリティがより重要になります。したがって、数百万レベルの scRNA-seq データセット内の希少細胞タイプを学習するための scBalance の強みについて説明しました。まず、大規模なセルアトラスでの scBalance のアノテーションパフォーマンスを評価するための概念実証として、データセット内アノテーションの結果を使用しました。私たちは、ヒト心臓細胞アトラス 41 (487,106 細胞) と COVID-19 免疫アトラス 17 (1,462,702 細胞) を含む、最近公開された 2 つの細胞アトラスを収集しました。他の既存の方法で百万レベルの scRNA 配列プロファイルに対するアノテーション機能が報告されていないため、特に SingleCellNet や Scmap などの R ベースの方法ではデータセットを読み込むことさえ難しいため、scBalacne をランダムなどの従来の機械学習方法と比較しました。 Python のフォレスト (n_estimators=50、random_state=10)、決定木、SVM (kernel:rbf)、および kNN (k = 3)。図5aおよび補足データ9に示されているように、scBalanceは、2つのセルアトラスの両方で他の機械学習方法よりも大幅に優れています。さらに、他の方法と比較して、scBalance は、COVID セルアトラスのトレーニングとラベル付けの際に最大 150 倍速い実行速度を達成します（図 5b）。 2 つのデータセット間で細胞数が 3 倍に増加しても、scBalance は引き続き堅牢な実行速度を備えた唯一の方法であり、スケーラビリティの点で利点があります。

Cardiac Atlas (~50 K セル) および COVID Atlas (~1.5 M セル) におけるさまざまな方法と比較したアノテーションのパフォーマンス。 b scBalance と従来の機械学習アルゴリズムの実行時間の比較。 Y 軸は実行時間を秒単位で示します。 c UMAP は scBalance のアノテーション結果を表示します。参照データセットは COVID Atlas17 で、クエリデータセットは BALF データ 32 です。 d ドットプロットは、BALF データセット内のセルサブタイプの分布を示します。

スケーラビリティの単純な評価に加えて、インスタンスの参照データセットとして COVID 免疫アトラスを使用し、100 万規模の参照でトレーニングする場合、scBalance のアノテーション結果がまれな細胞タイプを効果的に識別できることを示しました。また、クエリデータとして、重症のCOVID患者から気管支肺胞洗浄液（BALF）細胞のscRNA-seqプロファイルを収集しました（図5c）。さまざまな新型コロナウイルス患者サンプルにおける PBMC の状況 42、43、44、45 について論じた出版物は数多くありますが、新型コロナウイルス患者の BALF 細胞成分についてはまだ調査が不足しています。しかし、肺胞の微小環境情報を最も直接的に反映できるサンプルとして、BALF 細胞は疾患の重症度と呼吸器免疫特性の動的な関係を理解する上で非常に重要です。 Liao らは、は、2020 年の新型コロナウイルス感染症患者における気管支肺胞免疫細胞の状況を明らかにしました 32。スーラの統合に基づいた研究では、低解像度で細胞グループのみが特定されました。ここでは、scBalance を使用して BALF scRNA-seq データセットに注釈を付けました。私たちの方法では、COVID アトラスを参照として使用することで、元の研究よりもはるかに多くの細胞サブタイプを特定することに成功しました。元の分析で使用された手動ラベル付け方法と比較して、scBalance は BALF データセットのアノテーション解像度を大幅に向上させました。図5c、dおよび補足図9の結果と組み合わせて、scBalanceはBALFサンプル中の免疫細胞の64のサブタイプを特定しました。予想通り、BALF サンプルではマクロファージが最も多く濃縮されていますが、B 細胞は免疫状況のほんの一部に過ぎません。注目すべきことに、scBalance はすべての細胞グループでまれなサブタイプも特定しました。骨髄系グループでは、我々の方法により、BALF にはマクロファージだけでなく単球も存在することが明らかになりました。しかし、マクロファージ細胞、特に CCL3L1+ マクロファージなどの炎症誘発性マクロファージ (M1) が依然として主要な構成要素であり、これは重症患者の BALF における強力な免疫細胞動員シグナルを示唆しています。一方、Liao et al.32 による分析とは異なり、我々の方法は炎症促進環境がマクロファージだけでなく CD14 単球 (CCL3+) によっても生成されることを明らかにしています。さらに、我々の方法では、エフェクター T 細胞と比較して、増殖性メモリー T 細胞 (MKI67-CCL4 (高) CD4 T 細胞および MKI67-CCL4 (低) CD4 T 細胞を含む) が肺領域に豊富に存在することもわかりました。。一緒に、私たちの方法は細胞のサブタイプを特定することに成功し、COVID 細胞アトラスを参照として使用することで、BALF におけるより包括的な免疫アトラスを提供します。 scBalance によって明らかにされた細胞型のほとんどは、COVID アトラスではまれであることは注目に値します。これは、大規模な scRNA-seq データセットで私たちの方法の希少な細胞型を識別できるという利点をさらに示しています。

scRNA-seq 法の最近の進歩により、細胞タイプのアノテーションツールの必要性が高まっています。より明確に定義された細胞アトラスが公開されるにつれて、自動アノテーションツールの人気が高まっています。ただし、現在のソフトウェアには、希少細胞タイプの標識、スケーラビリティ、および互換性の領域に制限が存在します。この記事では、適応重みサンプリングと教師ありセルタイプ自動アノテーション用のスパースニューラルネットワークを統合するオープンソース Python パッケージである scBalance について紹介します。我々は、異なるスケール、生成プロトコル、不均衡の程度のいくつかの scRNA-seq データセットに対するデータセット内およびデータセット間の比較実験を通じて、scBalance のレアタイプアノテーション能力と優れた全体的なセルアノテーション能力を実証しました。特に、広く使用されているほとんどの細胞タイプのアノテーションツール 14、30、31 と比較して、scBalance は、他の方法では少数の集団を識別できない複雑な細胞背景を持つ大規模なデータセットであっても、優れた希少細胞タイプのアノテーション能力を示しています。さらに、さまざまなスケールのデータセット上で scBalance の堅牢な実行速度を実証し、スケーラビリティの点で潜在的な利点をもたらしました。最近公開された 2 つの大細胞アトラスで私たちの方法をテストすることにより、scBalance のスケーラビリティと百万規模のデータセットにおける希少集団識別能力をさらに実証しました。この能力を利用することで、scBalance は BALF 細胞の免疫状況を記述することに成功し、公表されている研究よりも珍しい種類を特定しました。さらに、scBalance は Scanpy および Anndata と互換性があるように設計されており、ユーザーフレンドリーなアプリケーションを提供します。

私たちの方法を紹介することに加えて、scBalance が他のソフトウェアと連携してユーザーに幅広いアプリケーションを提供する方法も示します。図 1 と GitHub チュートリアルに示されているように、ユーザーが scSynO34 などの外部セルタイプバランシング手法を使用して、対象となる特定のマイナーセルタイプに焦点を絞るためのオプションパラメータが提供されています。これらの補完的なツールを私たちの手法に組み込むことで、さまざまな種類のタスクにおける scBalance のパフォーマンスが大幅に向上し、scBalance の潜在的なユーザー人口をさらに拡大できる可能性があると考えています。

最後に、例えば、CD4 + /CD45+ ナイーブ T 細胞や CD4 + /CD45+ メモリー T 細胞など、類似の細胞型に対してより正確なアノテーションを作成するためのマーカー遺伝子などのより多くの事前知識を含め、scBalance を改善するための今後のいくつかの取り組みを提案します。さらに、ネットワークをスパースロバスト構造に調整することにより、scBalance を変更して、単一細胞クロマチンアクセシビリティシーケンス (scATAC-seq) データに注釈を付けることができます。要約すると、特に希少なセルタイプのアノテーション機能とスケーラビリティにより、scBalance は自動アノテーションツールボックスへの貴重な追加機能であると考えています。

このセクションでは、上記の実験と分析で使用したすべてのデータセットについて説明します。ベースラインのアノテーション実験 (データセット内およびデータセット間) では、小規模 (~200 セル) から大規模 (~70,000 セル) まで 20 のデータセットを使用しました。 scBalance の一般化能力をさらに実証するために、選択されたすべてのデータセットはさまざまな複雑さとさまざまなシーケンスプロトコルから生成されます。スケーラビリティ実験では、2 つの超大規模データセットが使用されます。すべてのデータセットとそれに対応するセルタイプのラベルは、元の論文から取得されます。対応する詳細を表 1 に示します。

セルタイプのアノテーションタスクを実行するために、複合ニューラルネットワーク構造である scBalance を提供します。 scBalance は入力として単一細胞 RNA 発現行列 M を必要とし、各列は遺伝子を表し、各行は細胞を表します。より正確なアノテーション結果を取得するには、ログ変換と正規化を備えたフィルター処理されたデータセットをトレーニングセットとして使用することをお勧めします。ログの変換と正規化の手順は、Scanpy チュートリアルの標準の前処理パイプラインに従うことができます。目標は、外れ値の遺伝子がトレーニングプロセスに干渉するのを防ぐことです。前処理は、Scanpy のチュートリアルに従って行うことができ、正規化関数でスケールパラメータを手動で変更できます。予測データセットにはトレーニングセットと同じ前処理ステップが必要です。トレーニング前に、共通遺伝子に基づいて参照セットと予測セットからサブセットが抽出され、入力として使用されます。 scBalance パイプラインは、重み付けサンプリング関数、およびニューラルネットワーク分類器の 3 つのコアモジュール (図 1a) で構成されています。

最初のモジュールは、学習不均衡な scRNA-seq データセットに対するシンプルかつ効率的なソリューションを提供する加重サンプリング関数です。一般的に使用されるオーバーサンプリングおよびアンダーサンプリング方法とは異なり、scBalance はこれら 2 つの方法の組み合わせを提供するため、マイナータイプをオーバーフィットさせることなく実行速度を大幅に向上させます。トレーニングステップでは、トレーニングセットに既知のラベルがあるため、scBalance は比率に従って各セルタイプに重みを与え、重みに基づいてデータセットからサンプルをランダムに選択して、ニューラルネットワークのトレーニングバッチを構築します。サンプリングプロセスは、分類器が信頼性の高い方法でできるだけ多くのマイナーな型情報を学習できるように、置換を使用して設定されています。

2 番目のモジュールでは、ニューラルネットワーク (NN) 構造を使用して分類タスクを実行しました。 scBalance の NN 分類器には、入力層、3 つの隠れ層、およびソフトマックス層が含まれています。入力層内のニューロンの数は、scRNA-seq データセット内の遺伝子の数と等しくなります。以下の 3 つの隠れ層には、それぞれ 256、128、および 64 ユニットがあります。また、各隠れ層にドロップアウトおよびバッチ正規化手法を追加して、過学習を克服し、実行速度を向上させます。 scBalance のトレーニング段階のみに、バッチ正規化およびドロップアウト手法による順伝播が含まれます。分散シフト 46 を回避するために、ドロップアウト層をバッチ正規化層の後に配置します (式 (1–4))。

ここで、l はニューラルネットワークの l 番目の層を表し、j は層内の j 番目のニューロンを表し、b は層に追加されるランダムバイアスを表し、\(\sigma (\bullet )\) は活性化関数を表します。 \({BN}(\bullet )\) は、各ミニバッチの値を正規化するバッチ正規化関数です。 r は、ドロップアウト確率 p の独立ベルヌーイ確率変数のベクトルです。このベクトルは各隠れ層と要素ごとに乗算されて、ドロップアウト層 \({\widetilde{x}}^{l}\) を作成します。 scBalance では、デフォルトのドロップアウト確率は 0.5 です。 scBalance の活性化関数 (式 (5)) は指数線形単位 (ELU) 関数です。

出力層はソフトマックス関数 (式 (6)) に基づいています。

ここで、 \(z\) はソフトマックス層の入力ベクトル、K は参照データセット内のセルタイプの数です。バックプロパゲーションでは、scBalance の損失関数としてクロスエントロピー損失を選択し、オプティマイザーとして Adam47 最適化メソッドを選択します。トレーニング後、ドロップアウト層は無効になります。 scBalance は、細胞の種類を予測するための 3 層の完全に接続されたニューラルネットワークを提供します。

scBalance のハイパーパラメータの有効性を実証するために、さまざまなハイパーパラメータ設定を比較しました。 (1) アクティベーション機能。 scBalance では、疎なデータセットの処理における ELU の利点により、アクティベーションとして ELU を選択しました。 (2) ドロップアウト層。次に、ドロップアウト層を使用したパフォーマンスをテストしました。ドロップアウトレイヤーは主にバッチ効果用に設計されているため、クロスプラットフォームタスクに従って実験を設計します。この結果は、ドロップアウト層を使用すると全体的なパフォーマンスが向上することを示しています。表内の各値は、5 回の繰り返しの平均に基づいています。

scBalance のパフォーマンスを証明するために、Scmap-cell、Scmap-cluster、SingleCellNet、SingleR、scPred などの R ベースのパッケージ、Python ベースのパッケージ scVI および MARS など、一般的に使用されるいくつかの方法と scBalance を比較しました。すべての評価コードと入力データは、各パッケージが提供する指示とチュートリアルに従います。評価が各メソッドに対して公平であることを保証するために、scBalance を含むすべてのパラメーターを各アプローチのデフォルトとして設定します。

Python ベースのソフトウェアに使用した実行環境は (1) Github (https://github.com/YosefLab/scvi-tools) の scVI バージョンは 0.14.5 です。 GPU バージョンを実行し、その例に従ってハイパーパラメーターを設定しました。コードの対応する指定されたオプションを使用して、前処理に LTMG 推論を組み込みました。すべてのハイパーパラメータはチュートリアルに従って設定されます。このタスクは、Intel(R) Xeon(R) CPU E5-2667 v4、CentOS Linux リリース 7.7.1908 オペレーティングシステム、Nvidia TITAN X GPU、および 503GB 物理メモリを搭載したワークステーションに実装されます。 (2) Github の MARS (https://github.com/snap-stanford/mars)。すべてのハイパーパラメータはチュートリアルに従って設定されます。このタスクは、2.35 GHz AMD EPYC 7452 32 コアプロセッサと 503 G RAM を搭載したサーバー Linux Ubuntu 20.04.4 に実装されています。 R ベースのパッケージの場合、コンピューターモデル Intel(R) Core(TM) i5-5287U CPU @ 2.90 GHz RAM 8GB を使用してタスクを実装しました。ソフトウェアの詳細は、(3) CRAN の SingleR バージョン 1.6.1 (https://github.com/dviraran/SingleR) です。パラメータは、チュートリアルで提供されるデフォルト値として設定されます。 (5) BioManager (https://github.com/hemberg-lab/scmap) の Scmap-Cell および Scmap-Cluster。すべてのパラメーターは関数の指示に続きます。 (5) BiocManager (https://github.com/powellgenomicslab/scPred) の scPred バージョン 1.9.2 の場合、デフォルトのパラメーターで実行されます。 (6) BiocManager (https://github.com/pcahan1/singleCellNet) の SingleCellNet バージョン 0.1.1 は、デフォルトのパラメーターで実行されます。予測で最大のスコアを獲得したカテゴリーを最終結果に採用しました。このタスクは、2.35 GHz AMD EPYC 7452 32 コアプロセッサと 503 G RAM を搭載したサーバー Linux Ubuntu 20.04.4 に実装されています。

実験で使用したプロトコルと定量的指標について以下に説明します。進化の信頼性を高め、変動を定量化できるようにするために、各実験の基本プロトコルとして 5 回の相互検証と 5 回の反復の両方を使用しました。 5 重相互検証の場合、データセット内分類タスクのトレーニングとテストの分割は、sklearn v1.2.0 Python パッケージの StratifiedKFold 関数に基づいています。分割戦略は、データセットのグラウンドトゥルースラベルに基づいて層別化されます。テスト中、テストデータセットの実際のラベルは非表示になります。トレーニングセットとテストセットの両方に十分なデータを保持するために、トレーニングとテストの分割比はすべての実験で 0.8 (n_split=5) に設定されます。 5 回の繰り返しテストの場合、train-test 分割は sklearn v1.2.0 Python パッケージの Train_test_split 関数に基づいています。公平性を保つためにランダムシードが適用されます。各メソッドは 5 回テストされます。 scBalance のパフォーマンスを評価するために、論文では Cohen の kappa スコア、Macro F1 スコア、および精度を使用しました。 Cohen の kappa スコアは、全体的なパフォーマンス指標を表します。精度 (Acc) を指標として使用するほとんどの論文とは異なり、私たちの目的は、希少細胞タイプの識別能力と全体的な分類精度を証明することです。したがって、コーエンのカッパ係数 48 k を選択します。これはマイナークラスに敏感なアプローチであり、メジャータイプの識別とマイナータイプの識別 (式 (7)) を含む分類パフォーマンスの包括的な評価を提供できます。

ここで、\({p}_{0}\) は観測された比例変数、\({p}_{e}\) は確率変数の仮説確率です。 \({p}_{e}\) を計算するには、観測データを使用して、各観測者が各カテゴリをランダムに見る確率を計算します。この式では、稀な集団の誤分類の重みが強調表示されます。

マクロ F1 スコアは、希少集団に対する感度が高いため、サンプリング方法の比較に使用されます (式 (8))。

精度は、データセット内アノテーションタスクでは細胞タイプ固有の精度を評価し、データセット間アノテーションタスクでは希少細胞タイプの精度を評価するために使用されます。

精度は真陽性検出感度メトリックとして使用されます (式 (9))。

ここで、TP は真陽性、FP は偽陽性です。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

この研究では新しいデータは生成されませんでした。この研究で使用されたすべてのデータは、前述したように公的に入手可能です (表 1 を参照)。

scBalance は、https://github.com/yuqcheng/scBalance で独立した Python パッケージとして入手できます。

タン、F.ら。単一細胞の mRNA-Seq 全トランスクリプトーム解析。ナット。方法 6、377–382 (2009)。

論文 CAS PubMed Google Scholar

ホーニング、AM et al. 単一細胞 RNA 配列により、細胞周期関連の転写が亢進し、アンドロゲン応答が減弱している前立腺がん細胞の部分集団が明らかになります。がん研究所 78、853–864 (2018)。

論文 CAS PubMed Google Scholar

ナイキスト医学博士ら。 TP53 と RB1 の両方の欠損は、さまざまな治療法に対する前立腺がんの耐性を促進し、複製ストレスに対する脆弱性を与えます。 Cell Rep. 31、107669 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Guo、C.ら。 2人の重症新型コロナウイルス感染症患者の単細胞分析により、単球に関連しトシリズマブに反応するサイトカインストームが明らかになった。ナット。共通。 11、3924 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

ウィルク、AJら。重篤な新型コロナウイルス感染症患者における末梢免疫反応の単細胞アトラス。ナット。医学。 26、1070–1076 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Guo、L.ら。単一細胞 RNA-Seq による体細胞再プログラミング中の細胞運命決定の解決モル。セル 73、815–829.e817 (2019)。

論文 CAS PubMed Google Scholar

Butler, A.、Hoffman, P.、Smibert, P.、Papalexi, E.、Satija, R. さまざまな条件、技術、種にわたる単一細胞トランスクリプトームデータの統合。ナット。バイオテクノロジー。 36、411–420 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

Wolf, FA、Angerer, P. & Theis, FJ SCANPY: 大規模な単一細胞遺伝子発現データ分析。ゲノムバイオル。 19、15 (2018)。

記事 PubMed PubMed Central Google Scholar

トラン、D. et al. 階層型オートエンコーダーを使用した、高速かつ正確な単一細胞データ分析。ナット。共通。 1029 年 12 月 (2021 年)。

論文 CAS PubMed PubMed Central Google Scholar

ハン、W.ら。統合的な単一細胞 RNA-seq データ解析のための自己教師あり対比学習。 BioRxiv 23、bbac377 (2021)。

Google スカラー

Lindeboom、RGH、Regev、A.、Teichmann、SA ヒト細胞アトラスを目指して: 過去からのメモを取る。トレンドジュネット。 37、625–630 (2021)。

論文 CAS PubMed Google Scholar

Rozenblatt-Rosen, O.、Michael, J.、Regev, A.、Teichmann, SA The Human Cell Atlas: ビジョンから現実へ。ネイチャー 550、451–453 (2017)。

論文 CAS PubMed Google Scholar

Xie, B.、Jiang, Q.、Mora, A. & Li, X. 単一細胞 RNA シーケンスのための自動細胞型同定法。計算します。構造体。バイオテクノロジー。 J. 19, 5874–5887 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Tan, Y. & Cahan, P. SingleCellNet: プラットフォーム間および種間で単一細胞 RNA-Seq データを分類するための計算ツール。セルシステム。 9、207–213.e202 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Ma, F. & Pellegrini, M. ACTINN: 単一細胞 RNA シーケンスにおける細胞型の自動同定。バイオインフォマティクス 36、533–538 (2019)。

記事 Google Scholar

Worbs, T.、Hammerschmidt, SI & Förster, R. 健康と病気における樹状細胞の移動。ナット。イミュノール牧師。 17、30–48 (2017)。

論文 CAS PubMed Google Scholar

レン、Ｘら。大規模な単一細胞トランスクリプトームアトラスによって明らかになった、新型コロナウイルス感染症 (COVID-19) の免疫特性。セル 184、5838 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Khalilia, M.、Chakraborty, S.、および Popescu, M. ランダムフォレストを使用して、非常に不均衡なデータから病気のリスクを予測します。 BMC医学。知らせる。決定。マック。 11、51 (2011)。

記事 PubMed PubMed Central Google Scholar

ウェグマン、R. et al. CellSIUS は、複雑な単一細胞 RNA-seq データから希少細胞集団を高感度かつ特異的に検出します。ゲノムバイオル。 20、142 (2019)。

記事 PubMed PubMed Central Google Scholar

ジャン・L.、チェン・H.、ピネロ・L.、ユアン・G.-C. GiniClust: Gini インデックスを使用して単一細胞遺伝子発現データから希少細胞タイプを検出します。ゲノムバイオル。 17、144 (2016)。

記事 PubMed PubMed Central Google Scholar

鄭、GXYら。単一細胞の大規模並列デジタル転写プロファイリング。ナット。共通。 8、14049 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

ハン、Ｘら。マイクロウェル配列によるマウス細胞アトラスのマッピング。セル 172、1091–1107.e1017 (2018)。

論文 CAS PubMed Google Scholar

Nguyen, V. & Griss, J. scAnnotatR: 単一細胞 RNA 配列データ内の細胞型を正確に分類するためのフレームワーク。 BMCバイオインフォマ。 23、44 (2022)。

記事 CAS Google Scholar

Zhang, R.、Luo, Y.、Ma, J.、Zhang, M. & Wang, S. scPretrain: 細胞型分類のためのマルチタスク自己教師あり学習。 BioRxiv 38、1607–1614 (2020)。

Google スカラー

ワン、L.ら。単一細胞の RNA 配列データから細胞タイプの遺伝子発現プログラムを特定するためのカプセルネットワークの解釈可能な深層学習アーキテクチャ。ナット。マッハ。知性。 2、693–703 (2020)。

記事 Google Scholar

Kim, H.、Lee, J.、Kang, K. & Yoon, S. MarkerCount: 単一細胞 RNAseq 実験用の安定したカウントベースの細胞型識別子。 Comput Struct Biotechnol J. 20、3120–3132 (2022)。

記事 Google Scholar

Kiselev, VY、Yiu, A. & Hemberg, M. scmap: データセットにわたる単一細胞 RNA-seq データの投影。ナット。方法 15、359–362 (2018)。

論文 CAS PubMed Google Scholar

アラン、D. et al. 肺単一細胞配列決定の参照ベースの分析により、移行性線維化促進性マクロファージが明らかになりました。ナット。イムノール。 20、163–172 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Lopez, R.、Regier, J.、Cole, MB、Jordan, MI & Yosef, N. 単一細胞トランスクリプトミクスのための詳細な生成モデリング。ナット。方法 15、1053–1058 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

Alquicira-Hernandez, J.、Sathe, A.、Ji, HP、Nguyen, Q. & Powell, JE scPred: 単一細胞 RNA 配列データからの細胞型分類のための正確な教師あり手法。ゲノムバイオル。 20、264 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

ブルビッチ、M. 他 MARS: 異種単一細胞実験による新しい細胞タイプの発見。ナット。方法 17、1200–1206 (2020)。

論文 PubMed Google Scholar

Liao、M.ら。新型コロナウイルス感染症患者における気管支肺胞免疫細胞の単一細胞の状況。ナット。医学。 26、842–844 (2020)。

論文 CAS PubMed Google Scholar

論文 CAS PubMed PubMed Central Google Scholar

Bej, S.、Galow, A.-M.、David, R.、Wolfien, M. & Wolkenhauer, O. 合成オーバーサンプリングによる、単一細胞 RNA 配列データからの希少細胞タイプの自動アノテーション。 BMCバイオインフォマ。 22, 557 (2021)。

記事 CAS Google Scholar

N. エリング、医学博士モーガン、JC マリオニ生物学的ノイズの測定と理解における課題。ナット。ジュネ牧師。 20、536–548 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Srivastava, N.、Hinton, G.、Krizhevsky, A.、Sutskever, I. & Salakhutdinov, R. Dropout: ニューラルネットワークの過学習を防ぐ簡単な方法。 J.マッハ。学ぶ。解像度 15、1929 ～ 1958 年 (2014)。

Google スカラー

Clvert, D.-Ae、Unterthiner, T.、Hochreiter, S. 指数線形単位 (ELU) による高速かつ正確なディープネットワーク学習。プレプリントは https://arxiv.org/abs/1511.07289 (2016) にあります。

Hwang, B.、Lee, JH、Bang, D. 単一細胞 RNA シーケンス技術とバイオインフォマティクスパイプライン。経験値モル。医学。 50、1–14 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

リン、Y.ら。 scClassify: 単一および複数の参照を使用したサンプルサイズの推定と細胞のマルチスケール分類。モル。システム。バイオル。 16、e9389 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Johnson, WE、Li, C. & Rabinovic, A. 経験的ベイズ法を使用したマイクロアレイ発現データのバッチ効果の調整。生物統計学 8、118–127 (2006)。

論文 PubMed Google Scholar

リトヴィヌコバ、M.ら。成人の心臓の細胞。ネイチャー 588、466 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

ウィルク、AJら。重篤な新型コロナウイルス感染症患者における末梢免疫反応の単細胞アトラス。ナット。医学。 26、1070–1076 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Schulte-Schrepping, J. et al. 重度の新型コロナウイルス感染症（COVID-19）は、骨髄細胞区画の調節不全が特徴です。セル 182、1419–1440.e1423 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Zhao、J.ら。新型コロナウイルス感染症患者における SARS-CoV-2 に対する抗体反応 2019。Clin。感染する。ディス。 71、2027 ～ 2034 年 (2020)。

論文 CAS PubMed Google Scholar

ラバーン、AA 他。新型コロナウイルス感染症患者における炎症性サイトカインの役割：分子機構、免疫機能、免疫病理学、サイトカインストームに対抗する免疫調節薬に関する概説。ワクチン 9、436 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Li, X.、Chen, S.、Hu, X.、Yang, J. 分散シフトによるドロップアウトとバッチ正規化の間の不調和を理解する。 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2677–2685 (2019)。

Kingma, DP & Ba, J. Adam: 確率的最適化の手法。 Proc. 第 3 回学習表現国際会議 (ICLR) (ICLR、2015)。

特徴選択のパフォーマンス尺度としての Vieira, SM、Kaymak, U. & Sousa、JMC Cohen のカッパ係数。ファジーシステムに関する国際会議 1 ～ 8 (2010)。

Deng, QL、Ramskold, D.、Reinius, B. & Sandberg, R. 単一細胞 RNA 配列により、哺乳動物細胞における動的でランダムな単一対立遺伝子発現が明らかになりました。サイエンス 343、193–196 (2014)。

論文 CAS PubMed Google Scholar

Darmanis, S. et al. 単一細胞レベルでのヒト脳トランスクリプトーム多様性の調査。手順国立アカデミー。科学。 USA 112、7285–7290 (2015)。

論文 CAS PubMed PubMed Central Google Scholar

ウソスキン、D. et al. 大規模な単一細胞 RNA シーケンスによる感覚ニューロンの種類の公平な分類。ナット。神経科学。 18、145–153 (2015)。

論文 CAS PubMed Google Scholar

キャンプ、JG et al. 多系統コミュニケーションは、多能性からヒトの肝芽の発達を制御します。ネイチャー 546、533–538 (2017)。

論文 CAS PubMed Google Scholar

バロン、M.ら。ヒトおよびマウスの膵臓の単一細胞トランスクリプトームマップは、細胞集団内および細胞集団の構造を明らかにします。セルシステム。 3、346–360.e344 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

マウロら。ヒト膵臓の単細胞トランスクリプトームアトラス。セルシステム。 3、385–394.e383 (2016)。

記事 Google Scholar

レイク、BB 他ヒト脳の単核 RNA 配列決定によって明らかになったニューロンのサブタイプと多様性。サイエンス 352、1586–1590 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

キャンベル、JN et al. 弓状視床下部および正中隆起細胞タイプの分子センサス。ナット。神経科学。 20、484–496 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

Zilionis、R. et al. ヒトおよびマウスの肺がんの単細胞トランスクリプトミクスにより、個体および種全体で保存された骨髄集団が明らかになります。イミュニティ 50、1317 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

シャウム、N.ら。 20 個のマウス臓器の単一細胞トランスクリプトミクスにより、Tabula Muris が作成されます。ネイチャー 562、367 (2018)。

論文 PubMed Central Google Scholar

鄭、GXYら。単一細胞の大規模並列デジタル転写プロファイリング。ナット。共通。 8、14049 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

ディン、J.ら。単細胞および単核 RNA シーケンス法の体系的な比較。ナット。バイオテクノロジー。 38、737–746 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Xin、Y.ら。単一のヒト膵島細胞の RNA 配列決定により、2 型糖尿病遺伝子が明らかになります。細胞メタブ。 24、608–615 (2016)。

論文 CAS PubMed Google Scholar

ゼーゲルシュトルペ、Å. 他。健康および 2 型糖尿病におけるヒト膵島の単一細胞トランスクリプトームプロファイリング。細胞メタブ。 24、593–607 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

リファレンスをダウンロードする

この研究は、賞番号 4937025、4937026、5501517、および 5501329 の香港中文大学 (CUHK) と、賞番号 GHP/065/21SZ の革新技術基金 (ITF) によって支援されました。

中国、香港特別行政区、香港中文大学 (CUHK)、コンピューター科学工学部 (CSE)

Yuqi Cheng、Jianing Zhang、Yu Li

米国ジョージア州アトランタ、ジョージア工科大学計算科学工学部

チェン・ユーチー

中国電子科学技術大学情報ソフトウェア工学部、610054、成都、中国

ファン・シンユー

CUHK 深セン研究所、ハイテクパーク、南山、518057、深セン、中国

ユ・リー

PubMed Google Scholar でこの著者を検索することもできます

YC はメソッドとすべてのベンチマーク実験を設計しました。 YC はツールを Python で実装しました。 YC、JZ、および XF はデータ分析とすべての計算実験を実行しました。 JZ と XF はメソッド開発においても提案を提供しました。 YC、YL、JZ、XF が一緒に原稿を書きました。著者全員が原稿をレビューしました。

ユウ・リーさんへの対応。

著者らは競合する利害関係を宣言していません。

この原稿は、別の Nature Portfolio ジャーナルで以前にレビューされています。この原稿は、Communications Biology でのさらなる審査なしで出版に適していると考えられました。主な取り扱い編集者: Gene Chong。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Cheng, Y.、Fan, X.、Zhang, J. 他単一細胞トランスクリプトームデータの希少細胞タイプアノテーション用のスケーラブルなスパースニューラルネットワークフレームワーク。 Commun Biol 6、545 (2023)。 https://doi.org/10.1038/s42003-023-04928-6

引用をダウンロード

受信日: 2023 年 4 月 13 日

受理日: 2023 年 5 月 11 日

公開日: 2023 年 5 月 20 日

DOI: https://doi.org/10.1038/s42003-023-04928-6

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティガイドラインに従うことに同意したことになります。虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

アン・サマーズ・プラネット・プレジャー・バイブレーター

当社のテストによる、2023 年のベストフードプロセッサー 5

ニュース

単一の希少細胞タイプのアノテーションのためのスケーラブルなスパース ニューラル ネットワーク フレームワーク

単一の希少細胞タイプのアノテーションのためのスケーラブルなスパースニューラルネットワークフレームワーク