機械学習により、トランスの寄与が限定的であることが判明

ブログ

ホームページホームページ / ブログ / 機械学習により、トランスの寄与が限定的であることが判明

Sep 19, 2023

機械学習により、トランスの寄与が限定的であることが判明

Edizione di biologia della comunicazione

Communications Biology volume 6、記事番号: 442 (2023) この記事を引用

1475 アクセス

5 オルトメトリック

メトリクスの詳細

ヒト白血球抗原 (HLA) クラス II 抗原の提示は、T 細胞免疫応答を制御し、誘発するための鍵です。 自己免疫疾患において主要な役割を果たすと考えられている HLA-DQ 分子は、α 鎖と β 鎖が同じ (シス) 上でコードされているか反対側 (シス) でコードされているかに応じて、シスおよびトランス変異体の両方として形成されるヘテロ二量体です。トランス)染色体。 これまでのところ、HLA-DQ 抗原提示の予測に関しては限られた進歩しかありません。 さらに、HLA-DQ 免疫ペプチドドームの形成におけるトランスのみの変異体 (つまり、集団内でシスとして観察されない変異体) の寄与は、ほとんど未解決のままです。 ここでは、最先端の免疫情報学データマイニングモデルと大量の高品質の HLA-DQ 特異的質量分析免疫ペプチドミクスデータを統合することで、これらの問題に対処しようとしています。 この分析は、これらの新しい HLA-DQ データを含めてトレーニングされたモデルの予測力と分子範囲が大幅に向上していることを示しています。 さらに重要なことは、トランスのみの HLA-DQ バリアントの役割を調査すると、HLA-DQ 免疫ペプチドドーム全体への寄与が限定的またはまったくないことが明らかになるということです。 結論として、この研究は HLA-DQ の特異性についての理解を深め、HLA クラス II 抗原提示空間におけるシスとトランスのみの HLA-DQ バリアントの相対的な役割に光を当てました。 開発されたメソッド NetMHCIIpan-4.2 は、https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2 で入手できます。

主要組織適合性複合体クラス II 分子 (MHC クラス II) は、B 細胞、樹状細胞 (DC)、単球/マクロファージなどの専門的な抗原提示細胞の表面に発現します1。 これらの分子は、外因性タンパク質の断片を結合してヘルパー T 細胞に提示するように設計されており、一緒になってペプチド結合溝を形成する α 鎖と β 鎖からなるヘテロ二量体です。

ヒトでは、HLA (ヒト白血球抗原) クラス II は 3 つの異なる遺伝子座 (HLA-DR、-DQ、および -DP) によってコードされます。 これらの HLA 遺伝子には、主にペプチド結合溝の周囲に集中する多型を持つ多数の対立遺伝子変異体があり、その結果、広範囲にわたる異なるペプチド結合特異性が生じます 2。 多くの自己免疫疾患において、HLA クラス II 遺伝子は主要な遺伝的感受性因子 1,3 であり、CD4 + T 細胞に抗原ペプチドを提示することでこれらの症状の発症に中心的な役割を果たしています。

いくつかの研究では、1 型糖尿病 (T1D) 患者におけるハプロタイプおよび遺伝子型レベルでの HLA-DR および DQ の重要性が調査されています3。 これらの遺伝的および機能的研究は、HLA-DR および DQ 対立遺伝子の両方が T1D のリスクと関連していることを示しています3,4。 さらに、関連する DR-DQ ハプロタイプは、高度な素因から高度に防御的なものまでのリスク階層を示しています4。 興味深いことに、より最近では、一般に自己免疫疾患において主要な役割を果たす HLA-DR が、T1D5 の HLA-DQ 遺伝子座に対して重要ではあるが二次的な役割を果たしていることが実証されました。

T1D のような自己免疫疾患に加えて、HLA-DQ との直接的かつ非常に強い関連性が確立されているセリアック病などの他の疾患では、HLA-DQ 分子による抗原提示のより徹底的かつ体系的な特徴付けが必要であり、その研究を可能にするために関数。 この分野は急速に進歩しているにもかかわらず 7、これまでのところ、限られた数の HLA-DQ 分子のペプチド結合モチーフのみが徹底的に研究されています 8、9、10。 その理由の 1 つは、HLA-DQ 分子は実験的に研究するにはより複雑であるためです。 たとえば、HLA-DR のα鎖は単型であるため、多型のバリエーションはβ鎖によってのみ提供されます11。 HLA-DQ では、α 鎖と β 鎖の両方が多型の変化に寄与します。 しかし、α鎖とβ鎖の二量体化界面に重要な構造要件があるため、すべてのα鎖とβ鎖のペアリングが安定したヘテロ二量体をもたらすわけではないことが証拠によって示唆されています11、12。 たとえば、DQA1*01 は、DQB1*05 および 06 対立遺伝子と安定なヘテロ二量体を形成することが検出されているだけです。 同様に、DQA1*02、03、04、05、および 06 対立遺伝子は、DQB1*02、03、および 0412、13、14 とのみ安定なヘテロ二量体を形成します。

さらに、HLA クラス II 領域内の HLA-DR と HLA-DQ の間には広範な連鎖不均衡があるため、HLA-DQ 対立遺伝子の機能を研究することは困難であり、個々の HLA-DQ 対立遺伝子の役割と関連する HLA-DQ 対立遺伝子の役割を区別することが困難です。 HLA-DR 分子 3,11。

最後に、対になってヘテロ二量体を形成するα鎖とβ鎖が同じ染色体(シス)または反対側(トランス)染色体にコードされている場合、シスおよびトランスにコードされた独自の DQ 分子が発生する可能性があり、これらの分子の研究はさらに複雑になります。 HLA-DQ 分子に関する現在の知識の大部分はシスコード化変異体に由来していますが、少数のトランスコード化 DQ 変異体の表面発現と機能が確認されています 11,15。 ここで、これらの機能的なトランス分子は、対応するシスにコードされた変異体としても機能することが観察されていることを強調することが重要です。 したがって、DQα 鎖と DQβ 鎖の対立遺伝子は、トランス バリアントではなく主にシスでペアリングすると一般に考えられています 16、17。 以降、上記のすべての安定な DQ α 鎖と β 鎖の組み合わせをシスと呼び、シス コードとして検出または報告されていない組み合わせを含む残りの組み合わせを「トランスのみ」と呼びます。

近年、大量の HLA 配列データが利用可能になったことにより、シスエンコードされた HLA-DQ バリアントに関する情報が大幅に拡張されました 13。 ここでの仮定は、観察されたすべての DQ ハプロタイプが自然選択によって、安定で機能的なシスおよびトランスコード分子を形成できるということです。 しかし、抗原提示におけるトランスのみにコードされた変異体の役割、および HLA-DQ 免疫ペプチドドームの形成と補完におけるそれらの寄与は、ほとんど未解決のままです。

適応免疫応答の制御と形成における HLA クラス II 抗原提示の重要な役割を考慮して、この事象を予測できる予測モデルの開発に多大な努力が払われてきました (Nielsen et al. 202018 で総説)。 現在の最先端の予測方法には、既知のタンパク質配列を持つ任意の HLA クラス II 分子の抗原提示の予測を可能にする汎特異的方法である NetMHCIIpan19 が含まれます。 HLA-DQ および DP ヘテロダイマーの場合、これは、予測を行うために α 鎖と β 鎖の両方に関する配列情報が必要であることを意味します。

もともと、in vitro ペプチド-HLA 結合親和性 (BA) アッセイは、HLA クラス II 分子 2 のモチーフを特徴付けるデータを生成し、ペプチド - HLA 結合の規則を特定するためのさまざまな機械学習予測モデルを開発するために使用されてきました 20,21。 しかし、実験結果は、結合親和性 (BA) が抗原プロセシングと HLA 分子による提示との相関関係が比較的弱いことを示しています 22。 さらに、液体クロマトグラフィーと質量分析法 (LC-MS/MS) を組み合わせて取得した免疫ペプチドドーム データを使用してトレーニングすると、HLA クラス II ペプチド結合予測モデルのパフォーマンスが大幅に向上することが複数の研究で実証されています 2,20,23,24 。 一般に、HLA クラス II 免疫ペプチドドーム溶出リガンド (EL) アッセイでは、HLA 特異的モノクローナル抗体を使用して、溶解した抗原提示細胞 (APC) から HLA 分子をアフィニティー精製します。 次に HLA 分子が変性され、ペプチドリガンドが単離され、LC-MS/MS によって配列決定されます 25,26。 このようなアッセイの結果は、調べられた細胞株によって発現される HLA クラス II 分子の少なくとも 1 つに限定されるペプチド配列のリストです。 EL データには、抗原消化、リガンドの HLA ローディング、細胞表面への輸送など、HLA クラス II 抗原提示のさまざまなステップからのシグナルが含まれているため、BA データよりも大きな利点があります 27、28、29。

HLA クラス II 結合予測は、感染症、がん、自己免疫疾患におけるエピトープ候補を同定するために広く使用されています 30。 HLA クラス II の予測アルゴリズムの大部分は、これまでのところ、大量のデータが入手可能な HLA-DR 分子に焦点を当ててきました。 しかし、HLA-DQ の文脈では、結合親和性実験を実行するための合成 α 鎖と β 鎖のペアリングと、大規模な EL データセットの生成の両方が困難であることが判明しています。 後者は主に、大規模な MS-イムノペプチドミクス実験における HLA-DQ 特異的抗体の適用の欠如により、HLA-DQ 精製プロセスの収量が制限されます。

近年、質量分析法 (MS) によるプロテオミクスとペプチド分析は、最先端のテクノロジーと機器の感度の向上、ペプチドの同定と定量化をサポートする高度なソフトウェア プラットフォームとアルゴリズムのおかげで、大きく進歩しました。 これらの進歩と、高度に特異的な HLA-DQ 抗体の使用により、HLA-DQ 分子に自然に結合し、細胞に輸送される安定したペプチド-HLA 複合体を生成する何千ものペプチドを 1 回のアッセイで特徴付けることが可能になりました。免疫細胞に提示される細胞表面。 今回、我々はこのセットアップを適用して、ホモ接合性 B リンパ芽球様細胞株のパネルから、世界中の人口に頻繁に存在する HLA-DQ 分子のグループによって提示されるペプチドの大きなセットを生成しました。 これらの大規模なデータセットは、モチーフを定義し、生物学的状況におけるペプチドの処理と提示を支配する規則を明らかにするために、バイオインフォマティクスモチーフ同定および機械学習パイプラインに直接送信されました。 さらに、この研究により、機能的 HLA-DQ ヘテロ二量体のシス形成とトランス形成の課題の解決に向けて前進し、HLA-DQ 免疫ペプチドドームの形成におけるトランスのみの変異体の役割を決定することができました。 この研究によって得られた調査対象の HLA-DQ 分子のペプチド結合特性に関する広範な洞察は、HLA-DQ 疾患との関連性のより良い理解と新規の治療標的の発見を促進するでしょう。

この研究では、LC-MS/MS を使用して、14 の異なる HLA-DQ 分子の免疫ペプチドドーム データを 16 のホモ接合性 B リンパ芽球様細胞株 (BLCL) から取得しました。 アフィニティー精製中に DQ 特異的抗体を使用することにより、DQ ペプチド リガンドが非常に豊富に含まれる大規模なデータセットを取得することができました。 細胞株のペプチド数、DQ HLA タイプ、ペプチド長分布の概要を図 1 に示します。全体として、データには合計 39,334 個のペプチドリガンドが含まれており、14 マーと 15 マーが最も一般的です。 ネガティブとして割り当てられたランダムな天然ペプチドで新しいデータを強化した後 (材料と方法を参照)、それを NetMHCIIpan-4.1 予測メソッドのトレーニングに使用したデータと組み合わせて、溶出した HLA クラス II リガンドの大規模なデータセットを生成しました。 このことから、我々は、HLA-DQ に関連する 3 つの本質的な問題、すなわち、(i) DQ 分子に対する現在の予測モデルの予測力が比較的低い、(ii) DQ 免疫ペプチドドームに対するトランスのみにコードされた DQ バリアントの寄与、に対処することに着手しました。 (iii) 現在の実験データと開発されたインシリコ予測モデルの DQ 特異性空間の全体的な範囲。

各行は、特定の DQ ホモ接合性細胞株からのデータセットに対応します。 左のパネル: 全体のペプチド数の棒グラフ。 左側の数字は細胞株 ID に対応します。 中央のパネル: 細胞株の DQ HLA タイプ。 右パネル: ペプチドの長さの分布。

新しい DQ データの統合による予測力への影響を調査するために、MS 免疫ペプチドミクス データをデコンボリューションするための非常に強力な機械学習方法である NNAlign_MA アルゴリズム 31 を採用しました。 2 つのペプチド抗原提示予測モデルをトレーニングしました。1 つは新しい DQ アフィニティー精製データ (w_Saghar_DQ と呼ばれます) を含み、もう 1 つは新しいデータの影響を直接比較するためのもの (wo_Saghar_DQ と呼ばれます) です。 次に、トレーニング データ内のすべての HLA クラス II 分子の 4 つの異なるサブセット内で、分子ごとに相互検証を使用してモデルを評価しました。 これらのサブセットは、非 DQ 分子 (NotDQ)、すべての DQ 分子 (DQ)、新規データに存在する DQ 分子 (DQ_Saghar)、および新規データに存在しない DQ 分子 (DQ_NotSaghar) です。

図 2 は、この実験の結果を示しており、新しい DQ データの組み込みにより、予想どおり DQ のパフォーマンスが大幅に向上したことを示しています (すべてのメトリクスで p = 0.011、n = 44 分子、同点なしの片側二項検定)。 ただし、これらの結果から、DQ のパフォーマンスは非 DQ 分子のパフォーマンスと比較して依然として低いことが明らかです。 これは、新しいデータと古い NetMHCIIpan-4.1 トレーニング データの両方を組み合わせて計算された DQ パフォーマンスの結果であると想定しました。 これを実証するために、新規データのみに限定して DQ_Saghar 分子のパフォーマンスを評価しました。 この結果を図 3 に示します。これは、新規データのみに焦点を当てた場合、DQ のパフォーマンスが非 DQ のパフォーマンスに匹敵するレベルに達し、PPV (t = 1.19、p) に関して大幅な向上が見られることを示しています。 AUC の場合 = 0.24、AUC 0.1 の場合 t = 0.21、p = 0.83、PPV の場合 t = 2.69、p = 0.009、n = 14 の DQ 分子および n = 70 の非 DQ 分子、両側 t 検定)。 この結果は、以前に報告された DQ のパフォーマンスの低下が、少なくとも部分的には以前の DQ データの品質と量の低さによって引き起こされていることを示唆しているため、重要です。

各ポイントは、固有の HLA クラス II 分子のパフォーマンス指標です。 パフォーマンス指標の詳細については、材料と方法を参照してください。 列は、HLA 分子の 4 つの異なるサブセット、つまりすべての非 HLA-DQ 分子 (NotDQ、n = 70)、すべての DQ 分子 (DQ、n = 44)、新規データセット内の DQ 分子 (DQ_Saghar、n = 70) に対応します。 14)、および DQ 分子は新規データには存在しません (DQ_NotSaghar、n = 30)。 各箱ひげ図は、上位四分位と下位四分位の間の四分位範囲 (IQR) 内の中央値を示し、ひげは最大で IQR の 1.5 倍まで伸びます。

各ポイントは、HLA クラス II 分子のパフォーマンス指標です。 各箱ひげ図は、上位四分位と下位四分位の間の四分位範囲 (IQR) 内の中央値を示し、ひげは最大で IQR の 1.5 倍まで伸びます。

次に、すべてのサンプルにおける 2 つの方法間の HLA-DQ 分子に割り当てられたペプチドの違いを調べました。 ここでは、少なくとも 1 つの方法でパーセンタイル ランク <20 (つまり、非ゴミ) で DQ に割り当てられたすべてのペプチドを考慮しました 23。 全体として、2 つのメソッドは、DQ に割り当てられたペプチドで高度な重複を共有しています (60,959 個のアノテーションが両方のモデルで共有され、9,309 個のアノテーションが新規データを含むトレーニングされたメソッドに固有であり、4,316 個のアノテーションが新規データを含まずにトレーニングされたメソッドに固有でした)。 新しいデータを含めてトレーニングされたモデルのこの増加した DQ カバレッジは、主に、新しいデータなしでトレーニングされたモデルによって DR (およびある程度のトラッシュと DP) に割り当てられたペプチドに由来します (ペプチドの移動の概要については補足表 1 を参照)。 これは、新規モデルの改善された予測性能の少なくとも一部が、モチーフのデコンボリューションの改善に由来していることを示唆しています。

これをさらに定量化するために、補足図 1 に 4 つの分子サブセットにおける HLA 分子あたりの平均一貫性値を示します。 つまり、位置特異的なスコアリング行列は、所定の細胞株の予測結合コアから各分子に対して構築されました。個々の陽性ペプチドを測定し、異なる細胞株データセット間での同じ分子のこのようなマトリックスの相関によって一貫性を定量化しました (詳細については、材料と方法を参照)。 この分析に基づいて、新しい DQ データでトレーニングされたモデルの全体的な一貫性の向上が観察されます (DQ_NotSaghar サブセット、同点なしの片側二項検定を除くすべてのケースで p < 0.02)。 新規データ(DQA1 * 03:01-DQB1 * 03:02)に含まれる分子例の一貫性分析を補足図2に示します。これは、ほとんどの場合、モチーフの一貫性の向上は、全体にわたるペプチド数の増加によって引き起こされることを示していますサンプル(補足表 2 および 3 を参照)。

さらに、補足図3では、新しいMSデータのモチーフデコンボリューションによって得られたHLA-DQ結合モチーフを、予測されたバインダーに基づく配列モチーフとともに視覚化しました。 ここで、モチーフデコンボリューションによって得られたロゴは、ほとんどの場合、比較すると非常に類似しています。新しいデータを使用してトレーニングしたモデルと、新しいデータを使用せずにトレーニングしたモデル。 しかし、トップスコアのランダム天然ペプチドに基づく予測配列ロゴは、新規 DQ データなしでトレーニングされたモデルが、特に P1 アミノ酸優先に関して、すべての新規 DQ 分子の正しい結合モチーフを完全には学習できていないことを示しています。 これらの結果を定量化するために、各方法のデコンボリューションされたロゴと予測されたロゴの間の相関関係が計算されました(補足図4)。 この分析では、新規データ (p = 0.011、n = 16 ロゴペア、同点なしの片側二項検定) を含むメソッドに関して有意に高い相関が示され、同定された結合モチーフと予測された結合モチーフの間の非常に一貫した対応関係が示されました。

まとめると、これらの観察は、新しい HLA-DQ データを組み込むことで、HLA-DQ ペプチド リガンドの豊富な同定が可能になり、別の DR/DP 分子に割り当てられていたペプチドを救い出し、その結果、モチーフのデコンボリューションの一貫性が向上し、予測力が向上したことを示しています。

上記の結果は、ペプチドコンテキストエンコーディングを使用した新規データを含めてトレーニングされたモデルとの比較によって補完されました。 つまり、コンテキスト エンコーディングとは、ペプチドに隣接する領域の情報がソースタンパク質配列から抽出され、機械学習モデルへの追加入力として含まれるシナリオを指します。 以前に実証されたことと同様に、この比較の結果(補足図5)は、コンテキストを含めてトレーニングされたモデルが、すべてのパフォーマンスメトリクスとデータサブセットにおいてコンテキストなしでトレーニングされたモデルよりも大幅に優れていることを実証しました(唯一の例外はDQ_NotSaghar サブセット)。 ただし、原稿の残りの部分の主な焦点は、モチーフのデコンボリューションと、このコンテキストにおけるシス対トランスのみの DQ α 鎖と β 鎖ペアリングの役割を調査することであるため、コンテキスト情報なしでトレーニングされたより単純なモデルに焦点を当てます。ここから。

DQ ヘテロ接合細胞株では、原則として 4 つの可能な α-β 鎖対が観察されます。 いわゆるシスヘテロ二量体の場合、α鎖とβ鎖は同じ染色体上に発現するため、ハプロタイプ配列決定で観察できます。 染色体間でα鎖とβ鎖が対になって形成されるDQ分子は、トランスヘテロダイマーと呼ばれます。 一部のα-βペアはシスコードとして観察されていないため(大規模なHLAハプロタイプ配列決定集団研究に基づく)、したがってここでは「トランスのみ」の組み合わせと呼ばれます。 免疫ペプチドドームの形成におけるシスおよびトランスのみの DQ ヘテロ二量体の相対的な寄与を評価するために、2 つのモデルの DQ ヘテロ接合性データセット全体で、シスおよびトランスのみにコードされた DQ 分子に割り当てられたペプチドの分布を調査しました。 ここでは、両方の方法でゴミを除く、少なくとも 100 個の DQ アノテーション付きペプチドを持つデータセットのみが考慮されました (この分析で使用されたデータセットの概要については、補足表 4 を参照してください)。 次に、各分子に割り当てられた DQ アノテーション付きペプチドの割合が、その分子を含む各データセットについて計算されました。 最後に、データセットごとの平均ペプチド画分が各 DQ 分子について報告され、4 つのカテゴリにわたる分子のこれらの平均の分布が調査されました。 これらのカテゴリはすべてシス バリアント、cis-SA (単一対立遺伝子 DQ トレーニング データのシス バリアントの一部)、cis-MA (複数対立遺伝子 DQ トレーニング データのシス バリアントの一部)、およびトランスのみのバリアントです。

この分析の結果は、2つのモデルについて図4aに示されており、新規データを含む方法では、トランスのみの分子が各細胞株のDQアノテーションの小さな部分を一貫してカバーしていることを示しています。 一方、cis分子の寄与は一般に高く、cis-SA分子の寄与が最も大きい。 ただし、新規データを含むモデルでは、シス-MA 分子がトランスのみの分子と比較して著しく大きな寄与をしていることもわかりました (t = 3.07、p = 0.005、n = 18 のシス-MA 分子および n = 12 のトランス) -分子のみ、両側 t 検定)。 同様の結果は、cis-SA 分子と同じ擬似配列を持つ cis-MA 分子を含むように cis-SA カテゴリーを拡張したときにも見つかりました (補足図 6)。 さらに、新規データなしでトレーニングされたモデルでは、DQ ペプチドのアノテーションに対するトランスのみの分子の寄与が全体的に高いことが観察されました (t = 2.1、p = 0.03、n = 12 分子、対応のある片側 t 検定)。 これらの結果は、新規データを含むモデルのモチーフのデコンボリューションが、cis-SA 分子によってのみ駆動されるのではなく、トランスのみの変異体と比較したシスコード化変異体の全体的な優先度によって駆動されることを示しているため、驚くべきものです(補足を参照)図7および8)。

新しいデータを使用した方法 (w_Saghar_DQ) と使用しない方法 (wo_Saghar_DQ) におけるシスおよびトランスのみの分子のペプチド数の寄与。 各点は、特定の DQ 分子のデータセットごとの平均ペプチド分率を示します。 各メソッドについて、トランスのみの分子は 1 つの箱ひげ図 (n = 12) で示され、シス分子は 3 つのカテゴリ、つまりすべてのシス分子 (Cis-All、n = 29)、DQ-SA で見つかったシス分子で示されます。トレーニング データ (Cis-SA、n = 11)、および DQ-MA トレーニング データ (Cis-MA、n = 18) でのみ見つかったシス分子。 各箱ひげ図は、上位四分位数と下位四分位数の間の IQR 内の中央値を示し、ひげは最大で IQR の 1.5 倍まで伸びます。 b Racle__TIL1 データセットの DQ モチーフのデコンボリューション。 行は、それぞれ新規データを使用して (wSag) トレーニングしたメソッドと、新規データを使用せずに (woSag) トレーニングしたメソッドに対応します。 ペプチド数(トラッシュペプチドを除く)は、ロゴプロットタイトルの括弧内に表示されます。 トランスのみの分子は赤枠で強調表示されます。

これをさらに調査するために、Racle__TIL1 データセットの 2 つのモデルの DQ モチーフのデコンボリューションを図 4b に示します。 ここで、新規データなしでトレーニングされたモデルは、ペプチドの大部分 (425 個中 170 個) を HLA-DQA1*01:01-DQB1*03:01 に割り当てます。これは、安定なヘテロ二量体を形成しないことが知られているトランスのみの分子です 12 、13. 一方、新しいデータでトレーニングされたモデルでは、この分子に割り当てられるペプチドはほとんどありません (459 個中 20 個)。 代わりに、ペプチドはシス分子 HLA-DQA1*03:03-DQB1*03:01 に割り当てられます。 また、どちらのモデルでも、非常にわずかな割合のペプチドが、不安定であることが知られている別のトランスのみのヘテロ二量体である HLA-DQA1*03:03-DQB1*05:01 に割り当てられていることにも注意してください。

全体として、これらの結果は、新規の DQ データを含むモデルにより、トランスのみの HLA-DQ 分子へのペプチドの割り当てが限定された適切なモチーフのデコンボリューションが可能であることを示しています。 さらに、トランスのみの分子に割り当てられるペプチドの割合が非常に低いことは、全体的な HLA-DQ ペプチド量の増加と新規データを含めてトレーニングされたモデルのモチーフの一貫性と組み合わせると、トランスのみの HLA-DQ 分子が総 HLA-DQ 免疫ペプチドドームには寄与しません。 ただし、予測は SA トレーニング データによって大きく影響されることを強調することが重要です (cis-SA カテゴリの主な寄与によって示されています)。 したがって、トランスのみのヘテロ二量体に対するアノテーションの数が少ないことは、これらの分子の SA トレーニング データの欠如、またはシス SA 分子と比較してシス SA 分子との配列類似性が低いことによって影響を受けている可能性を完全に排除することはできません。 MA 分子。

新規データにおける DQ ペプチド リガンドの長さの分布を、同じ BLCL セットから精製した HLA-DR 制限ペプチドと比較した場合 23、DQ リガンドは一般に DR リガンドよりも短いことが明らかになりました (補足図を参照)。 9)。 2 つの遺伝子座の分子あたりのペプチド長の中央値を比較すると、有意差が見つかりました (t = 2.4、p < 0.03、n = 17 DR 分子および n = 14 DQ 分子、両側 t 検定)。およびDQは、それぞれ15.41および14.93の平均ペプチド長中央値を有する。 この分析は、HLA-DQ 分子が一般に HLA-DR と比較して短いペプチドに結合することを示しています。 さらに、ペプチドの長さの好みがより一貫している HLA-DQ 対立遺伝子とは対照的に、さまざまな HLA-DR 分子はその長さの好みに微妙な違いを示します 23。 たとえば、HLA-DR*07:01、09:01、および 14:01 は短いペプチド (14 mer) の優先性を示しますが、DR 対立遺伝子の大部分は共通のクラス II 長さの優先順位 (15 mer) に従います。

次に、適切にカバーされている (つまり、トレーニング中に多数のペプチドが割り当てられている) 各モデルによる相互検証予測に存在する DQ 分子の数、したがってモデルが正確な予測力を達成すると期待される DQ 分子の数を評価したいと考えました。 。 特定の DQ 分子のペプチド数は、その分子を含む各細胞株からのペプチドの累積合計として推定されました (ゴミペプチドは除く)。 ここでは、DQ ペプチドの総数の少なくとも 5% に相当する、特定の細胞株内の DQ 分子に注釈が付けられたペプチドのみがそのカウントに含まれました (これは、低カウントのノイズの蓄積を避けるために行われました)。 すべての細胞株の合計ペプチド数が少なくとも 100 であれば、特定の DQ 分子はカバーされていると言われました。この分析の結果、新しいデータを含めてトレーニングされたモデルによって 24 個の DQ 分子がカバーされ、これらのデータを除外すると 23 個の DQ 分子がカバーされることがわかりました。 。 新規データを含むモデルでカバーされた 24 個の DQ 分子はいずれもトランスのみであることが判明しませんでしたが、新規データを含まないモデルでは 2 個のトランスのみの DQ 分子、すなわち HLA-DQA1*01:01-DQB1*03 がカバーされていました。 01 (前述のとおり) および HLA-DQA1*01:03-DQB1*03:02。 残りの 21 個の分子のうち、20 個は、新規データでトレーニングされたモデルの対象となる分子に含まれていました。

2 つのメソッドでカバーされる分子のセットが異なることを考慮して、DQ 特異性空間全体を考慮したときに各メソッドのカバー範囲を推定したいと考えました。 そのため、2 つの方法のそれぞれについて、モデルでカバーされる分子までの距離が最大 0.025 である 154 個の一般的な DQ 分子の割合を調査しました (この分子セットをここでは「拡張カバレッジ」と呼びます)。 この距離がどのように決定されたか、および一般的な DQ 分子のリストがどのように定義されたかについての詳細については、材料と方法を参照してください。 しきい値 0.025 は、新しいデータなしでトレーニングされたモデルが、メソッドの DQ-SA トレーニング データの一部ではない分子に対して最適なパフォーマンスに到達できる距離に基づいて選択されました (補足図 10 を参照)。 また、0.025 は控えめな距離のしきい値であり、モデルがこの値を超える分子に対しても精度を維持すると予想されることにも注意してください 32。

この分析から、モデルには 154 分子中 94 個をカバーする新しいデータが含まれているのに対し、含まれていないモデルでは、拡張範囲の大幅な向上が見られました (χ2 = 4.73、p < 0.03、n = 154 分子、カイ二乗検定)。新しいデータは、154 分子のうち 75 個のみをカバーしていました (新規データを含めてトレーニングされたモデルのカバーされた DQ 分子とカバーされていない DQ 分子のリストについては、補足表 5 および 6 を参照してください)。 新規データを含むこの方法で対象分子と対象外分子を比較すると、対象外グループは Allelefrequency.net から取得した世界規模のハプロタイプ頻度データが大幅に低かった (これらの頻度の取得方法の詳細については、資料と方法を参照してください)。対象グループとの比較 (2 つのグループの平均度数は 0.0134 および 0.0025、t = 2.69、p = 0.0083、n = 94 対象分子および n = 60 非対象分子、両側スチューデント t 検定)。 これらの結果は、集団範囲の観点から見ると、対象外の DQ 分子の重要性が限定的であることを示唆しています。

DQ 空間の範囲を視覚化するために、特異性ツリーが構築されました。 ここでは、154 の一般的な HLA-DQ 分子のリストを開始点として使用しました。 このリストは、最初に独自の特異性を持つ 61 個の分子のセットに縮小され (詳細については方法を参照)、これらはその後の分析に含まれました。 次に、MHCCluster 法を適用して 61 個の DQ 分子をカバーする特異性ツリーが構築されました 33。 つまり、MHCCluster メソッドは、大規模なランダムな天然ペプチドの予測結合値間の相関関係を使用して、2 つの MHC 分子間の類似性を推定します。 図 5 は、14 の新規 DQ 分子の予測結合モチーフとともに得られた特異性ツリーを示しています。 すべての新規分子がツリーのさまざまな枝に多かれ少なかれ均一に広がり、すべての枝は、トレーニングデータ。 さらに、カバーされていない分子のサブクラスターがいくつか観察され(赤枠のモチーフで強調表示)、これらは DQ 擬似配列の系統樹のカバーされていないクラスターとほぼ 1 対 1 で対応することがわかりました(参照)。補足図11)。

このツリーは、新規データによって記述された 14 分子を含む 61 個の DQ 分子に基づいています。 オレンジ色の分子は、少なくとも 100 個のペプチドを含む新規データを含むメソッドでカバーされており、青色の分子はオレンジ色の分子から 0.025 以内の距離にあります。 黒い分子は覆われていません(つまり、ペプチド数が 100 未満で、オレンジ色の分子までの距離が 0.025 を超えています)。 黒枠内のロゴはオレンジ色の分子に対応します。 赤枠内のロゴは、覆われていない(黒)分子のクラスターを持つ分岐からの分子に対応します。 特異性ツリーは、100,000 個のランダムな天然 13 ~ 17 mer ペプチドのセットに対する DQ 分子の予測スコア間のペアごとの類似性から計算されました。 ロゴは、これら 100,000 ペプチドの上位 1% の最高スコアの結合コアに対して構築されました。

新しい DQ 免疫ペプチドドーム データを含むここで開発されたモデルは、https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2 で公開されています。 この方法により、すべての HLA-DQ 分子に対する HLA 抗原提示の予測が可能になり、予測はコンテキストエンコーディングの有無にかかわらず行うことができます。

DQ に対する私たちのメソッドのモチーフ デコンボリューション能力の最後のショーケースとして、最近公開された別の HLA クラス II 予測子である MixMHC2pred-2.0 に対してメソッドをベンチマークしました 7。 ベンチマーク データは Marcu et al.34 から取得したもので、15 のドナー サンプルからの溶出リガンド データで構成され、ランダムな陰性ペプチドが豊富に含まれています (ベンチマーク データの詳細については、材料と方法を参照し、概要については補足表 7 を参照してください)使用したサンプルの一部)。

まず、ペプチドのコンテキスト情報を含めずに 2 つの方法のパフォーマンスを評価しました。 図 6a は、データ全体におけるサンプルごとのこのパフォーマンスを示しており、3 つのメトリクスすべてにおいて独立したデータセットでこのメソッドが MixMHC2pred-2.0 よりも大幅に優れていることを示しています (すべてのメトリクスで p < 0.02、n = 15 サンプル、タイなしの片側二項検定) 。 さらに、図 6b は、いずれかの方法で DQ に対してアノテーションが付けられたペプチドの結合に限定されたサンプルごとのパフォーマンスを示しており、ここでも NetMHCIIpan-4.2 に有利な大幅なパフォーマンスの向上が示されています (すべてのメトリクスで p < 0.005、n = 15 サンプル、1 つのサンプル)タイなしの尾付き二項検定)。 ペプチドコンテキストエンコーディングを含むベンチマークを繰り返すと、私たちの方法はMixMHC2pred-2.0を大幅に上回りました(データ全体のすべてのメトリクスでp < 0.005、DQアノテーション付きペプチドの結合のすべてのメトリクスでp = 3·10−5、n = 15 サンプル、タイなしの片側二項検定 (補足図 12) を参照)。 どちらの方法でも、データ内でパーセンタイル ランクが 20 を超えるトラッシュ ペプチドの大部分が特定されたことに注意してください (NetMHCIIpan-4.2 と MixMHC2pred でそれぞれ約 21% と約 32%)。 これは、一般的にデータ品質が低く、相互検証で観察されたよりも大幅に低いパフォーマンスが得られることを示唆しています。 したがって、このデータのパフォーマンスは、各メソッドの予測能力の真の指標ではありません。 ただし、MixMHC2pred-2.0 と比較したこのメソッドの全体的なパフォーマンスの向上は、モチーフのデコンボリューションと DQ リガンドの同定において NetMHCIIpan-4.2 がより強力であることを示唆しています。

どちらの方法でも、ペプチドコンテキストエンコーディングを使用せずに予測が行われました。 各ポイントは、特定のサンプルのパフォーマンス メトリックです。 各箱ひげ図 (すべてのケースで n = 15 サンプル) は、上位四分位と下位四分位の間の IQR 内の中央値を示し、ひげは最大で IQR の 1.5 倍まで伸びます。 a データ全体に基づいて計算されたサンプルごとのパフォーマンス。 b 2 つの方法間の DQ アノテーション付きペプチドの結合に基づいて計算されたサンプルあたりのパフォーマンス。

DQヘテロ接合サンプルに対する私たちの方法のモチーフデコンボリューションを調査すると、トランスのみの分子が再び寄与に制限されていないことが観察されました(補足図13aを参照)。 DQ-SA または DQ-MA トレーニング データ (それぞれ cis-SA および cis-MA) で見つかった観察された cis バリアントに関しては、cis-SA 分子の寄与が最も大きく、cis-MA の寄与はトランスのみのバリアント (t = 4.64、p = 0.0002、n = 12 cis-MA 分子および n = 7 trans-only 分子、両側 t 検定)。 cis-SA分子と同じ擬似配列を有するcis-MA分子を考慮すると、同様の結果が見出された(補足図13b)。 この結果は、異なる分子クラス間でほぼ同等の寄与が観察された MixMHC2pred で観察されたものとは対照的です。 補足図13c、dは、Marcuらのヘテロ接合サンプルのDQモチーフのデコンボリューションを示しています。 それぞれ当社法とMixMHC2predによる202134。 これらのモチーフのデコンボリューションは全体的に上記の結果を反映しており、NetMHCIIpan-4.2 によってトランスのみのバリアントに割り当てられたペプチドの数は非常に限られており、MixMHC2pred-2.0 によってすべての DQ 分子にほぼ均等に寄与しています。

この研究では、洗練された免疫情報学データマイニングと組み合わせた合理的なデータ生成が、HLA クラス II 抗原提示予測のパフォーマンスをどのように向上させ、HLA-DR と HLA-DQ の間のパフォーマンスのギャップを埋める方向に進むことができるかを実証しました。

私たちは、世界中の異なる集団で合計 14 個の頻度の高い HLA-DQ 分子をカバーする、一連の 16 個の HLA-DQ ホモ接合性細胞株から高品質の MS-免疫ペプチドミクス データを生成しました。 社内の HLA-DQ 特異的抗体を使用することで、各細胞株で平均 2,600 個の固有のペプチドが同定された、DQ の文脈において前例のない量の MS 免疫ペプチドミクス データセットの同定が可能になりました。 この大量のデータを NetMHCIIpan-4.1 開発の初期データと統合することで、HLA-DQ 抗原提示予測性能を HLA-DR と同等のレベルまで高めることができました。 新しいデータを使用してトレーニングした場合と使用しない場合の 2 つの方法のモチーフ デコンボリューションの精度を調査したところ、すべての HLA 分子にわたってモチーフの一貫性が全体的に向上していることが実証されました。 この観察は、新規 HLA-DQ データの統合により、個々の MS-HLA ペプチドの HLA 制限割り当てが全体的に改善され、3 つの HLA クラス II 遺伝子座すべてにわたってより正確なモチーフの特徴付けがどのように行われるかを示しています。 この改善の主な原因は、モチーフのデコンボリューション中の HLA-DQ 分子へのペプチド割り当て量の増加であることが実証されました。 これにより、大量のペプチドによって課せられた HLA-DQ と、新規 DQ データを含まないモデルによって制限された DQ として誤って割り当てられたペプチドの除去による非 HLA-DQ 分子の両方のモチーフ精度が向上しました。

次に、シスとトランスのみの HLA-DQ α 鎖と β 鎖の組み合わせの問題に移り、新規データを含まない方法とは対照的に、新規データを含めてトレーニングされたモデルは DQ モチーフのデコンボリューションをほぼ単独で実行することを実証しました。既知の HLA-DQ シスバリアントを使用します。 ここでの 1 つの特定の例は HLA-DQ 分子 DQA1*01:01-DQB1*03:01 で、これには新規データなしでトレーニングされたモデル内の多数のペプチドが割り当てられました。 しかし、新規データを含めると、この分子へのペプチドの割り当てはほぼ完全に枯渇しました。 この結果は、新規データを含めてトレーニングされたモデルの HLA-DQ ペプチド量の全体的な増加とモチーフの一貫性と組み合わせると、トランスのみの HLA-DQ α と β の組み合わせが HLA-DQ 免疫ペプチドドーム全体に最小限またはまったく寄与しないことを強く示唆しています。 ここで定義されるシスおよびトランスのみの二量体化の定義は、安定/不安定な HLA-DQ ヘテロ二量体を形成するために以前に提案された規則に正確に従っているため、この発見は驚くべきものです。 具体的には、ルールは、構造的制約が DQA1*01 と DQB1*02、03、および 04 対立遺伝子の二量体化に有利ではなく、その結果、それらの非効率的なアセンブリ、安定性および表面発現の欠如、したがって機能の損失を引き起こすことを示しています 12,14。 したがって、これらの結果は、カスタマイズされたデータマイニング方法と合理的に定義されたデータセットを使用して、そのような規則がどのようにしてMS-免疫ペプチドドームデータから直接学習できるかを示しており、シスα-トランスα-α-α-α-α-α-α-α-α-α-トランスα-α-の理解をさらに進めるために、同様のタイプの分析をHLA-DPに拡張する必要があることを示唆していますそしてβ鎖ペアリング。

SA トレーニング データには cis-DQ バリアントのみが示されているため、トランスのみの分子に対するアノテーションの数が少ないことがトレーニング データのバイアスによって引き起こされている可能性を完全に排除することはできません。 この潜在的な偏りは、複数の cis-DQ 分子を含むサンプルの場合、私たちの方法では一貫して、DQ-SA トレーニング データでカバーされていない cis-バリアントに注釈を付けるペプチドの数が少ないという事実によっても示されています。 これを考慮すると、現在 cis-MA データのみでカバーされている追加の DQ 分子の SA データセットを生成して、これらのバリアントのペプチドの優先順位とプレゼンテーション階層の真の違いを明らかにすることは、非常に価値があるでしょう。 さらに、MixMHC2pred に対するベンチマークに使用された独立した MA データセットには非常にノイズが多く、各メソッドの予測能力を最適に表すことができませんでした。 そのため、さまざまな方法の予測力をさらに検証して比較し、トランスのみのバリアントの処理に対するどの方法のアプローチが優れているかを評価するには、追加の高品質 DQ-MA データセットが必要です。

この研究で適用されるシスおよびトランスのみの HLA-DQ α 鎖および β 鎖の組み合わせの定義は、現在入手可能なハプロタイプ データと、観察されたすべてのハプロタイプ α および β の組み合わせが対になってシス-DQ を形成できるという仮定に依存していることに注意してください。バリアント、およびそのようなシスバリアントとして観察されない他のすべての組み合わせはトランスのみです。 これらのカテゴリーを定義する現在のデータは量が限られており、特により不均一なグループや低頻度のハプロタイプの場合、より正確な分析にはより大きなサンプルサイズが必要です13。

最後に、新規データでトレーニングされたモデルによって HLA-DQ 分子のカバレッジがどのように大幅に増加するかを実証し、すべてのブランチのカバレッジを示す HLA-DQ ツリーを構築することでこれを示しました。 これは、現在のモデルがすべての HLA-DQ 結合特異性をカバーしていることを示唆しています (トランスのみの HLA-DQ 分子が HLA-DQ 免疫ペプチドドーム全体に寄与していないことを考慮すると)。

全体として、この研究は、DQ 特異的抗体を使用した慎重なデータ生成と、洗練されたデータマイニングおよびモチーフのデコンボリューションと組み合わせたアフィニティー精製を、HLA-DR と HLA-DQ の間のペプチド結合予測におけるパフォーマンスのギャップを埋めるためにどのように適用できるかを実証しました。 ここで実証されたパフォーマンスの大幅な向上にも関わらず、HLA-DQ の精度は依然として DR で観察された精度を下回っています。 我々は、これが、ほとんどの場合、汎 HLA クラス II 抗体を使用して DQ (および DP) データが取得されていた初期の DQ 免疫沈降研究で得られたリガンドの量と質が一般的に低いことに起因している可能性が非常に高いことを実証します (最初の研究後)。 HLA-DR29 では枯渇します)。 この研究で生成された新規データのみに焦点を当てると、得られた DQ リガンドの量と質の両方が HLA-DR で見つかったものと同等であり、その結果、関連するデータセットの予測性能が 2 つ間で同等であることがわかります。 この結果は大きな影響を及ぼし、DQ のモデリングが HLA-DR と同等の複雑さのタスクであること、および DR と比較して DQ の現在のパフォーマンスの低下は、データの量と質が低いことが原因であることを示唆しています。 この状況は、この研究で概説されているように、高品質で大量のデータを生成することで解決できます。

結論として、全体的に改善された予測性能と HLA-DQ 分子の適用範囲を実証する以外に、我々の研究の重要な成果は、HLA-DQ 免疫ペプチド全体に対するシスとトランスのみのペア分子の相対的な寄与についての理解が向上したことです。特異性空間を補完する上での後者の役割は非常に限られています。 私たちは、これらの発見が、自己免疫疾患や感染症における細胞性免疫の発症における HLA-DQ の分子的役割を定義するさらなる研究の基礎を提供すると信じています。

ホモ接合型 B リンパ芽球様細胞株 (BLCL) は、ワシントン州シアトルのフレッド ハッチンソン癌研究センターに保管されている国際組織適合性ワーキング グループ (IHWG) 細胞および DNA バンクから入手しました (http://www.ihwg.org)。 高頻度の HLA-DQ 対立遺伝子を発現する 16 細胞株のグループが研究のために選択されました (補足データ 1)。 無傷のクラス II プロセシングおよび提示機構を保証し、総 HLA-DQ 発現が生理的レベルを表すことを保証するために、操作された細胞の使用は避けられました。

細胞は、15%ウシ胎児血清(FBS;Gibco/Invitrogen Corp)および1%100mMピルビン酸ナトリウム(Gibco)を補充した完全RPMI培地(Gibco)中のローラーボトル中で高密度培養で増殖させた。 細胞を懸濁液から採取し、PBSで洗浄し、4℃で10分間遠心沈殿させた。 細胞ペレットは直ちに LN2 中で凍結され、下流の処理まで -80 で保存されました 23。 すべての細胞株は、大規模培養前の認証のために、当社の研究室で受領および増殖後すぐに高解像度 HLA タイピング (HLA-A、-B、-C、DRB1、3、4、5、DP および DQ) を受けました。そしてデータ収集。 抗ヒト HLA-DQ 特異的モノクローナル抗体は、ハイブリドーマ細胞株 (クローン SPVL3) から社内で産生され、BLCL からの総 HLA DQ のアフィニティー精製に使用されました。

抗ヒトHLA-DQ特異的抗体(クローンSPVL3)を使用するアフィニティークロマトグラフィーにより、HLA-DQ分子を細胞から精製した。 イムノアフィニティーカラムは、2 mg の精製抗体を 1 mL のマトリックス (CNBr 活性化セファロース 4 Fast Flow、Amersham Pharmacia Biotech、オルセー、フランス) に結合させることによって生成しました 23。 凍結細胞ペレットを Retsch Mixer Mill MM400 を使用して粉砕し、Tris pH 8.0 (50 mM)、Igepal、0.5%、NaCl (150 mM) および完全プロテアーゼ阻害剤カクテル (Roche、マンハイム、ドイツ) で構成される溶解バッファーに再懸濁し、ロータリーシェーカー上で 4℃、1 時間。 溶解物をOptima XPN-80超遠心機(Beckman Coulter、インディアナ州、米国)で4℃で90分間遠心分離しました(200,000 xg)。 透明な上清を0.45μmフィルターを使用して濾過し、イムノアフィニティーカラムに4℃で一晩ロードした。カラムをpH:8.026の10cvの洗浄緩衝液で連続的に洗浄し、0.2N酢酸で溶出した。 HLAを変性させ、氷酢酸(最大10%)を加えて加熱(76℃で10分間)することによってペプチドを単離した。 ペプチドとHLA-DQの混合物を逆相高速液体クロマトグラフィー(RP-HPLC)に供した。

RP-HPLC を使用して、アフィニティーカラムから溶出されたペプチド混合物の複雑さを軽減しました。 まず、CentriVap 濃縮装置 (Labconco、米国ミズーリ州カンザスシティ) を使用して、溶出液を真空下で乾燥させました。 固体残留物を 10% 酢酸に溶解し、Paradigm MG4 装置 (Michrom BioResources、オーバーン) を使用して、長さ 150 mm の Gemini C18 カラム、孔径 110 Å、粒子サイズ 5 μm (Phenomenex、米国カリフォルニア州トーランス) で分画しました。 、米国カリフォルニア州)。 2 溶媒系を使用して、アセトニトリル (ACN) 勾配を pH 2 で実行しました。 溶媒 A は水中に 2% の ACN を含み、溶媒 B は ACN 中に 5% の水を含みました。 溶媒 A と溶媒 B の両方には、0.1% トリフルオロ酢酸 (TFA) が含まれていました。 カラムは 2% 溶媒 B であらかじめ平衡化しておきました。2% 溶媒 B からなる溶媒系を流速 120 μl/min で使用して、サンプルを 18 分間でカラムにロードしました。 次に、2 セグメントのグラジエントを 160 µl/min の流速で実行しました。4 ~ 40% の溶媒 B で 40 分間、続いて 40 ~ 80% の溶媒 B で 8 分間でした23。 Gilson FC 203B フラクションコレクター (Gilson、米国ウィスコンシン州ミドルトン) を使用して画分を 2 分間隔で収集し、溶出液の紫外 (UV) 吸収プロファイルを 215 nm の波長で記録しました。

ペプチドを含む HPLC 画分を乾燥し、10% 酢酸、2% ACN、および内部標準として iRT ペプチド (Biognosys、シュリーレン、スイス) から構成される溶媒に再懸濁しました。 画分を、長さ 5 mm、内径 350 μm、粒子径 3 μm、細孔 120 Å の Chrom XP C18 トラップ カラムを含む Eksigent nanoLC 415 ナノスケール RP-HPLC (AB Sciex、米国マサチューセッツ州フレーミングハム) に個別にアプライしました。同じ培地を充填した長さ 15 cm の ChromXP C18 分離カラム (内径 75 μm) (AB Sciex、Framingham、Massachusetts、USA)。 2 溶媒系を使用して、ACN 勾配を pH 2.5 で実行しました。 溶媒Aは0.1%ギ酸水溶液であり、溶媒Bは0.1%ギ酸95%ACN水溶液であった。 カラムは 2% 溶媒 B であらかじめ平衡化しておきました。サンプルを 5 μL/min の流速でトラップカラムにロードし、2 つの直線勾配 (10 ~ 40% B で 70 分間) を使用して 300 nL/min で分離カラムを通過させました。 、続いて 40 ~ 80% B を 7 分間。

カラム流出液は、AB Sciex TripleTOF 5600 四重極飛行時間型質量分析計 (AB Sciex、Framingham、MA、USA) のナノスプレー III イオン源を使用し、電源電圧を 2400 V に設定してイオン化しました。 情報依存分析 (IDA) ) のペプチドイオンは、300 ~ 1250 m/z の範囲で 0.25 秒間の TOF-MS 陽イオンモードでのサーベイ スキャンに基づいて取得されました。 各サーベイスキャンの後、荷電状態が 2 ~ 5、強度が 1 秒あたり少なくとも 200 カウントの最大 22 個のイオンに対して、タンデム MS 分析 (MS/MS) のための衝突誘起解離 (CID) が最長 30 時間にわたって適用されました。 3.3秒特定のイオン m/z の選択は、最初の 3 回の MS/MS 実験後 30 秒間除外されました。 動的衝突エネルギーを利用して、イオンのサイズと電荷に基づいて衝突電圧を自動的に調整しました23。 データの視覚化には、PeakView ソフトウェア バージョン 1.2.0.3 (AB Sciex、Framingham、MA、USA) を使用しました。

ペプチド配列は、PEAKS Studio 10.5 ソフトウェア (Bioinformatics Solutions, Waterloo, Canada) を使用して、前駆体質量誤差許容値 30 ppm およびフラグメント質量誤差許容値 0.02 Da で同定されました。 SwissProt Homo sapiens (分類群識別子 9606) と iRT ペプチド配列で構成されるデータベースをデータベース検索の参照として使用しました。 アセチル化、脱アミド化、ピログルタミン酸形成、酸化、ナトリウム付加物、リン酸化、システイニル化などのさまざまな翻訳後修飾 (PTM) がデータベース検索に含まれました。 同定されたペプチドは、PEAKS デコイ融合アルゴリズムを使用して、1% の誤検出率 (FDR) でさらにフィルタリングされました。

免疫ペプチドドーム データは、初期の NetMHCIIpan-4.1 からの MS 溶出リガンド (EL) および結合親和性 (BA) データと、この研究用に特別に生成された EL データを組み合わせたもので構成されます (上記を参照)。 新しい MS 免疫ペプチドドーム データ セットは、16 個のホモ接合性 BLCL から得られた 14 個の異なる HLA-DQ 分子をカバーしています。 このデータをフィルタリングして、潜在的な HLA クラス I 結合物質や免疫共沈降したその他の夾雑物を除外し、長さ 12 ~ 2123 のペプチドのリストを得ました。

EL データは、ソースタンパク質のコンテキストを定義するためにヒト参照ソース プロテオームにマッピングされました。 同一の参照一致がないペプチドは除外され、その結果、約 4% のペプチドが廃棄されました。 最後に、ネガティブとして割り当てられたランダムな天然ペプチドを使用して、サンプル ID ごとに EL データを強化しました。 この濃縮は、所定のサンプルの陽性データで最も一般的な長さのペプチドの数の 5 倍に等しい量で、長さ 12 ~ 21 のアミノ酸のペプチドを均一な方法でサンプリングすることによって行われました。

私たちの最終的な新規データセットは、14 個の固有の HLA-DQ 分子をカバーする 39,334 個の陽性ペプチドと 369,313 個の陰性ペプチドで構成されています。 このデータセットの陽性ペプチドは補足データ 2 で入手できます。新しい EL データを以前の NetMHCIIpan-4.1 データ (長さ 12 アミノ酸のペプチドを含むように拡張) と結合すると、完全な EL データは 480,845 個の陽性データ ポイントと 4,910,165 個の陰性データ ポイントで構成されます。 177 サンプル/細胞株からのデータであり、BA データは 129,110 のデータ ポイントで構成されます。

データは、EL と BA データを結合する共通モチーフ アプローチ 35 を使用して交差検証されたメソッドのトレーニングと評価のために 5 つのサブセットに分割され、9 個以上の連続するアミノ酸の同一の重複を共有するペプチドが同じサブセットに配置されるようにしました。

モデルは、NetMHCIIpan-4.02 の場合と同様の方法で、NNAlign_MA 機械学習フレームワーク 31 を使用してトレーニングされました。 つまり、完全なモデルは、1 つの隠れ層と 40 個または 60 個の隠れニューロンを備えた 2 つの異なるアーキテクチャの 100 個のニューラル ネットワークのアンサンブルで構成され、5 つの交差検証フォールドのそれぞれに 10 個のランダムな重み初期化が行われます (2 つのアーキテクチャ、10種、5倍)。 すべてのモデルは、確率的勾配降下法によるバックプロパゲーションを使用して、300 エポックの間、早期停止なしで、0.05 の一定学習率でトレーニングされました。 20 エポックのバーンイン期間のトレーニングには、単一対立遺伝子 (SA) データのみが含まれました。 その後のトレーニング サイクルには、マルチ対立遺伝子 (MA) データが含まれていました。 2 つの主要なモデルがトレーニングされました。1 つはオリジナルの NetMHCIIpan-4.1 データを含み、もう 1 つは新しい HLA-DQ データを含みました。 さらに、ペプチドコンテキストエンコーディングを使用して、新しいデータで追加のモデルをトレーニングしました。 ここで、コンテキストは、ペプチドの N 末端と C 末端の両方で、ペプチドに隣接するソースタンパク質からの 3 残基と、ペプチドからの 3 つの開始残基がすべて連結されて 12 mer アミノ酸配列になるものとして定義されました。 詳細については、Barra et al. を参照してください。 201827.

MA データセットの場合、各ペプチドの HLA アノテーションは、特定の細胞株で発現された HLA 分子の中で最も高い予測スコアが得られたかどうかに基づいています。 HLA の予測スコア分布間の差異のバランスを取るために、ランダムな天然ペプチドの予測スコアの分布に対して予測スコアをランク付けすることにより、各分子のパーセンタイル正規化予測スコアが生成されました。 例として、ペプチドリガンドのパーセンタイルランクスコアが 1 の場合、ランダムペプチドの 1% が、指定された HLA19,36 のペプチドリガンドよりも高い予測スコアを持ったことを意味します。

パフォーマンスは、AUC (ROC 曲線下面積)、AUC 0.1 (偽陽性率 10% まで統合された ROC 曲線下面積)、および陽性的中率という 3 つの個別の指標を使用して、連結された相互検証テスト セットの予測に基づいて評価されました。 (PPV)。 各メトリクスは、HLA アノテーション後の「生の」予測スコアから HLA ごとに計算されました。 さらに、PPV は、上位 N の予測における真陽性の割合として計算されました。ここで、N は、特定の HLA 分子に割り当てられたリガンドの数です。 HLA ごとのパフォーマンス評価では、計算されたパフォーマンス メトリクスの確実性を確保するために、両方のモデルで少なくとも 10 個の陽性ペプチドを持つ HLA 分子のみがパフォーマンス評価に含まれました。

NNAlign_MA のモチーフ デコンボリューションに対する新しい DQ データの影響を評価するために、一貫性相関行列分析が実行されました 2。 この分析に偏りをもたらす潜在的な MS 免疫共沈降夾雑ペプチドを避けるために、同定されたトラッシュペプチド (つまり、2 つのモデルのいずれかで 20 を超えるパーセンタイルランクが与えられた陽性ペプチド) の結合を除去しました。 次に、予測されたペプチド結合コアに基づいて、各細胞株の各分子について位置特異的スコアリング マトリックス (PSSM) を生成しました。 ここで、PSSM を生成するには、少なくとも 20 個の陽性ペプチドが必要でした。 次に、特定の分子を共有する細胞株のペアごとに、分子の PSSM 間のピアソン相関係数 (PCC) が計算されました。 次に、特定の分子の平均一貫性値を、各固有の細胞株ペアにわたる平均 PCC として与えました (自己相関を除く)。 したがって、この測定基準は、各 HLA クラス II 分子のさまざまなデータセットにわたって、同定された結合モチーフがどの程度一貫しているかを示します。

2 つの HLA クラス II 分子間の距離は、2 つの分子の擬似距離から推定されました。

ここで、s(X, Y) は、分子 X と Y37 の擬似配列間の BLOSUM 50 類似度の合計です。 ここで、各疑似配列は、連続配列に連結された HLA 配列内の 34 個の多型残基のセットから定義され、そのうち 15 残基と 19 残基はそれぞれ α 鎖と β 鎖に由来します 32。

広く安定した HLA-DQ ヘテロ二量体を形成する HLA-DQ α 鎖および β 鎖のリストは、最初に注釈付きの世界的な対立遺伝子頻度を持つ DQA1 および DQB1 対立遺伝子のリストを取得することによって構築されました。 これは、allelefrequency.net データベース 38 に、サイズ 100 以上の集団の高解像度対立遺伝子をクエリすることによって行われました。 次に、世界の対立遺伝子頻度を、最大集団サイズを 1000 に制限した集団サイズ加重平均として取得しました。最後に、分子のみを含む、表 1 に概要を示した制限に従ってすべての α と β の組み合わせをペアにすることにより、流行している HLA-DQ 分子のリストを作成しました。結合対立遺伝子頻度 > 0.00005。 これにより、154 個の HLA-DQ 分子のリストが得られました。

世界規模の HLA-DQ ハプロタイプ頻度は、allelefrequency.net データベース 38 に、HLA-DQ 頻度について上述したように、サイズ 100 以上の集団における高分解能 DQ ハプロタイプ、つまり集団全体の平均を照会することによって推定されました。

HLA-DQ 特異性ツリーは、最初に 154 個の一般的な HLA-DQ 分子のリストを分子間の固有の擬似配列のセットに還元することによって構築されました。 次に、それぞれの固有の擬似配列を代表的な HLA-DQ 分子名にマッピングしました。 デフォルトでは、トレーニング データでカバーされる分子リスト内の DQ 分子が、可能な場合には擬似シーケンスを表すために使用されます。 さらに、新規データ内の 14 個の DQ 分子すべてが、所定の擬似配列を表すために使用されました。 特定の擬似配列に対して複数のオプションがある他のケースでは、全体的な対立遺伝子頻度の観点から最も一般的な DQ 分子が選択されました。 次に、MHCCluster メソッド 33 を使用して特異性ツリーを計算し、Iroki 系統樹ビューアー 39 を使用して視覚化しました。

同様のツリーが、DQ 擬似シーケンスのクラスタリングに基づいて構築されました。 このツリーは、ClustalW-2.140 の系統樹機能を使用して計算され、Iroki ツリー ビューア 39 を使用して再度視覚化されました。

MixMHC2pred-2.07 に対するベンチマークでは、独立したデータセットを Marcu et al.34 から取得しました。これは、15 のドナーサンプルからの溶出リガンドデータで構成されています (補足表 7 に記載)。 このデータはトレーニング データと同じ方法で処理されました。つまり、ペプチドがヒト プロテオームにマッピングされてコンテキストが定義され、その後、ランダムなネガティブ ペプチドが濃縮されました。 バイアスを軽減するために、私たちの方法の EL トレーニング データに存在するペプチドはベンチマークに含まれていませんでした。 これにより、66 個の固有の HLA クラス II 分子をカバーする合計 163,933 個の陽性ペプチドと 2,900,818 個の陰性ペプチドが得られました。

ベンチマーク データの予測は、ペプチド コンテキスト エンコーディングを使用した場合と使用しない場合の両方で行われました。 ソースタンパク質の先頭または末尾近くに位置するペプチドについては、MixMHC2pred-2.0 および我々の方法では、欠落しているコンテキスト残基がそれぞれ「-」および「A」で表されました。 さらに、私たちの方法と MixMHC2pred の両方で、各ペプチドの HLA アノテーションは、所定のサンプル中の HLA 分子について所定の方法によって報告された最も低いパーセンタイル ランク スコアに基づいていました。

性能は、AUC、AUC 0.1、PPV の観点からサンプルごとに評価されました。 私たちの方法では、「生」予測スコアを使用して相互検証と同じ方法でパフォーマンス値を計算しましたが、MixMHC2pred-2.0 では、報告されたパーセンタイル ランク スコアを使用してパフォーマンスを計算しました。

原稿図のデータ視覚化は、Matplotlib ライブラリ (バージョン 3.5.1) と seaborn ライブラリ (バージョン 0.12.0) を使用して Python 3.8 で作成されました。 シーケンス ロゴは Seq2Logo-2.041 を使用して構築されました。

統計分析は、scipy ライブラリ (バージョン 1.9.1) を使用して Python 3.8 で行われました。 各統計検定のサンプル サイズは、データ内に存在するサンプルまたは HLA 分子の数に基づいていました。 さらに、各検定では標準有意水準 0.05 を使用しました。 パフォーマンス評価では、主に同率を除いた片側二項検定を使用して統計検定を実行しました。 したがって、これらのテストにおける対立仮説は、新規データを使用してトレーニングされたメソッドは、特定のサンプルまたは HLA 分子に対して他のメソッドよりも優れたパフォーマンスを発揮する可能性が高いということです。

実験結果と計算結果の再現性は、実験計画を非常に詳細に説明し、関連するすべてのデータセットを利用可能にすることによって保証されました (「データの利用可能性」を参照)。 実験データの生成では、同じ HLA-DQ 対立遺伝子を共有する 2 セットの異なるホモ接合性 BLCL を使用して、これらの対立遺伝子に対して得られたモチーフの再現性を確認しました (721.221 および IHW09004 は DQA1*01:01-DQB1*05:01 対立遺伝子を共有し、 IHW09072 と IHW9100 は DQA1*04:01-DQB1*04:02 対立遺伝子を共有しました)。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

質量分析プロテオミクス データは、PRIDE42 パートナー リポジトリを介して、データセット識別子 PXD040860 および 10.6019/PXD040860 で ProteomeXchange コンソーシアムに寄託されています。 研究で使用された 16 個の BLCL の HLA タイピングは補足データ 1 に含まれています。この研究のために生成された新しい免疫ペプチドミクス データは補足データ 2 に含まれています。主要な数値を生成するために使用された数値ソース データは補足データ 3 に含まれています。研究で使用されたデータセットは、https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2/ にある「トレーニング データ セット」ページの NetMHCIIpan-4.2 Web サーバーからダウンロードできます。

Rocha, N. および Neefjes, J. 抗原提示の成功に向けて移動中の MHC クラス II 分子。 EMBO J. 27、1–5 (2008)。

論文 CAS PubMed Google Scholar

レイニッソン、B.ら。 質量分析 MHC 溶出リガンド データの統合と Motif デコンボリューションにより、MHC II 抗原提示の予測が向上しました。 J.プロテオームRes. 19、2304–2315 (2020)。

論文 CAS PubMed Google Scholar

アランゴ、MT 他。 HLA-DRB1 は自己免疫のモザイクにおける悪名高い遺伝子です。 イムノール。 解像度 65、82–98 (2017)。

論文 CAS PubMed Google Scholar

Erlich、H. et al. HLA DR-DQ ハプロタイプと遺伝子型、および 1 型糖尿病遺伝学コンソーシアムファミリーの 1 型糖尿病リスク分析。 糖尿病 57、1084–1092 (2008)。

論文 CAS PubMed Google Scholar

胡、Xら。 HLA-DQ および HLA-DR 分子の 3 つのアミノ酸位置における相加効果および相互作用効果が 1 型糖尿病のリスクを高めます。 ナット。 ジュネ 47、898–905 (2015)。

論文 CAS PubMed PubMed Central Google Scholar

Stepniak, D. et al. 天然リガンドの大規模な特性評価により、HLA-DQ2 の独特なグルテン結合特性が説明されます。 J.Immunol. 180、3268–3278 (2008)。

論文 CAS PubMed Google Scholar

ラクル、J.ら。 MHC-II 特異性の機械学習予測により、クラス II エピトープの代替結合モードが明らかになります。 bioRxiv https://doi.org/10.1101/2022.06.26.497561 (2022)。

Bergseng、E. et al. セリアック病関連 HLA 分子 DQ2.5、DQ2.2、および DQ7.5 の異なる結合モチーフが、内因性ペプチド レパートリーの相対定量的プロテオミクスによって明らかになりました。 免疫遺伝学 67、73–84 (2014)。

記事 PubMed PubMed Central Google Scholar

シドニー、J.ら。 モチーフは多岐にわたるが、世界中のヒト集団で頻繁に発現する 6 つの HLA-DQ 分子の結合レパートリーは重複している。 J.Immunol. 185、4189–4198 (2010)。

論文 CAS PubMed Google Scholar

ヴァルトダル、F.ら。 疾患関連 HLA-DQ (α 1* 0501、β 1* 0201) 分子のペプチド結合モチーフ。 ユーロ。 J.Immunol. 26、2764–2772 (1996)。

論文 CAS PubMed Google Scholar

Tollefsen, S. et al. トランスコードされた HLA-DQ2.3 (DQA1*03:01/DQB1*02:01) タンパク質分子の構造および機能の研究。 J.Biol. 化学。 287、13611–13619 (2012)。

論文 CAS PubMed PubMed Central Google Scholar

Kwok, WW、Kovats, S.、Thurtle, P. & Nepom, GT HLA-DQ 対立遺伝子多型は、クラス II ヘテロ二量体形成のパターンを制約します。 J.Immunol. 150、2263–2272 (1993)。

論文 CAS PubMed Google Scholar

Creary、LE et al. 次世代シークエンシングによって決定されたいくつかの無関係な集団における高解像度 HLA 対立遺伝子およびハプロタイプ頻度: 第 17 回国際 HLA および免疫遺伝学ワークショップの共同報告書。 ハム。 イムノール。 82、505–522 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

ペテルスドルフ、EW 他造血細胞移植における HLA-DQ ヘテロ二量体血液 139、3009–3017 (2022)。

論文 CAS PubMed Google Scholar

ルンディン、KE et al. セリアック病に関連するシスまたはトランスコードされた HLA-DQ アルファ/ベータ ヘテロダイマーの T リンパ球認識。 J.Immunol. 145、136–139 (1990)。

論文 CAS PubMed Google Scholar

Kwok, WW & Nepom, GT HLA クラス II 二量体の構造的および機能的制約は、インスリン依存性糖尿病への感受性に関係しています。 バイリエール クリン。 内分泌。 メタブ。 5、375–393 (1991)。

論文 CAS PubMed Google Scholar

McFarland, BJ & Beeson, C. クラス II 主要組織適合性複合体のペプチドとタンパク質間の結合相互作用。 医学研究所。 Rev. 22、168–203 (2002)。

論文 CAS PubMed Google Scholar

Nielsen, M.、Andreatta, M.、Peters, B. & Buus, S. 免疫情報学: ペプチドと MHC の結合の予測。 アヌ牧師バイオメッド。 データサイエンス 3、191–215 (2020)。

記事 Google Scholar

Reynisson, B.、Alvarez, B.、Paul, S.、Peters, B. & Nielsen, M. NetMHCpan-4.1 および NetMHCIIpan-4.0: モチーフのデコンボリューションと MS MHC 溶出リガンド データの統合による MHC 抗原提示の予測の改善。 核酸研究所 48、W449–W454 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Gfeller, D. & Bassani-Sternberg, M. 抗原提示の予測 - 100 万個のペプチドから何が学べるでしょうか? フロントイミュノール。 1716年9月(2018年)。

記事 PubMed PubMed Central Google Scholar

Nielsen, M.、Lund, O.、Buus, S. & Lundegaard, C. MHC クラス II エピトープ予測アルゴリズム。 免疫学 130、319–328。

論文 CAS PubMed PubMed Central Google Scholar

Bassani-Sternberg、M. 他質量分析法により、天然のヒト黒色腫組織に存在する臨床的に関連するネオエピトープを直接同定します。 ナット。 共通。 7、13404 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

Kaabinejadian、S. et al. 免疫ペプチドミクス データの正確な MHC モチーフ デコンボリューションにより、DR 免疫ペプチド全体に対する DRB3、4、および 5 の重要な寄与が明らかになります。 フロントイミュノール。 13、835454 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

Alvarez, B.、Barra, C.、Nielsen, M. & Andreatta, M. 免疫ペプチドドームの配列モチーフの同定と解釈のための計算ツール。 プロテオミクス 18、1700252 (2018)。

記事 Google Scholar

キャロン、E.ら。 質量分析法を使用した主要組織適合性複合体 (MHC) 免疫ペプチドドームの分析。 モル。 細胞。 プロテオム。 14、3105–3117 (2015)。

記事 CAS Google Scholar

Purcell, AW、Ramarathinam, SH & Ternette, N. 免疫ペプチドミクスのための MHC 結合ペプチドの質量分析に基づく同定。 ナット。 プロトック。 14、1687–1707 (2019)。

論文 CAS PubMed Google Scholar

Barra, C. et al. 抗原処理のフットプリントにより、MHC クラス II 天然リガンドの予測が強化されます。 Genome Med 10、84 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

ポール、S.ら。 溶出された主要組織適合性複合体クラス II リガンドの予測切断モチーフの決定。 フロント。 イムノール。 1795 年 9 日 (2018 年)。

記事 PubMed PubMed Central Google Scholar

ラクル、J.ら。 免疫ペプチドドームのディープモチーフデコンボリューションによる HLA クラス II エピトープの確実な予測。 ナット。 バイオテクノロジー。 37、1283–1286 (2019)。

論文 CAS PubMed Google Scholar

ワン、P.ら。 HLA DR、DP、および DQ 分子のペプチド結合予測。 BMCバイオインフォマ。 11, 568 (2010)。

記事 Google Scholar

アルバレス、B.ら。 NNAalign_MA; MHC ペプチドドームのデコンボリューションによる正確な MHC 結合モチーフの特性評価と T 細胞エピトープ予測の改善。 モル。 細胞。 プロテオム。 18、2459–2477 (2019)。

記事 CAS Google Scholar

カロシエン、E. et al. NetMHCIIpan-3.0 は、3 つのヒト MHC クラス II アイソタイプ、HLA-DR、HLA-DP、および HLA-DQ をすべて含む汎特異的 MHC クラス II 予測メソッドです。 免疫遺伝学 65、711–724 (2013)。

論文 CAS PubMed Google Scholar

Thomsen, MCF、Lundegaard, C.、Buus, S.、Lund, O. & Nielsen, M. MHCcluster、MHC 分子の機能的クラスタリングの方法。 免疫遺伝学 65、655–665。

論文 CAS PubMed PubMed Central Google Scholar

マルク、A.ら。 HLA リガンド アトラス: T 細胞ベースの癌免疫療法を改善するための HLA 提示ペプチドの良性リファレンス。 J.イミュノザー。 がん 9、e002071 (2021)。

記事 PubMed PubMed Central Google Scholar

Nielsen, M.、Lundegaard, C. & Lund, O. 新しい安定化マトリックス アラインメント法である SMM-align を使用した MHC クラス II 結合親和性の予測。 BMCバイオインフォマ。 8、238 (2007)。

記事 Google Scholar

Nielsen, M. & Andreatta, M. NetMHCpan-3.0; 複数の受容体およびペプチド長のデータセットからの情報を統合して、MHC クラス I 分子への結合の予測を改善しました。 ゲノム医学。 8、33 (2016)。

記事 PubMed PubMed Central Google Scholar

フーフ、I. et al. NetMHCpan、人間を超えた MHC クラス I バインディング予測メソッド。 免疫遺伝学 61、1–13 (2009)。

論文 CAS PubMed Google Scholar

Gonzalez-Galarza, FF、Christmas, S.、Middleton, D. & Jones, AR アレル頻度ネット: 世界中の人口における免疫遺伝子頻度のデータベースおよびオンライン リポジトリ。 核酸研究所 39、D913–D919 (2011)。

論文 CAS PubMed Google Scholar

Moore、RM、Harrison、AO、McAllister、SM、Polson、SW、Eric Wommack、K. Iroki: 系統樹の自動カスタマイズと視覚化。 PeerJ 8、e8584 (2020)。

記事 PubMed PubMed Central Google Scholar

マサチューセッツ州ラーキンら。 Clustal W および Clustal X バージョン 2.0。 バイオインフォマティクス 23、2947–2948 (2007)。

論文 CAS PubMed Google Scholar

Thomsen, MCF & Nielsen, M. Seq2Logo: 配列の重み付け、擬似カウント、およびアミノ酸の濃縮と減少の両面表示を含む、アミノ酸結合モチーフおよび配列プロファイルの構築および視覚化のための方法。 核酸研究所 40、W281–W287 (2012)。

論文 CAS PubMed PubMed Central Google Scholar

Perez-Riverol, Y. et al. 2019 年の PRIDE データベースと関連ツールとリソース: 定量化データのサポートを改善。 核酸研究所 47、D442–D450 (2019)。

論文 CAS PubMed Google Scholar

リファレンスをダウンロードする

この出版物で報告された研究は、受賞番号 75N93019C00001 で国立アレルギー感染症研究所 (NIAID) によって支援されました。 この研究のために SPVL3 アフィニティーカラムを提供してくださった Rico Buchli 博士 (Pure Protein, LLC) に心から感謝いたします。 また、BLCL の HLA タイピングと非常に有益な議論をしていただいた Steven Cate (オクラホマ大学健康科学センター) と Sean Osborn (Pure MHC, LLC) にも感謝します。

Jonas Birkelund Nilsson、Saghar Kaabinejadian などの著者も同様に貢献しました。

デンマーク工科大学健康技術学部、DK-2800、リンビー、デンマーク

ジョナス・ビルケルンド・ニルソン、カロリーナ・バーラ、モーテン・ニールセン

Pure MHC, LLC、オクラホマシティー、オクラホマ、米国

サガール・カービネジャディアン

オクラホマ大学健康科学センター、微生物学および免疫学部、オクラホマシティ、オクラホマ州、米国

サガル・カービネジャディアン、フーマン・ヤリ、ウィリアム・ヒルデブランド

感染症およびワクチン研究センター、ラホーヤ免疫学研究所、ラホーヤ、CA、92037、カリフォルニア州、米国

ビョルン・ピーターズ

病理学および検査医学部門、チューレーン大学医学部、ニューオーリンズ、ルイジアナ州、70112、米国

ローレン・グラガート

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

SK と MN が研究を設計しました。 研究で使用された実験データは、HY と WHJBN の協力を得て SK によって生成され、MN が計算結果と数値を生成しました。 BP、CB、LG は、シスおよびトランスのみの DQ 分析に関する方法論に貢献し、科学的なフィードバックを提供しました。 原稿は JBN、SK、MN によって執筆され、すべての著者からの寄稿が行われました。 すべての著者は論文の最終版を読み、承認しました。

モーテン・ニールセンへの対応。

SK は Pure MHC, LLC の従業員です。 残りの著者は競合する利益を宣言していません。

Communications Biology は、この研究の査読に貢献してくれた Shanfeng Zhu、David Gfeller、およびその他の匿名の査読者に感謝します。 主な取り扱い編集者: Zhijuan Qiu。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

ニルソン、JB、カービネジャディアン、S.、ヤリ、H. 他機械学習により、トランスのみにコードされた変異体の HLA-DQ 免疫ペプチドドームへの寄与が限定的であることが明らかになりました。 Commun Biol 6、442 (2023)。 https://doi.org/10.1038/s42003-023-04749-7

引用をダウンロード

受信日: 2022 年 10 月 1 日

受理日: 2023 年 3 月 23 日

公開日: 2023 年 4 月 21 日

DOI: https://doi.org/10.1038/s42003-023-04749-7

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。