DEDTI と IEDTI: 薬剤の効率的かつ予測モデル

ニュース

ホームページホームページ / ニュース / DEDTI と IEDTI: 薬剤の効率的かつ予測モデル

Oct 24, 2023

DEDTI と IEDTI: 薬剤の効率的かつ予測モデル

Rapporti scientifici Volume 13,

Scientific Reports volume 13、記事番号: 9238 (2023) この記事を引用

メトリクスの詳細

医薬品の再利用は、医薬品開発のコストと時間を削減することを目的とした活発な研究分野です。 これらの取り組みのほとんどは、主に薬物と標的の相互作用の予測に関係しています。 行列因数分解から最先端のディープ ニューラル ネットワークに至るまで、多くの評価モデルがそのような関係を特定するために登場しました。 一部の予測モデルは予測の品質に特化しており、他の予測モデルは予測モデルの効率 (例: 埋め込み生成) に特化しています。 この研究では、より多くの予測と分析に役立つ薬物とターゲットの新しい表現を提案します。 これらの表現を使用して、薬物と標的の相互作用を予測するための IEDTI と DEDTI の 2 つの帰納的ディープ ネットワーク モデルを提案します。 どちらも新しい表現の蓄積を使用します。 IEDTI はトリプレットを利用し、入力された蓄積された類似性特徴を意味のある埋め込み対応ベクトルにマッピングします。 次に、各薬物と標的のペアに詳細な予測モデルを適用して、それらの相互作用を評価します。 DEDTI は、薬物とターゲットの蓄積された類似性特徴ベクトルを直接使用し、各ペアに予測モデルを適用して相互作用を特定します。 私たちは、DTINet データセットとゴールド スタンダード データセットに対して包括的なシミュレーションを実行しました。その結果、DEDTI が IEDTI や最先端の​​モデルよりも優れていることがわかりました。 さらに、我々は 2 つの薬物 - 標的ペア間の新たな予測相互作用に関するドッキング研究を実施し、その結果により、両方の予測ペア間の許容可能な薬物 - 標的結合親和性が確認されました。

De novo 創薬には莫大な費用がかかり、成功の保証のない長期にわたる調査が必要です1。 これらの課題を克服するために、未知の隠れた薬物標的相互作用 (DTI) を特定して多数の疾患を治療するために、コンピューターによる創薬手法がますます使用されています。 コンピューターによる薬物再利用は、現在市販されている薬物の対象標的に対する新規適応を特定する上でのマイルストーンです。 計算による薬物再利用戦略の背後にある主なアイデアは、類似の化合物が類似の特性を共有する可能性があるという事実に基づいています (関連性による罪悪感として知られています)2,3。 計算による DTI 予測を実行するには、3 つの主なアプローチが存在します4。 リガンドベースのアプローチは最初のアプローチであり、ターゲットに関する情報が限られている場合に使用されます。 これらのアプローチは、類似した化合物は類似した特性を持ち、類似したタンパク質と相互作用するという概念に基づいています。 言い換えれば、これらのアプローチの予測出力はタンパク質あたりの既知のリガンドの数に完全に依存するため、その信頼性はタンパク質あたりのリガンドの比率が不十分であると影響を受ける可能性があります5、6、7、8、9。 2 番目のアプローチはドッキングベースのアプローチで、リガンドと受容体の 3D 構造を使用してそれらの間の結合親和性を評価します 10。 分子ドッキングアプローチには、リガンドと受容体の十分な 3D 構造が不足しているという問題があります 11。 3 番目の有望なアプローチであるケモゲノミクスアプローチは、あらゆる治療標的と相互作用する可能性のあるすべての分子の同定と説明として定義されているため、研究者は治療候補のオフターゲットタンパク質を予測する問題に取り組むことができます 12,13。 このアプローチは、リガンドの化学空間とタンパク質のゲノム空間の間の相関関係を見つけることによって、前述の方法の欠点を回避しようとします14。 ケモゲノミクスアプローチは、(1) 近隣モデル、(2) 二部局所モデル、(3) ネットワーク拡散モデル、(4) 行列分解モデル、および (5) 特徴ベースの分類モデルの 5 つのタイプに分類できます4。 行列分解は、DTI 予測でよく使用される方法の 1 つです15。 行列因数分解法 16 は、DTI を操作し、各薬物および各ターゲットの潜在的な表現を見つけようとします 16、17、18。 この方法には多くの利点があるにもかかわらず、行列因数分解にはいくつかの欠点があります。 たとえば、行列分解では 2 つのベクトルの線形内積が使用されます。 したがって、薬物と標的の相互作用や関係を予測するのに最適な解決策ではありません。 結果として、薬物の再利用において従来の線形行列因数分解を避けることを提案します。 著者らは別の著作で行列因数分解法の問題点について言及した19。

ここ数年、機械学習を利用して DTI を予測するケモゲノミクス手法 (ディープ、トランスフォーマー、グラフ ニューラル ネットワーク手法など) が広く使用されるようになりました。 これらの方法は、他の DTI 予測アプローチの欠点を回避するために登場しました。 最先端のケモゲノミクス手法のいくつかを紹介します。 NeoDTI20 は、帰納的行列補完法を利用して DTI を予測するグラフ ニューラル ネットワーク ベースの手法です。 AutoDTI++21 は、自動エンコーダ ソリューションを行列因数分解と組み合わせて採用しています。 行列因数分解を使用するため、この方法ではデータ漏洩が発生します。 HIDTI22 は、ニューラル ネットワークをそれらのさまざまなプロパティに適用することでターゲットと薬物の埋め込みを生成し、それらすべてを連結します。 各薬剤と標的のペアの処理された情報の連結は、それらの相互作用を識別するために残りのニューラル ネットワークに供給されます。 この方法には、埋め込みの生成が不完全であるだけでなく、スパース性の問題もあります。 MolTrans23 は、深層言語モデルから概念を借用したトランスフォーマーベースのメソッドに属します。 TransDTI24 は、事前トレーニングされた埋め込みの中でも特に AlphaFold25 を利用し、それらをフィードフォワード ニューラル ネットワークに供給して DTI を識別します。

この論文では、ディープ ニューラル ネットワーク (DNN) を使用して DTI を予測するための 2 つのシナリオを提案します。 それらは主に、入力薬物と標的のペアをモデル化する方法が異なります。 最初のシナリオを「間接埋め込み DTI」または単に IEDTI と呼び、2 番目のシナリオを「直接埋め込み DTI」または DEDTI と呼びます。 図 1 と図 2 にそれぞれ提案されたフレームワークを示します。 DTI を予測するために、薬物と標的の相互作用、薬物と薬物の相互作用、薬物と副作用の関連性、薬物と疾患の関連性、標的と標的の相互作用、標的と疾患の相互作用、標的の類似性などの異種情報を使用します。 「方法」セクションでは、それらの詳細な表現を提供します。

IEDTI のフレームワーク。 これは、前処理、埋め込み生成、DTI 予測の 3 つのステップで構成されます。 (I) 最初​​のステップでは、薬物とターゲットのマトリックスを読み取ります。 これは、薬物と副作用、薬物と疾患、および標的と疾患の関連性を 3 つの類似性行列に変換します。 この手順により、薬物に対して 4 つの等しいサイズの行列が得られ、ターゲットに対して 3 つの等しいサイズの行列が得られます。 このフレームワークは薬物マトリックスを合計し、3 つのターゲット マトリックスも合計します。 K 平均法を適用して、類似した薬物に同じラベルを設定します。 それを視覚的に示すために、各ラベルは異なる色で表示されます。 ターゲットについても同じことが起こります。 (II) フレームワークはトリプレットを使用し、2 つの DNN モジュールを使用して各薬物とターゲットの埋め込みベクトルを生成します。 (III) 各薬物とターゲットのペアのエンベディングを連結し、それらを 3 番目の DNN モジュールに供給して相互作用を予測します。

DEDTI のフレームワーク。 このフレームワークは、前処理と DTI 予測の 2 つのステップで構成されます。 (I) 前処理ステップで、フレームワークは薬物とターゲットのマトリックスを読み取ります。 これは、薬物と副作用の関連性、薬物と疾患の関連性、および標的と疾患の関連性を 3 つの類似性行列に変換します。 この手順により、薬物に対して 4 つの等しいサイズの行列が得られ、ターゲットに対して 3 つの等しいサイズの行列が得られます。 このフレームワークは薬物マトリックスを合計し、3 つのターゲット マトリックスも合計します。 (II) フレームワークは各薬物と標的のペアを連結します。 次に、連結をディープ ネットワーク モジュールに供給して、相互作用を予測します。

IEDTI と DEDTI は、薬物と標的の相互作用をラベルとして使用し、残りの情報をモデルへの入力として使用します。 図 1 に示すように、IEDTI には 3 つのステップがあります。 最初のステップである前処理には、薬物とターゲットの行列を読み取り、対応する特徴ベクトルを作成することが含まれます。 薬物については、薬物間相互作用と薬物の構造類似性に関する 2 つのマトリックスがあります。 さらに、薬物疾患と薬物副作用の関連性に関するマトリックスがさらに 2 つあります。 前処理ステップではコサイン類似度を使用し、後者の 2 つの行列を類似度行列に変換します。 その結果、薬物には 4 つの等しいサイズの行列が含まれます。 前処理ステップでそれらを合計し、薬物の 1 つの特徴空間を生成します。 次に、元の特徴空間をより低次元の空間に変換することを目指します。 ただし、新しい空間では、元の空間の特徴ベクトル間の類似性が維持される必要があります。 これを行うには、意味のある次元削減を行うために三重項損失が実装されます。 三重項損失には、相関のある特徴ベクトルのラベルが必要です。 元のデータスペースにはラベルがありません。 したがって、フレームワークは薬物ベクトルに K 平均法を適用し、類似した薬物には同じラベルが付けられます。 言い換えれば、サンプルのラベル付けに K 平均法を使用します。 この標識は、埋め込みベクターを準備するために重要です。 前処理ステップのターゲットに対しても同じ手順が行われます。

次のステップである埋め込み生成では、IEDTI は 2 つのディープ ネットワーク モジュール (\(DNN_1\) と \(DNN_2\)) を薬物とターゲットに対応して使用します。 \(DNN_1\) を使用して、各薬物特徴ベクトルを埋め込み空間にマッピングします。 これらの新しい表現には、同様の埋め込みを備えた同様の薬物の意味のある解釈が必要です。 \(DNN_2\) を持つターゲットでも同じことが起こります。

IEDTI の最後のステップである DTI 予測では、各薬物と標的のペア間の相互作用を予測します。 一方、DEDTI は DTI 予測のみに集中します。 DEDTI は「前処理」と「DTI 予測」の 2 つのステップで構成されます。 IEDTI とは埋め込み生成ステップが省略されている点が異なります。 以下にそれらについて詳しく説明します。

データセットは、不均質な DTI の予測に関する以前の研究から取得されました 11 (これを DTINet データセットと呼びます)。 このデータセットには、DrugBank (バージョン 3.0) からの 708 件の医薬品のデータ 26、HPRD データベース (リリース 9) からの 1,512 件の標的タンパク質 27、比較トキシコゲノミクス データベースからの 5,603 件の疾患 28、および SIDER データベース (バージョン 2) からの 4,192 件の薬物副作用のデータが含まれています 29 。 また、薬物と標的の間には 1923 の相互作用が知られています 30。

さらに、酵素、GPCR、イオンチャネル、核受容体のゴールドスタンダードデータセットの外部検証を実施しました31。 表 1 は、すべてのデータセットの統計を示しています。

前述したように、この研究では薬物と標的の相互作用を予測するための 2 つのシナリオを評価しています。これら 2 つのシナリオの違いは、データの前処理と操作の段階の違いに根ざしています。 シナリオに入る前に、まずデータセットでのデータ処理について説明します。 DTI の予測の目的により、この論文では薬物と標的間の相互作用について取り上げます。 8 つの行列には、DTI 予測に必要なすべての情報と相互作用が含まれています。

X、または次元 \(708\times 1512\) の薬物-標的相互作用 [一部の研究では、標的-薬物行列と呼ばれる別の行列を考慮しています。 この後者は前者の転置にほかなりません。 この論文では、薬物と標的の相互作用を予測ラベルとして使用しているため、そのうちの 1 つだけが必要です。]

\(D^{(1)}\)、または次元 \(708\times 708\) の薬物間の構造的類似性。

\(D^{(2)}\)、または次元 \(708\times 708\) の薬物間相互作用。

\(D_{raw}^{(3)}\)、または次元 \(708\times 5603\) の薬物と病気の関連。

\(D_{raw}^{(4)}\)、または次元 \(708\times 4192\) の薬物と副作用の関連。

\(T^{(1)}\)、または次元 \(1512\times 1512\) のターゲット間相互作用。

\(T^{(2)}\)、または次元 \(1512\times 1512\) のターゲット-ターゲット配列類似度。

\(T_{raw}^{(3)}\)、または次元 \(1512\times 5603\) とのターゲットと疾患の関連 [一部の行列に添字 "raw" を使用した理由はすぐに明らかになるでしょう \ (D_{raw}^{(3)}\)、\(D_{raw}^{(4)}\)、および \(T_{raw}^{(3)}\)。 現時点では、これらの行列は類似行列ではありません。]。

最初の行列 X を他のすべての行列と区別することに言及する価値があります。 他の行列を入力特徴と見なしますが、X は DTI の予測ラベルとしてアドレス指定されます。 最初のシナリオであるシナリオ 1 は、DTI 予測に加えて埋め込み生成を扱います。 2 番目のシナリオであるシナリオ 2 は、インタラクション予測のみを対象としています。 言い換えれば、前者はさらなる分析のための埋め込みを扱うのに対し、後者は予測の品質を扱います。 どちらの方法にも同じ前処理ステップがあることに注意してください。

これら 2 つのシナリオには、データ前処理という共通のステップが 1 つあります。 どちらも、薬物 (およびタンパク質) マトリックスからの情報を単一のマトリックスに結合することを目的としています。 最初のステップでは、薬物の行列 \(D^{(i)},~1\le i\le 4\) を単一の特徴行列 D に変換し、ターゲットの行列 \(T^{(j) },~1\le j\le 3\)— 単一の特徴行列 T に変換します。 \(D^{(1)}\) と \(D^{(2)}\) は両方とも同じです\(708\×708\) のサイズ。 薬物の特徴空間を生成するには、他の 2 つの \(D^{(3)}\) と \(D^{(4)}\) を \(D^{( 1)}\) と \(D^{(2)}\)。 言い換えれば、\(D^{(3)}\) と \(D^{(4)}\) からそれぞれ病気と副作用の明示的な表現を取り除きます。 我々は、「コサイン類似性 32」メトリクスによって、薬物-疾患、薬物-副作用、および標的-疾患行列の類似性行列を作成しました。 このタイプの類似性は、スケールの不変性、方向性の認識、推奨システムでの利用、および計算効率の点で使用されてきました 33,34。

O が \(o_1\times o_2\) のサイズの行列であると仮定します。 目的は、行間の類似性を計算することです。 この目的で、コサイン類似度を適用します。 その出力は、サイズが \(o_1\times o_2\) の正方行列 R です。 したがって、行 k と \(\ell ,~1\le k,\ell \le o_1\), \(R_{k\ell }\) の類似性は次のようになります。

ここで、「\(\cdot \)」は 2 つのベクトルの内積を表し、\(||\cdot ||\) はベクトルの \(\ell ^2\) ノルムを示します。 式 1 は、すべてのペア \((k,\ell ), 1\le k,\ell \le o_1\) に適用されます。 結果として得られる行列 R のサイズは \(o_1\times o_1\) になります。 \(D^{(1)}\)、\(D^{(2)}\)、\(T^{(1)}\)、\(T^{(2)}\) はすでに類似性行列。 したがって、式 1 を残りの行列 \(D_{raw}^{(3)},\) \(D_{raw}^{(4)},\) と \(T_{raw}^{( 3)},\)、結果は \(D^{(3)},\) \(D^{(4)},\) および \(T^{(3)}.\) です。

最終的に、薬物の 4 つの類似行列 \(D^{(1)}\)、\(D^{(2)}\)、\(D^{(3)}\)、\(D^ {(4)}\) のサイズは同じ \(708\times 708\) で、3 つの類似行列 \(T^{(1)}\)、\(T^{(2)}\) があります。 、および \(T^{(3)}\) サイズが \(1512\times 1512\) であるターゲット データの場合。 これらの変換は、薬物およびターゲットの特徴ベクトルを生成することを目的としています。 これは、薬物の薬物類似性行列と標的の標的類似性行列を合計することによって行われます。 したがって、最終的な薬物およびターゲットの類似性行列 (D および T) は、次のように類似性行列の合計によって取得されます。

D と T をそれぞれ薬物とターゲットの特徴ベクトルとみなします。 言い換えれば、D の各行は、特定の薬剤の情報表現に対応します。 ターゲット特徴ベクトル T についても同様です。D と T があれば、シナリオを記述することができます。

このサブセクションでは、IEDTI と DEDTI の数学的定式化を説明します。

このシナリオは、入力特徴ベクトル D および T を利用して埋め込みと DTI 予測を生成することを目的としています。各薬物の埋め込みを生成します \({{\textbf {d}}}_i=D(i,:);~1\le i \le m\) と各ターゲット \({{\textbf {t}}}_j=T(j,:);~1\le j\le n\)。 \({{\textbf {d}}}_i\) と \({{\textbf {t}}}_j\) の埋め込みは \(\bar{{{\textbf {d}}}}_i\ ) と \(\bar{{{\textbf {t}}}}_j\) です。 これらの新しい表現はより小さなスペースを占めるため、より高速で効率的な計算が可能になります。 さらに、それらには意味があります。つまり、類似したベクトルは類似した埋め込み表現を持ち、異なるベクトルは類似していない表現を持ちます。 次に、DTI を予測します。 まずは埋め込み生成の方法について説明します。 まず、薬物の包埋物の製造について説明します。 D 行列の各薬物 \({{\textbf {d}}}_i\) は新しい表現空間にマッピングされ、\(\bar{{{\textbf {d}}}}_i\) で表示されます。 言い換えれば、これらの薬物は、類似の埋め込みベクトルのペアを持つ類似のベクトルのペアの「重要な特性」を満たすことによって新しいドメインに変換され、またその逆も同様です。 したがって、関数、つまり \(g_1\) を探します。この関数は、D の各 \({{\textbf {d}}}_i\) を、類似したものの埋め込みが類似している必要があるというプロパティを持つ埋め込みベクトルに変換します。ベクトルと異なるベクトルは異なる埋め込みを持たなければなりません。または、形式的には次のようになります。

ここで、 \(\tau _D\in {\mathbb {R}}^+\) と \(\tau _{\bar{D}}\in {\mathbb {R}}^+\) は薬物の比較閾値です。 ' それぞれ、元の表現と埋め込まれた表現です。 \({{\textbf {d}}}_i\in {\mathbb {R}}^m\) と \(\bar{{{\textbf {d}}}}_i\in { \mathbb {R}}^{f_1}\)、ここで \(f_1\ll m\)。 2 つの関数 \(dist_D\) と \(dist_{\bar{D}}\) は、それぞれ \({\mathbb {R}}^m\time {\mathbb {R}}^m\rightarrow {\mathbb {R}}^+\) 関数と \({\mathbb {R}}^{f_1}\time {\mathbb {R}}^{f_1}\rightarrow {\mathbb {R}}^+\) 関数、 D 内のベクトルとその埋め込みベクトル間の類似性を測定するために使用されます。 距離関数は、埋め込み表現座標内で異なるベクトルを識別し、類似したベクトルをひとまとめにする任意の正当な関数です。 同じ条件がターゲット類似度行列 (T) のメンバーに適用されます。 したがって、\({{\textbf {t}}}_j\) に対して同様の条件を持つ関数 \(g_2\) を探します。つまり、形式的には次のようになります。

ここで、 \(\tau _T\in {\mathbb {R}}^+\) と \(\tau _{\bar{T}}\in {\mathbb {R}}^+\) はターゲットの比較しきい値です。 ' 元の表現 \({{\textbf {t}}}_i\in {\mathbb {R}}^n\) と埋め込まれた表現 \(\bar{{{\textbf {t}}}}_i\in { \mathbb {R}}^{f_2}\)、ここで \(f_2\ll n\) です。 各行 \(\bar{{{\textbf {d}}}}_i\) と \(\bar{{{\textbf {t}}}}_j\) は、対応する新しいドメインにベクトルを埋め込んでいます。ターゲットと薬物の類似性行列の行 \({{\textbf {d}}}_i\) と \({{\textbf {t}}}_j\) です。 \(dist_D\) と \(dist_{\bar{D}}\) と同様に、他の 2 つの関数 \(dist_T\) と \(dist_{\bar{T}}\) はそれぞれ \({\mathbb { R}}^n\times {\mathbb {R}}^n\rightarrow {\mathbb {R}}^+\) と \({\mathbb {R}}^{f_2}\times {\mathbb {R }}^{f_2}\rightarrow {\mathbb {R}}^+\) 関数は、T 内のベクトルとその埋め込みベクトル間の類似性を測定するために使用されます。 \(\bar{{{\textbf {d}}}}_i,~1\le i \le m\) と \(\bar{{{\textbf {t}}}}_j,~1\le j \le n\) は、シナリオ 1 の出力の最初のタイプです。 次のタイプは、薬物と標的のペア間の相互作用の予測です。 これを行うには、\(\bar{{{\textbf {d}}}}_i\) と \(\bar{{{\textbf {t}}}}_j\) の各ペアを使用し、関数 \(g_3:{\mathbb {R}}^{f_1}\time {\mathbb {R}}^{f_2}\rightarrow {\mathbb {R}}\) where \(g_3(\bar{{{ \textbf {d}}}}_i,\bar{{{\textbf {t}}}}_j)\およそ x_{ij}\)。 正式には次のように定義します。

上記の説明は、私たちの提案を概念的に形式化したものであることに注意してください。 パラメータ \(\tau _D\) と \(\tau _T\) は、クラスタリング モジュールと DNN モジュールを使用して処理されます。 言い換えれば、これら 3 つの目標を DNN ソリューションで解決します。 私たちが提案する DNN は 3 つのモジュール (\(DNN_1,~DNN_2,~DNN_3\)) で構成されており、それぞれが関数 \(\{g_1,g_2,g_3\}\) の 1 つをモデル化します。 最初のモジュール (\(DNN_1\)) は、薬物類似性ベクトル (D) の埋め込みを計算します。 入力ベクトルは D の行 (\({{\textbf {d}}}_i\)) で、出力は各行の新しい表現 \(\bar{{{\textbf {d}}} }_私\)。 2 番目のモジュール (\(DNN_2\)) は、ターゲットの埋め込みベクトル (\(\bar{{{\textbf {t}}}}_j\)) を取得するためのものです。 その入力ベクトルは、ターゲット類似度行列の行 (\({{\textbf {t}}}_j\)) からのものです。 これら 2 つの DNN モジュールはトリプレット メソッドとして機能します。 最後に、3 番目のモジュール (\(DNN_3\)) は、入力を連結ベクトル \((\bar{{{\textbf {d}}}}_i,\bar{{{\textbf {t }}}}_j)\)、D 行列と T 行列のエンティティ間の相互作用を予測します。 次のセクションでは、設計された DNN の構造について詳しく説明します。

このシナリオは、DTI 予測に直接焦点を当てています。 これを行うために、シナリオ 2 は 2 つのステップで構成されます。 最初のステップは、DTI 予測に必要な特徴ベクトルを定義することです。 D と T のベクトルを利用して、予測に必要な特徴ベクトルを生成します。 言い換えれば、各特徴ベクトルは利用可能な薬剤とターゲットのペアです。 各特徴ベクトル \({{\textbf {z}}}\) は \({{\textbf {d}}}_i=D(i,:);~1\le i\le m\) から導出されます。ターゲット \({{\textbf {t}}}_j=T(j,:);~1\le j\le n\)、または \({{\textbf {z}}}=({{\ textbf {d}}}、{{\textbf {t}}})\)、および \({{\textbf {z}}}\in {\mathbb {R}}^{m+n}\)。 次のステップは、特定の薬物と標的の各ペア間の相互作用を予測することです。 両方のステップを以下に示します。

このサブセクションでは、IEDTI と DEDTI の詳細なアーキテクチャについて説明します。 以下にそれらを 1 つずつ説明します。

このサブセクションでは、IEDTI の詳細なアーキテクチャについて説明します。 次のように 3 つの異なるモジュールで説明します。

ディープ ニューラル ネットワークの最初のモジュール 最初のモジュール (\(DNN_1\)) は \({{\textbf {d}}}_i=D(i,:),\forall i \in \{1,~\cdots を取得します,m\}\) を入力として使用し、それぞれに対応する埋め込みベクトルを返します。 前述したように、ターゲット間の類似性と非類似性は、対応する埋め込みベクトル間でも維持される必要があります。 言い換えれば、2 つのベクトルがメイン空間で類似している場合、それらの変換は埋め込み空間でも類似しているはずです。 埋め込み空間での類似性を維持するために、Bordes らのアイデアを利用します。 35を導入しました。 ただし、目的関数を変更しました。 各 \({{\textbf {d}}}_i\) について、類似したベクトルの「セット」を D で見つけることができると仮定します。これを \(Smlr_{{{\textbf {d}}} と呼びます) _私}\) 。 一方、各 \({{\textbf {d}}}_i\) は、D の残りのベクトルと類似点がないか、類似点が少ないです。これら 2 つの類似点と類似点のセットをそれぞれの \({{ \textbf {d}}}_i\); その表現 \(\bar{{{\textbf {d}}}}_i\) を計算します。 それらの定式化は次のようになります。

このセットと各 \({{\textbf {d}}}_i\in D\) の補セットを使用して、以下の目的関数を定義します。

集合 \(Smlr_{{{\textbf {d}}}_i}\) が \(dist_D\) と \({{\textbf {d}}}\) に基づいて定義されていることに注目してください。しかし \( {\mathscr {L}}_d\) は \(dist_{\bar{D}}\) と \(\bar{{{\textbf {d}}}}\) に基づいています。 類似したベクトルの距離は短くなければならず、類似していないベクトルの距離は長くなければなりません。 モデルが適切に機能する場合、 \({\mathscr {L}}_d\) はゼロに近いはずです。 したがって、 \(DNN_1\) の目的は、コスト関数 \({\mathscr {L}}_d\) を最小化することです。 パラメーター \(\gamma \) は、目的関数を調整するためのマージン ハイパーパラメーターです。 この関数はトリプレットと呼ばれます。 これを行うには、ニューラル ネットワークの複数の層を使用できます。 入力層ニューロンの数は m (\({{\textbf {d}}}_i\) の長さ) に等しくなければなりません。 出力層のニューロンの数が \(f_1\) (\(\bar{{{\textbf {d}}}}_i\) の長さ) に等しいことも必要です。 意味のある埋め込みが必要です。 言い換えれば、同様の薬物は、埋め込み空間内で同様の表現を持たなければなりません。 この目的には、薬物の元の表現間の類似性を定義する必要があります。 この目的を達成するために、K 平均法アルゴリズムを使用し、それを薬物ベクトルに適用し、類似した薬物のセットを定義します。 このクラスタリングを使用して、\(DNN_1\) は各セットの薬物の同様の埋め込みを計算します。 上で述べたように、K 平均法を適用して、類似した薬剤 (および類似したタンパク質) を同じクラスターに配置しました。 次に、セミハード三重項損失関数を使用して新しい表現を取得します。 このアプローチにより、クラスター内のすべての 2 つのメンバー間の距離が短くなり、クラスターの各ペア間のギャップが広くなります。 これらのクラスターはラベルとして機能し、損失関数はそれらを使用して意味のある埋め込みを生成します。 図 4 は、トリプレット適用前後の薬物とターゲットの t-SNE 表現を示しています。 これらは、k-means 表現の威力とトリプレット埋め込みベクトルの適用を示しています。 クラスターがほぼ等しくなるようにクラスターの数を選択しました。 したがって、薬物のクラスター数として 2 ~ 64 を検討しました。薬物クラスターの数としては 4 が最適です。 図 4a は、薬物の K-means 表現を示しています。 図 4b は、埋め込み座標におけるこれらの薬物の分離です。 2 つの図を比較すると、トリプレットの識別力がわかります。 ターゲットについても同様でした。 最良のクラスター数は 5 でした。図 4c は、ターゲットに K 平均法を適用した結果を示しています。 最後に、図 4d は、最終的なターゲットの埋め込みを視覚化します。

ディープ ニューラル ネットワークの 2 番目のモジュール 2 番目のモジュール (\(DNN_2\)) は、兄弟の \(DNN_1\) と同様に機能します。 違いは、 \(DNN_1\) は \({{\textbf {d}}}_i\in D,~i \in \{1,\cdots ,m\}\) の埋め込みを計算するのに対し、\(DNN_2\ ) は \({{\textbf {t}}}_j\in T,~j \in \{1,\cdots ,n\}\) を計算します。 各 \({{\textbf {t}}}_j\) に対して、同様のベクトルのセットも定義します。

各 \({{\textbf {t}}}_i\in T\) とその対応する補数の類似度セットを使用して、以下の目的関数を定義します。

\({{\textbf {d}}}\) について述べたように、類似ベクトルと非類似ベクトル間の距離は \({{\textbf {t}}}\) でも同様に機能する必要があります。 モデルが適切に機能する場合、\({\mathscr {L}}_t\) はゼロに近いはずであり、\(DNN_2\) の目的はコスト関数 \({\mathscr {L}}_t\) を最小化することです。 )。 この目的のために、 \(DNN_2\) の最初の層には n 個のニューロンが必要であり、 \(DNN_2\) の出力層には \(f_2\) のニューロンが必要です。 前のサブセクションと調和して、K 平均法アルゴリズムを適用して、類似したターゲットのセットを見つけます。

ディープ ニューラル ネットワークの 3 番目のモジュール ニューラル ネットワーク \(DNN_3\) の 3 番目のモジュールは、DTI 予測を担当します。 \(DNN_3\) の入力は、\(DNN_1\) と \(DNN_2\) からの薬物とターゲットの埋め込み表現です。\(DNN_1\) の出力はベクトル \(\bar{{{\ textbf {d}}}}_{f_1\times 1}\)、\(DNN_2\) の出力はベクトル \(\bar{{{\textbf {t}}}}_{f_2\times 1 }\)。 \(DNN_3\) の入力形式は、\(\bar{{{\textbf {d}}}}\) と \(\bar{{{\textbf {t}}}}\) を連結したものです、または\([\bar{{{\textbf {d}}}}^T \bar{{{\textbf {t}}}}^T]^T\)。 したがって、 \(DNN_3\) の入力層ニューロンの数は \(f_1+f_2\) に等しくなります。 前述したように、3 番目のセクションの役割は、 \(\forall i \in \{1,\cdots ,m\}: {{\textbf {d}}}_i\in D の間の相互作用の量を計算することです。 \) および \(\forall j \in \{1,\cdots ,n\}: {{\textbf {t}}}_j\in T\)、または \(x_{ij}\)。 出力層には 1 つのニューロン、近似 \(x_{ij}\) があります。 形式的には、\(DNN_3\) の目的は次のとおりです。

\(\bar{{{\textbf {d}}}}_i\) と \(\bar{{{\textbf {t}}}}_j\) は \(DNN_1\) と \(DNN_2) から取得されるためです\)、目的関数を次のように書き換えることができます。

ここで、 \(\mathbin \Vert \) は 2 つのベクトルの連結を示します。 すべての \(DNN_1\)、\(DNN_2\)、および \(DNN_3\) には複数の隠れ層がある可能性があることに言及する必要があります。 これについては、「実装」セクションと「議論」セクションで詳しく説明します。 図 1 は、最初に提案されたシナリオの一般的な構造を示しています。

IEDTI モデルがエンドツーエンド モデルではないことに注意してください。 したがって、エラーの伝播はエンドツーエンドのプロセスではありません。 各モジュールには独自のエラー伝播があります。

2 番目のシナリオのディープ ネットワークは、最初のシナリオと似ています。 唯一の違いは、ネットワークの入力ベクトルです。 その入力ベクトルは、各 \({{\textbf {d}}}_i\) と \({{\textbf {t}}}_j\) を連結したものです。 正式には、

またはより正確には、それは

入力層に必要なニューロンは \(m+n\) に等しく、最後の層には各 DTI を予測するための 1 つのニューロンが含まれています。

説明した両方のシナリオで、アルゴリズムのパフォーマンスに関する正確な情報を提供するために 10 倍の相互検証を実装しました。 パラメーターを調整するために、深層学習と DTI 予測に関する以前の研究からの提案を使用して結果をテストしました。 結果は、この作業においてパラメーターが良好に機能していることを示しています。

DEDTI モデル 最初のモデルは、i 番目のタンパク質と j 番目の薬物ベクトル表現の連結 \(c_{ij}\) を入力として受け取ります。 したがって、708 個の薬剤と 1512 個のターゲットがあるため、入力形状は (2220, 1) になります。 次に、入力 \(c_{ij}\) を Relu 活性化関数を使用して 4 つの連続する Conv1D 層に渡します。各層の後にバッチ正規化とドロップアウト 0.5 が続きます。 次に、平坦化レイヤーの後に高密度レイヤーを使用し、その後に 0.5 のドロップアウトを使用します。 最後に、シグモイド活性化関数を備えた高密度層により、薬物とタンパク質間の相互作用が予測されます。 Adam オプティマイザーとバイナリ クロス エントロピー損失関数を使用してモデルをコンパイルしました。 インタラクションはバイナリ値です。 0 は相互作用がないことを示し、1 は有効な相互作用を表します。 また、不均衡なデータセットのプロパティを考慮するために、最後の高密度層で初期バイアス手法を使用しました。 私たちの初期のバイアスは次のとおりです。

このモデルでは、トレーニング段階でバッチ サイズを 1024 に設定します。

IEDTI モデル トリプレット モデルの予測フェーズは最初のモデルと同じです。 ただし、ここでは 2 つの追加手順があります。 まず、薬物とタンパク質に対して K 平均法を個別に使用して、それらの異なるクラスターを見つけます。 次に、セミハード三重項損失を使用して、それらの新しい表現を取得します。 薬物とタンパク質の新しいベクトル表現のサイズは 256 です。その後、以前のモデルと同様に、それらの連結を予測フェーズに送ります。 ただし、このシナリオの入力形状は (512) です。 ここでの入力形状は前のモデルよりも小さいため、このモデルではバッチ サイズを 64 に設定します。

モデルのパフォーマンスを評価するために 10 倍の相互検証を使用します。 AUC-ROC、AUPR、F1 スコア、MCC などのさまざまな指標を使用して方法を評価しました。 AUC-ROC は不均衡には適切ではありません。 したがって、不均衡なデータのケースをカバーするために他の評価指標を使用しました。 次の式に基づいて、感度 (再現率)、特異度、精度、および F1 スコアのメトリクスを計算します。

F1 スコアは不均衡データの評価に使用されますが、二値分類における利点のため、MCC を検討しました 36。 その方程式は次のとおりです。

パラメータ m は薬剤の数を示し、ターゲットの数 n はターゲットの数を表し、病気の数は \(n_{di}\) 、副作用の数は \(n_{se}\) を表します。 。 薬物とターゲットの二次表現の生成に必要な \(e_{emb}\) エポックがあり、各エポック時間は薬物とターゲットの両方について \(T_{e}\) に等しいと仮定します。 簡単にするために、薬物とターゲットの間の変換時間に差がないと仮定しました。 最後に、予測モデルのエポック数は \(e_{p}\) に等しく、各エポックの時間間隔は \(T_{p}\) に等しいと仮定します。

DEDTI と IEDTI は、各薬物と各タンパク質の一次表現を計算する必要があります。 薬物の 2 つの類似性行列がすでに準備されています。 次の 2 つの薬物の類似性に必要な疾患と副作用を使用して、薬物の類似性行列をさらに 2 つ計算する必要があります。 薬物疾患マトリックスでは、この方法は薬物の各ペアにコサイン類似性を適用します。 したがって、その時間計算量は \(O(m^2n_{di})\) となります。 薬物副作用マトリックスでも同じことが起こります。 したがって、その変換の複雑さは \(O(m^2n_{se})\) になります。 合計すると、薬物の変換は \(O(m^2(n_{di}+n_{se})\) です。ターゲットには、疾患との類似性の追加の計算が 1 つ必要です。薬物と疾患の行列と同様に、計算の複雑さは共通の疾患に基づくターゲット間の類似性は \(O(n^2n_{di})\) です。この論文では、n は m より大きく、類似性の計算の複雑さは \(O\left( e_{ emb}\left( (m+n)T_{e}\right) \right) \)、および \(m

どちらのモデルにも同様の予測モジュールがあり、すべての標的とすべての薬剤を評価するための複雑さは \(O\left( e_{p}mnT_{p}\right) \) です。 両者の違いは \(T_{p}\) にあり、IDETI は DEDTI よりも時間と空間の複雑さが低くなります。

注目すべき点は、3 つの DNN モジュール (埋め込みベクトル生成用の 2 モジュールと予測用の 1 モジュール) を備えた IEDTI には埋め込みの準備と予測のすべてのステップが含まれているのに対し、最先端の方法では利用可能な埋め込み (TransDTI など) が使用されることです。 )またはより複雑な(IMCHGAN)。

構造ベースの分子ドッキングは、特定の標的に対する薬物の「最適な」配向を見つけるための、費用と時間がかかる実験室実験に代わる事実上の手段です。 したがって、我々はこの技術を使用して、クロルゾキサゾン-PTGS2とテトラベナジン-ADORA1の間の相互作用の可能性を、2つの新しい予測薬物標的ペアとして合理化しました。 この目的を達成するために、ADORA1 (PDB 5n2s) および PTGS2 (PDB 3QMO) の結晶構造を RCSB PDB タンパク質データ バンク 37 から取得しました。 また、テトラベナジンとクロルゾキサゾンの 3D-SDF 構造は、NCBI PubChem38 からダウンロードされました。 両方のタンパク質構造内の天然リガンド、HEATM、およびその他の溶媒分子は Discovery Studio を使用して除去され、エネルギー最小化のために最急降下法が利用されました。 次に、Swiss PDB Viewer (SPDBV) ツール 39 を使用して、タンパク質の最も安定な立体構造を取得しました。 最終的に、極性水素とコールマン電荷の追加を含むタンパク質調製の最終段階は、Autodock ツール (ADT) を使用して行われました。 配位子の調製は、極性水素とガスタイガー電荷を加えることによって行われました。 また、すべての回転可能な結合を回転させるために、ルートの検出とねじりツリーからのねじれの選択が行われました。 ADORA1 の結合位置の「活性部位」を決定するために、LIGPLOT+ ツール 40 を使用して、PSB36 との 3.3 Å 複合体における安定化 ADORA1 の結晶構造を視覚化しました。 得られたパターンは、His 1356、Trp 1352、Leu 1355、Met 1285、Asn 1359、Thr 1375、Glu 1277、Thr 1362、Phe 1276、Val 1192、Ile 1174、Ile 1379、および Ala 1196 が関与する最も重要なアミノ酸であることを示しています。このコンプレックスを形成する上で。 さらに、シクロオキシゲナーゼ-2に結合したNS-398のX線結晶構造を解析した。 Arg 120、Val 523、Ala 527、Val 349、Ser 530、Tyr 385、Trp 387、Gly 526、Leu 352、Met 522、Phe 518、および Ser 353 が、上記の複合体を確立するためのほとんどの関与残基として決定されました。 ドッキングスペースを定義するために、ターゲットタンパク質ごとにグリッドボックスを生成しました。 ADORA1 の場合、グリッド ボックスの値は、x 中心 = 103.962、y 中心 = 128.898、z 中心 = 44.237、x 点 = 54、y 点 = 48、z 点 = 58 です。PTGS2 の場合、中心はグリッド ボックスは、X、Y、Z としてそれぞれ 40.049、51.442、および 69.613 で定義され、グリッド ポイントは X、Y、および Z 座標で 56、60、および 63 でした。 また、格子点間隔は両方とも0.375オングストロームとした。 最後に、ドッキング研究は、Lamarckian 遺伝的アルゴリズムを使用する AutoDock 4.2 によって実行されました。

新しい治療薬を発見するために必要な実験スペースを狭めるために、この研究では、IEDTI と DEDTI と呼ばれる 2 つの革新的な計算モデルを提案しています。 薬剤と標的に関する異種情報を組み込むことで、新しい DTI を特定するのに役立ちます。 IEDTI および DEDTI シナリオは、薬物と標的の相互作用を予測ラベルとして利用します。 概要として (図 1 と 2) は、それぞれ IEDTI と DEDTI を表します。 どちらのモデルも、薬物間の 4 種類の類似性と、ターゲットの 3 種類の類似性を抽出します。 どちらのシナリオでも、薬物とターゲットの累積バージョンを入力として操作します。 IEDTI は 3 つの CNN モジュールで構成されます。 1 番目と 2 番目のモジュールは、それぞれ薬物とターゲットの埋め込みベクトルを生成します。 したがって、それらの入力は類似性行列の蓄積からの特徴ベクトルであり、その出力は新しい埋め込みベクトルです。 意味のある埋め込み生成を行うために、クラスタリング手法が累積行列に適用されます。 クラスタリングは、薬物とターゲットのラベルを識別するのに役立ちます。 DNN モジュールは、同じラベルを持つ入力に対して同様の埋め込みベクトルを生成します。 3 番目のモジュールは、各薬物と標的のペアの相互作用を特定します。 したがって、その入力は薬物と標的のペアの新しい埋め込みベクトルの連結であり、その出力は相互作用の有無を示すバイナリ値です。 一方、DEDTI は単一の DNN モジュールのみで構成されます。 このモジュールの入力は、試験中の薬物と標的の各ペアの直接蓄積された類似性行列であり、その出力はそれらの相互作用識別子です。 「方法」セクションでは、両方のシナリオについて詳しく説明します。

私たちのモデルの予測パフォーマンスは、10 倍の相互検証手順を使用して評価されました。 データ セットをテスト セットとトレーニング セットに分割し、データ セットの \(10\%\) をテスト セットとして使用し、残りの \(90\%\) をトレーニング セットとして使用しました。 次に、私たちの結果を、HIDTI22 および NeoDTI20、MolTrans23、TransDTI24、IMCHGAN41 を含む 5 つの最先端の DTI 予測方法の結果と比較しました。 また、DTI の陽性サンプルと陰性サンプルのデータの不均衡のため、文献で一般的である 1:3 および 1:5 の陽性と陰性の比率で結果を報告します 22。 表 2 と 3 は、これら 2 つのサンプリング比の結果をそれぞれ示しています。 AUC-ROC と AUPR、適合率、再現率、F1 スコア、MCC に基づいて結果を比較します。 AUPR、F1 スコア、および MCC は、陽性サンプルと陰性サンプルの間に比率の不均衡が存在する場合に特に有益です。 IEDTI は、HIDTI モデルや NeoDTI と比較して、AUC-ROC が高くなります。 HIDTI-simple フォーマットは、1:3 および 1:5 の比率で IEDTI よりも高い AUPR を持ちます。 ただし、HIDTI モデルと NeoDTI の標準偏差は IEDTI よりもはるかに高くなります。 言い換えれば、IEDTI は多様な褶曲を観察する際の変動が少ないということです。 さらに重要なのは、表が示すように、DEDTI は、すべての比率および両方の指標においてわずかな変動はあるものの、すべてのメソッドにわたって最良の AUPR および AUC-ROC を提供します。 結果は、IEDTI と DEDETI、特に後者が DTI の予測において良好に機能することを示しています。 図 3a ~ 図 3f は、すべての比率 1:1、1:3、および 1:5 における IEDTI と DEDTI の ROC および PR プロットを示しています。 1:10 の比率の場合、IEDTI メソッドと DEDTI メソッドでも同じことが起こることに注意してください。

DTINet データセットからのさまざまなサンプリング比の PR 曲線と ROC 曲線。

DTINet データセット内の薬物とターゲットの t-NSE 表現。 左の図は、K 平均法を適用した後の薬物とターゲットの表現を示しています。 図が示すように、クラスは完全にバラバラではありません。 しかし、トリプレットモジュールを適用すると、薬物とターゲットの両方が完全に切り離されます(右の図)。

当社では、DEDTI、IMCHGAN、AutoDTI++、および IRNMF をゴールドスタンダード データセット 31 (酵素、イオン チャネル、GPCR、および核受容体のデータセット) に適用します。 両社の AUC-ROC および AUPR 棒グラフを図 5 に示します。結果が示すように、IMCHGAN と DEDTI はゴールドスタンダード データセットで激しい競争を行っています。 IMCHGAN は GPCR と核受容体で最も高い AUC-ROC を持っていますが、DEDTI は酵素とイオン チャネル データセットで最も高い AUC-ROC を持っています。 さらに、棒グラフ図は、DEDTI が 4 つのベンチマークのうち 3 つで最も高い AUPR を持っていることを示しています。 さらに、表 4 は、ゴールドスタンダード データセットにおける DEDTI、TransDTI、MolTrans、TransforerCPI、DeepConvDTI、および DeepDTA の比較を示しています。 2 件を除くすべてのケースで DEDTI が勝者です。

ゴールドスタンダード データセット上の DEDTI と IRNMF、AutoDTI++、および IMCHGAN 間のパフォーマンスの比較31。 AUC-ROC および AUPR 棒グラフ。

私たちのモデルは、累積的な類似性からの情報を使用して、薬物と標的間の新規相互作用を予測します (補足データ 1)。 予測スコアが 0.9 以上の DTI を DEDTI の上位の提案として選択しました。 上位 126 の予測 (図 6) のうち、その多くは文献からの科学的証拠によって検証可能であることがわかりました。 たとえば、私たちの予測リストはフェンタニルと D2 ドーパミン受容体 (DRD2) との相互作用を示しており、この予測は以前の研究によって裏付けられています 42。

ただし、DEDTI の上位 126 の予測リストの中には、文献であまり注目されていない新しい相互作用がいくつかあります。 たとえば、これらの相互作用のうちの 2 つは、テトラベナジン - アデノシン受容体 A1 (ADORA1) とクロルゾキサゾン - プロスタグランジン - エンドペルオキシド シンターゼ 2 (PTGS2) です。 アデノシン受容体 A1 は、他の 4 つの受容体とともに、G タンパク質共役受容体の定義されたサブグループを形成しています 43。 このタンパク質は人体全体に広がり、腎機能を調節します44。 さらに、最近の研究では、ヒト黒色腫細胞株における ADORA1 のノックダウンが細胞増殖を大幅に抑制し、この抑制が抗腫瘍効果につながることが示されています 45。 KEGG データベース 46 によると、ADORA1 に影響を与える承認薬は 25 種類ありますが、DEDTI によって予測された薬剤 (テトラベナジン) はこのリストには記載されていません。 テトラベナジンは、統合失調症の治療のために開発されたドーパミン枯渇剤として知られています。 さらに、多くの研究により、この薬剤が精神病性障害および多動性運動障害の治療に有効である可能性があることが実証されました47。 シクロオキシゲナーゼ 2 (COX-2) としても知られるプロスタグランジン エンドペルオキシド シンターゼ 2 (PTGS2) は、プロスタグランジンの生成を担っており、妊娠初期に寄与します 48。 さらに、炎症、心血管がん、胃腸がん、結腸直腸がんなど、多くの疾患の発症における PTGS2 の役割に関する多くの研究が報告されています 49。 非ステロイド性抗炎症薬(NSAID)は、この酵素の阻害剤として一般的に使用されます50。 クロルゾキサゾンは FDA に承認された筋弛緩薬であり、DEDTI によっても PTGS2 と相互作用する可能性のある薬剤として予測されています。 上述の 2 つの標的に対して承認済みの薬剤が入手可能であるにもかかわらず、既存の承認済みの薬剤から新規薬剤を特定することは常に重要な作業です。 したがって、これら 2 つの薬剤と標的の間で予測される相互作用をさらに検証できるかどうかを確認することは興味深いでしょう。

分子ドッキング研究は、それぞれ PTGS2 および ADORA1 と複合体を形成したクロルゾキサゾンとテトラベナジンの間の可能性のある相互作用を分析するために行われました。 得られた立体構造は、立体構造の類似性と二乗平均平方根位置偏差 (RMSD) に基づいてクラスター化されました 51。 次に、結合エネルギーが最も低い最適なポーズ (\(\Delta G\)) が各ターゲットに対して選択されました。 分子間相互作用力を調べる目的で、Biovia Discovery Studio Visualizer52を使用してドッキング結果を視覚化しました。 PTGS2 および ADORA1 と複合体を形成したクロルゾキサゾンおよびテトラベナジンの結合自由エネルギーを表 5 に示します。予測された両方の薬剤は、許容可能な結合親和性で正しい位置で標的に結合します。 クロルゾキサゾンは、Ser 530 との水素結合、および Val 523、Leu352、Phe 518、Met 522、Gly 526、Lue 384、Phe 381、Tyr 385、Trp 387、Ala 527、Val 349 および Ser 353 とのその他の相互作用を形成することによって PTGS2 に結合します。図 7 は、その 3D 表現と 2D 表現を示しています。 図8が示すように、テトラベナジン-ADORA1の複合体は、薬物とAsn 1359の間の水素相互作用の中間体によって形成されます。さらに、Ala 1171、Ile 1174、Tyr 1376、Tyr 1117、Phe 1276などの他のアミノ酸も形成されます。 、Val 1192、および Leu 1355 もこの薬物-タンパク質複合体の形成に関与していました。

DEDTI によって予測された上位 126 の DTI の視覚化。 ターゲットは緑色の円で示され、薬物はピンクのボックスで示されます。 薬物-標的の新規相互作用は黒いエッジでマークされます。

クロルゾキサゾンと PTGS2 の間の予測される相互作用のドッキング ポーズの 2D および 3D 表現。 水素結合は緑色の破線で表されます。

テトラベナジンと ADORA1 の間の予測される相互作用のドッキング ポーズの 2D および 3D 表現。 水素結合は緑色の破線で表されます。

すべてのデータセットについて、IEDTI、DEDTI、IMCHGAN の 3 つの方法の結果の違いの有意性を確認するために、誤差レベル \(5\%\) で t 検定を実行しました。 ここでは、負のサンプリング比 1:1 の DTI、負のサンプリング比 1:3 の DTI、およびすべてのゴールドスタンダード データセットに関する結果を報告します。 すべてのケースで、負のサンプリング比 1:1 の DTI データセットで DEDTI と IMCHGAN を比較した場合を除き、統計分析は誤差レベルを下回りました。 言い換えれば、すべてのケースにおいて、DEDTI は他の方法よりも大幅に優れています。 例外は、DEDTI と IMCHGAN が同等に機能する比率 1:3 で発生します。 表 6 に p 値の結果を示します。

我々は、IEDTI と DEDTI という 2 つの方法を導入しました。どちらも、薬物と標的の相互作用を入力特徴情報としてではなく、DTI 予測のラベルとして必要とします。 言い換えれば、私たちの方法は帰納的であり、NeoDTI20とは対照的です。 NeoDTI は、特徴空間内の薬物標的情報を使用します。これは、グラフ ニューラル ネットワーク手法では非常に一般的です。 さらに重要なのは、トレーニング サンプルとテスト サンプルの両方がメソッドのトレーニング フェーズで表示されるため、このメソッドが変換的になります。 変換的手法は予測には適していません。

IEDTI と DEDTI は、ミッションのために DNN モジュールを利用しています。 前者は 3 つのモジュールを使用します (埋め込みの生成に 2 つ、予測に 1 つ、後者は 1 つのモジュール (予測モジュール) を使用します。モジュールの数に加えて、どちらも最新のモジュールと比較して計算の複雑さが低くなります。 -art メソッド (HIDTI、NeoDTI、IMCHGAN など) さらに、IEDTI は、利用可能ですぐに使用できる埋め込みを使用する代わりに、意味のある埋め込みを直接取得します。

一方、IEDTI は、NeoDTI や HIDTI などの文献の方法と同様に、元の特徴空間を新しい対応する埋め込み空間に変換することを利用します。 データを意味のある表現にし、予測の計算オーバーヘッドを削減することを目的としています。 これについては、「方法」セクションの複雑さの分析で示します。 ただし、このような変換は変換方法とラベル付けされたデータに依存します。 多くの場合、データ クラスタリングは適切な値を返しません。 DEDTI は、埋め込み変換による余分なオーバーヘッドのない、より単純な方法の方が DTI 予測で優れたパフォーマンスを発揮することを示しています。 変換を埋め込むためのより良い方法が必要です。

さらに、DTI を予測できるようにするには、方法が帰納的である必要があります。 オッカムのかみそりに基づくと、より単純な方法がデータにとって最適な選択です。 ここでも DEDTI がこのアイデアを洞察力に富んだ表現で示しています。 DTI に関する情報、すなわち、薬物-標的相互作用、薬物-薬物相互作用、薬物-薬物類似性、薬物-副作用関連性、薬物-疾患関連性、標的-標的相互作用、標的-疾患相互作用、標的の類似性。 この研究から得られたもう 1 つの重要な観察は、類似した行列を連結する代わりに合計する利点です。 情報行列を類似度行列に変換すると、それらの次元が等しくなり、この変換により情報を合計する機能が提供されます。

類似性行列の合計は、連結よりも小さい特徴空間を持ちます。 たとえば、特徴ベクトルの長さが数千を超える他の方法と比較して、各薬物ベクトルのサイズは 708 です。 さらに、簡潔な特徴空間により、特徴ベクトルのまばらな表現が回避されます。 言い換えれば、各薬物サンプルの表現がより密になり、より意味のあるものになります。

DEDTI がすべてのメソッドで最高のパフォーマンスを発揮するもう 1 つの理由は、表現が高密度であることです。 特に、DEDTI には、ディープ予測ネットワークに加えて、薬物とターゲットの両方の特徴表現として、合計された類似性ベクトルが含まれています。 特徴の埋め込み方法を改善し、帰納的予測方法を改善することは、DTI 予測の万能薬です。

現在の研究中に生成および/または分析されたデータセットは、IEDTI-DEDTI リポジトリ、github.com/BioinformaticsIASBS/IEDTI-DEDTI で入手できます。

リー、J.ら。 コンピューターによるドラッグの再配置に関する現在の傾向の調査。 簡単な。 バイオインフォーム。 17、2–12 (2016)。

PubMed Google Scholar

Truong, TT、Panizzutti, B.、Kim, JH & Walder, K. ネットワーク分析による薬物の再利用: 精神障害の機会。 薬学 14、1464 (2022)。

PubMed PubMed Central Google Scholar

ディック、Kら。 スーパーラーナーとしての相互視点により、薬物標的相互作用予測 (musdti) が向上します。 科学。 議員第 12 号、1–19 (2022)。

Google スカラー

エザット、A.、ウー、M.、リー、X.-L. & クォー、C.-K. ケモゲノミクスアプローチを使用した薬物標的相互作用の計算による予測: 実証的調査。 簡単な。 バイオインフォーム。 20、1337–1357 (2019)。

CAS PubMed Google Scholar

Najm, M.、Azencott, C.-A.、Playe, B.、Stoven, V. 機械学習による薬物標的の同定: 否定的な例の選び方。 内部。 J.Mol. 科学。 22、5118 (2021)。

PubMed PubMed Central Google Scholar

カウシク、AC、メフムード、A.、ダイ、X.、ウェイ、D.-Q. 機械学習アプローチを介して薬物と標的のペアを予測するための比較化学遺伝学的分析。 科学。 議員 10、1–11 (2020)。

Google スカラー

ジェイコブ、L. & ヴァート、J.-P. タンパク質-リガンド相互作用の予測: 改良されたケモゲノミクスアプローチ。 バイオインフォマティクス 24、2149–2156 (2008)。

CAS PubMed PubMed Central Google Scholar

Hu、L.ら。 Sselm-neg: 薬物と標的の相互作用を予測するための球面検索ベースの極端な学習マシン。 BMC バイオインフォマティクス 24、38 (2023)。

CAS PubMed PubMed Central Google Scholar

Mongia, A. & Majumdar, A. マルチグラフの正則化核ノルム最小化を使用した薬物-標的相互作用予測。 プロスワン 15、e0226484 (2020)。

CAS PubMed PubMed Central Google Scholar

Zhou, J.、Li, Y.、Huang, W.、Shi, W. & Qian, H. ペプチド-薬物複合体の構築に使用されるペプチドの供給源と探索。 ユーロ。 J.Med. 化学。 224、113712 (2021)。

CAS PubMed Google Scholar

Luo, Y. et al. 異種情報からの薬物-標的相互作用予測と計算による薬物再配置のためのネットワーク統合アプローチ。 ナット。 共通。 8、1–13 (2017)。

ADS Google Scholar

キャロン、PR 他創薬へのケモゲノミクス的アプローチ。 カー。 意見。 化学。 バイオル。 5、464–470 (2001)。

CAS PubMed Google Scholar

Playe, B. & Stoven, V. 薬物の特異性を予測するためのケモゲノミクスにおける深い学習方法と浅い学習方法の評価。 J.Cheminform. 12、11 (2020)。

PubMed PubMed Central Google Scholar

澤田 R.、小寺 M.、山西 Y. ケモゲノミクス アプローチを使用した、薬物 - 標的相互作用予測のための幅広い化学記述子のベンチマーク。 モル。 知らせる。 33、719–731 (2014)。

CAS PubMed Google Scholar

Sharma, A. & Rani, R. がんの予測と診断における機械学習の応用に関する体系的なレビュー。 アーチ。 計算します。 メソッド工学 28、4875–4896 (2021)。

Google スカラー

Tang, X. et al. 指標は、正規化された非負数行列因数分解法に基づいた covid-19 の薬物再利用です。 フロント。 イムノール。 11、603615。https://doi.org/10.3389/fimmu.2020.603615 (2021)。

CAS PubMed PubMed Central Google Scholar

Güvenç Paltun, B.、Mamitsuka, H. & Kaski, S. 複数のデータ ソースを統合することにより薬物反応予測を改善します: 行列分解、カーネルお​​よびネットワーク ベースのアプローチ。 簡単な。 バイオインフォーム。 22、346–359 (2021)。

PubMed Google Scholar

Picard, M.、Scott-Boyer, M.-P.、Bodein, A.、Périn, O.、Droit, A. 機械学習分析のためのマルチオミクス データの統合戦略。 計算します。 構造体。 バイオテクノロジー。 J. 19, 3735–3746 (2021)。

CAS PubMed PubMed Central Google Scholar

Hashemi, SM、Zabihian, A.、Hooshmand, M. & Gharaghani, S. Draw: 深層学習による covid-19 抗ウイルス薬の予測 - 行列因数分解の使用に対する反対。 BMCバイオインフォーム。 24、52 (2023)。

Google スカラー

Wan, F.、Hong, L.、Xiao, A.、Jiang, T. & Zeng, J. Neodti: 新しい薬物-標的相互作用を発見するための異種ネットワークからの近隣情報のニューラル統合。 バイオインフォマティクス 35、104–111 (2019)。

CAS PubMed Google Scholar

Sajadi, SZ、Zare Chahooki, MA、Gharaghani, S. & Abbasi, K. Autodti++: オートエンコーダーによる dti 予測のための深層教師なし学習。 BMCバイオインフォーム。 22、1–19 (2021)。

Soh, J.、Park, S. & Lee, H. Hidti: 薬物標的相互作用を予測するための異種情報の統合。 科学。 議員第 12 号、1–12 (2022)。

Google スカラー

Huang, K.、Xiao, C.、Glass, LM & Sun, J. MolTrans: 薬物-標的相互作用予測のための分子相互作用トランスフォーマー。 バイオインフォマティクス 37、830–836 (2021)。

CAS PubMed Google Scholar

Kalakoti, Y.、Yadav, S.、Sundar, D. TransDTI: DTI を推定し、医薬品推奨ワークフローを構築するためのトランスフォーマー ベースの言語モデル。 ACS オメガ 7、2706–2717 (2022)。

CAS PubMed PubMed Central Google Scholar

先輩、AW 他深層学習のポテンシャルを使用してタンパク質構造予測を改善しました。 自然 577、706–710。 https://doi.org/10.1038/s41586-019-1923-7 (2020)。

ADS CAS PubMed Google Scholar

ノックス、C.ら。 Drugbank 3.0: 医薬品に関する「オミクス」研究のための包括的なリソース。 核酸研究所 39、D1035–D1041 (2010)。

PubMed PubMed Central Google Scholar

ケシャバ・プラサド、T. 他ヒトタンパク質参照データベース - 2009 年の更新。 核酸研究所 37、D767–D772 (2009)。

CAS PubMed Google Scholar

Davis、AP et al. 比較トキシコゲノミクス データベース: Update 2013。Nucleic Acids Res. 41、D1104–D1114 (2013)。

ADS CAS PubMed Google Scholar

Kuhn, M.、Campillos, M.、Letunic, I.、Jensen, LJ & Bork, P. 薬物の表現型効果を捉えるための副作用リソース。 モル。 システム。 バイオル。 6, 343 (2010)。

PubMed PubMed Central Google Scholar

Xuan、P.、Chen、B.、Zhang、T. 他。 ネットワーク表現学習とアンサンブル学習に基づいた薬物と標的の相互作用の予測。 計算生物学およびバイオインフォマティクスに関する IEEE/ACM トランザクション (2020)。

山西裕、荒木正、ガッテリッジ A.、本多 W.、金久正、化学空間とゲノム空間の統合からの薬物標的相互作用ネットワークの予測。 バイオインフォマティクス 24、i232–i240 (2008)。

CAS PubMed PubMed Central Google Scholar

Han, J. & Kamber, M. データマイニング: 概念と技術。 モーガン・カウフマン 340、94104–3205 (2006)。

数学 Google Scholar

ユアン、S.-T. & Sun, J. 音声ドキュメント要約におけるオントロジーベースの構造化コサイン類似性。 IEEE/WIC/ACM Web Intelligence 国際会議 (WI'04)、508–513 (IEEE、2004)。

Singh, RH、Maurya, S.、Tripathi, T.、Narula, T. & Srivastav, G. コサイン類似度と knn を使用した映画推薦システム。 内部。 J.Eng. 上級テクノロジー。 9、556–559 (2020)。

Google スカラー

Bordes, A.、Usunier, N.、Garcia-Duran, A.、Weston, J. & Yakhnenko, O. マルチリレーショナル データをモデリングするための埋め込みの翻訳。 上級神経情報プロセス。 システム。 26 (2013)。

Chicco, D. & Jurman, G. バイナリ分類評価における f1 スコアと精度に対するマシューズ相関係数 (mcc) の利点。 BMCジェノム。 21、6。 https://doi.org/10.1186/s12864-019-6413-7 (2020)。

Google スカラー

バーマン、HMら。 プロテインデータバンク。 核酸研究所 28、235–242。 https://doi.org/10.1093/nar/28.1.235 (2000)。

ADS CAS PubMed PubMed Central Google Scholar

キム、S.ら。 2021 年の PubChem: 新しいデータ コンテンツと Web インターフェイスの改善。 核酸研究所 49、D1388–D1395。 https://doi.org/10.1093/nar/gkaa971 (2020)。

CAS PubMed Central Google Scholar

Guex, N. & Peitsch, MC SWISS-MODEL および Swiss-PdbViewer: 比較タンパク質モデリングのための環境。 電気泳動 18、2714–2723 (1997)。

CAS PubMed Google Scholar

Laskowski, RA & Swindells, MB Ligplot+: 創薬のための複数のリガンド-タンパク質相互作用図。 J.Chem. 情報モデル。 51、2778–2786。 https://doi.org/10.1021/CI200227U (2011)。

CAS PubMed Google Scholar

Li, J.、Wang, J.、Lv, H.、Zhang, Z. & Wang, Z. IMCHGAN: 薬物と標的の相互作用予測のための異種グラフ アテンション ネットワークによる帰納的行列補完。 IEEE/ACM トランス。 計算します。 バイオル。 バイオインフォーム。 19、655–665 (2022)。

CAS PubMed Google Scholar

Lipiński、PFJ & Matalińska、J. オピオイド/非オピオイド多標的鎮痛薬の足場としてのフェンタニル構造。 内部。 J.Mol. 科学。 23、https://doi.org/10.3390/ijms23052766 (2022)。

Fredholm、BB 薬物標的としてのアデノシン受容体。 経験値セル解像度 316、1284–1288 (2010)。

CAS PubMed PubMed Central Google Scholar

Hocher, B. 臨床研究開発におけるアデノシン A1 受容体アンタゴニスト。 腎臓内科 78、438–445 (2010)。

CAS PubMed Google Scholar

Liu、H.ら。 Adora1 阻害は、atf3-pd-l1 軸を制御することにより腫瘍免疫回避を促進します。 がん細胞 37、324-339.e8。 https://doi.org/10.1016/j.ccell.2020.02.006 (2020)。

CAS PubMed Google Scholar

金久 M. & 後藤 S. Kegg: 遺伝子とゲノムの京都百科事典。 核酸研究所 28、27–30 (2000)。

CAS PubMed PubMed Central Google Scholar

Kenney, C. & Jankovic, J. 多動性運動障害の治療におけるテトラベナジン。 専門家ニューロザー牧師。 6、7–17 (2006)。

CAS PubMed Google Scholar

Anamthhmakula, P. & Winuthayanon, W. 卵管におけるプロスタグランジン エンドペルオキシド シンターゼ 2 (PTGS2): 受精と初期胚発生における役割。 内分泌学 162 (2021)。

Jaén, RI、Prieto, P.、Casado, M.、Martín-Sanz, P. & Boscá, L. 結腸直腸癌におけるプロスタグランジン エンドペルオキシド シンターゼ 2 の翻訳後修飾: 最新情報。 World J. Gastroenterol. 24、5454–5461 (2018)。

PubMed PubMed Central Google Scholar

Rao, PP & Knaus, EE 非ステロイド性抗炎症薬 (nsaids) の進化: シクロオキシゲナーゼ (cox) 阻害とそれ以降。 J.Pharm. 薬局。 科学。 出版缶。 社会薬局。 科学。 Societe canadienne des Sciences pharmaceutiques 11(2)、81s–110s (2008)。

Google スカラー

Iman, M.、Saadabadi, A.、Davood, A. (2013)。 ナトリウムチャネル遮断薬としてのフタルイミドファルマコフォアのドッキング研究。 イラン。 J. Basic Med. 科学。 16、1016–1021。 https://doi.org/10.22038/ijbms.2013.1684

Systems、D. Biovia、Discovery Studio Visualizer、リリース 2019 (Dassault Systems、サンディエゴ、2020)。

Google スカラー

リファレンスをダウンロードする

著者らは、テスト分析の準備に協力してくれた Alireza Abdi に感謝したいと思います。

テヘラン大学、生化学・生物物理研究所、バイオインフォマティクス・ドラッグデザイン研究所(LBD)、テヘラン、イラン

アラシュ・ザビヒアン & サジャド・ガラガニ

イラン、ザンジャーンの基礎科学高等研究所 (IASBS) コンピューターサイエンスおよび情報技術学部

ファエゼ・ザカリヤプール・サイヤド、セイエド・モルテザ・ハシェミ、レザ・シャミ・ターニャ、モーセン・フーシュマンド

イラン・キシュのテヘラン大学キシュ・インターナショナル・キャンパス生物情報学部

アラシュ・ザビヒアン

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

AZ、MH、FZS がこのアイデアを概念化しました。 FZS と SMH は手法を実装し、結果を準備しました。 RS は、IMCHGAN メソッドを更新して準備しました。 AZ、MH、FZS がこの論文を執筆しました。 MH、AZ、FZS、および SG が原稿をレビューしました。

Mohsen Hooshmand または Sajjad Gharaghani への通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

ザビヒアン、A.、サヤド、FZ、ハシェミ、SM 他 DEDTI 対 IEDTI: 薬物と標的の相互作用の効率的かつ予測モデル。 Sci Rep 13、9238 (2023)。 https://doi.org/10.1038/s41598-023-36438-0

引用をダウンロード

受信日: 2023 年 2 月 27 日

受理日: 2023 年 6 月 3 日

公開日: 2023 年 6 月 7 日

DOI: https://doi.org/10.1038/s41598-023-36438-0

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。