Nov 19, 2023
自動生成コーパスによる材料情報抽出
Dati scientifici Volume 9,
Scientific Data volume 9、記事番号: 401 (2022) この記事を引用
2608 アクセス
1 引用
1 オルトメトリック
メトリクスの詳細
自然言語処理 (NLP) の情報抽出 (IE) は、非構造化テキストから構造化情報を抽出して、コンピューターによる自然言語の理解を支援することを目的としています。 機械学習ベースの IE 手法は、より多くのインテリジェンスと可能性をもたらしますが、広範囲かつ正確なラベル付きコーパスが必要です。 材料科学の分野では、信頼できるラベルを付けることは多くの専門家の努力を必要とする骨の折れる作業です。 手動介入を減らし、IE 中にマテリアル コーパスを自動的に生成するために、この研究では、自動生成されたコーパスを介したマテリアルの半教師あり IE フレームワークを提案します。 以前の研究での超合金データ抽出を例にとると、Snorkel を使用した提案されたフレームワークは、プロパティ値を含むコーパスに自動的にラベルを付けます。 次に、生成されたコーパス上で情報抽出モデルをトレーニングするために、Ordered Neurons-Long Short-Term Memory (ON-LSTM) ネットワークが採用されます。 実験結果は,超合金のγ'ソルバス温度,密度および固相線温度のF1スコアがそれぞれ83.90%,94.02%,89.27%であることを示した。 さらに、他の材料についても同様の実験を行ったところ、提案した枠組みが材料分野において普遍的であることが実験結果からわかりました。
自然言語処理 (NLP) は、コンピュータが自然言語を分析および処理できるように、コンピュータがテキストの知識を理解することに焦点を当てています1。 NLP の情報抽出 (IE) は、最も著名なテキスト マイニング テクノロジの 1 つであり、非構造化テキストから構造化情報を抽出することを目的としています2。 材料分野の科学文献には信頼できるデータが多数含まれており、データに基づいた材料の研究開発が促進されています3、4、5。 人間の手作業による抽出のみに頼ると時間がかかります6。 したがって、NLP 技術を使用して、化学および材料科学の分野の論文から有機および無機化学物質の自動データ抽出を行うことは理にかなっています7、8、9、10、11。
機械学習と NLP の発展に伴い、IE テクノロジーは特に生物学と医学において急速に発展しました6。 スニールら。 IE は意味関係を検出および分類するプロセスであり、畳み込みニューラル ネットワーク (CNN) を使用して意味特徴を取得し、生物医学領域の情報を抽出すると提案しました 12。 多くの論文で、機能の最適化に深層学習モデルが適用されています。 たとえば、Xinbo et al。 彼らは、コンテキストの特徴を分類するために条件付きランダム フィールド (CRF) を使用し、単語のスパース性の問題を解決するためにオートエンコーダーとスパース性制限を使用しました13。 最近、他の IE システムも、Long Short-Term Memory (LSTM) を使用して可能な情報を探索するために調査されています。 ラガベンドラら。 双方向 LSTM および CRF に単語を埋め込みます。 彼らはリカレント ニューラル ネットワークを使用して特徴を取得し、臨床概念の抽出を完了しました14。 アルシャドら。 は、言語文法を理解し、単語間の関係を推定するための LSTM 手法を発表しました15。 ただし、上記のニューラル ネットワークはすべて、ネットワークをトレーニングするために広範で正確なラベル付きコーパスを必要とします。
残念ながら、超合金などの多くの材料主題に関する論文は比較的少ないため、論文から必要な情報を抽出するのは困難な作業となります。 前回の研究 11 では、超合金の科学文献から化学組成と特性データの両方を取得する NLP パイプラインを開発しました。 限られたトレーニング コーパス ラベルの欠点を克服し、高精度と再現率を同時に達成するために、パイプライン用のルールベースの固有表現認識 (NER) 方法と距離ベースのヒューリスティック多重関係抽出アルゴリズムが提案されました。 提案された IE アルゴリズムはルールベースの方法ですが、機械学習方法は、ラベル付きコーパスがトレーニングに十分ではなかったため、比較後に放棄されました。 人間だけで行うには多くの専門家の努力が必要となる大変な作業です。 ルールベースの戦略はこのような状況では効率的ですが、独自に学習して更新する機能はありません。 したがって、機械学習ベースの IE には、手作業の介入を軽減できる物質領域のコーパスの自動生成が必要であり、これにより、コンピュータが自ら論文を読み取ってデータセットを抽出することが実現されます。
機械学習の問題に直面すると、データとアルゴリズムという 2 つの問題が避けられません。 さまざまな機械学習フレームワークの改善に伴い、アルゴリズムの適用限界は徐々に低下しています。 ただし、データの取得には依然として労力がかかり、必要なプロセスです。 仕事では、通常次の問題に直面します。タスクには大量のコーパスがあるのに、それらのどれにも信頼できるラベルがありません。 上記の問題に対応するため、通常の方法は、転送可能な特徴の教師なし学習、ルールシステムとモデルまたは単純なスタッキングルールシステムの組み合わせ、ラベルデータを拡張し、手動検証とアノテーションを増やすための半教師あり方法です16。 しかし、これらの方法は操作が煩雑であるか、コストが高すぎるか、柔軟性が低すぎるかのいずれかです。 これに基づいて、高速なデータセット構築とモデルトレーニングを可能にするデータプログラミングフレームワークとして Snorkel16 がスタンフォード大学の研究チームによって提案されました。
この研究では、自動生成されたコーパスを介した材料ドメインの半教師あり IE フレームワークを提案します。 前の研究での超合金データ抽出を例にとると、Snorkel17 を使用した提案されたフレームワークは、超合金の名前とそれに対応する特性値を含むコーパスに自動的にラベルを付けます。 まず、科学文献の文章の特徴に従って書かれたラベリング関数をシュノーケル関数のトレーニング プロセスに組み込み、次に正確なトレーニング セットを取得します。 半教師ありは、データを拡張するのではなく、人間が作成したラベル付け関数で具体化されます。 最後に、一般的な Ordered Neurons-LSTM (ON-LSTM)18 ネットワークを使用して、この自動トレーニング コーパスで情報抽出モデルをトレーニングし、材料の科学文献のプロパティ値を抽出します。 ON-LSTM を使用すると、情報抽出タスクに関して従来の LSTM よりも約 18% 高い結果が得られます。 コードは https://github.com/MGEdata/auto-generate-corpus で入手できます。 私たちの貢献は次のように要約されます。
機械学習における半教師あり手法を用いてコーパスを自動生成するマテリアル向けの新しいIEフレームワークを提案する。 これらの作業は、前回の作業11をベースに完成し、さらに材料フィールドの情報を抽出します。
ON-LSTM は、IE のタスクを完了するために使用されます。 私たちの知る限り、統合の可能性を探るために ON-LSTM と IE が組み合わされるのはこれが初めてです。
実験結果は、この論文で提案した方法が効果的に情報を抽出でき、幅広い材料主題に適用できることを示しています。
コーパスの自動生成によってマテリアル情報を抽出する私たちの方法には、図 1 に示すように、NER、候補セットの生成、シュノーケル フレームワーク、およびトレーニング モデルのステップが含まれます。アルゴリズムのワークフローをより詳細かつ鮮明に説明するために、次のようにします。例として超合金の γ' ソルバス温度。 私たちが使用する最初のコーパスは、NER メソッドを使用して文内の超合金の名前と特性値をマークすることです。 NER の具体的な手法については、前回の記事で詳しく説明しています11。 ただし、初期コーパスは文中のすべての超合金名と特性値をマークします。ただし、文中に複数の超合金名と特性値がある場合、NER は超合金名と特性値の一致モードを正確に見つけることができません。 次のステップは、候補を生成することです。 以下は、超合金の γ' ソルバス温度を説明するサンプルセンテンスです。
情報抽出のプロセス。 このうち、BAは超合金の名前を表し、B-Valは物性値を表します。 LF_1、LF_2、…、LF_n はラベル付け関数の名前を表します。
X1、X2、および X3 の γ' ソルバス温度は、それぞれ Y1、Y2、および Y3 です。
この文には 3 つの超合金とその γ' ソルバス温度が含まれています。 この文では、Xi は i 番目の超合金を表し、Yi は i 番目の γ' ソルバス温度の値を表します。 この例では、完了する必要があるタスクは、(X1, Y1)、(X2, Y2)、および (\({X}_{3}\), \({Y}_{) の正しいペアを見つけることです。 3}\))。 候補を、超合金 \({X}_{1}\)、\({X}_{2}\)、\({X}_{3}\) および γ の名前の網羅的な組み合わせとして定義します。 ' ソルバス温度 \({Y}_{1}\)、\({Y}_{2}\)、\({Y}_{3}\)。 したがって、候補は 9 つあります: (\({X}_{1}\), \({Y}_{1}\)), (\({X}_{1}\), \({Y }_{2}\))、(\({X}_{1}\)、\({Y}_{3}\))、(\({X}_{2}\)、\( {Y}_{1}\))、(\({X}_{2}\)、\({Y}_{2}\))、(\({X}_{2}\)、 \({Y}_{3}\))、(\({X}_{3}\)、\({Y}_{1}\))、(\({X}_{3}\) )、\({Y}_{2}\))、(\({X}_{3}\)、\({Y}_{3}\))。 文中に \(m\) 個の超合金名と \(n\) γ' ソルバス温度がある場合、m*n 個の候補が生成されます。
3 番目のステップでは、候補をスクリーニングするための半教師あり手法である Snorkel フレームワークでいくつかのラベリング関数を作成し、超合金名と γ' ソルバス温度の正しい組み合わせを取得します。 これまでのところ、抽出すべき関係を正確に見つけ出し、必要なコーパスを生成できました。 最後に、これらのコーパスで深層学習モデル ON-LSTM トレーニング モデルを使用し、新しいコーパスがトレーニング モデルを使用して必要な関係を直接抽出します。
超合金の分野では文献が少ないため、IE の公開コーパスは利用できません。 したがって、この分野でモデルをトレーニングするには、トレーニング コーパスの問題を手動検索によって解決できます19。 Snorkel は、ユーザーがプログラム的にトレーニング コーパスにラベルを付け、構築し、管理できるようにすることから始めて、トレーニング データの作成と管理という煩雑で多くの場合完全に手作業で行われるプロセスに数学的かつ体系的な構造を提供できるという根本的なアイデアを提案しています。
図 1 の 3 番目の部分は、Snorkel フレームワークの具体的なプロセスを示しています。 Snorkel フレームワークの主な利点は、データセットに手動でラベルを付ける必要がないことです。 タスクが変更されると、データの再ラベル付け、拡張、または無視が必要になる場合があります20。 ユーザーは、各データセットの特性に注意を払い、候補の真と偽を自動的に判断できるデータセットのラベル付け関数を作成するだけで済みます。 ただし、Snorkel はトレーニング データを生成するためのフレームワークを提案するだけであり、特定の分野向けに設計されたものではありません。 前作20では化学分野でシュノーケルを使用していました。 この研究では、科学文献からコーパスを生成するための弱教師あり学習フレームワークであるシュノーケルのアプリケーションを開発します。
候補を生成するために、科学文献からの超合金および γ' ソルバス温度に関するすべての関連単語にラベルを付けるルールを使用します。 マークされた超合金と γ' ソルバス温度のすべての組み合わせを網羅して候補セットを作成し、ラベル付け機能によってそれらを判断します。 Snorkel の生成モデルは、書き込まれたラベル付け関数の一貫性と発散に基づいて、候補セットの精度と関連性を計算します。 生成モデルはラベリング関数に基づいて、実際のデータを必要とせず、候補の正誤を直接判断します。 各候補はすべてのラベル付け関数によって評価され、妥当な結果が得られます。 候補者は正しく判断され、ターゲット コーパスが形成されます。
材料中の超合金については、ルールベースの手法を使用して、材料に関連する科学雑誌記事の 14,425 以上の全文から、超合金の名前と対応する特性値を含む文を分類します。 以前の研究 11 と同様に、これらの記事には Elsevier Research Products API を通じてアクセスでき、誰でも API キーを取得して非営利目的で API を無料で使用できます。 Elsevier Research Products API の詳細については、https://dev.elsevier.com を参照してください。 アプリケーションが承認されると、Web サイトは各ユーザーに API キーを割り当てます。 API キーを介して、プレーンテキストおよび XML 形式で記事を取得できます。 記事を取得したら、記事に対してテキストマイニングを実行できます。 さらに、補足資料として 14,425 件の記事の Dois をアップロードしました。 抽出された超合金はCo基超合金とNi基超合金の2種類であり、全超合金の80%以上を占めています。 超合金の物性値を含む文章は通常、全文に含まれるため、科学雑誌の記事の全文を考慮します。 超合金に関する記事には多くの特性が含まれていますが、そのうちの 3 つである γ' ソルバス温度、固相線温度、密度に焦点を当てます。 そのうち、γ' ソルバス温度に関連する文は 457 文でした。 最初のコーパスは https://github.com/MGEdata/snorkel で公開されています。 比較的少数の文しか得られませんが、超合金の分野ではすでにかなりの数の文が得られます。 場合によっては、1 つの文の中に複数の名前とプロパティ値が記載されていることがあります。 超合金と γ' ソルバス温度を正確に一致させるために、すべての組み合わせが徹底的に生成され、1,184 のペアが得られました。 一致した候補はシュノーケルによってマークされ、コーパスが形成されます。 このようにして得られたコーパスは、抽出に対するラベリング関数の影響を反映しています。
各データセットには独自の特性があり、ラベリング関数はデータセットの特性に応じてカスタマイズされます。 ユーザーが提案したフレームワークを使用して自分のコーパス内の関係を抽出したい場合は、コーパス内の文の特徴に一致するラベル付け関数を書き換えるだけで済みます。 ラベリング機能はコーパスの出典とは何の関係もなく、文の特徴のみを扱います。 超合金に関する科学文献には、より専門的な用語が記載されています。 γ' ソルバス温度を抽出するために、意味的特性に従って 10 を超えるラベリング関数を作成します。 表 1 に、ラベル付け関数の例を示します。 さまざまなラベリング関数の範囲、重複、競合に応じて、ラベリング関数の記述を調整します。 ラベル付け関数のリストを表 2 に示します。ラベル付け関数の範囲とは、ラベル付けに成功した陽性サンプルと陰性サンプルの割合を指します。 抽出された超合金の γ' ソルバス温度では、作成したラベル関数の包括的なカバレッジは 90% 以上に達します。 ユーザーがフレームワークを使用してラベル付け関数を作成する場合は、ラベル付け関数の全体的なカバレッジをできるだけ高くするようにしてください。 オーバーラップをより詳細に説明するために、例を使用して説明します。 3 つの候補 \(c1\)、\(c2\)、\(c3\) と 2 つのラベル関数 \(LF1\)、\(LF2\) があるとします。 ラベリング関数が候補を正しいと判断した場合は 1 を返し、候補が偽と判断した場合は 0 を返します。ラベリング関数が候補に関与しない場合は棄権して -1 を返します。 ラベル関数 \(LF1\) と \(LF2\) によって形成される行列は、それぞれ [1, −1, 0]、[1, −1, −1] です。 \(LF1\) と \(LF2\) はどちらも最初の候補を判断します。これをオーバーラップと呼びます。 矛盾とは、2 つのラベリング関数が同じ候補に関与し、判定結果が矛盾することを意味します。 競合が 0 に近づく傾向があるほど、より具体的なラベル付け関数が記述されます。 Snorkel フレームワークの公式 Web サイトにあるラベリング関数アナライザー PandasLFApplier を通じてラベリング関数を出力すると、競合が 0 であることがわかります。これは、作成したラベリング関数間に競合がないことを示します。 テーブルを調べると、これらのラベル付け機能が包括的かつ正確であることがわかります。 これらの機能は良好な結果をもたらしました。 たとえば、LF_in の候補者のカバレッジは 0.46 です。
生成モデルは、与えられたラベル付け関数を通じて各候補の真偽を判断し、それによってコーパスを生成するタスクを分類タスクに変換します。 F1 スコアが分類問題の適切な尺度であることはよく知られており、一部の分類問題では最終評価指標として F1 スコアがよく使用されます。 F1 スコアは適合率と再現率の調和平均です。つまり、 \({\rm{F1}} \mbox{-} {\rm{score}}=2\ast \frac{precision\ast remember}{precision +思い出してください}\)。 適合率は \(\frac{TP}{TP+FP}\) で与えられ、再現率は \(\frac{TP}{TP+FN}\) で与えられます。 ここで、TP は真に陽性であり、陽性サンプルと判断され、実際に陽性サンプルです。 FP は偽陽性であり、陽性サンプルであると判断されますが、実際には陰性サンプルです。 FNとは、偽陰性であり、陰性サンプルであると判断されますが、実際には陽性サンプルです。 F1 スコアの最大値は 1、最小値は 0 です。
F1 スコアに加えて、ROC21 も分類の不均衡を測定するために使用される指標です。 特に、ROC-auc はバイナリ分類器の長所と短所を評価するために使用されます。 ROC-auc は、ROC 曲線の下の領域として定義されます。 ROC 曲線は通常、直線 y = x 上にあるため、すべての ROC-auc の値の範囲は 0.5 から 1 の間になります。多くの場合、ROC 曲線はどの分類器のパフォーマンスが優れているかを明確に示しておらず、ROC-auc は数値。 値が大きいほど、分類子の効果が高くなります。 ROC-auc の値と分類器の関係については、分類器を評価するためのおおよその基準があります。 ROC-auc が 0.5 未満の場合、モデルの識別能力はほとんどありません。 ROC-auc が 0.5 より大きく 0.8 より小さい場合、モデルの識別能力は許容範囲内です。 ROC-auc の値が 0.8 より大きい場合、モデルの識別能力はより優れています。
γ' ソルバス温度の 1184 個の候補セットを、それぞれ 674、200、および 310 個の候補セットからなるトレーニング セット、開発セット、およびテスト セットに分割します。 Snorkel を使用してコーパスを生成する効果を検証するために、ドメインの専門家を招待して、開発セットとテスト セットを手動でマークしてもらいました。 専門家は、1184 個の候補セットのうち、合計 200 個の候補セットに開発として注釈を付けます。 現在、手動のワークロードは多少大きくなっていますが、トレーニングされたモデルはより大きなデータセットを生成できます。 手動の作業負荷は初期段階に限定されており、その後の機械処理の使用は手動処理よりもはるかに高速になります。 現在まで、トレーニング セットとテスト セットにはラベルが付けられておらず、開発セットには手動でラベルが付けられています。 開発セットの Snorkel フレームワークにラベル関数を埋め込みます。 目的は、トレーニング セットから正しい情報を抽出してコーパスを形成することです。
自動生成コーパスの評価結果を図2に示す。図の下の数字はエポック、縦軸は具体的な値を表す。 Snorkel フレームワークを使用する場合、さまざまなエポックを使用します。 モデルをトレーニングする場合、エポックが増加するにつれてモデルの効果は向上しますが、エポックをトレーニングしすぎると、モデルがトレーニング データに過剰適合して効果が減少します。 理想的には、モデルが良好な状態から悪い状態に変化する変曲点を見つけて、トレーニングを停止するかどうかを決定したいと考えています。 多くの実験を行った結果、エポックが 70 のときに最良の結果が得られることがわかりました。最良の ROC-auc は 0.882、最良の F1 スコアは 0.839 でした。 対応する変曲点エポックは 70 で、それ以上のエポックは過剰適合を引き起こし、結果が悪化します。 これらの値は、生成されたデータ セットの品質が高いことを示しています。 これらの値はエポックが異なるとわずかに異なりますが、図から、その差が有意ではないことがわかります。 これは、ラベル関数が正確に記述されている限り、シュノーケルの学習能力はエポックとあまり相関しないことを示しています。
生成されたデータセットにおける F1 スコアと ROC-auc のパフォーマンス。 値が 0.8 より大きい場合、モデルは適切に機能しています。
シュノーケルを利用してコーパスを取得しました。 候補の正誤を判断する場合、候補集合のレベルでラベル関数を記述します。 異なる候補が同じ文に由来する可能性があるため、テスト セットで検証する場合、テスト セット内の文がトレーニング中にモデルによって認識された可能性があります。 モデルの一般性を説明するために、γ' ソルバス温度に関する未学習の 88 文を追加して、298 個の候補セットを生成します。
生成された 298 個の候補セットをトレーニング済みモデルに直接入力し、各候補を判定します。 専門家に、Snorkel によって自動生成された 50 個のコーパスをランダムに選択してもらい、手動で検査してもらいます。 表 3 は、専門家によって修正されたコーパスの例です。 多数の候補の中から正しい組み合わせが選択されます。 その結果、コーパスタグを自動生成する方法を使用することが判明した。 タグの正解率は80%以上に達しました。 1 というラベルが付いている最初の列は正しいペアであり、0 というラベルが付いている列は間違っています。 「name_id」と「attri_id」はそれぞれ、文中の超合金の位置と γ ソルバス温度を表します。
シュノーケルによって生成されたラベル付きコーパスが多数あるため、これらのコーパスを使用して判別モデルをトレーニングできます。 しかし、シュノーケルはサンプルの種類を正確に判断できるのに、なぜ別の判別モデルをトレーニングする必要があるのか疑問に思わずにはいられません。 この質問は、生成モデルと判別モデルの違いから始める必要があります。 Snorkel の生成モデルはデータから同時確率分布 P(X, Y) を学習し、予測モデルとして条件付き確率分布 P(Y|X) を取得します。モデルを生成する式は次のように表されます。
条件付き確率分布P(Y|X)をデータから直接学習した判別モデルを予測モデルとして設定する。 判別モデルと生成モデルの特性に基づいて、生成モデルによって生成されたコーパスは、判別モデルが提案された方法の適用範囲を向上させるのに役立ちます。 生成モデルは結合確率分布 P(X, Y) を学習する必要がありますが、すべてのラベル付け関数でカバーできないコーパスの場合、P(X, Y) を取得することは明らかに不可能です。 それに対して、判別モデルは X 自体の特徴だけを必要とします。 P(Y|X) を計算できるため、生成モデルではカバーできないデータ ポイントを判別モデルでカバーできます。 さらに、生成モデルのトレーニングで使用される確率グラフ モデルと比較して、判別モデルは、私たちが使用する ON-LSTM モデルなど、より高度で複雑なモデルを使用してトレーニングでき、モデルの精度も向上します。
ON-LSTM は、ニューロンの特定の並べ替えを通じて階層構造を LSTM に統合し、LSTM が階層構造情報を自動的に学習できるようにします。 トレーニング方法は教師あり学習であり、トレーニングされたモデルを使用して大規模なマテリアル コーパスを処理できます。 ON-LSTM は、LSTM 内のニューロンを分類し、階層構造を統合して、より豊富な情報を表現します18。 元の LSTM モデルでは、ニューロン間の更新には関連性がありません。 このため、ON-LSTM はマスター フォーゲット ゲート \(\widetilde{{f}_{t}}\) とマスター入力ゲート \(\widetilde{{i}_{t}}\) の 2 つのゲートを追加します。 。 ON-LSTMの構造を図3に示します。
ON-LSTM の内部構造。ここで、σ は活性化関数シグモイド、ft はフォーゲット ゲート、入力ゲート、ot は出力ゲートです。
提案された方法の優位性を実証するために、私たちのアルゴリズムが、提案されたデータセットに関するいくつかの古典的なアルゴリズムと比較されます。 比較結果を図4に示します。このうちSnowball22は一般的な情報抽出フレームワークです。 Modified Snowball23 は、マテリアル フィールドの Snowball をベースに改良したものです。 距離ベースのアルゴリズムは、前回の記事で提案した手法です11。 LSTM は、Snorke を使用してコーパスを自動的に生成し、LSTM ネットワーク トレーニングを使用した後に得られる結果を指します。 ON-LSTM は、本番コーパスの後に ON-LSTM を使用してトレーニングした結果です。 私たちが提案した方法が以前の古典的なアルゴリズムよりもはるかに優れたパフォーマンスを発揮することは明らかです。 結果は、IE タスクでは ON-LSTM が LSTM よりも優れたパフォーマンスを発揮することを示しています。 言い換えれば、順序付けられたニューロンは、文中でより豊富な情報を表現し、単語間の意味情報を捉えることができます。
ON-LSTM と以前の記事で提案したアルゴリズムの比較結果。 ON-LSTM は私たちが提案する手法です。
我々が提案した手法は、資料に普遍的なコーパスを持たないIEの一般的な枠組みである。 この特性をよりよく説明するために、超合金の密度、固相線温度、高エントロピー合金の硬度情報など、他の物理的特性も材料領域から抽出しました。 表 4 は、密度の F1 スコア、超合金の γ' ソルバス温度、および高エントロピー合金の硬度情報を示しています。 実験結果は、自動生成されたコーパスによる関係抽出のための私たちの提案方法が汎用性があり、物質領域のあらゆる特性を抽出できることを示しています。
表 4 から、F1 スコアは超合金から密度情報を抽出する際に優れたパフォーマンスを発揮することがわかります。 密度を含む文の特徴を観察すると、密度を記述する場合、これらの文は他の属性に比べて比較的単調であることがわかります。 これが、密度の F1 スコアが比較的高い理由です。 いくつかの典型的な文型を以下にまとめます。A は属性、B はプロパティ値を表します。 Ai、Bi は i 番目の A または B を表します。
「さらに重要なことに、これらの Co-V ベースの超合金は密度が低い (8.39 ~ 8.86 g/cm3)」。 ラベル関数を記述する場合、「A(B)」の形式で記述することができます。
「GTD222 および TiC/GTD222 複合粉末の見掛け密度は、それぞれ 4.56 g/cm3 および 4.48 g/cm3 でした。」これは、「A1 および A2 は動詞 B1 および B2」のパターンとして要約できます。
「Nimonic 90.0 の密度は 8.2 g/cm3 ですが、層構成成分 Ni2Si、Ni5Si2、Cr2B、CrB の密度はそれぞれ 7.2 g/cm3、7.0 g/cm3、6.6 g/cm3、6.1 g/cm3 です。」 ラベリング関数は、「A1、A2、A3、A4 の密度は B1、B2、B3、B4」のように記述できます。
機械学習手法では、モデルのトレーニングに大量のデータが必要です。 機械学習手法は多くの分野で広く使用されていますが、材料分野で必要な情報を抽出する方法としてはまだ新しい手法です。 抽出された情報は、研究者がどのような状況でどの材料を使用するかを決定するのに役立ちます。
この研究では、半教師ありシュノーケルを使用して材料分野でトレーニング セットを生成します。 超合金を例に挙げ、さまざまな種類の材料を用いて材料分野における提案手法の汎用性を検証します。 トレーニング セットを生成するとき、データセットは非常に不均衡であるため、常に負を出力する些細なベースラインでも高い精度を得ることができます。 したがって、精度ではなく F1 スコアと ROC-auc を使用してデータセットを評価しました。 さらに、最初に ON-LSTM と IE 間の統合の可能性を調査します。 より高度な方法を使用してモデルをトレーニングしましたが、結果は特に満足のいくものではありませんでした。 これは、データセットの数が少ないことと、正のサンプルと負のサンプルの不均衡が原因である可能性があります。 私たちのすべてのプロセスは材料分野の特定の情報を抽出しますが、提案された方法はデータセットのない他の分野にも適用できます。 要件に従ってさまざまなラベル付け関数が記述され、生成されたデータセットに従ってモデルがトレーニングされて、抽出の堅牢性が向上します。 いずれの場合も、ラベル付け関数を記述する難しさは、コーパスの難しさと抽出される情報に関係します。
機械学習手法を使用して材料分野の情報を抽出することは、依然として多くの課題に直面しています。 一方で、機械学習には大規模なコーパスが必要ですが、超合金の分野では、正確でエラーのないデータセットを取得することが難しいため、データ量が少なくなります。 今後は、より多くの材料に関する論文や物性を含む文章をより多く取得し、より大規模で高品質なデータセットを取得したいと考えています。 一方で、データセットの数が限られているため、情報を抽出する際には事前トレーニングされたモデルは使用しません。 事前学習モデルは、単語や文章の豊富な意味的特徴をより効果的に表現できる自己教師あり学習手法を通じて、大規模なデータから特定のタスクに関連しないモデルを取得します。 将来的には、情報抽出段階で BERT24 や XLNet25,26 などの事前学習モデルを導入し、文の文脈情報を最大限に活用し、ベクトルを使用して単語の意味を正確に表現できるようになる可能性があります。
このセクションでは、この作業で使用される機械学習手法、つまりデータセットを生成するための Snorkel 手法と、IE モデルをトレーニングするための ON-LSTM 手法について説明します。
シュノーケルは、弱い監視を使用してデータセットを生成するモデルです。 外れ値データには手動でラベルが付けられ、ユーザーはラベル付け関数を作成するだけで済みます27。 シュノーケルはデータ プログラミング 28,29 を使用して出力を取得します。 シュノーケルの主な目的は、Φ \(\in \) Φ を与え、可能な離散ラベル τ \(\in \) T を決定することです。ここで、Φ は候補セットを表し、T はセット {1, 0} を表します。 この目標を達成するには、特定のデータセットに基づいていくつかのラベル関数 λ を作成する必要があります。 ユーザーにとって、記述されたラベリング関数はブラックボックス関数であり、ラベリング関数に関する Snorkel の操作を理解する必要はありません。 Snorkel は候補集合 Φ とラベル関数 λ を入力すると、Φ が属するラベル T を出力します。 ユーザーは次の方法でラベル付け関数を作成できます。
パターンベース: 文パターンの特徴を観察していくつかのルールを定式化する方法です。 オマールら。 ユーザーがデータセットに注釈を付けるのに役立つ観察の基本原則を提案しました30。 ソナルら。 分布の類似性と単語間の距離のルールをラベル付けに使用しました31。
遠隔監視: 遠隔監視とは、既存の知識ベースを指します。 知識ベースに抽出される情報が含まれていると仮定すると、これはサンプルの一部を自動的にマークすることと同じです。 たとえば、ラファエルら。 知識ベースの情報を使用して、文レベルの反復関係を抽出しました32。
弱分類器: ランダム予測よりわずかに優れているものの、あまり正確ではない分類器を弱分類器と呼びます33。 他のデータセットに対してラベル付け関数として弱分類器をトレーニングできます。
候補セットに 1 つのデータ点が含まれており、ユーザーが b 個のラベル関数を作成した場合、行列 Γ \(\in \) Ta*b が生成されます。 各ラベル付け関数には、同じデータ ポイントに対するカバレッジ、重複、および競合がある可能性があります。 Snorkel は上記の問題を内部で自動的に解決し、最終的に各データ ポイントに対して 1 つのラベルを形成します。 複数のラベリング関数を統合するシュノーケル モデルの最も重要なコンポーネントは、生成モデルと呼ばれます。 Snorkel は、データ プログラミングの方法を使用してこのコンポーネントを実装します。 詳細は27、28、29を参照してください。
取得したデータセットは TensorFlow34 に付属するプラグインによって埋め込まれた後、ON-LSTM 機械学習アルゴリズムを使用して関係抽出を行います。 ON-LSTM は LSTM の亜種です。 ON-LSTM をわかりやすく説明するために、そのプロセスを段階的に説明します。 このセクションでは、まず LSTM の動作原理を理解します。
LSTM は、長期的な依存関係を学習できる特別なタイプのリカレント ニューラル ネットワーク 35 (RNN) です。 LSTM は、メモリ セル \({c}_{t}\) を通じて情報を削除または追加します。 図 5 に示すように、ゲートには 3 種類あります。忘却ゲート \({f}_{t}\)、入力ゲート \({i}_{t}\)、出力ゲート \({o} _{t}\)、ct36 で。 LSTM の最初のステップは、セル状態からどの情報を破棄するかを決定することであり、これは忘却ゲートを通じて行われます。 入力は、前のシーケンスの隠れ状態 \({h}_{t-1}\) とこのシーケンスのデータ \({x}_{t}\) です。 忘却ゲートの出力 \({f}_{t}\) は、前層の隠れセルの状態を忘れる確率を表し、次のように表されます。
ここで、 \(\sigma \) は活性化関数 sigmoid、Wf と bf はそれぞれ線形相関係数とバイアスです。 ft の値は 0 ~ 1 です。 ここで、0 は情報の通過が許可されていないことを意味し、1 はあらゆる情報の通過が許可されていることを意味します。
LSTM の内部構造。 LSTM セルは、1 つのメモリ セル ct と 3 つのゲートで構成されます。
入力ゲートは、どのような新しい情報がセル状態に格納されるかを決定します。 これは 2 つの部分で構成されます。最初の部分ではシグモイド活性化関数が使用され、その出力は \({i}_{t}\) です。 2 番目の部分では、tanh 活性化関数が使用され、その出力は \({\widehat{c}}_{t}\) です。 2 つの結果を乗算してセルの状態を更新します。 \({W}_{i}\)、\({W}_{c}\)、\({b}_{i}\)、\({b}_{c}\) は線形です関連する係数とバイアス。
次に、古いセルの状態を更新して、\({c}_{t-1}\) を \({c}_{t}\) に更新する必要があります。 古い状態に \({f}_{t}\) を掛けて、確実に破棄される情報を破棄します。 入力ゲート \({i}_{t}\) と \({\widehat{c}}_{t}\) の積の加算の式は次のようになります。
最後に、出力する値を決定する必要があります。 ot の計算式は次のとおりです。 ここで、w0、boは相関係数とバイアスを示します。
隠れ状態 ht の更新は 2 つの部分で構成されます。最初の部分は ot で、2 番目の部分は ct と活性化関数 Tanh で構成されます。
新しい cumax アクティベーション関数は、以前に報告された研究に従って使用されました。 ニューロンの状態は、情報を保存するか忘れるかを制御します。 このようなゲート機構を導入することにより、ニューロン間の相互依存的な更新規則が確立され、ニューロンに順序と差異の階層が存在するようになります。
ON-LSTM 思考の対象は自然言語であり、自然は通常、何らかの階層構造を表現できます。 英語の文章では、文字が最下位の構造と考えられ、単語やフレーズがその上位の構造となります。 レベルが高くなるほど粒度が粗くなり、文のスパンが長くなります。 ON-LSTM 構造では、上位情報によって直接コピーされた履歴情報により、履歴情報が変更されずに繰り返される可能性があるため、上位情報はかなりの距離を保つ可能性があります。 低レベル情報は入力を直接複製するため、入力の各ステップで更新することができます。 入力は常に変化するため、情報のグレーディングを通じて階層構造が埋め込まれます。
忘却ゲート \({f}_{t}\)、入力ゲート \({i}_{t}\)、出力ゲート \({o}_{t}\) および \({\widehat{c ON-LSTM の }}_{t}\) は ct および LSTM と同じ式で与えられますが、更新メカニズムは \({\widehat{c}}_{t}\) から \({c}_{ t}\) は異なります。 以下は、ON-LSTM 全体の更新された式です。
cumax 活性化関数の値は 1 から 0 まで単調減少します。特定の範囲内では、その値は 0 に近づく傾向があり、以前の情報が忘れられていることを示します。 その値が 1 に近づく傾向がある場合、新しい入力コンテンツはますます重要になります。 モデルをトレーニングするとき、ドロップアウトを 0.4、学習率を 0.1、単語ベクトルの次元を 64 に設定しました。
初期データと抽出されたデータは https://github.com/MGEdata/snorkel で入手できます。
コードは https://github.com/MGEdata/auto-generate-corpus で入手できます。 研究者が自分のコーパスを抽出するときは、私たちが作成したフレームワークで自分のコーパスの特性に合ったラベル付け関数を記述するだけでよく、非常に簡単に使用できます。
Galassi, A.、Lippi, M.、Torroni, P. 自然言語処理における注目。 ニューラル ネットワークに関する IEEE トランザクションを学習します。 システム。 15、3709–3721 (2020)。
Google スカラー
Mooney、RJ および Bunescu、RC 情報抽出を使用したテキストからのマイニング知識。 ACM Sigkdd エクスプローラー。 ニュースル。 7、3–10 (2005)。
記事 Google Scholar
Rickman , JM 、Lookman , T. & Kalinin , SV マテリアルズインフォマティクス: 原子レベルから連続体まで。 アクタ資料 168、473–510。
記事 ADS CAS Google Scholar
ウェン、C.ら。 機械学習を利用した、望ましい特性を備えた高エントロピー合金の設計。 Acta Materialia 170、109–117 (2019)。
記事 ADS CAS Google Scholar
Xue、D.ら。 アダプティブ デザインにより、目標の特性を持つ材料の探索を加速します。 ナット。 コミュニケーションズ 7、1–9 (2016)。
ADS Google Scholar
ツトヤン、V.ら。 教師なしの単語埋め込みは、材料科学文献から潜在的な知識を取得します。 ナット。 571、95–98 (2019)。
記事 ADS CAS Google Scholar
Swain, MC & Cole, JM Chemdataextractor: 科学文献から化学情報を自動抽出するためのツールキット。 J. 化学情報モデリング 56、1894–1904 (2016)。
記事 CAS Google Scholar
Krallinger, M.、Rabal, O.、Lourenco, A.、Oyarzabal, J.、Valencia, A. 化学のための情報検索およびテキスト マイニング技術。 化学。 レビュー 117、7673–7761 (2017)。
記事 CAS Google Scholar
キム、Eら。 文献で訓練されたニューラル ネットワークを使用した無機材料合成計画。 J. 化学情報モデリング 60、1194–1201 (2020)。
記事 CAS Google Scholar
Kim, E.、Huang, K.、Jegelka, S.、Olivetti, E. 深層学習による無機材料合成パラメーターの仮想スクリーニング。 npj 計算。 メーター。 3、1–9 (2017)。
記事 CAS Google Scholar
Wang、W.ら。 テキストマイニングによる超合金データの自動パイプライン。 npj 計算。 メーター。 8、1–12 (2022)。
記事 ADS Google Scholar
Sahu, SK、Anand, A.、Oruganty, K.、Gattu, M. ドメイン不変畳み込みニューラル ネットワークを使用した臨床テキストからの関係抽出。 BioNLP@ACL (2016) にて。
Lv, X.、Guan, Y.、Yang, J. & Wu, J. 深層学習による臨床関係抽出。 内部。 J.ハイブリッド情報テクノロジー。 9、237–248 (2016)。
Google スカラー
Chalapathy, R.、Borzeshi, EZ & Piccardi, M. 臨床概念抽出のための双方向 lstm-crf。 arXiv プレプリント arXiv:1611.08373 (2016)。
Javeed, A. トピック モデリングを改善するために単語間の階層関係を抽出するための lstm モデル。 J. 物理学: Conf. サー。 1780、012019 (2021)。
Google スカラー
ラトナー、A.ら。 シュノーケル: 弱い監視による迅速なトレーニング データの作成。 VLDB 基金の議事録。 超大規模データベースに関する国際会議、vol. 11、269 (NIH パブリックアクセス、2017)。
Ratner, A.、Bach, SH、Ehrenberg, H.、Fries, J. & Re, C. シュノーケル: 弱い監視による迅速なトレーニング データの作成。 VLDB J. 11、269–282 (2017)。
Google スカラー
Shen, Y.、Tan, S.、Sordoni, A.、Courville, AC 順序付けられたニューロン: ツリー構造をリカレント ニューラル ネットワークに統合する。 ArXiv abs/1810.09536 (2019)。
Gao, T.、Han, X.、Xie, R.、Liu, Z. & Sun, M. 少数ショットの関係学習のためのニューラル雪だるま式。 手順 AAAI会議アーティフで。 知性。 34、7772–7779 (2020)。
Google スカラー
マロリー、EK et al. シュノーケルを使用してテキストから化学反応を抽出します。 BMCバイオインフォマ。 21(2020)。
Fawcett, T. roc 分析の概要。 パターン認識文字 27、861 ~ 874 (2006)。
記事 ADS Google Scholar
Agichtein, E. & Gravano, L. Snowball: 大規模なプレーンテキスト コレクションからの関係の抽出。 デジタル ライブラリに関する第 5 回 ACM 会議議事録、85 ~ 94 (2000)。
Court, CJ & Cole, JM 半教師あり関係抽出によるキュリー温度とニール温度の自動生成材料データベース。 科学。 データ 5、1 ~ 12 (2018)。
記事 Google Scholar
Devlin, J.、Chang, M.-W.、Lee, K. & Toutanova, K. Bert: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。 arXiv プレプリント arXiv:1810.04805 (2018)。
ヤン、Z.ら。 Xlnet: 言語理解のための一般化された自己回帰事前トレーニング。 上級神経情報処理システム 32 (2019)。
Yan, R.、Jiang, X.、Dang, D. xlnet-bilstm-crf を使用した名前付きエンティティの認識。 神経プロセス。 レット。 53、1–18 (2021)。
記事 Google Scholar
ラトナー、A.ら。 シュノーケル: 弱い監視による迅速なトレーニング データの作成。 VLDB J. 29、709–730 (2020)。
記事 Google Scholar
Bach、SH、He、BD、Ratner、AJ、Re、C。ラベル付きデータを使用しない生成モデルの構造を学習します。 手順機械学習研究 70、273–82 (2017)。
Google スカラー
Ratner, A.、De, SC、Wu, S.、Selsam, D. & Re, C. データ プログラミング: 大規模なトレーニング セットを迅速に作成します。 上級神経情報処理システム 29、3567 (2016)。
Google スカラー
Zaidan, O. & アイズナー, J. アノテーターのモデリング: アノテーターの理論的根拠から学習するための生成的アプローチ。 自然言語処理における経験的手法に関する 2008 年会議議事録、31 ~ 40 (2008)。
Gupta, S. & Manning, CD ブートストラップされたエンティティ抽出のパターン学習が改善されました。 計算自然言語学習に関する第 18 回会議議事録、98–108 (2014)。
Hoffmann, R.、Zhang, C.、Ling, X.、Zettlemoyer, L. & Weld, DS 重複関係の情報抽出のための知識ベースの弱い監視。 ACL(2011年)にて。
Shatalova, OV、Mednikov, DA、Protasova, ZU & Stadnichenko, NS リスク因子と相乗効果チャネルのセグメント化された空間による心血管合併症のリスクの予測。 J. 物理学: Conf. サー。 1679、032042 (5pp) (2020)。
Google スカラー
アバディ、M.ら。 {TensorFlow}: {大規模} 機械学習のためのシステム。 オペレーティング システムの設計と実装に関する第 12 回 USENIX シンポジウム (OSDI 16)、265–283 (2016)。
Zaremba, W.、Sutskever, I.、Vinyals, O. リカレント ニューラル ネットワークの正則化。 arXiv プレプリント arXiv:1409.2329 (2014)。
Shi、Xら。 畳み込み lstm ネットワーク: 降水量ナウキャストのための機械学習アプローチ。 arXiv プレプリント arXiv:1506.04214 (2015)。
リファレンスをダウンロードする
DD と YS は、この論文の責任著者です。 この研究は、助成金番号2020YFC1523303に基づく中国国家重点研究開発プログラム、助成金番号2020-SF-140に基づく青海省重点研究開発プログラム、助成金番号2020-SF-140に基づく中国国立自然科学財団によって支援されています。第61672102号、第61073034号、第61370064号、第60940032号; 中国国家社会科学財団(助成金番号BCA150050) 補助金番号NCET-10-0239による中国教育部大学の新世紀優秀人材プログラム。 助成金番号ITSM201493の北京インテリジェント通信ソフトウェアおよびマルチメディア重点研究所のオープンプロジェクトスポンサー、および助成金番号MCM20130371の中国教育省科学財団および中国移動通信株式会社。 私を論文投稿に導き、原稿を何度も修正するよう励ましてくれたボーイフレンドのイェー・タオに特に感謝します。
北京師範大学人工知能学部、北京、100875、中国
ヤン・ロンゲン & ダン・デペン
北京科学技術大学先端材料技術研究所材料ゲノム工学北京先進イノベーションセンター、北京、北京、100083、中国
Xue Jiang、Weiren Wang、Yanjing Su
北京科学技術大学鉄鋼技術共同イノベーションセンター、北京、100083、中国
シュエ・ジャン
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
元のアイデアは RY および DD によって提案され、XJ および YS と議論されました。 元のデータは XJ、WW および YS によって提供されました。 すべての著者が論文の議論、分析、執筆、および読書に参加しました。 DD と YS がプロジェクトを管理、指導しました。
Depeng Dang または Yanjing Su への対応。
著者らは競合する利害関係を宣言していません。
発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。
オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。
転載と許可
Yan、R.、Jiang、X.、Wang、W. 他自動生成されたコーパスによる材料情報の抽出。 Sci Data 9、401 (2022)。 https://doi.org/10.1038/s41597-022-01492-2
引用をダウンロード
受信日: 2022 年 3 月 9 日
受理日: 2022 年 6 月 28 日
公開日: 2022 年 7 月 13 日
DOI: https://doi.org/10.1038/s41597-022-01492-2
次のリンクを共有すると、誰でもこのコンテンツを読むことができます。
申し訳ございませんが、現在この記事の共有リンクは利用できません。
Springer Nature SharedIt コンテンツ共有イニシアチブによって提供