Oct 27, 2023
クリーンラボオープン
I dati etichettati sono essenziali per l'addestramento dei modelli di machine learning supervisionati, ma
ラベル付きデータは教師あり機械学習モデルのトレーニングに不可欠ですが、データ アノテーターによる間違いはモデルの精度に影響を与える可能性があります。 アノテーションのエラーを減らし、より信頼性の高いコンセンサス ラベルを確立するために、データ ポイントごとに複数のアノテーションを収集するのが一般的ですが、このアプローチにはコストがかかる可能性があります。 最小限のデータラベル付けで ML モデルを最適化するには、どの新しいデータにラベル付けが必要か、またはどの現在のラベルを再チェックする必要があるかを判断することが重要です。
最近公開されたアクティブ ラーニング手法である ActiveLab は、この意思決定プロセスを支援するオープンソース ツールとして利用可能になりました。 ActiveLab は、限られたアノテーション予算を遵守しながら、ML モデルで最大限の改善を達成するために、ラベル付けまたは再ラベル付けが必要なデータを特定するのに役立ちます。 ActiveLab を使用して生成されたトレーニング データセットは、固定数のアノテーションを操作する場合、他のアクティブ ラーニング手法と比較して優れた ML モデルを生成します。
ActiveLab は、以前にラベルが付けられたデータ ポイントに対して追加のアノテーションを取得する方が有利なのか、ラベルのないプールから完全に新しいインスタンスにラベルを付ける方が有利なのかを判断するという重要な問題に対処します。 この質問に対する答えは、現在の注釈に対する信頼度によって決まります。 信頼できないアノテーターによるアノテーションが 1 つだけの場合、または結果が矛盾する 2 つのアノテーションがある場合、ラベルの再設定を通じて別の意見を得ることが重要です。 このプロセスは、ラベルのないプールから新しいデータ ポイントにラベルを付けるだけでは、ラベルが間違っているデータを使用してモデルをトレーニングすることによる悪影響を修復できない場合に、特に重要になります。
研究者らは、500 個のラベル付きサンプルの初期トレーニング セットから開始し、分類子モデルを複数回トレーニングし、各反復後のテスト精度をプロットしました。 100 個の例に対する追加のアノテーションが各ラウンドで収集され、この 500 個のセット、または最初にラベルが付けられていない 1500 個の例の別個のプールから選択されました。 次にどのデータにラベルを付ける/再ラベルするかを決定するために、さまざまなアクティブ ラーニング手法が使用されました。 ランダム選択は、ラベルのないデータを最初に優先するグッド ランダム、および人気のあるモデルベースのアクティブ ラーニング手法であるエントロピーと不確実性と比較されました。 また、ActiveLab も使用されました。これは、モデルの予測に基づいて、サンプルがこれまでに受け取ったアノテーションの数とその同意、およびトレーニングされたアノテーターと比較して各アノテーターが全体的にどの程度信頼できるかを考慮しながら、各サンプルに対して別のラベルがどの程度有益であるかを推定します。モデル。 この手法の開発に関する研究者の論文で詳しく説明されているように、他のモデルや画像分類データセットでも同様の結果が見つかりました。
をチェックしてください紙そしてギットハブ。この研究の功績はすべて、このプロジェクトの研究者に与えられます。 また、忘れずに参加してください15,000 以上の ML SubReddit、Discordチャンネル、 そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。
Niharika は、Marktechpost の技術コンサルティング インターンです。 彼女は学部 3 年生で、現在カラグプールのインド工科大学 (IIT) で学士号を取得しています。 彼女は、機械学習、データ サイエンス、AI に強い関心を持ち、これらの分野の最新動向を熱心に読んでいる非常に熱心な人物です。
紙のGithub。 15,000 以上の ML SubReddit Discord チャネルの電子メール ニュースレター