クリーンラボオープン

I dati etichettati sono essenziali per l'addestramento dei modelli di machine learning supervisionati, ma

ラベル付きデータは教師あり機械学習モデルのトレーニングに不可欠ですが、データアノテーターによる間違いはモデルの精度に影響を与える可能性があります。アノテーションのエラーを減らし、より信頼性の高いコンセンサスラベルを確立するために、データポイントごとに複数のアノテーションを収集するのが一般的ですが、このアプローチにはコストがかかる可能性があります。最小限のデータラベル付けで ML モデルを最適化するには、どの新しいデータにラベル付けが必要か、またはどの現在のラベルを再チェックする必要があるかを判断することが重要です。

最近公開されたアクティブラーニング手法である ActiveLab は、この意思決定プロセスを支援するオープンソースツールとして利用可能になりました。 ActiveLab は、限られたアノテーション予算を遵守しながら、ML モデルで最大限の改善を達成するために、ラベル付けまたは再ラベル付けが必要なデータを特定するのに役立ちます。 ActiveLab を使用して生成されたトレーニングデータセットは、固定数のアノテーションを操作する場合、他のアクティブラーニング手法と比較して優れた ML モデルを生成します。

ActiveLab は、以前にラベルが付けられたデータポイントに対して追加のアノテーションを取得する方が有利なのか、ラベルのないプールから完全に新しいインスタンスにラベルを付ける方が有利なのかを判断するという重要な問題に対処します。この質問に対する答えは、現在の注釈に対する信頼度によって決まります。信頼できないアノテーターによるアノテーションが 1 つだけの場合、または結果が矛盾する 2 つのアノテーションがある場合、ラベルの再設定を通じて別の意見を得ることが重要です。このプロセスは、ラベルのないプールから新しいデータポイントにラベルを付けるだけでは、ラベルが間違っているデータを使用してモデルをトレーニングすることによる悪影響を修復できない場合に、特に重要になります。

研究者らは、500 個のラベル付きサンプルの初期トレーニングセットから開始し、分類子モデルを複数回トレーニングし、各反復後のテスト精度をプロットしました。 100 個の例に対する追加のアノテーションが各ラウンドで収集され、この 500 個のセット、または最初にラベルが付けられていない 1500 個の例の別個のプールから選択されました。次にどのデータにラベルを付ける/再ラベルするかを決定するために、さまざまなアクティブラーニング手法が使用されました。ランダム選択は、ラベルのないデータを最初に優先するグッドランダム、および人気のあるモデルベースのアクティブラーニング手法であるエントロピーと不確実性と比較されました。また、ActiveLab も使用されました。これは、モデルの予測に基づいて、サンプルがこれまでに受け取ったアノテーションの数とその同意、およびトレーニングされたアノテーターと比較して各アノテーターが全体的にどの程度信頼できるかを考慮しながら、各サンプルに対して別のラベルがどの程度有益であるかを推定します。モデル。この手法の開発に関する研究者の論文で詳しく説明されているように、他のモデルや画像分類データセットでも同様の結果が見つかりました。

をチェックしてください紙そしてギットハブ。この研究の功績はすべて、このプロジェクトの研究者に与えられます。また、忘れずに参加してください15,000 以上の ML SubReddit、Discordチャンネル、そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。

Niharika は、Marktechpost の技術コンサルティングインターンです。彼女は学部 3 年生で、現在カラグプールのインド工科大学 (IIT) で学士号を取得しています。彼女は、機械学習、データサイエンス、AI に強い関心を持ち、これらの分野の最新動向を熱心に読んでいる非常に熱心な人物です。

紙のGithub。 15,000 以上の ML SubReddit Discord チャネルの電子メールニュースレター

感熱ラベルプリンターのベストセール: Amazon で Polono 感熱ラベルプリンターを 26 ドル節約

ラベル検査システム: Sobel Imaging Systems