自動データラベル付けの概要

ニュース

ホームページホームページ / ニュース / 自動データラベル付けの概要

Nov 02, 2023

自動データラベル付けの概要

Nota: grazie a Superb AI per l'articolo sulla leadership di pensiero/educazione riportato sopra.

注: 上記の思想的リーダーシップ/教育に関する記事については、Superb AI に感謝します。 Superb AI がこのコンテンツをサポートし、後援しています。

過去 10 年間、人工知能は大きな波を起こし、その進歩は日常のアプリケーションにも現れています。 しかし、そこに到達するには大量のデータが必要であり、そのデータを整理して実行するには多くの作業が必要です。 ML の専門家は、現実世界のアプリケーションに ML モデルをより迅速に実装するために自動データラベル付けに注目していますが、その理由は簡単に理解できます。 すべての ML 実践者は、モデルを成功させるには何千ものデータ ラベルが必要であることを知っています。 これを手動で行うということは、何千時間もの作業を費やし、戦略を合理化し、プロセスの各ステップを監督することを意味します。 ほとんどの実務者にとって、自動データラベル付けは簡単です。

機械学習パイプラインにおけるデータのラベル付けは、大きなボトルネックや速度低下があることで知られています。 各画像内の重要なオブジェクトに個別に注釈を付けるには、大規模なチームが必要ですが、これには非常に詳細で時間がかかる場合があります。 ラベル作成者のチームを率いるには、違いがあるとモデルが混乱する可能性があるため、多くの場合、各担当者がすべての画像に対して同じ均一のパターンに従うようにする必要があります。 さらに、社内のデータラベラーのチームを雇うのは非常に費用がかかり、アウトソーシングするとコミュニケーションの誤りやエラーが発生します。 まだ収集していない場合、手動でデータにラベルを付けるのは面倒です。 そして、各ステップを通じて、データの注釈は QA 専門家によって監督され、間違いは修正されなければなりません。

機械学習プロジェクトに自動化を追加すると、上で説明した問題の多くが解消されます。 人間の関与の影響がまったくないプロジェクトはありませんが、その必要性を最小限に抑えることでコストが削減され、エラーが最小限に抑えられ、アウトソーシングの必要性がなくなり、エンドツーエンドの運用が確実に高速化されます。 ワークフローに自動化を導入すると、人工知能の導入以来、ML プロフェッショナルを悩ませてきたボトルネックに対処できます。

自動化は、特定のプロジェクトにとっては他のプロジェクトよりも最も合理的です。 何千ものデータイメージに依存するモデルをトレーニングする場合、自動化しないことはほぼ不可能です。 人間だけを使用すると速度低下やエラーが発生するため、プロジェクトの詳細がより詳細になればなるほど、自動化はより役立ちます。 さらに、特定の種類のラベル付けプロジェクトは自動化と密接に関係しており、この戦略の実装はうまくいきます。

機械学習では、モデルは現実世界のアプリケーションと同等の性能しかありません。 多くの場合、それは環境の変化に適応し、新しいイノベーションに対応することを意味します。 これを念頭に置いて、ML 実践者は正確な結果を提供し続けるためにモデルを更新し続ける必要があります。 自動運転車は、継続的な改訂が必要なアプリケーションの代表的な例です。 車のモデルは変わり、道路標識は更新されますが、環境全体が同じままであることはほとんどありません。 モデルの更新に失敗すると、危険なエラーが発生したり、モデルの減衰として知られる概念で事故が発生したりする可能性があります。

逆に、モデルを頻繁に改訂してもモデルのパフォーマンスがほとんど向上しない例もあります。 モデルにさらに多くのデータを追加するには、追加のトレーニングだけでなく、より多くの QA と監視が必要になります。 それだけの価値がない場合もあります。 一方、モデルが時間の経過とともに低下する場合は、パフォーマンスを最適な状態に保つために、再トレーニング スケジュールを微調整することが重要です。 頻繁な再トレーニングがプロジェクトの一部である場合は、自動ラベル付けが不可欠です。

さらに、自動ラベル付けをプログラムして、エッジケースを特定し、信頼水準を計算することができます。 モデルが自動的に画像にラベルを付ける場合、不確かな画像を特定すると、QA プロセスにかかる時間を大幅に削減できます。 たとえば、Superb AI の不確実性推定ツールは、まさにこれを実行します。 エラーが発生しやすいエッジケースを特定し、人間が検査できるようにフラグを付けます。 これにより、人間の関与を完全に排除することはなく、必要な人間の関与の量が削減されます。

プロジェクトの種類に自動ラベル付けが利用できる場合、自動ラベル付けが最良のオプションのように思えるかもしれませんが、良いニュースとしては、おそらくそうなる可能性が高いということです。 プログラムによるアプローチと連携するアノテーション手法は数多くありますが、それらを詳しく説明します。

多くの取り組みにおいて最も手間のかからないラベル付け形式は画像分類です。 アノテーターは、データを説明するためにさまざまなタグから選択できるようにプロジェクトを設定します。 分類自体には、ドロップダウン リストからラベルを選択することが含まれます。 マウスを使用してオブジェクトを描画したり輪郭を描いたりすることはありません。 分類は、他のアノテーション プロジェクトへのアドオンとして使用することも、単独で使用することもできます。 モデルのグラウンド トゥルースが作成されたら、未分類データ内のオブジェクトを識別するための自動化を追加できます。

境界ボックスも単純な注釈タイプですが、それは多くのアプリケーションにとってあまり効果的ではないという意味ではありません。 ここで、アノテーターは、ラベル付けされるオブジェクトの周囲にボックスの形状が形成されるまで、マウスをクリックしてドラッグするだけです。 アノテーターは、ラベル付きオブジェクトのすべての側面を含めるように注意し、余分なスペースを含めないようにする必要があります。 これら 2 つのルールに従うだけで、グラウンド トゥルース データセットの形成が簡単なタスクになります。

画像のセグメント化は、多くのデータラベル付けプロジェクトにとって必要ではあるものの、複雑なアプローチです。 位置特定と分類を組み合わせたセグメンテーションにより、特定のオブジェクトの正確な輪郭が作成されます。 そして、そうするための一連のアプローチがあります。 たとえば、キーポイントは、オブジェクトの主要な点を接続して骨格の輪郭を形成することを目的としています。 一方、ポリゴン アノテーションは画像全体の輪郭を描きます。 ポリラインは横断歩道などのオブジェクトの線形アウトラインをトレースし、セマンティック セグメンテーションは各オブジェクトの形状をトレースしてクラスに分割します。 さらに詳しく説明すると、インスタンスのセグメンテーションは、同じオブジェクトを 1 つにグループ化するのではなく、異なる人など、同じオブジェクトの異なるタイプを区別します。 これらのラベル付け戦略にはそれぞれ多くの時間がかかるため、モデルを迅速かつ効率的に市場に投入するには、より迅速な方法を見つけることが最も重要です。

多くのコンピューター ビジョン アプリケーションにとって、ビデオは主要なコンポーネントです。 たとえば、監視には盗難などの不審な行為を特定する機能が備わっています。 窃盗がどのようなものかを理解することを学ぶには、十分に訓練されたコンピューター ビジョン アルゴリズムが必要です。 問題? ビデオ映像には画像よりも多くの詳細と情報が含まれているため、ラベル付けは非常に手間がかかります。 各ファイルを個々のフレームごとに分割するのは面倒な作業であり、適用可能性ごとにファイルを分離するには数え切れないほどの時間がかかる場合があります。 したがって、グラウンド トゥルースを確立し、それをトレーニングして特定の物体や人に迅速にラベルを付けることができれば、命の恩人となる可能性があります。

自動化は、モデル構築プロセスを合理化し、全体的にかかる時間を短縮するため、多くのシナリオやチームにとって同様に理想的です。 ただし、プログラムによる実装の効率が低い場合がいくつかあります。

データのラベル付けの最初の部分では、モデルをトレーニングするデータの小さなサブセットに注釈を付けることが含まれます。 この部分は、初期データに正しく注釈が付けられていることを確認するために、完全に人間参加型の介入に依存しています。 その理由は次のとおりです。自動化を始めるには、事前トレーニングされたデータセットが必要です。 多くの場合、外部データは役立ちますが、すべてのユースケースに完璧ではありません。 外部のデータセットをモデルに実装することは、丸い穴に四角い杭を差し込むようなものになる可能性があるため、独自のデータを使用して作業の最初の部分を人間に実行させることをお勧めします。

さらに、グラウンド トゥルース データセットを構築するには、この段階での各エラーが修正され、ラベル付けの次の段階に誘導されることも伴います。 モデルを組み立てるときは、各画像を調べて、ラベル付けの境界が厳密であり、ラベル付けが正しく行われていることを確認する必要があります。 初期段階で自動化に任せると、モデルで重要なラベルの一部が欠落し、非効率的で不正確なモデルの準備が整います。

さらに、機密情報を扱うことにはそれ自体の障害が伴います。 医療、金融、セキュリティなどの規制産業は、少なくとも初期段階で人間が監督しなければ、より大きなリスクをもたらします。 特定の種類のがんを検出するためのモデルのトレーニングは、グラウンド トゥルースを構築する初期段階では医療専門家に任せるのが最善です。 財務の場合、モデルの違反は、特に多額の資産を保有しているアカウントにとって悲惨な結果となる可能性があります。 政府モデルについても同様です。 これらのモデルを注意深く監視しないと、害を及ぼす可能性がはるかに大きくなります。

一部のデータセットとモデルは他のものより複雑です。これは、自動化されたモデルが一部のラベルのマークを見逃す可能性があることを意味します。 モデルのほとんどがエッジケースである場合、人間の介入が必要になる可能性があります。 監視を必要としないモデルを自動化することは非常に非効率であり、その利便性がすべて無効になります。 他のケースでは、人を使って信頼度の低い画像の QA を行うと、モデルの初期予測が無効になります。 エッジケースの作業には目の細かい櫛が必要ですが、多くの場合、機械では代替できません。

短い答えで言えば、おそらくそうです。 自動化はラベル付けプロセスを加速し、機械学習の実践者がプロジェクトを迅速化するのに役立つことが証明されています。 頻繁な更新を伴うアプリケーションは、手動による注釈を考慮しないと監視が容易になります。 医療分野などの場合、手作業によるラベル付けは、異常な増殖や病気を特定し、適切にラベル付けする唯一の資格を持つ医師や開業医の貴重な時間を奪います。 これは、グラウンド トゥルース データセットを構築するときと QA プロセス中にのみ必要になります。 同じ原則が他のシナリオにも当てはまります。手動のラベル付けプロセスを監督するためにエンジニアなどの貴重なリソースを借りることはまったく意味がありません。

ラベルを付けるときにどのアプローチを取るかは、プロジェクトと現在どの段階にいるかによって決まります。 グラウンド トゥルースを確立する場合、自動化は最初は簡単ですが、最終的には役に立たない結果になります。 そのショートカットを使用しても、結局は時間の節約にはならず、不正確なモデルが得られるだけです。 一方、複雑なセグメンテーション タスクは手動で行った場合は頭痛の種になるだけであり、バウンディング ボックスなどのそれほど複雑ではないプロジェクトでは簡単なソリューションです。 したがって、自動化は機械学習プロジェクトを迅速化し、更新する上で鍵となります。

Superb AI では、機械学習およびコンピューター ビジョン プロジェクトに自動化をもたらすことに特化しています。 当社は引き続き機能を拡張するため、データのラベル付けプロセスを人間化しながらシームレスかつ自動化する、適切に統合された機能の組み合わせを見つけることができます。 今すぐ当社の営業チームとの電話予約をして、開始してください。 また、ニュースレターを購読して、コンピューター ビジョンの最新ニュースや製品リリースの最新情報を入手してください。この記事は元々 Superb AI ブログで公開されたものです。

Caroline Lasorsa は、マサチューセッツ州ボストンに拠点を置く Superb AI の製品マーケティング プロフェッショナルです。 彼女は熱心な読書家であり、学習者でもあり、医療およびヘルスケアのユースケースにおける人工知能に強い関心を持っています。