なんてオープンなんだろう

ニュース

ホームページホームページ / ニュース / なんてオープンなんだろう

Nov 01, 2023

なんてオープンなんだろう

Incontra i massimi dirigenti e ascolta i leader a San Francisco l'11 e il 12 luglio

7 月 11 ~ 12 日にサンフランシスコで経営トップに会い、リーダーたちが成功に向けて AI 投資をどのように統合し、最適化しているかを聞きましょう。 もっと詳しく知る

データのラベル付けは、機械学習の最も基本的な側面の 1 つです。 これは、データを正確に分類し、潜在的なバイアスを減らすことの両方で、組織が苦労することが多い分野でもあります。

データ ラベル付けテクノロジを使用すると、機械学習モデルのトレーニングに使用されるデータセットが最初に分析され、データが実際に何に関するものであるかのカテゴリと定義を提供するラベルが与えられます。 データのラベル付けは機械学習プロセスの重要なコンポーネントですが、最近、複数の研究によると、非常に一貫性がないことも判明しています。 正確なデータラベル付けの必要性により、データラベル付けベンダーの市場は活気に満ちています。

最も人気のあるデータ ラベル付けテクノロジーの 1 つは、サンフランシスコを拠点とするスタートアップ Heartex が支援するオープンソースの Label Studio です。 本日リリースされる新しい Label Studio 1.6 アップデートでは、ビデオ内のデータをより適切に分析し、ラベルを付けるのに役立つ新機能がユーザーに提供されます。

Heartex の共同創設者兼 CEO である Michael Malyuk 氏によると、人工知能 (AI) を導入しているほとんどの企業にとっての課題は、適切なデータを扱うことです。

トランスフォーム 2023

7 月 11 ~ 12 日にサンフランシスコで開催されるイベントにご参加ください。そこでは、経営陣が AI 投資をどのように統合して最適化して成功に導き、よくある落とし穴を回避したかを共有します。

「私たちはラベル付けをデータセット開発のより広いカテゴリーとして考えており、Label Studio は最終的にあらゆる種類のデータセット開発を可能にするソリューションです」と Malyuk 氏は述べています。

Label Studio の 1.6 リリースには主な新機能としてビデオ プレーヤー機能が含まれていますが、Malyuk 氏は、このテクノロジーがテキスト、オーディオ、時系列、ビデオを含むあらゆる種類のデータに役立つことを強調しました。

あらゆる種類のデータに対するラベル付けアプローチにおける最大の問題の 1 つは、データ ラベルに使用されるカテゴリを実際に定義することです。

「ある方法で物事に名前を付けることができる人もいれば、別の方法で名前を付ける人もいますが、それらは本質的に同じことを意味します」とマルユク氏は言いました。

同氏は、Label Studio では、テキスト、オーディオ、画像ファイルなどのデータを説明するためにユーザーが選択できるラベルの分類法を提供していると説明しました。 同じ組織内の 2 人以上のユーザーが同じデータに異なるラベルを付けた場合、Label Studio システムは競合を特定し、分析して修正できるようにします。 Label Studio は、手動による競合解決システムと自動化されたアプローチの両方を提供します。

データのラベル付けのプロセスには、多くの場合、人間がラベルを割り当てたり、ラベルが正確であることを検証したりする手作業が含まれます。

プロセスを自動化するにはさまざまなアプローチがありますが、スタートアップの Lightly AI は、Label Studio と統合できる自己教師あり機械学習モデルを使用しています。 さらに、データとその関係を識別するためにデータラベルを使用するのではなく、ベクトルデータベースを使用してデータを数学に変換するベンダーもいます。

Malyuk 氏は、ベクトル データベースには確かに用途があり、類似性検索などのタスクを実行する場合に効果的であると述べました。 同氏によると、問題は、ベクトル手法がオーディオやビデオなどの非構造化データ型に対してそれほど効果的ではないことだという。 同氏は、ベクトル データベースでは一般的なオブジェクトの識別タイプを利用できると指摘しました。

「一般的な知識から少し異なるものに逸脱し始めると、手動でラベルを付けないと非常に複雑になるでしょう」と Malyuk 氏は言います。

AI のバイアスは継続的な課題であり、業界の多くがそれと闘おうとしています。 機械学習の根幹は実際のデータであり、データのラベル付け方法も潜在的にバイアスにつながる可能性があります。 バイアスは意図的な場合もありますが、状況的な場合もあります。

「朝、コーヒーを飲む前に非常に主観的なデータセットにラベルを付け、その後コーヒーを飲んだ後にもう一度ラベルを付けると、まったく異なる答えが得られる可能性があります」とMalyuk氏は述べた。

データのラベル付けプロセスが完全にカフェインを摂取している人だけによって実行されるようにすることは必ずしも可能ではありませんが、役立つプロセスはあります。 Malyuk 氏は、Label Studio がソフトウェア側で行っていることは、全員が個別に貢献できるようにプロセスを構築する方法を提供することであると述べました。 このシステムは、人々を相互に照合するすべてのマトリックスと、同じアイテムにどのようにラベルを付けるかを識別して構築します。 これは特定のレーベルに対する偏見を特定できる可能性があるアプローチだとMalyuk氏は述べた。

オープンソースの Label Studio テクノロジーは個人および小規模グループによる使用を目的としていますが、商用プロジェクトではセキュリティ、コラボレーション、拡張性に関するエンタープライズ機能を大規模なチームに提供します。

「オープンソースでは、私たちはユーザーに焦点を当てており、ラベリングの観点から個々のユーザーの生活を可能な限り容易にしようと努めています」とMalyuk氏は述べた。 「エンタープライズでは、組織に重点を置き、ビジネスに必要なものは何でもあります。」

VentureBeat の使命は、技術的な意思決定者が変革をもたらすエンタープライズ テクノロジーに関する知識を獲得し、取引を行うためのデジタル タウン スクエアとなる予定です。 ブリーフィングをご覧ください。

VentureBeat の使命