機械学習プロジェクトにとってデータが依然として最大の課題である理由

ニュース

ホームページホームページ / ニュース / 機械学習プロジェクトにとってデータが依然として最大の課題である理由

Nov 04, 2023

機械学習プロジェクトにとってデータが依然として最大の課題である理由

Incontra i massimi dirigenti e ascolta i leader a San Francisco l'11 e il 12 luglio

7 月 11 ~ 12 日にサンフランシスコで経営トップに会い、リーダーたちが成功に向けて AI 投資をどのように統合し、最適化しているかを聞きましょう。 もっと詳しく知る

高品質のデータは、エンタープライズ人工知能 (AI) の成功の核心です。 したがって、アプリケーションや運用に機械学習 (ML) を適用したいと考えている企業にとって、これは依然として課題の主な原因となっています。

Appen の最新の AI 現状レポートによると、業界は、企業がデータの調達と準備における障壁を克服できるよう支援する上で目覚ましい進歩を遂げています。 しかし、組織構造や会社の方針など、さまざまなレベルでやるべきことはまだたくさんあります。

エンタープライズ AI のライフサイクルは、データの調達、データの準備、モデルのテストと展開、モデルの評価の 4 つの段階に分けることができます。

コンピューティングと ML ツールの進歩により、さまざまな ML モデルのトレーニングやテストなどのタスクの自動化と高速化が可能になりました。 クラウド コンピューティング プラットフォームを使用すると、サイズや構造が異なる数十の異なるモデルを同時にトレーニングし、テストすることができます。 しかし、機械学習モデルの数とサイズが増大するにつれて、より多くのトレーニング データが必要になります。

トランスフォーム 2023

7 月 11 ~ 12 日にサンフランシスコで開催されるイベントにご参加ください。そこでは、経営陣が AI 投資をどのように統合して最適化して成功に導き、よくある落とし穴を回避したかを共有します。

残念ながら、トレーニング データの取得と注釈付けには依然としてかなりの手作業が必要であり、主にアプリケーション固有の作業となります。 Appenのレポートによると、「特定のユースケースに十分なデータが不足していること、大量のデータを必要とする新しい機械学習技術が不足していること、またはチームが必要なデータを簡単かつ効率的に取得するための適切なプロセスを備えていないこと」があるという。

「正確なモデルのパフォーマンスには高品質のトレーニング データが必要ですが、大規模で包括的なデータセットは高価です」と Appen の最高製品責任者 Sujatha Sagiraju 氏は VentureBeat に語った。 「ただし、貴重な AI データがあれば、プロジェクトがパイロットから本番環境に移行する可能性が高まる可能性があるため、費用が必要になることに注意することが重要です。」

ML チームは、事前にラベル付けされたデータセットから始めることができますが、最終的には取り組みを拡張するために独自のカスタム データを収集してラベルを付ける必要があります。 用途によっては、ラベル貼り付けに非常に費用と労力がかかる場合があります。

多くの場合、企業は十分なデータを持っていますが、品質の問題に対処できません。 偏ったデータ、ラベルが間違っているデータ、一貫性のないデータ、または不完全なデータは、ML モデルの品質を低下させ、ひいては AI イニシアチブの ROI を損ないます。

「不適切なデータを使用して ML モデルをトレーニングすると、モデルの予測が不正確になります」とサギラジュ氏は言います。 「現実世界のシナリオで AI が適切に機能することを確認するには、チームはトレーニング キットに高品質のデータセット、合成データ、人間参加型の評価を組み込む必要があります。」

Appen 氏によると、ビジネス リーダーは技術スタッフに比べて、データの調達と準備を AI への取り組みの主な課題として考慮する可能性がはるかに低いです。 Appen のレポートによると、「AI ライフサイクルのデータ実装における最大のボトルネックを理解する際に、技術者とビジネス リーダーの間には依然としてギャップがあります。その結果、組織内の優先順位と予算の不一致が生じます。」

「私たちが知っているのは、AI イニシアチブの最大のボトルネックの一部は、技術リソースと経営陣の賛同の不足にあるということです」とサギラージュ氏は述べた。 「これらのカテゴリーを見ると、データ サイエンティスト、機械学習エンジニア、ソフトウェア開発者、経営幹部がさまざまな分野に分散していることがわかります。そのため、さまざまなチーム間で優先順位が対立し、戦略の整合性が欠如していることは想像に難くありません。組織内で。」

AI への取り組みにはさまざまな人や役割が関与しているため、この調整を達成するのは困難です。 データを管理する開発者から、現場の問題に取り組むデータサイエンティスト、戦略的なビジネス上の意思決定を行う経営幹部に至るまで、全員が異なる目標を念頭に置いており、したがって優先順位や予算も異なります。

しかし、AI の課題の理解に関しては、その差は年々徐々に縮まってきているとサギラジュ氏は見ています。 これは、組織が AI イニシアチブの成功にとって高品質のデータの重要性をよりよく理解しているためです。

「AI モデルの成功にとってデータ、特にアプリケーション シナリオと一致する高品質のデータがいかに重要であるかに重点を置くことで、これらの課題を解決するためにチームが結集しました」とサギラジュ氏は述べました。

データの課題は、応用 ML の分野にとって新しいものではありません。 しかし、ML モデルが大きくなり、利用可能なデータがより豊富になるにつれて、高品質のトレーニング データを収集するためのスケーラブルなソリューションを見つける必要があります。

幸いなことに、いくつかの傾向が企業がこれらの課題の一部を克服するのに役立っており、Appen の AI レポートは、データの管理と準備に費やす平均時間が減少傾向にあることを示しています。

一例として、自動ラベル付けがあります。 たとえば、オブジェクト検出モデルでは、トレーニング サンプル内の各オブジェクトの境界ボックスを指定する必要があり、これにはかなりの手作業が必要です。 自動および半自動のラベル付けツールは、深層学習モデルを使用してトレーニング サンプルを処理し、境界ボックスを予測します。 自動ラベルは完璧ではないため、人間のラベル作成者がレビューして調整する必要がありますが、プロセスを大幅にスピードアップします。 さらに、自動ラベリング システムは、人間のラベリング担当者からフィードバックを受け取ることでさらにトレーニングし、改善することができます。

「多くのチームはデータセットに手動でラベルを付けることから始めますが、プロセスを部分的に自動化する時間を節約する方法に目を向けるチームも増えています」とサギラジュ氏は述べた。

同時に、合成データの市場も成長しています。 企業は、現実世界から収集したデータを補完するために人工的に生成されたデータを使用します。 合成データは、実世界のデータの取得にコストがかかる、または危険なアプリケーションで特に役立ちます。 その一例は自動運転車会社であり、実際の道路からデータを取得する際に規制、安全性、法的な課題に直面しています。

「自動運転車は、道路に出た後の安全性を確保し、あらゆる事態に備えるために、信じられないほどの量のデータを必要としますが、より複雑なデータの一部はすぐに利用できないのです」とサギラージュ氏は述べた。 「合成データを使用すると、実務者は、事故、横断歩行者、緊急車両などのエッジ ケースや危険なシナリオを考慮して、AI モデルを効果的にトレーニングできます。合成データは、人間が提供するデータが十分でない場合に、データをトレーニングするためのインスタンスを作成できます。隙間を埋めること。」

同時に、MLops 市場の進化により、企業はデータセットのラベル付けやバージョン管理など、機械学習パイプラインの多くの課題に取り組むことができます。 さまざまな ML モデルのトレーニング、テスト、比較。 モデルを大規模に展開し、そのパフォーマンスを追跡する。 新しいデータを収集し、時間の経過とともにモデルを更新します。

しかし、ML が企業で果たす役割が大きくなるにつれて、より重要になるのは人間によるコントロールです。

「正確で関連性の高い情報を提供し、偏見を回避するには、ヒューマン・イン・ザ・ループ(HITL)評価が不可欠です」とサギラジュ氏は述べた。 「AI トレーニングにおいて人間が実際には後回しにされていると多くの人が信じているにもかかわらず、責任ある AI を強化し、モデルを保証するために組織がモデルに何を入れているかについての透明性を高めるために、より多くの HITL 評価が行われる傾向が見られると思います」現実の世界でうまく機能します。」

VentureBeat の使命は、技術的な意思決定者が変革をもたらすエンタープライズ テクノロジーに関する知識を獲得し、取引を行うためのデジタル タウン スクエアとなる予定です。 ブリーフィングをご覧ください。

VentureBeat の使命