データラベリングと AI 革命 (2023)

ブログ

ホームページホームページ / ブログ / データラベリングと AI 革命 (2023)

Oct 30, 2023

データラベリングと AI 革命 (2023)

Che cos'è l'etichettatura dei dati? L'etichettatura dei dati viene utilizzata negli algoritmi di apprendimento automatico

データのラベル付けとは何ですか?

データラベリングは、オブジェクトを適切に識別して理解するための機械学習アルゴリズムに採用されています。 顔認識、自動運転、ドローン空撮、ロボット工学などはすべて、ML が不可欠であることが証明されている分野です。 現在、視覚データ (写真および映画)、聴覚データ、およびテキスト データが、データ収集とラベル付けに使用される主なカテゴリです。 AI システムの有効性を決定する主な要因は 2 つあります。

データのラベル付けは、その最も単純な形式で、さまざまな自動車の例を提供することでシステムに車両の認識を教え、​​システムがそれぞれの共通の特徴を学習し、ラベルのない写真内の自動車を適切に識別できるようにします。

データのラベル付けはどのように機能しますか?

機械学習 (ML) とディープ ラーニングは通常、信頼性の高い学習パターンの基礎を提供するために大量のデータを必要とします。 意図した結果を得るには、トレーニング システム用に収集したデータにラベルを付ける必要があります。

結果として得られるアルゴリズムが信頼できるものであるためには、特徴認識に使用されるラベルは、記述的で識別性があり、一意である必要があります。 適切にラベル付けされたデータセットは、ML モデルが予測の精度をチェックし、手法を改良するために利用できる検証可能性を提供します。

精度と正確さは、一流のアルゴリズムの特徴です。 正確なデータセットとは、特定のラベルを元のデータから直接取得できるデータセットです。 データ サイエンスでは、品質はデータセットが全体的にどれだけ真実であるかの程度として定義されます。

勝利の鍵

パターンを認識したり、自律的に機能したりできるシステムや機械には、高品質で大量のデータの形式での広範なトレーニングが必要です。 マーテル氏が勤務するCDAOは、国防総省によるAIとデータ分析の利用を加速し、拡大することを目的として2021年12月に設立された。 共同 AI センター、国防デジタル サービス、Advana、最高データ責任者のポジションを統合する数か月を経て、ようやく 6 月にオフィスがフル稼働で稼働し始めました。

軍は長い間、より迅速に適切な判断を下し、兵士、船員、人間が探索しようとしない、これまでアクセスできなかった領域を調査に開放するために、人工知能に興味を持ってきました。

政府会計検査院の調査によると、2021年初めの時点で国防総省は685以上のAIプロジェクトに取り組んでいた。 これらのプログラムの中には、重要な軍事システムに関係するものもありました。 空軍は先月、5年間9000万ドルの契約の一環として、有人・無人のチーム編成を含む戦術的自律性に関する研究を主導する人材にハワード大学を選出した。

データ中心の方法には欠点があります。 特に、チームが資金に窮していて、既存のデータセットを使用して人間によるラベル付けを完全に回避しようとしている場合、モデル中心の戦略が唯一の選択肢となります。 一方、ラベル付けのオプションには 2 つあります。1 つは社内で行う方法 (非常に費用と時間がかかる可能性があります)、もう 1 つは外部委託です (これはギャンブルになる場合があり、通常は多額の費用がかかります)。 合成ラベル付けは、ML 用の偽データの作成を伴う別のアプローチですが、リソースを大量に消費するため、多くの中小企業には手が届きません。 したがって、多くのグループは、データ中心の戦略には必要な労力を費やす価値はないと結論付けていますが、実際には、より多くの情報を得る必要があります。

データ中心の戦略は効果的ですが、それはデータを扱うことに努力している場合に限られます。 幸いなことに、クラウドソーシング技術のおかげで、データのラベル付けに費用がかかったり、何か月もかかったりする必要がありません。 しかし、問題は、そのような手順が成功するために進化したことは言うまでもなく、より多くの人にその手順を知らせる必要があることです。 調査によると、欠点にもかかわらず、ML 実践者の 80% 以上が社内ルートを選択しています。 そして、最近の世論調査によると、これらの医師は他の医師よりもこの技術を好んでこの技術を利用しているわけではありません。 彼らはそれ以上のことを知らないのでそれを使います。

要約すると

大量の高品質なラベル付きデータへのアクセスは、人工知能の進歩において依然として大きな障害となっています。 Ng をリーダーとする運動が勢いを増すにつれ、適切にタグ付けされたデータのニーズの増加は事実上避けられません。 そのため、進歩的な AI 専門家は、データを分類する方法を再考しています。 社内ラベル付けはコストが高く、スケーラビリティが限られているため、すぐに規模が大きくなり、事前にパッケージ化されたデータ、データ スクレイピング、またはデータが豊富なエンティティとのリンクの確立などの外部ソースを使用できなくなる可能性があります。 最後の結論は、AI イニシアチブが現実世界で成功するには、高品質のインプットが不可欠であるということです。 そして、データの品質を向上させ、ひいてはそれが機能するモデルを向上させるには、正確さ、つまり正しいラベル付けが必要です。

Dhanshree Shenwai はコンピューター サイエンス エンジニアであり、金融​​、カードと決済、銀行業務の分野をカバーする FinTech 企業で豊富な経験を持ち、AI のアプリケーションに強い関心を持っています。 彼女は、今日の進化する世界における新しいテクノロジーと進歩を探求し、すべての人の生活を楽にすることに熱心に取り組んでいます。

データのラベル付けとは何ですか? データのラベル付けはどのように機能しますか? 勝つための鍵 まとめると