自動化された推論とツールの紹介

ブログ

ホームページホームページ / ブログ / 自動化された推論とツールの紹介

Nov 24, 2023

自動化された推論とツールの紹介

I modelli linguistici di grandi dimensioni possono trarre vantaggio dal contesto per adattarsi rapidamente a nuovi compiti.

大規模な言語モデルは、いくつかのデモと実際の言語指示を与えることで、コンテキスト内学習を利用して新しいタスクに迅速に適応できます。 これにより、LLM のホストや大きなデータセットへの注釈付けが回避されますが、複数ステップの推論、数学、最新情報の保持などに関して大きなパフォーマンスの問題があります。 最近の研究では、これらの制約を軽減するために、LLM に、より高度な推論段階を促進するためのツールへのアクセスを与えるか、複数ステップの推論の一連の推論をエミュレートするよう要求することが示唆されています。 それにもかかわらず、ツールの使用と連鎖する理由により、確立されたアプローチを新しいアクティビティやツールに適応させるのは困難です。 これには、特定のアクティビティやツールに特化した微調整や迅速なエンジニアリングが必要です。

ワシントン大学、マイクロソフト、メタ、カリフォルニア大学、およびアレン AI 研究の研究者は、新しいタスクの例の分解 (複数ステップの推論) を自動的に作成するフレームワーク自動推論とツール使用法 (ART) を開発し、この研究で紹介されています。 。 ART はタスク ライブラリから同様のタスクの例を取得し、数ショットの内訳とさらなる作業のためのツールの使用を可能にします。 これらの例では、柔軟でありながら構造化されたクエリ言語を使用しているため、中間段階の読み取り、外部ツールを使用するために作成を一時停止し、それらのツールの出力が組み込まれた後に再開することが簡単になります (図 1)。 また、フレームワークは各段階で最適なツール (検索エンジンやコード実行など) を選択して使用します。

LLM は、さまざまな関連アクティビティのインスタンスを分解する方法と、これらの例で示されているツール ライブラリからツールを選択して使用する方法に関するデモを ART から受け取ります。 これは、モデルを例から一般化し、新しいタスクを細分化し、そのジョブに適切なツールをゼロショットで利用するのに役立ちます。 また、ユーザーは、ロジック チェーン内のエラーを修正したり、新しいツール (たとえば、現在のタスク用) を追加したりするために、必要に応じてタスクおよびツール ライブラリを更新し、最近の例を追加できます。

彼らは、15 個の BigBench タスクのタスク ライブラリを作成し、これまでに見たことのない 19 個の BigBench テスト タスク、6 つの MMLU タスク、および関連ツールの使用状況調査 (SQUAD、TriviaQA、SVAMP、MAWPS) からの多数のタスクで ART をテストします。 BigBench の問題 34 個のうち 32 個とすべての MMLU タスクについて、ART はコンピューターが作成した CoT 推論チェーンと常に平均して 22 パーセント ポイント以上同等またはそれを上回っています。 ツールが許可されている場合、テスト タスクのパフォーマンスは、許可されていない場合と比較して平均約 12.3 パーセント ポイント向上します。

平均すると、ART は BigBench タスクと MMLU タスクの両方で直接の少数ショット プロンプトより 10.8% ポイント優れています。 ART は、数学的およびアルゴリズム的推論を必要とする目に見えないタスクに対する直接の少数ショット プロンプトよりも 12.5% 優れており、分解やツールの使用状況の監視を含む最もよく知られている GPT3 の調査結果よりも 6.1% ポイント優れています。 新しいサンプルを使用してタスク ライブラリとツール ライブラリを更新すると、人間による対話と推論プロセスの強化が可能になり、人間の入力を最小限に抑えながら、特定のジョブのパフォーマンスを驚くほど簡単に向上させることができます。 12 のテスト タスクにおいて、追加の人間によるフィードバックを与えた場合、ART は最もよく知られている GPT3 の結果を平均 20% 以上上回りました。

をチェックしてくださいそしてプロジェクトページ 。 この研究の功績はすべて、このプロジェクトの研究者に与えられます。 また、忘れずに参加してください16,000 以上の ML SubRedditDiscordチャンネル、 そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。

Aneesh Tickoo は、MarktechPost のコンサルティング インターンです。 彼は現在、ビライのインド工科大学 (IIT) でデータ サイエンスと人工知能の学士号を取得中です。 彼はほとんどの時間を、機械学習の力を活用することを目的としたプロジェクトに取り組んでいます。 彼の研究対象は画像処理であり、それを中心としたソリューションの構築に熱心に取り組んでいます。 彼は人々とつながり、興味深いプロジェクトに協力することが大好きです。

図 1: 16,000 以上の ML SubReddit Discord チャネルの電子メール ニュースレターのペーパー プロジェクト ページ