DeepAction: ビデオ内の動物の行動を自動分類するための MATLAB ツールボックス

ブログ

ホームページホームページ / ブログ / DeepAction: ビデオ内の動物の行動を自動分類するための MATLAB ツールボックス

Nov 16, 2023

DeepAction: ビデオ内の動物の行動を自動分類するための MATLAB ツールボックス

Rapporti scientifici Volume 13,

Scientific Reports volume 13、記事番号: 2688 (2023) この記事を引用

1309 アクセス

1 オルトメトリック

メトリクスの詳細

ビデオ内の動物の行動の特定は、研究の多くの分野において重要ですが、時間のかかる作業です。 ここでは、ビデオ内の動物の行動に自動的に注釈を付けるための深層学習ベースのツールボックスである DeepAction を紹介します。 私たちのアプローチは、事前トレーニングされた畳み込みニューラル ネットワークによって生のビデオ フレームから抽出された特徴を使用して、リカレント ニューラル ネットワーク分類器をトレーニングします。 2 つのベンチマークげっ歯類データセットと 1 つのタコ データセットで分類子を評価します。 私たちは、それが高い精度を達成し、トレーニングデータをほとんど必要とせず、人間の同意やほとんどの同等の既存の方法の両方を上回っていることを示します。 また、分類器出力の信頼スコアも作成し、この方法が分類器のパフォーマンスの正確な推定値を提供し、人間のアノテーターが自動生成されたアノテーションをレビューして修正するのに必要な時間を短縮することを示します。 私たちは、システムとそれに付随する注釈インターフェイスをオープンソースの MATLAB ツールボックスとしてリリースします。

ビデオにおける動物の行動の分類と分析は、生命科学研究において広く行われているものの、多くの場合、骨の折れるプロセスです。 従来、このような分析は手動で実行されてきました。 ただし、このアプローチにはいくつかの制限があります。 最も明白なのは、研究者が行動のアノテーションという退屈な作業に多くの時間を割り当てる必要があり、下流の分析の進行が制限されたり遅れたりすることです。 特に、研究アシスタントや有償のアノテーターがいない研究室では、ビデオにアノテーションを付ける機会コストが非常に高くなる可能性があります。 また、手動によるアノテーションは、人間のアノテーターの注意能力が限られていることが主な原因で、再現性と信頼性が比較的劣ります 1,2,3。 この問題は、げっ歯類を対象とした研究で特に顕著です。 げっ歯類は夜行性であるため、薄暗い光または赤外光の下で研究することが望ましい4。これにより、光と色の手がかりがより制限されるため、行動の識別がより困難になります。 これにより、アノテーターの疲労が増大し、長時間注意を払う能力が低下し、アノテーションの品質にばらつきが生じ、行動データの品質が低下します5。

手動アノテーションには時間と精度の制限があるため、アノテーション プロセスを自動化する方法の作成に焦点を当てた作業が増加しています。 このような方法の多くは、動物の身体 4、6、7、8、9 または身体部分 10 の追跡に依存しており、そこから高レベルの特徴 (速度、加速度、姿勢など) が推定され、行動の分類に使用されます。 たとえば、Jhuang et al.7 は、動きと軌跡の特徴を使用して隠れマルコフ サポート ベクター マシンをトレーニングし、マウスの動作を 8 つのクラスに分類しました。 Burgos-Artizzu et al.6 は、時空間および軌跡の特徴と時間的コンテキスト モデルを使用して、2 つのカメラ ビューを使用してマウスの社会的行動を分類しました。 ただし、これらの「手作りの機能」を使用するアプローチは、いくつかの点で制限されます11。 まず、研究者は、特定の動物の行動レパートリー全体を網羅し、視覚的に類似した行動を区別できる一連の特徴を特定する必要があります。 たとえば、げっ歯類の「食べる」と「鼻の毛づくろい」の行動には、姿勢や動きに明確な違いがないため4、それらを区別するための特徴を作成することが困難です。 第 2 に、特徴を選択した後の検出と追跡は困難であり、不完全です。 ビデオの照明、動物の動き、環境が微妙に変化すると、キーポイント検出が不正確になり、抽出された特徴の忠実度が低下する可能性があります。 そして 3 番目に、選択された特徴セットは多くの場合実験固有です。 たとえば、単独飼育のげっ歯類の研究に最適なものは、社会的なげっ歯類の研究に最適なものとは異なる可能性があります。 これにより、特徴選択タスクの複雑さが増し、実験の進行とアノテーションの精度が妨げられます。

これらの制限に対処するために、Bohnslav ら 11 は、手作りのアプローチに代わる方法として、隠れた 2 ストリーム ネットワーク 12 と時間的混合ガウス ネットワーク 13 を使用する方法を提案し、動物行動データセットの多様なコレクションに対して高い分類精度を達成しました。 ここでは、ビデオ内の動物の行動に自動注釈を付けるための MATLAB ツールボックスである DeepAction を導入することで、この作業を拡張します。 私たちのアプローチでは、2 つのストリーム 14 畳み込みおよびリカレント ニューラル ネットワーク アーキテクチャ 15,16 を利用して、生のビデオ フレームから動作ラベルを生成します。 私たちは、畳み込みニューラル ネットワーク (CNN) と高密度オプティカル フローを使用して、ビデオから空間的および時間的特徴を抽出します17。これらの特徴は、動作を予測するための長期短期記憶ネットワーク分類器のトレーニングに使用されます。 実験室のマウスのビデオの 2 つのベンチマーク データセットとタコのビデオの 1 つのデータセットでアプローチを評価します。 この手法が既存の手法を上回り、少ないトレーニング データで人間レベルのパフォーマンスに達することを示します。 各ビデオ フレームの動作ラベルを出力することに加えて、分類子が各ラベルについてどの程度「信頼している」かの尺度を生成する分類信頼システムも導入します。 これにより、研究者は自動的に生成されたアノテーションをレビューすることなくその品質を評価できるようになり、分類器が高い信頼度で生成したアノテーションを省略しながら、ユーザーが曖昧なアノテーションを選択的に修正できるようにすることで、アノテーションのレビューに必要な時間を短縮できます。 この信頼スコアが低品質の注釈と高品質の注釈を正確に区別し、ビデオのレビューと修正の効率を向上させることを示します。 最後に、コードと注釈 GUI をオープンソース MATLAB プロジェクトとしてリリースします。

ツールボックスのワークフロー (図 1A) は、ラベルのないビデオを新しい DeepAction プロジェクトにインポートすることで始まり、そのプロジェクト内のすべてのビデオの注釈をエクスポートすることで終了します。 ワークフローは、分類コンポーネント (ステップ 2 ~ 8) とレビュー コンポーネント (ステップ 9 および 10) の 2 つの部分で構成されます。 分類部分では、プロジェクトビデオの一部にラベルを付けて分類器のトレーニングに使用する教師あり学習アプローチを採用しています。 この分類子は、ビデオ フレーム内のコンテンツを一連のユーザー定義の行動ラベル (「歩く」や「飲む」など) に関連付けることを学習します。 分類器がトレーニングされた後は、ラベルのないビデオ内の動作を予測するために使用できます。 ラベルのないビデオで発生する動作を予測することに加えて、分類器は、分類器が作成したラベルと人間が作成したラベルの間の一致の推定値を表す「信頼スコア」を出力します。 この信頼スコアは、ワークフローのレビュー コンポーネント中に使用され、信頼性の低い注釈が優先的にレビューおよび修正され、信頼性の高い注釈は省略されます。 この信頼性に基づいたレビューの後、注釈は研究者による分析で使用するためにエクスポートされます。

ツールボックスのワークフローとデータ選択プロセス。 (A) DeepAction ツールボックスのワークフロー。 矢印はプロジェクト アクションのフローを示し、破線の矢印は、分類子のトレーニング後に追加のトレーニング データに注釈を付けて、分類子の再トレーニングに使用できることを示します。 (B) クリップ選択プロセスの概要。 長いビデオはユーザーが指定した長さのクリップに分割され、その中からユーザーが指定した割合 (\({\mathrm{prop}}_{\mathrm{labeled}}\)) が注釈用にランダムに選択されます (\({ \mathcal{D}}^{\mathrm{ラベル付き}}\))。 選択されたビデオ クリップには注釈が付けられ、これらの注釈は、分類器をトレーニングするために対応する機能と組み合わせて使用​​されます。 トレーニングされた分類子は、選択されていないクリップ (\({\mathcal{D}}^{\mathrm{unlabeled}}\)) の予測と信頼スコアを生成するために使用されます。ユーザーはこれを確認し、必要に応じて修正できます。 (C) ラベル付きデータはさらにトレーニング (\({\mathcal{D}}^{\mathrm{train}}\)) と検証 (\({\mathcal{D}}^{\mathrm{validate}) に分けられます}\)) データ。 (D) ベンチマーク データセットを使用してクリップ選択をシミュレートするプロセス。ラベル付けするデータの \({\mathrm{prop}}_{\mathrm{labeled}}\) の選択をシミュレートします (\({\mathcal{D) }}^{\mathrm{labeled}}\)) を選択し、選択されていないデータ (\({\mathcal{D}}^{\mathrm{test}}\)) で評価します。 (E) ビデオフレームから時空間特徴を生成する処理。 生のビデオ フレームがビデオ ファイルから抽出されます (「フレーム抽出」)。 フレーム間の動きは TV-L1 オプティカル フローを使用して計算され、時間フレームとして視覚的に表現されます。 空間フレームと時間フレームは、対応する事前トレーニング済み CNN (それぞれ「空間 ResNet18」と「フロー Resnet18」) に入力され、そこから空間特徴と時間特徴が抽出されます。 次に、空間特徴と時間特徴が連結され、その次元が削減されて、分類器のトレーニングに使用される最終的な時空間特徴が生成されます。 次元は斜体の括弧内に示されています。

分類器への入力用のビデオを表すために、「2 ストリーム」モデル 18 を選択します。このモデルでは、最初のストリーム (「空間ストリーム」) がビデオ フレームの空間情報をキャプチャし、2 番目のストリーム (「時間ストリーム」) がキャプチャします。フレーム間の動きをキャプチャします (図 1E)。 まず、基礎となるビデオ内の空間情報と時間情報を表すビデオ フレーム (それぞれ「空間フレーム」と「時間フレーム」) を抽出します (「方法: フレーム抽出」セクションを参照)。 ビデオ内のシーンやオブジェクトに関する情報を含む空間フレームを生成するには、各ビデオ ファイルから生のビデオ フレームを抽出します。 ビデオ内のカメラとオブジェクトの動きに関する情報を含む時間フレームを生成するには、高密度オプティカル フローを使用して、一連のフレームのペア間の個々のピクセルの動きを計算します。 高密度オプティカル フローは、画像内のピクセルごとに 2 次元ベクトル フィールドを生成します。各ベクトルは、ある画像から次の画像へのピクセルの推定移動を表します19。 次に、このベクトル フィールド全体を画像として視覚的に表現します。ここで、特定のピクセルの色は、対応するフロー ベクトルの向きと大きさによって決まります。

次に、ResNet18 の事前学習済み畳み込みニューラル ネットワーク (CNN、「方法: 特徴抽出」セクションを参照) を使用して顕著な視覚特徴 20 を抽出することにより、空間フレームと時間フレームの低次元表現を生成します。 空間フレームおよび時間フレームごとに、特徴抽出器は、そのフレームに含まれる高レベルの視覚情報を表す \(512\) 次元のベクトルを生成します。 次に、これらの時空間特徴 (\(1024\) の次元) を連結して初期時空間特徴を作成し、再構成独立成分分析を使用して次元を \(512\) に削減し、学習に使用する最終的な時空間特徴を形成します。分類子。

分類器をトレーニングするには、ビデオの対応する時空間特徴 (入力) と動作ラベル (出力) の間の関連性を学習できるように、ビデオの一部に手動でラベルを付ける必要があります。 一度にビデオ全体に注釈を付けるのではなく、各ビデオを短い「クリップ」に分割します。各クリップは長いビデオの短いセグメントであり、注釈を付けるこれらのクリップのサブセットを選択します (図 1B)。 このアプローチは、ビデオ全体に注釈を付ける場合と比較して、特徴の実質的な変化と、ビデオ間の特徴とラベルの関係をより適切に捕捉し、分類子の一般化可能性を向上させるため、推奨されます。 つまり、短いクリップに注釈を付けると、トレーニング セット (つまり、注釈付きビデオ) とラベルのないビデオの間のデータセットのシフト 21、22 が減少します。

一連のビデオがクリップに分割された後、これらのユーザー指定クリップのサブセット \({\mathrm{prop}}_{\mathrm{validate}}\) が手動アノテーション用にランダムに選択されます (図 1B) ) ツールボックス リリースに含まれる GUI を使用します (図 6B)。 注釈を付けた後、ラベル付きクリップ データ (ビデオ、機能、および注釈)、\({\mathcal{D}}^{\mathrm{labeled}}\) を使用してリカレント ニューラル ネットワーク分類器をトレーニングします (「メソッド: 分類器」を参照) 「アーキテクチャ」セクション)と信頼性に基づくレビュー システム。 そのために、まず \({\mathcal{D}}^{\mathrm{labeled}}\) をトレーニング セットと検証セットにさらに分割します (図 1C)。 トレーニング セット \({\mathcal{D}}^{\mathrm{train}}\) はラベル付きデータの大部分を構成し、分類器のトレーニングに直接使用されます。 \(n\) フレームの \({\mathcal{D}}^{\mathrm{train}}\) 内の特定のクリップの場合、サイズ \([n, 512]\) の時空間特徴配列が入力されます。反復型ニューラル ネットワーク分類子と、手動で注釈が付けられた一連の \(n\) 個の動作ラベル。 次に、ネットワークはその機能を使用して手動の注釈を予測しようとします。 トレーニングを繰り返し行うことで、分類子が予測したアノテーションと人間によるアノテーションの差が減少します。 ビデオの特定のセグメントの時空間特徴は、そのセグメントの視覚コンテンツを表します。 したがって、これらの機能を使用してラベルを予測することにより、分類器は基礎となるビデオ データの予測を間接的に生成します。 独立した検証セット \({\mathcal{D}}^{\mathrm{validate}}\) は、モデル トレーニング プロセスと信頼度に基づくレビューを調整するために使用されます (「メソッド: 分類器トレーニング」セクションを参照)。 次に、トレーニングされた分類子と信頼度に基づくレビュー システムを使用して、残りのラベルなしデータに対する注釈と信頼度スコアを生成します\({\mathcal{D}}^{\mathrm{unlabeled}}.\)

次に、信頼に基づくレビュー システムを導入します。 分類器がトレーニングされた後、ラベルのないデータ \({\mathcal{D}}^{\mathrm{unlabeled}}) の動作を予測するために使用できることを思い出してください。さらに、次の信頼スコアを出力しました。 \({\mathcal{D}}^{\mathrm{unlabeled}}\) 内の各クリップは、そのクリップに対して生成されたラベルの推定精度に対応します (「方法: 信頼スコアの定義」セクションを参照)。 理想的なメトリクスでは、クリップの信頼スコアは、分類子が予測した動作が正しいというグラウンド トゥルースの尤度に対応する必要があります。 信頼度スコアの目的は 2 つあります (「方法: 信頼度に基づくレビュー」セクションを参照)。 まず、\({\mathcal{D}}^{\mathrm{unlabeled}}\) の各クリップの推定精度を生成することで、\({\mathcal{D}}^{\mathrm) の全体的な精度を推定できます。 {ラベルなし}}\)。 研究者間でアノテーションにばらつきがあるのと同様に、たとえ優れたパフォーマンスを発揮する分類器のアノテーションであっても、ラベルのないデータに手動でアノテーションが付けられた場合に生成されるアノテーションと完全には一致しないことが予想されます。 しかし、\({\mathcal{D}}^{\mathrm{unlabeled}}\) で人間が作成したラベルと分類器が作成したラベルの間の一致の推定値を自動的に提供することで、ユーザーは分類器のパフォーマンスが十分であるかどうかを簡単に判断できます。彼らに与えられたアプリケーション。 2 番目の目的は、研究者が、注釈の精度が高いクリップよりも分類器の精度が低いクリップを優先的にレビューして修正できるようにすることです。 研究者は \({\mathcal{D}}^{\mathrm{unlabeled}}\) の各クリップをレビューするのではなく、分類器の予測が不確かなクリップのサブセットのみをレビューして修正できます。 信頼スコアが精度の正確な推定値である場合、信頼スコアの低いクリップは分類器のパフォーマンスが低いクリップとなり、ラベルをより効率的に修正できるようになります。

私たちの一次分析では、実験室設定で公的に利用可能なマウスの 2 つの「ベンチマーク」データセットに対するアプローチを評価します (「方法: データセット」セクションを参照)。 どちらのデータセットにも完全に注釈が付けられているため、モデルをテストして評価できます。 「ホームケージデータセット」と呼ばれる最初のデータセットは、Jhuang et al.7 によって収集されたもので、ホームケージ内で個別に飼育されたマウスが 8 つの定型的行動を相互に実行する 12 本のビデオ (合計 10.5 時間、図 2D) を特徴としています。 -排他的な行動はケージの側面から記録されました(図S1A)。 「CRIM13」6と呼ばれる2番目のデータセットは、13の異なる相互排他的な行動に分類された社会的行動を行うマウスのペアを、同期した側面図と上面図で記録した237組のビデオで構成されています(図S1B)。 各ビデオの長さは約 10 分で、ビデオと注釈の合計は約 88 時間になります (図 2D)。 これらのベンチマーク データセットに加えて、馴化タスク中のタコのビマクロイデス行動の「探索的」未公開データセットを評価することで分類器に挑戦します (「方法: データセット」セクションを参照)。

分類器のパフォーマンス。 (A) トレーニングに使用されたデータセットの割合の関数としての、ホーム ケージ データセット上の分類器のテスト セット精度と全体的な F1 スコア。 X 軸に示されたデータの割合は分類器のトレーニングに使用され、分類器はデータセットの残りの部分で評価されます。 (B) ランダムに選択された 10 個のホーム ケージ クリップからの分類子ラベルとグラウンド トゥルース アノテーションのサンプル エソグラム。 色付きの各線は、対応するタイムスタンプにおけるその動作のラベルを示します。 黒い垂直線は、ビデオがクリップに分割されていることを示します (長さは 1 分)。 (C) さまざまな長さのクリップ (クリップの継続時間は分で示されます) について、分類器のトレーニングに使用されるデータの割合の関数としてのホーム ケージ データセットのテスト セット精度。 (D) 各データセット内の注釈付きフレームの総数。 (E – G) (A – C) と同じですが、CRIM13 データセットが対象です。 (H) サイド カメラ、トップ カメラ、およびサイド カメラとトップ カメラの両方の特徴を使用してトレーニングされた分類器のトレーニング データ量の関数としての CRIM13 データセットのテスト セット精度。 (A、C、E、G、H) の線と影の領域は、データをランダムに 10 分割した場合の平均誤差と標準誤差をそれぞれ示します。

ベンチマーク データセットの場合は、すでに完全にラベル付けされているため、ラベル付けプロセスをシミュレートすることによってメソッドを評価します (「メソッド: ラベル付きデータのシミュレーション」セクションを参照)。 ユーザーがデータの一部に注釈を付けることを選択し、そのデータを使用して分類器をトレーニングし、残りのデータの予測を取得すると仮定します。 実際には、ユーザーは残りのデータに対して分類器を実行してラベルを自動的に生成し、信頼度に基づくレビュー システムを使用して必要に応じてそれらのラベルをレビューします。 ただし、ここではデータに注釈が付けられているため、「ラベルなし」データの本当のラベルがわかります。 これにより、残りの \({\mathrm{prop}}_{\mathrm{unlabeled}}\) データのラベルを生成するためにメソッドが使用されているかのように、メソッドのパフォーマンスをテストできます。 このアプローチにより、ラベル付け比率の範囲全体でパフォーマンスをシミュレートできるようになり、指定された手動アノテーション時間に対してモデルがどのようにパフォーマンスを期待できるかの尺度が得られます。 したがって、特定の \({\mathrm{prop}}_{\mathrm{labeled}}\) に対して、「ラベル付きデータ」を使用して分類器と信頼度に基づくレビューをトレーニングし、そのアプローチがデータに対してどのように実行されるかをテストします。残りのデータ (図 1D)。

まず、さまざまな量のトレーニング データ (図 2A、E) を使用して分類器のパフォーマンス (つまり、精度と F1、「方法: 分類器の評価」セクションを参照) を評価し、高いレベルを達成するのに手動による注釈が非常に少ないことを示します。正確さ。 ラベル付きの特定の割合 (つまり、上記の \({\mathrm{prop}}_{\mathrm{unlabeled}}\)) について、対応する割合のプロジェクト クリップがデータセット内のすべてのクリップからランダムに選択され、トレーニングに使用されます。分類子は残りのデータ (つまり、テスト セット) に対して評価されます。 どちらのデータセットでも、使用するトレーニング データが増えるにつれて精度と F1 が向上し、データの最初の 10 パーセントで急激に増加し、20 パーセント以降は徐々に増加します。 分類子の出力とグランド トゥルースの注釈の例を図 2B、F に示します。

次に、モデルのパフォーマンスを既存のモデルと比較します (表 1、「メソッド: 既存のメソッドとの比較」セクションを参照)。 ホームケージのデータセットでは、人間のアノテーター間の一致よりも高い精度を示すことに加えて、私たちの分類器は既存の商用オプション (HomeCageScan 2.0、CleverSys Inc.、Jhuang et al.7 によって評価) や手作業に基づくアプローチよりも優れています。 -細工された機能7と3D畳み込みニューラルネットワーク23。 ただし、Jiang et al.24 で詳述されている隠れマルコフ モデルのアプローチは、ホームケージ データセットでは DeepAction よりもわずかに優れたパフォーマンスを示しました。 この分類器は人間を超えるパフォーマンスを示し、CRIM13 データセットに関する Burgos-Artizzu et al.6 で詳述されている疎な時空間特徴アプローチを上回っています。 また、時間的特徴 25、独立成分分析 26、階層的スパースコーディング 27、統合されたスパースおよびデンス軌道特徴 28 に基づく従来の方法よりも優れたパフォーマンスを発揮します。

次に、データ準備プロセスの固有の側面が分類子のパフォーマンスにどのような影響を与えるかを検討します。 具体的には、アノテーション時間が等しい(つまり、ラベル付けされた比率が等しい)場合、分類器は長いクリップよりも比較的短いクリップを使用してトレーニングされたときに優れたパフォーマンスを示すという仮説を調査します。 図 2C、G に示すように、これは実際に当てはまります。 おそらくこの現象には限界がありますが (つまり、クリップの長さがほんの数フレームの場合、分類器はラベルを正確に予測するのに十分なコンテキストを取得できません)、ここでテストしたクリップの長さは 1 から 1 の間で変化します。 20 分と 20 分では、短いクリップの方が、特定のレベルのアノテーションの精度が高く、トレーニング データが増加するにつれて、より急速な改善が見られます。 CRIM13 データセットは、同期されたトップビュー カメラとサイドビュー カメラを使用して記録されます。 主な分析では、両方のカメラの特徴を組み合わせます (「方法: 特徴抽出」セクションを参照)。 図 2H では、これが有利であることが確認されています。 両方のビューの特徴を使用してトレーニングされた分類器は、サイド カメラの特徴のみまたは上部カメラの特徴のみをトレーニングした場合よりも優れたパフォーマンスを示しており、この方法が複数のカメラからの情報を効果的に統合していることを示しています。

全体的な分類子のパフォーマンスに加えて重要な考慮事項は、特定の動作に対する分類子のパフォーマンスです。 非常に不均衡なデータセット (つまり、少数の動作が不均衡に共通するデータセット) では、予測が最も一般的なクラスであれば、識別能力が低い分類器でも高い精度を達成できます。 ホームケージのデータセットは、「飲み物」行動 (ラベルの 0.26%) を除いて、比較的バランスが取れています (図 3A)。 非飲酒行動については、各ラベルの普及率の多少の変動にもかかわらず、分類器は一貫して高いパフォーマンスを示しました (図 3B)。 CRIM13 データセットは、バランスが著しく低く (図 3D)、高い割合の行動が「その他」(非社会的行動を示す) として分類されています。 「その他」の行動の発生率が高いことは、ほぼゼロのトレーニング データの割合 (約 55% の精度、図 2E) での分類器のパフォーマンスが高く、不釣り合いに多数の社会的行動が誤って「その他」としてラベル付けされていることを説明しています。分類器による(図3E)。 また、分類器によって予測された試合の長さの分布 (つまり、行動が連続して発生するフレームの数) は、ほとんどの行動の試合の長さの真の分布と質的に似ていることにも注目します (図 3C、F)。 ホームケージのデータセットでは、分類器が「休憩」行動の試合の長さを過小予測していることがわかります。この分類器は、高いパフォーマンスにもかかわらず、平均試合の長さが例外的に長くなります (他のすべての行動の平均 88 フレームに対して 2,563 フレーム)。同じテストセットで全体的な休息行動を予測します (再現率: 0.95、精度: 0.98)。 CRIM13 データセットでは、分類器が最もパフォーマンスの悪い行動「食べる」、「人間」、「飲む」の試合時間を過小予測していることがわかります。

データセットの動作特性と分類子のパフォーマンス。 (A) ホームケージ データセットの動作ラベルのグラウンド トゥルース分布 (つまり、データセット内の総フレーム数に対する各動作が発生するフレーム数の割合)。 (B) 真のクラスに対して正規化されたセル値を使用して、ホームケージ データセットの動作による分類器のパフォーマンスを示す混同行列の例。 (C) ホームケージ データセットの実際の試合の長さと予測された試合の長さの例。行動別にグループ化されています。 単一の「試合」とは、継続的に発生する動作の期間を指し、対応する試合の長さはフレーム数で表したその期間の長さに対応します。 試合の長さの中央値は黒い実線で示されており、各点は単一の試合に対応します。 (D – F) (A – C) と似ていますが、CRIM13 データセット用です。

分類器のトレーニングに使用されるデータ量の関数として分類器のパフォーマンスを調べるために、さまざまなラベル付きデータの割合で各動作の適合率、再現率、および F1 スコア (「方法: 分類器の評価」セクションを参照) を計算します (図 4)。 。 ホームケージのデータセットでは、非飲酒行動に関して、全体的な精度の場合と同様の行動レベルの改善パターンが観察されます。トレーニング データの比率が低い場合は急速に増加し、その後 10 ~ 20 パーセントになるとより緩やかな増加が見られます。トレーニングデータ (図 4A ~ G)。 このパターンは、最も一般的ではない行動(食べる、ラベルの 7.5 パーセント)と最も一般的な(微動、ラベルの 24.8 パーセント)非飲酒行動の発生率に比較的大きな差があることを考慮しても当てはまります。 しかし、飲酒行動については、その発生率が非常に低いため、トレーニングセットの割合全体で、より一貫性がなく、非段階的なパフォーマンスの向上が観察されます(図4H)。

ホームケージの行動レベル分類器のパフォーマンス。 (A–H) 分類器のトレーニングに使用されたデータの割合の関数としての、ホームケージ データセット内の各行動の適合率、再現率、および F1 スコア。 線と影付きの領域は、データをランダムに分割した 10 個にわたる平均誤差と標準誤差をそれぞれ示します。

このパターンは通常、CRIM13 データセットにも当てはまります (図 S3)。 ほとんどの行動では、再現率、適合率、および F1 が急速に増加し、その後、トレーニング割合の関数として、トレーニング割合が約 0.3 になると改善が相対的に遅くなることが観察されます。 このパターンには注目すべき例外があります。 まず、分類器が不釣り合いな頻度で「その他」を予測するようにデフォルト設定されているため、非常に低いトレーニング比率と比較して、「その他」の再現率がわずかに減少することが観察されます (図 S3A)。 ただし、F1 スコアは増加し、再現率と精度のバランスが改善されたことを示しています。 そして第二に、「食べる」、「サークル」、および「飲む」が、トレーニング割合の関数として、再現率、精度、およびF1に散発的な改善を示すことが観察されます(図S3I、L、M)。 ホームケージ データセットの「飲み物」と同様、これらはすべて低頻度の行動 (グラウンド トゥルース ラベルの約 2 パーセント以下) であり、特に「サークル」と「飲み物」の場合は (グラウンド トゥルース ラベルの約 0.3 パーセント)、 -真実のラベル)。

探索的データセットでは、社内で収集した 7 匹のタコ ビマクロイデス行動ビデオの 6 行動データセットで分類器を評価しました (図 5D を参照)。 全体として、分類器は比較的良好に機能し、精度は 73.1 パーセントです。 図 5C のサンプル エソグラムを参照してください。 ただし、手動アノテーターが同じ独立してアノテーションを付けたビデオに対して 88.7% の合意に達したことを考えると、これは人間レベルのパフォーマンスよりもはるかに低いです (「メソッド: データセット」セクションを参照)。 動作レベルのパフォーマンスに関して、分類子は、クローリング、なし (対象の動作を示す)、および固定パターンでは良好なパフォーマンスを示しますが、リラクゼーション、ジェッティング、および拡張ではパフォーマンスが低下します (図 5B)。 これらの動作のパフォーマンスが低いのは、特に噴射と拡張の場合、その頻度が低いためであると考えられます (図 5A)。

探索的データセットの動作特性と分類器のパフォーマンス。 (A) 探索用 (タコ) データセットの行動ラベルのグラウンドトゥルース分布。 (B) 10 倍相互検証からのテスト倍数における分類器のパフォーマンスの混同行列。 (C) ランダムに選択された 30 個のタコの行動クリップ (それぞれ長さ 1 分、1 秒あたり 10 フレームでサンプリング) からの分類子ラベルとグラウンド トゥルース アノテーションのエソグラムの例。 (D) タコのビデオの例からのフレーム。 上のフレームにある赤い差し込み四角は動物の位置を示しており、以下に拡大して示します。

次に、分類子のパフォーマンスから信頼度に基づくレビューのパフォーマンスに焦点を移します。 予測ラベルの精度についての分類器の予測を表す各クリップの信頼スコアを生成することを思い出してください (「メソッド: 信頼スコアの定義」セクションを参照)。 図 6A、D では、最大ソフトマックス確率に基づく信頼スコアと温度スケーリングを使用して導出された信頼スコアの両方について、信頼スコアと精度の間に強い相関関係があることを示しています (「方法: 信頼スコアの計算」セクションを参照)。 次に、クリップの予測精度 (つまり、信頼スコア) とトレーニング データの割合全体にわたる実際の精度の間の平均絶対誤差 (MAE、「方法: 信頼スコアのキャリブレーションの評価」セクションを参照) を検討します。 ここで、MAE は、ランダムに選択されたクリップの信頼スコアがその精度から (プラスかマイナスかに関係なく) 異なる量を表します。 温度スケーリングを使用して導出された MAE は、CRIM13 データセット (図 6E) でソフトマックス確率を使用して導出された MAE よりわずかに優れたパフォーマンスを示しますが、ホームケージ データセット (図 6B) ではそうではありません。 どちらの方法でも MAE は最初は改善しますが、ラベル付けされたデータの割合が約 20% に達すると頭打ちになります。これは、クリップ精度の正確な推定が依然としてとらえどころのないことを示しています。

トレーニングの割合全体にわたる信頼性測定の改善。 (A) クリップ信頼スコアとクリップ精度の間の相関関係の例。 破線は、r 二乗値が挿入された最適な線を示します。 (B) 分類器のトレーニングに使用されるデータ量の関数としての、クリップ信頼スコアとクリップ精度の間の平均絶対誤差 (MAE) と (C) 平均符号付き差分 (MSD)。 (D – F) (A – C) と似ていますが、CRIM13 データセット用です。 (G) レビュー (および修正) されたテスト クリップの割合と、ホーム ケージ データセットからのテスト セットの精度との間の関係の例。さまざまなスコアリング方法について、信頼性スコアリング方法によって決定された順序でクリップがレビューされます (「方法:」を参照)。信頼性に基づくレビュー」セクション)。 (H) ホームケージのトレーニング データ量の関数として、信頼性の低いクリップが最初にレビューされるときに、特定の信頼スコアリング方法がどの程度効果的に実行されるかを定量化するレビュー効率メトリクス (「方法: レビュー効率の評価」セクションを参照)データセット。 (I) (H) と同じですが、CRIM13 の場合です。 (B、C、E、F、H、I) の線と影付きの領域は、データの 10 個のランダムな分割にわたる平均誤差と標準誤差を示します。

おそらく、単一のクリップの分類の精度を予測することよりも、ラベルのないすべてのクリップにわたる分類の精度を予測することの方が重要です。 個々のクリップの絶対誤差は変動する可能性がありますが、差が相殺される場合(つまり、予測が過小信頼される可能性が同じくらい高い場合)、セット全体の推定精度は正確になります。 これは実際に役立ちます。信頼スコアに偏りがある場合 (たとえば、一貫して精度を過大評価する場合)、ラベルなしデータの推定精度はその真の精度とは体系的に異なります。 ただし、スコアに偏りがない場合は、分類子が生成したアノテーションと手動で生成したアノテーションの間の予測された一致が特定のアプリケーションにとって十分であるかどうかを評価するのに役立ちます。 これを調査するために、テスト セット内のすべての予測の予測精度とテスト セットの実際の精度の差を定量化する平均符号付き差 (MSD、「方法: 信頼スコアのキャリブレーションの評価」セクションを参照) を考慮します。 図 6C、F に示すように、温度スケーリングに基づく信頼スコアはソフトマックスに基づく信頼スコアよりも低い MSD を持ち、温度スケーリングから導出される信頼スコアには (正の) バイアスが少ないことが示されています。 ソフトマックス スコアは、トレーニングの割合に関係なく、予測の平均精度を一貫して約 6 ~ 8 パーセント過大評価しますが、温度スケーリングは通常、わずか 1 ~ 2 パーセントだけ過大評価されます。

クリップ信頼スコアとクリップ精度の間に高い対応関係が確立されたので、信頼ベースのレビュー システムがこれらの信頼スコアをどの程度活用して、分類子が生成したラベルのレビューと修正にかかる時間を短縮するかを調査します。 実行可能な信頼度の尺度により、信頼度スコアの低いクリップ (つまり、予測精度が低い) が、信頼度スコアの高いクリップよりも優先的にレビューされるため、許容できる高品質のアノテーションを取得するために必要な手動レビュー時間が短縮されます。 ユーザーは、分類子によって生成されたラベルをすべてレビューするのではなく、精度が最も低い部分のみをレビューすることもできます (「方法: 信頼度に基づくレビュー」セクションを参照)。 実際のこのプロセスの例を図 6G に示します。これは、レビューされたテスト ビデオの割合とテスト セット内のラベルの全体的な精度の間の関係をシミュレートしています。 ビデオがレビューされない場合、テスト セットの平均精度は、分類子が生成したラベルとグラウンド トゥルースの注釈の間の一致になります。 その後、ビデオのレビューと修正を開始すると、誤った分類子によって生成されたラベルが修正されると想定されるため、全体の精度が向上します。 ビデオがランダムに選択された場合、レビューされるテスト セットの割合とテスト セットの精度の関係はほぼ線形です。選択された各ビデオが同じ数の間違ったラベルを持つ可能性が等しい場合、それらのラベルを修正することで全体的な精度が向上します。ラベルはすべてのビデオで同じです。

ただし、信頼性の尺度によって並べ替え、最も信頼性の低いクリップを最初にレビューする場合、理想的には、レビューされたビデオのサブセットは、レビューされていないビデオよりも相対的に精度が低い傾向があります。 信頼度に基づくレビューのパフォーマンスの上限は、クリップが実際の精度 (信頼度スコアの近似値) によって並べ替えられるレビューです。 これは実際には不明ですが (レビュー対象のデータにはラベルが付けられていないため)、信頼度に基づくレビューのパフォーマンスの上限を提供するために、ここでシミュレーションします。 ラベル付けされたデータ比率間で信頼度に基づくレビューのパフォーマンスを比較するために、データの分割ごとに「レビュー効率」と呼ばれる指標を計算します。これは、最良の値 (最適な選択、レビュー効率) によって制限される信頼スコアのパフォーマンスを表します。 \(1\)) および最悪のパフォーマンス (ランダム選択、\(0\) のレビュー効率) の可能性があります (「方法: レビュー効率の評価」セクションを参照)。 図 6H、I に示すように、ラベル付けされたデータの割合が増加するにつれて、レビュー用にビデオを分類する際に両方の信頼スコアが最適に近づきます。 ソフトマックスおよび温度スケーリングベースのスコアは、ほぼ同じパフォーマンスを示します。

ここでは完全に注釈が付けられたデータセットを使用してメソッドを評価しますが、この作業の中心的な目的は、実験設定における動作の注釈を改善することです。 このため、システム全体を MATLAB ツールボックスとして GitHub リポジトリとしてリリースします。これには、対象の動作セットを定義し (図 7A)、手動の注釈と信頼度に基づくレビューを実行するためのサンプル プロジェクトと GUI インターフェイスが含まれています (図 7B)。 。 たとえば、プロジェクトのビデオを事前にクリップに分割し、ユーザーが注釈を付けるためにビデオではなくクリップを表示することで、クリップごとの注釈を統合します。 さらに、信頼度に基づくレビュー プロセスを GUI に組み込みます。不完全 (つまり、レビューされていない注釈) が表に表示され、信頼性の低いクリップ (およびそれに対応する信頼度スコア) が上部に表示され、ユーザーが選択できるようになります。まずはレビュー用に。 また、プロジェクトのステータスに関する情報 (注釈が付けられたビデオの数と長さ、ビデオとクリップの情報など) も GUI 内に含めます。 信頼性に基づくレビュー中に、\(\mathrm{acc}({\mathcal{D}}^{\mathrm{unlabeled}})\) の推定値も直接提供し、さらに多くのアノテーションが完了するたびに推定値を更新します。 ユーザーはビデオを簡単にロードし、キーボードを使用して注釈を付け、動作を追加または削除し、結果を完全に GUI 内でエクスポートできます。

ツールボックスに含まれる MATLAB アプリの使用例。 (A) データセット内の一連の動作を定義するための GUI。 各動作ラベルは、手動で注釈を付ける際に動作の開始と停止を指定するために使用される一意のキーボード キー (「キー」) に対応します。 (B) 誤った分類器によって生成された予測を修正するための信頼度に基づくレビューで使用されるアノテーション GUI の例。 これには、プロジェクト内の完全なクリップ (つまり、人による注釈またはレビュー) とレビューされていない (つまり、分類子による注釈付き) クリップの表が含まれます。 レビュー中に、テーブルには各クリップの信頼スコア (「スコア」) と、すべての注釈なしデータの推定全体精度が含まれます。 ユーザーは、アノテーション テーブルから確認するクリップを選択すると、予測されたラベルとともにビデオ ビューアー ボックス (左上) に表示されます。 ユーザーは、注釈とビデオ再生の両方をキーボードで制御して、ビデオに表示される動作のラベルを作成または修正します。 動作とそれに対応するキーストロークは、「動作ラベル」パネルに表示されます。 各クリップの注釈が完了したら、ユーザーは「完了としてマーク」ボタンを押して進行状況を保存します。

ここでは、ビデオから実験動物の行動に自動アノテーションを付ける方法を紹介します。 私たちの分類子は、人間レベルの一致に匹敵する、またはそれを上回る高精度のアノテーションを生成しますが、人間によるアノテーションの時間は比較的短く、さまざまな発生率やタイムスケールの行動に対して良好なパフォーマンスを発揮します。 私たちの信頼スコアは精度を正確に予測し、人間のアノテーターが分類子によって生成されたアノテーションをレビューして修正するのに必要な時間を短縮するのに役立ちます。 最後に、注釈 GUI とサンプル プロジェクトを備えたシステムをオープンソース GitHub リポジトリとしてリリースします。

私たちの方法の主な強みは、生のビデオ フレームから正確な分類を生成する分類器の能力です。 DeepAction は、生のフレーム情報を使用して行動を分類することにより、キーポイントに注釈を付けたり、特定の動物の行動レパートリーを適切にカプセル化する手作りの特徴を作成したりする必要性を排除します。 これにより、手動アノテーションの退屈な側面 (つまり、動作アノテーションに加えてキーポイント アノテーション) が除去され、研究者が時間がかかり、最適とは言えない動作をカプセル化する機能を構築する必要性が軽減されます。 また、DeepAction のパフォーマンスは、分析された両方のげっ歯類データセットで手作りの特徴を使用して開発されたアプローチのパフォーマンスを上回っていることにも注目し (表 1)、これは自動特徴抽出アプローチがパフォーマンスを犠牲にしていないことを示しています。 ベンチマークのタコ データセットについて、非げっ歯類動物モデルに対する分類器の一般化可能性を実証します。 ただし、そのパフォーマンスはげっ歯類のデータセットほど強力ではないことに注意してください。 これは、トレーニング データの量が少ないこと (合計 6.15 時間)、またはげっ歯類のデータセットよりもタコのサイズが視野に比べて小さかったためであると考えられます。

分類器の基本レベルのパフォーマンスは、行動調査プロセスを大幅に促進する可能性があります。 ここで、有用なベンチマークは、分類子の精度 (分類子が生成したラベルとアノテーションの主セットの間の一致として定義されます。「方法: 観察者間の信頼性」セクションを参照) を独立したアノテーター間の一致 (観察者間の一致) と比較することです。注釈の 1 次セットと、観察者間の信頼性を評価するために使用される 2 番目の独立したセット)。 私たちの分析では、ホームケージのデータセットに関する人間のアノテーター間の一致 (71.6 パーセント) を超えるには、分類器がデータの 18 パーセントのみにアノテーションを付ける必要があることがわかりました (図 2A を参照)。 ホームケージのデータセットに手動でアノテーションを付けるのに 264 時間かかった7ことを考えると、人間レベルの合意が許容可能なアノテーションのしきい値として定義されている場合、私たちの方法はこの時間を 47 時間に短縮し、研究者がアノテーションの実行に必要な時間を 82% 節約することになります。ビデオ注釈の退屈なステップ。 同様に、DeepAction は、データの 25% に注釈が付けられている CRIM13 データセットに関する人間レベルの合意 (69.7%) を上回り (図 2E を参照)、研究者の時間を 75% 節約します。 CRIM13 ではアノテーションを付けるのに 350 時間かかった6ため、手動アノテーションの代わりに私たちの方法を使用すると、人間のアノテーター レベルでアノテーションの品質を維持しながら、この時間を 88 時間に短縮できたでしょう。

私たちの信頼度スコアリング システムは 2 つの理由から重要です。 1 つ目は、レビュー効率の若干の向上です。自動生成されたいくつかの行動ラベルを手動でレビューおよびチェックする場合、ランダムに行うよりも、信頼度スコアが最も低いラベルを選択する方が望ましいです。 これはトレーニング データセットのサイズ全体にわたって当てはまり、より多くのデータに注釈が付けられるほど、信頼スコアを使用したレビューが最適に近づくことを示します。 2 番目の、おそらくより重要な理由は、温度スケーリングに基づく信頼スコアにより、ラベルのないデータ (つまり、「人間が作成したラベル」が不明な場合) 上の分類器と人間が作成したラベルの間の全体的な一致の正確な推定値が生成されるためです。 )。 これは、研究者が、ラベルなしデータの推定精度が、特定の行動分析に対して許容可能な一致の特定のしきい値に達するまでデータに注釈を付け、その後、自動注釈を確認して修正することなくエクスポートできることを意味します。

私たちのツールにはいくつかの実用的な利点があります。 1 つ目は、注釈と信頼度に基づくレビュー用の GUI です。 2番目は適応性です。 GitHub リリースでは、より有用な機能を抽出できる可能性のある追加の事前トレーニング済み CNN (ResNet50 や Inception ResNetv2 など)、計算的に高速なオプティカル フロー アルゴリズム 29、および多くの計算集約的なプロジェクト関数 (時間的アルゴリズムなど) を並列化するオプションを提供します。フレーム生成と特徴抽出)。 最後の利点はモジュール性です。ユーザーはレビュー コンポーネントなしでワークフローの分類部分を使用でき、アノテーターはそのインターフェイスのみで使用できます。

ここで紹介するツールボックスは、完全に手動によるアノテーションと比較して大幅な進歩を示していますが、さらなる調査と潜在的な改善のための道がいくつかあります。 クリップ選択プロセスはビデオ全体の注釈よりも優れたパフォーマンスを示していますが、ここでの結果ではクリップをランダムに選択しています。 実際には、信頼度ベースのレビュー システムを使用して分類器を反復的にトレーニングすることができます (図 1A)。ここで、信頼性の低いクリップがレビュー、修正され、分類器の再トレーニングに使用されます (ただし、これが分類器の再トレーニングに使用されるかどうかは調査しません)。ここではランダムに選択するよりも望ましいです)。 別のアプローチは、ビデオの要約に使用される方法を適応させて、類似性によってビデオ クリップをクラスタリングし、データセット全体を最もよく表すクリップのサブセットを選択することです 30,31。 私たちの分類器は双方向層を備えた LSTM に基づいていますが、代替アーキテクチャが優れたパフォーマンスを発揮する可能性があります 11,32。 関連して、ここで説明する分類子は、動作が相互に排他的であることを前提としています。 つまり、どの動作も同時に発生することはできません。 ただし、これが当てはまらないデータセットの場合、ここで使用されるクロスエントロピー損失関数は、同時発生する動作を考慮して簡単に調整できます。 さらなる探求のための最後の手段は、信頼度スコアを計算するアプローチです。 私たちのシステムはすでに最適に近づいていますが、十分なトレーニング データがあれば (図 6H、I)、ここで使用する温度スケーリング ベースのメトリクスよりも優れたパフォーマンスを提供する可能性のある、密度ベースのメトリクス 33 やベイジアン ドロップアウト 34 を利用するメトリクスが多数あります。 。

げっ歯類は行動研究で広く使用されており、マウスは最もよく研​​究されているげっ歯類 35 であることを考慮して、主な分析ではさまざまな行動をとっているマウスを特徴とする 2 つの公開されているデータセットを選択しました。 「ホームケージ データセット」と呼ばれる最初のデータセットは、Jhuang et al.7 によって収集されたもので、ホーム ケージで個別に飼育されたマウスの 12 個のビデオ (合計約 10.5 時間、合計 113 万フレーム) を特徴としています。側面図。 ビデオの解像度は \(320\times 240\) ピクセルです。 著者らは各ビデオに完全に注釈を付け、発生頻度が異なる 8 つの相互に排他的な動作 (図 S1A) を特定しました (図 3A)。 このデータセットを使用すると、既存の手法に対するアプローチのベンチマークを行うことができ、一般的なユースケースに基づいて手法を評価でき、各動作の発生率に関して比較的バランスが取れています。

使用される 2 番目のデータセットは、Burgos-Artizzu らによって収集された Caltech Resident-Intruder Mouse データセット (CRIM13) です6。 これは、同期したトップビュー カメラとサイドビュー カメラから記録された 237 ペアのビデオで構成され、毎秒 25 フレーム、ピクセル深度 8 ビットです。 ビデオの長さは約 10 分で、著者は 13 の相互排他的なアクションにラベルを付けています (図 S1B)。 これらの行動のうち 12 は社会的行動であり、残りの行動は「その他」のカテゴリに属します。これは、関心のある行動が発生しない期間を示します6。 このデータセットは、Jhuang et al.7 データセットにはない多くの課題を特徴としています。 (単独で飼育されているマウスを特徴とするホームケージ データセットとは対照的に) 社会的行動を含むことに加えて、アルゴリズム上 2 つの課題があります。 まず、同期した一対のカメラを使用してビデオが記録されます。 これにより、複数のカメラの統合機能 (「メソッド: 特徴抽出」セクションを参照) をテストし、複数のカメラの特徴を使用して分類器のパフォーマンスを評価することができます。 そして第 2 に、非常に不均衡であり、すべての注釈のわずかに大部分が「その他」カテゴリ (社会的行動が発生しなかった期間、図 3D) です。

また、ダートマスのタコ研究室でのタコの慣れ行動の研究中に、単一飼育されたタコのビマクロイデスの 7 つのユニークなビデオで構成される、非げっ歯類モデルへのモデルの適用可能性を実証するための探索的データセットも含まれています。 1 つのビデオ (長さ約 62 分) には 2 人の異なるアノテーターによって注釈が付けられ、これら 2 つの独立した注釈間の一致を計算することで観察者間の信頼性を評価できるようになりました。 ビデオは合計約 6.75 時間で、6.15 時間に注釈が付けられています。 ビデオは、\(640\×436\) ピクセルの解像度で 10 フレーム/秒で記録されました。 対象となる 5 つの行動を定義します。這い、固定パターン (水槽の壁に沿って固定フォーメーションで這う)、弛緩、噴射 (刺激から遠ざかる素早い加速)、拡張 (警報反応または攻撃的な表示で触手を広げる)、および指標これらの動作がいずれも発生しない場合 (none)。 元のデータセットには、合計フレームのうち非常に少数の 3 つの追加動作 (インク/ジェッティング、優位性の表示、色の変化) があり、これらは他の 6 つの動作 (這う、固定パターン、リラックス) と同時に発生する可能性があります。 、噴射、拡張、なし)。 ただし、現時点では分類モデルは相互に排他的なクラスしか予測できないため、これら 3 つの動作を入力アノテーションから削除しました。

どちらのデータセットにも、2 つのアノテーター グループによって実行される一連のアノテーションが含まれています。 アノテーションのプライマリ セットは、アノテーターの最初のグループによって作成され、データセット内のすべてのビデオが含まれています。 2 番目のアノテーション セットは、ビデオのサブセットに対して 2 番目の独立したアノテーター セットによって実行されました。 アノテーションのプライマリ セットを使用してメソッドをトレーニングおよび評価し、セカンダリ セットを使用して観察者間の信頼性を確立します。 つまり、2 つの独立したヒューマン・アノテーターのアノテーションがどの程度異なると予想できるかということです。 これを考慮すると、最初のグループのアノテーターによってビデオに注釈が付けられている場合、分類子によって生成されたラベルは、予測された動作として最も正確に解釈できます。 この区別は、観察者間の一致(つまり、アノテーターの最初のグループと 2 番目のグループの間の一致)と比較して、私たちの方法の精度(つまり、分類子の予測とアノテーションの主要なセットの間の一致)をベンチマークするため、重要になります。両方のグループによってラベル付けされたビデオのサブセット)。 したがって、たとえば、モデルが「人間の合意を上回る」精度を達成していることに注目すると、分類子は 2 番目のヒューマン・アノテーター・グループよりも最初のヒューマン・アノテーター・グループからのラベルをよりよく予測することを意味します。 ホームケージ データセットの場合、すべてのデータセットのビデオ 7 の 1.6 時間のサブセットと比較した場合、プライマリ セットとセカンダリ セットの間の一致率は 78.3 パーセントでした。 CRIM13 では、ランダムに選択した 12 本のビデオで評価したところ、一致率は 69.7% でした6。

さまざまな量のトレーニング データを使用してアプローチのパフォーマンスをシミュレートするために、一次分析では次の量のラベルを使用して分類器をトレーニングします。

つまり、すべてのデータの割合 \({\mathrm{prop}}_{\mathrm{labeled}}\) を使用して、トレーニング セットと検証セットを構築します (つまり、 \({\mathcal{D}} ^{\mathrm{labeled}})\)、および残りの \({1-\mathrm{prop}}_{\mathrm{labeled}}\) データを使用してテスト セット \({\mathcal{D }}^{\mathrm{test}}\) (図 1B、D)。 低いトレーニング割合 (\(0.20\) まで) には \(0.02\) の増分を使用します。これは、追加されたトレーニング データの小さな変化に比べて最大の変化が見られるときであるためです (図 2A、E)。 値を \(0.25\) から \(0.90\) まで \(0.05\) ずつ増加させます。 これにより、分析ごとに 24 のトレーニング比率のセットが得られます。 さらに、特に明記されていない限り、各トレーニング割合について、データを 10 回ランダムに分割してモデルを評価します。 メインの分析では、両方のデータセットに 1 分のクリップ長を使用します。

私たちのモデルを既存の方法と比較するとき、データのランダムな分割で評価するのではなく、k 分割検証を採用します。 ホームケージ データセットの場合、引用されている既存の手法は「1 つを残す」アプローチを採用しており、12 ビデオのうち 11 をメソッドのトレーニングに使用し、残りのビデオをテストに使用しています。 ただし、私たちのアプローチではデータをクリップに分割することに依存しているため、代わりに 12 分割相互検証を使用します。この場合、データセット クリップをランダムに 12 分割に分割し、ビデオ全体ではなくクリップに対して相互検証を使用します。 。 CRIM13 データセットでのアプローチのパフォーマンスを評価する際に、Burgos-Artizzu ら 6 はトレーニング用に 104 個のビデオとテスト用に 133 個のビデオを選択しました。これは、データの 44 パーセントでプログラムをトレーニングし、56 パーセントでテストしたことを意味します。 ここでは、同様のレベルのトレーニング データを保持するために、2 重交差検証 (50 パーセントのテストと 50 パーセントのトレーニング分割) を使用して、彼らのメソッドと比較して私たちのメソッドを評価します。

空間フレームを生成するには、各ビデオ ファイルから生のビデオ フレームを抽出します。 各画像を画像ファイルとしてディレクトリに保存するのではなく、Dollár36 が提供する JPG 圧縮の実装を使用して、単一のビデオに対応する画像のシーケンス全体をシーケンス ファイルに保存します。 これには、ファイル システム間でビデオ フレームを転送しやすくなり、どのオペレーティング システムでも読み取り可能になるという利点があります (これは、ハイ パフォーマンス コンピューティング クラスターでツールボックスを実行しているユーザーにとって便利です)。 時間コンポーネントを生成するには、代替オプティカル フロー アルゴリズム 15 よりも優れたパフォーマンスを示す TV-L1 アルゴリズム 19,37 を使用して、一連のビデオ フレームのペア間の高密度オプティカル フローを計算し、Cun38 による MATLAB 実装を介して視覚的に表現します。 オプティカル フロー フィールドの視覚的表現では、ピクセルの色相と明るさが、連続するフレーム間のそのピクセルの動きの方向と大きさを表します。 ビデオの動き情報を一連の画像として表すことにより、空間フレームと時間フレームの両方に対して同様の特徴抽出方法を使用できます。 空間画像から導出された特徴がビデオ内の空間情報を表すのと同様に、時間画像から導出された特徴はビデオ内の動き情報の表現を提供する必要があります。

事前トレーニング済みの ResNet18 畳み込みニューラル ネットワーク (CNN) を利用して、空間的および時間的なビデオ フレームから高レベルの特徴を抽出します。 画像処理アプリケーションでよく使用される CNN は、画像を入力として受け取り、その画像の内容に基づいて出力を生成する一連のレイヤーで構成されます。 直感的には、分類 CNN は、特徴抽出と分類という 2 つのコンポーネントに分類できます。 特徴抽出コンポーネントでは、ネットワークは一連のレイヤーを使用して、ますます複雑になる特徴を画像から抽出します。 分類コンポーネントでは、ネットワークは最高レベルの特徴を使用して、画像の最終的な分類 (「犬」または「猫」など) を生成します。 事前トレーニングされた CNN の場合、ネットワークは、トレーニングを通じて入力画像から重要な特徴を抽出する方法を学習します。つまり、グラウンド トゥルースがわかっている一連の画像の予測を生成し、予測された分類の偏差に基づいてネットワークを変更します。真の分類から、ネットワークは、あるオブジェクト クラスを別のオブジェクト クラスから区別する際に画像内のどの特徴が重要であるかを学習します。 ImageNet データベースからの何百万もの画像を 1,000 の異なるクラスに分類するようにトレーニングされた ResNet18 などの事前トレーニング済み CNN では、初期の層が一般的な特徴 (エッジ、テクスチャ、単純なパターンなど) を検出し、後の層が画像データをより詳細に表現します。抽象的に40.

ここでは、転移学習 (あるコンテキスト向けにトレーニングされたネットワークが別のコンテキストで使用される) を利用して、空間的および時間的なビデオ フレーム内のデータの低次元表現を抽出します。 ResNet18 は大規模な汎用オブジェクト データセットでトレーニングされるため、ネットワークの汎用性により、ネットワークの後の層からアクティベーションを抽出することで、基礎となるビデオ内の顕著な視覚的特徴の抽象表現を取得できるという考えです。まったく異なる一連の画像(この場合は、動物の行動を観察した研究室のビデオ)に対する反応。 ResNet18 ネットワークから特定の画像の特徴を抽出するには、画像をネットワークに入力し、ネットワークの指定された層からの応答 (「アクティベーション」) を記録します。 この作業では、ネットワークの終端に近い ResNet18 のグローバル平均プーリング層 (MATLAB では「pool5」) からアクティベーションを抽出することを選択しました (高レベルの特徴表現を取得するため)。 これにより、各画像の高レベルの CNN 特徴を表す長さ \(512\) の特徴ベクトルが生成されます。

デフォルトでは、ResNet18 はサイズ \([224, 224, 3]\) の入力画像 (つまり、幅と高さが 224 ピクセルで 3 つのカラー チャネルを持つ画像) を受け入れるため、最初にフレームのサイズをある幅に変更することでフレームを前処理します。高さは 224 ピクセルです。 空間フレームの場合、サイズ変更された画像は変更されずにネットワークに直接入力されます。 ただし、時間フレームの場合は、ネットワークにフレームを個別に入力するのではなく、各入力フレームをその前の 5 フレームとその後の 5 フレームとともに CNN に「スタック」します。その結果、入力サイズは \([224, 224 、33]\)。 このアプローチにより、ネットワークは長期の動き情報を含む特徴を抽出できるようになり、識別パフォーマンスが向上することが示されています 14,18。 Simonyan と Zisserman の調査結果に基づいて、スタック サイズ 11 を選択します18。 デフォルトでは、ResNet18 ネットワークはサイズ \([224, 224, 3]\) の入力のみを受け入れます。そのため、サイズ \([224, 224, 33]\) の入力を受け入れるようにネットワークを変更するには、次の重みを複製します。最初の畳み込み層 (通常は 3 チャネル) を 11 回実行します。 これにより、修正された「flow ResNet18」は、顕著な画像特徴を抽出するための事前トレーニングされた重みを保持しながら、画像のスタックを入力として受け入れることができます。

空間特徴と時間特徴がそれぞれ空間フレームと時間フレームから個別に抽出された後、それらを組み合わせて、分類器のトレーニングに使用される時空間特徴を生成します (図 1E)。 これを行うには、各フレームの空間的および時間的特徴を単純に連結します。 つまり、 \(n\) フレームを持つビデオの特定のセグメントの場合、初期時空間特徴はサイズ \(\left[n, 512\times 2\right]=[n, 1024]\) の行列になります。 \(512\) は、ResNet18 から抽出された特徴の次元を表します。 複数の同期されたカメラが使用される場合 (ベンチマーク データセットの 1 つの場合のように)、同じプロセスを採用して、各フレームと各カメラの空間的および時間的特徴を連結します。 たとえば、2 台のカメラの場合、これは、初期の時空間特徴がサイズ \(\left[n,512\times 2\times 2\right]=\left[n,2048\right]\) の行列であることを意味します。 。 トレーニング時間、メモリ要件を削減し、パフォーマンスを向上させる 41,42 ために、次元削減を利用して初期時空間特徴のサイズを減らし、サイズ \(\left[n,512\right]\) の最終時空間特徴を生成します。 次元削減手法として再構築独立成分分析 43,44 を選択しました。これは、出力特徴の独立性と出力特徴から入力特徴を再構築する能力のバランスをとる目的関数を最小化することで線形変換を作成します。

ラベル付きデータとラベルなしデータは、プロジェクト ビデオから生成された一連のクリップで構成され、分類器はこれを使用して動作を予測します。 \({\mathcal{D}}^{\mathrm{labeled}}\) と \({\mathcal{D}}^{\mathrm{unlabeled}}\) のクリップはどちらもビデオのセグメントで構成されており、そのビデオから抽出された時空間特徴の対応する配列。 \({\mathcal{D}}^{\mathrm{labeled}}\) のクリップには、手動の注釈のセットも含まれています (図 1B)。 \({n}_{\mathrm{labeled}}\) フレームを含む \({\mathcal{D}}^{\mathrm{labeled}}\) 内の特定のクリップの場合、分類器は \([{ n}_{\mathrm{labeled}},512]\) 時空間特徴の次元ベクトル (図 1E) と \({n}_{\mathrm{labeled}}\) の 1 次元配列を手動で作成します。ラベル (例: 「食べる」、「飲む」など) を入力として生成し、その特徴から \({n}_{\mathrm{labeled}}\) ラベルを予測する方法を学習します。 トレーニング後、\({n}_{\mathrm{unlabeled}}\) フレームを含む \({\mathcal{D}}^{\mathrm{unlabeled}}\) 内の特定のクリップについて、分類器は時空間特徴の \([{n}_{\mathrm{unlabeled}},512]\) 次元ベクトルを入力し、一連の \({n}_{\mathrm{unlabeled}}\) 行動ラベルを出力します。 \({n}_{\mathrm{unlabeled}}\) の各フレームで予測された動作に対応します。 特徴からラベルへのこの変換を実装するには、リカレント ニューラル ネットワーク (RNN) を利用します。 クリップを RNN に入力する前に、オーバーフィッティング 45 とシーケンス パディング 46 を削減するために、クリップを 15 秒のビデオに対応する短い「シーケンス」にさらに分割します。 従来のニューラル ネットワークとは異なり、リカレント ニューラル ネットワークには周期的な接続が含まれており、情報が時間の経過とともに持続するため、逐次データの依存関係を学習できます47。 行動を正確に予測するには、時間の経過に伴う情報の統合が必要であることを考えると(つまり、行動は時間の経過に伴う動きによって区別されることが多いため、アノテーターは通常、ほとんどの行動を分類するために複数のフレームを表示する必要があります)、この永続性は非常に重要です。

分類モデルの中核として、双方向 LSTM 層 (BiLSTM) を備えた長短期記憶 (LSTM) ネットワークを選択します。 LSTM は、実際には従来の RNN よりもデータの長期依存関係を学習する能力が高く 48,49、双方向層の使用により、ネットワークは時間方向の両方で情報を処理できるようになります 50 (つまり、時間内で前方のみではなく、時間的に前方と後方)従来の LSTM 層の場合)。 図 S4 に示すように、ネットワークのアーキテクチャはシーケンス入力層で始まり、時空間ビデオ特徴に対応する 2 次元配列 (フレームごとに 1 行、特徴ごとに 1 列) を受け入れます。 次に、2 つの BiLSTM 層を適用します。これにより、モデルの複雑さが増し、モデルが入力シーケンスと正しい出力ラベルの間のより抽象的な関係を学習できるようになります 51。 モデルの過学習の可能性を減らすために、各 BiLSTM 層の後にドロップアウト層を使用します。これにより、入力単位の一定の割合 (ここでは \(50\) パーセント) が \(0\) にランダムに設定され、検出力を抑えることで過学習が軽減されます。個々のニューロンの出力を生成する52。 2 番目のドロップアウト層の後には、出力サイズ \([n,K\)] の全結合層が続きます。ここで、\(K\) はクラスの数、\(n\) はフレーム数です。入力クリップ。 次に、ソフトマックス層は、全結合層の出力を \([n,K]\) の形状を持つクラス確率のセットに正規化します。ここで、各行の合計は \(1\) であり、クラス \(kフレーム \(j\) の \) はエントリ \(jk\) によって与えられます。 ソフトマックス層に続いて、シーケンス間分類層は、各フレームでソフトマックス確率が最も高い動作に対応する \(n\) ラベルの 1 次元カテゴリカル配列を生成します。 両方のデータセットの動作は相互に排他的であるため、損失関数として \(K\) の相互排他的なクラス 53 のクロスエントロピー損失を選択します。 すべての分類器は、ダートマス大学の高性能コンピューティング クラスター上で実行される単一の Nvidia Tesla K80 GPU を使用してトレーニングされました。

この分析では、ネットワークのトレーニング時に表 2 で指定されたハイパーパラメーターを使用します。 過学習を避けるために、検証セットで使用する \({\mathcal{D}}^{\mathrm{labeled}}\) の 20% を選択します (つまり、\({prop}_{train}=0.20\) ;図1Cを参照)。 次に、この検証セット上のネットワークをエポックごとに評価し (「エポック」とは、ネットワークを通過するトレーニング セット全体の単一パスとして定義されます)、そのクロス エントロピー損失を記録します。 特定のエポック後の検証セットの損失が、検証セットの以前の最小損失と 2 回以上等しい場合、トレーニングは終了します。

分類器を評価するには、テスト セット \({\mathcal{D}}^{\mathrm{test}}\) でのパフォーマンスを考慮します (図 1B、D)。 各クリップについて、分類器は、そのフレーム内の予測された動作に対応する、各フレームの予測されたラベルのセットを出力します。 分類器を評価する際に、これらの予測されたラベルが実際のラベルとどの程度一致するかに興味があります。 まず全体的な予測精度を検討します。 \(\mathrm{correct}\) はネットワークの予測が真のラベルと同じであるラベルの数を表し、\(\mathrm{incorrect}\) はネットワークの予測が同じではないラベルの数を表します。真のラベルとして。 次に、精度は次の割合として定量化できます。

次に、ネットワークのパフォーマンスを動作別に検討します。 そのために、 \({\mathrm{TP}}_{k}\) を真陽性の数 (予測クラス \(k\) と真のクラス \(k\)) で表します。 {FP}}_{k}\) 偽陽性の数 (予測されたクラス \(k\) ですが、真のラベルはクラス \(k\) ではありません)、および \({\mathrm{FN}}_{k} \) クラス \(k\) の偽陰性 (真のクラス \(k\)、クラス \(k\) ではないと予測される) の数 (\(k\) は \(1\) と合計数の間にあります)クラスの数、\(K\))。

次に、各ラベルの適合率、再現率、および F1 スコアを計算します11,55。クラス \(k\) の適合率と再現率は次のように定義されます。

精度は、予測されたクラスがクラス \(k\) であるすべてのケースのうち、正しい予測の割合です。 一方、再現率は、真のクラスがクラス \(k\) であるすべてのケースのうち、正しい予測の割合を示します。 適合率と再現率から、クラス \(k\) の F1 スコアを計算します。 F1 スコアは適合率と再現率の調和平均であり、高い F1 スコアは適合率と再現率の両方が高いことを示し、どちらかが不足している場合は低下します。

各クラスの F1 スコアを計算した後、平均 F1 スコア \({\mathrm{F}1}_{\mathrm{all}}\) を次のように計算します。 \({\mathrm{F}1}_ {\mathrm{all}}=\frac{1}{K}\sum_{k=1}^{K}{\mathrm{F}1}_{k}\)。

入力クリップごとに、分類器は、そのクリップの各フレームで発生する予測された行動 (「歩く」、「飲む」、「休む」など) に対応する予測された注釈のセットを返します。 クリップ番号 \(i\)、\({\text{clip}}_{i}\) の分類器によって予測されたラベルのセットを \(\left\{{\widehat{y}}_{ j} | j\in {\text{clip}}_{i}\right\}\)。 各クリップには、クリップに手動で注釈が付けられた場合に生成されるラベルに対応する、一連の「真の」ラベルもあります。 ラベル付きデータの場合、真のラベルは既知です (そして分類器のトレーニングに使用されます)。 ラベルのないデータの場合、それらは (手動で確認する前には) わかりません。 \({\mathrm{clip}}_{i}\) の真のラベルのセットを \(\left\{{y}_{j} | j\in {\text{clip}}_{ i}\正しい\}\)。 クリップ内の各フレームについて、そのフレームで発生する動作の予測を出力することに加えて、そのフレームの分類器によって割り当てられたラベルが正しい可能性の推定も生成します。 つまり、クリップごとに、予測確率のセット \(\left\{{\widehat{p}}_{j} | j\in {\text{clip}}_{i}\right\} を生成します。 \) \({\widehat{p}}_{j}\) が \({\widehat{y}}_{j}\) が \({y}_{j }\)。 最適な分類器では、 \({\mathbb{P}}\left({\widehat{y}}_{j}={y}_{j}\right)={\widehat{p}}_{j }\)。 つまり、 \({\widehat{p}}_{j}\) は、分類が正しい確率の推定値です。 そして、最適な信頼スコアラーでは、分類が正しい推定確率が、分類が正しいグランド トゥルースの尤度になります 56。

クリップ内の特定のフレームが正しいという推定確率を確立したので、信頼スコアをクリップ全体に拡張します。 トレーニング データのアノテーションと同様、レビュー プロセスは個々のビデオ フレームではなく、クリップ全体のレベルで実行されます。 つまり、クリップ内に分類器が比較的自信を持っていないフレームが少数存在する場合でも、誤って分類されたフレームを正確に修正するのに十分なコンテキストを得るには、人間のレビュー担当者がクリップ全体を確認する必要があると想定します。 \({\widehat{p}}_{j}\) は特定のフレーム \(j\) が正しい確率の推定値であるため、平均 \({\widehat{p}}_{j}\ ) for \(j\in {\text{clip}}_{i}\) は、\({\mathrm{clip}}_{i}\) 内でランダムに選択されたフレームが正しい推定確率です。 この量をクリップ信頼スコアとして定義します。 正式には \(\mathrm{conf}\left({\text{clip}}_{i}\right)=\frac{1}{\left|{\text{clip}}_{i}\right| }\sum_{j\in {\text{clip}}_{i}}{\widehat{p}}_{j}\)、ここで \(\mathrm{conf}\left({\mathrm{clip} }_{i}\right)\) は \({\text{clip}}_{i}\) と \(\left|{\text{clip}}_{i}\right のクリップ信頼スコアです|\) は \({\text{clip}}_{i}\) 内のフレーム数です。 次に、精度とは、\({\text{clip}}_{i}\) 内でランダムに選択されたフレームが定義上正しい真の確率であると考えます。 つまり、 \(\mathrm{acc}\left({\text{clip}}_{i}\right)=\frac{1}{\left|{\text{clip}}_{i}\right |}\sum_{j\in {\text{clip}}_{i}}\mathbf{I}({\widehat{y}}_{j}={y}_{j})\)、ここで\(\mathrm{acc}\left({\text{clip}}_{i}\right)\) は \({\text{clip}}_{i}\) と \(\mathbf) の精度です{I}\) はインジケーター関数です。 最適な信頼スコアの場合、 \(\mathrm{conf}\left({\text{clip}}_{i}\right)=\mathrm{acc}\left({\text {クリップ}}_{i}\右)\)。 \(\mathrm{conf}\left({{\text{cli}}{\text{p}}}_{i}\right)\) と \(\mathrm{acc}\left({ \text{clip}}_{i}\right)\) をテスト データに基づいて検証すると、グラウンド トゥルースの精度 \(\mathrm{acc}\left({ \text{clip}}_{i}\right)\)、不明です。 「方法: 信頼スコアの計算」では、\({\widehat{p}}_{j}\) を取得するアプローチについて説明します。その後、クリップごとの信頼スコアを見つけるのは簡単です。

ここでは、まずフレームごとの信頼スコア \({\widehat{p}}_{j}\) を計算する方法を検討します。 これを行うために、分類子の構造 (図 S4) をより詳細に検討します。 特に、最後の 3 つの層、全結合層、ソフトマックス層、分類層に焦点を当てます。 特定のフレームの分類を生成するために、ソフトマックス層は全結合層からロジット ベクトルを受け取ります。 このロジット ベクトルは、モデルの生の (正規化されていない) 予測を表します。 次に、ソフトマックス レイヤーはこれらの予測を確率のセットに正規化します。各確率は入力の指数関数に比例します。 つまり、 \(K\) クラスが与えられた場合、全結合層からの \(K\) 次元ベクトルは、各クラスの確率を表す一連の確率に正規化されます。 最も高い確率を持つクラスが、そのフレームのネットワークの予測ラベル (たとえば、「食べる」または「歩く」) として返されます。 この確率を、ソフトマックス関数から導出された信頼度スコアとして解釈できます56。 形式的には、ロジット ベクトル \({{\varvec{z}}}_{j}\) をフレーム \(j\) に対応する全結合層からの出力を表すとすると、ソフトマックス推定による確率は、予測されたフレーム \(j\) のラベルは \({\widehat{p}}_{j}^{\mathrm{SM}}=\underset{k}{\mathrm{max}}{\sigma \left が正しいです) ({{\varvec{z}}}_{j}\right)}^{(k)}\)、ここで \(\sigma \) はソフトマックス関数です。 この信頼スコアは最大ソフトマックス確率から導出されるため、「最大ソフトマックス スコア」と呼びます。

ただし、最大ソフトマックス確率を信頼スコアとして使用する場合の課題の 1 つは、多くの場合、そのスケーリングが不十分であることです。 理想的には、予測の推定精度は実際に期待される精度とほぼ一致しますが、実際にはソフトマックス関数は「過信」される傾向があります56。 つまり、\({\widehat{p}}_{j}^{\mathrm{SM}}\) は \({\mathbb{P}}({\widehat{y}}_{ j}={y}_{j})\)。 より適切に調整された信頼スコア (つまり、\({\widehat{p}}_{j}\) が \({\mathbb{P}}({\widehat{y}}) に近づく信頼スコアを生成するには_{j}={y}_{j})\) では、温度スケーリングと呼ばれるアプローチを使用します。温度スケーリングでは、学習されたパラメーター \(T\) が使用されます (\(T>1\) は信頼性の低下を示し、\( T<1\) の信頼度の増加) を使用してクラス確率を再スケーリングし、信頼度スコアが予測の真の精度にさらに厳密に一致するようにします57。フレーム \(j\) の温度スケーリングに基づく信頼度を \({\widehat{p }}_{j}^{\mathrm{TS}}=\underset{k}{\mathrm{max}}{\sigma ({{\varvec{z}}}_{j}/T)}^{ (k)}\), \(T\) は、検証セットの負の対数尤度を最小化するために選択されます。フレームごとの信頼スコアを生成するプロセスを確立したので、クリップごとの信頼度を生成できます。信頼度に基づくレビューで使用されるスコア。前述したように、\({\text{clip}}_{i}\) の場合、これは単純に \(\mathrm{conf}\left({\text{clip} }_{i}\right)=\frac{1}{\left|{\text{clip}}_{i}\right|}\sum_{j\in {\text{clip}}_{i} }{\widehat{p}}_{j}\)、ここで \({\widehat{p}}_{j}\) はソフトマックス関数 (\({\widehat{p}}_{ j}={\widehat{p}}_{j}^{\mathrm{SM}}\)) または温度スケーリング (\({\widehat{p}}_{j}={\widehat{p}} _{j}^{\mathrm{TS}}\))。

特定のクリップの信頼度スコアを生成したので、それを 2 つの方法で使用します。 まず、信頼性に基づくレビューの目的の 1 つは、ラベルなしデータ \({\mathcal{D}}^{\mathrm{unlabeled}}\) の精度を推定することであることを思い出してください。 たとえば、ユーザーが、特定の行動分析アプリケーション (つまり、\(\mathrm{acc}({\mathcal{D}}^{\mathrm{unlabeled}})\) では 80% の精度が許容できると判断した場合、 ge 0.8\))、許容範囲内で信頼できる信頼スコアが与えられ、\(\mathrm{conf}\left({\mathcal{D}}^{\mathrm{unlabeled}}\right)\ge 0.8\ となるラベルのないデータが与えられます。 ) は、手動でレビューすることなく、特定の分析にエクスポートして使用するのに十分です。 \(\mathrm{conf}\left({\mathcal{D}}^{\mathrm{unlabeled}}\right)\) の推定値を取得する前に、まず、次のアノテーションの真の (未知の) 精度を考慮します。 \({\mathcal{D}}^{\mathrm{unlabeled}}\) は \({\mathcal{D}}^{\mathrm{unlabeled}}\) 内のクリップの精度の加重合計です。ここで、重みは各クリップのフレーム数によって決まります。 形式的には、 \({\mathcal{D}}^{\mathrm{unlabeled}}\) の精度を次のように表すことができます。

ここで \(\frac{\left|{\text{clip}}_{i}\right|}{\sum_{j\in {\mathcal{D}}^{\mathrm{unlabeled}}}\left| {\mathrm{clip}}_{j}\right|}\) は、\(\mathrm{acc}\left({\text{clip}}_{i}\right)\) の精度を数値で重み付けします。クリップの総数に対する \({\text{clip}}_{i}\) (つまり、\(\left|{\text{clip}}_{i}\right|\)) 内のフレーム数(つまり、\(\sum_{j\in {\mathcal{D}}^{\mathrm{ラベルなし}}}\left|{\mathrm{clip}}_{j}\right|\))。 次に、未知の \(\mathrm{acc}({\text{クリップ}}_{i})\):

このように、\(\mathrm{conf}\left({\mathcal{D}}^{\mathrm{unlabeled}}\right)\) は、ラベルなしデータに対する分類器のおおよその精度を表します。 信頼度スコアが適切に機能する場合、 \(\mathrm{conf}\left({\mathcal{D}}^{\mathrm{unlabeled}}\right)\) は \(\mathrm{acc}\left とほぼ一致します) ({\mathcal{D}}^{\mathrm{ラベルなし}}\right)\)。

次に、信頼度に基づくレビューについて考えます。 ワークフローのこのコンポーネントでは、ユーザーは \({\mathcal{D}}^{\mathrm{unlabeled}}\) の分類器によって自動的に生成されたラベルを確認して修正できます。 素朴なアプローチは、\({\mathcal{D}}^{\mathrm{unlabeled}}\) に含まれるすべてのビデオ クリップを確認することです。 これにより、確かに分類器によって生成されたすべてのラベルが正しいことが保証されますが、\({\mathcal{D}}^{\mathrm{unlabeled}}\) が大きい場合は、非常に時間がかかる可能性があります。 そこで代わりに、信頼スコアを活用して、レビューが最も生産的である比較的低い信頼スコア (つまり、比較的低い予測精度) のクリップのサブセットのみにユーザーが注釈を付けることができるようにし、比較的高い信頼スコアを持つクリップは省略します。

ユーザーがクリップの一部のみをレビューする場合、その部分は最も精度が低く、修正が最も重要である必要があります。 これを形式的に表現するには、\({\mathcal{D}}^{\mathrm{unlabeled}}\)、\(({\mathrm{clip}}_{ 1}, {\mathrm{clip}}_{2}, \dots , {\mathrm{clip}}_{n})\)、精度の昇順で並べ替えられます (つまり、\(\mathrm{acc}\) left({\mathrm{clip}}_{i}\right)\le \mathrm{acc}\left({\mathrm{clip}}_{j}\right)\)、\(i

信頼スコアと精度の関係を調べるために、最初に個々のクリップの予測精度 (信頼コアから導出) と実際の精度の関係を検討します。 特定のクリップの予測誤差 (PE) は、その予測精度と実際の精度の間の符号付きの差として定義されます。 \({\mathrm{clip}}_{i}\) の場合、PE は \(\mathrm{PE}({\mathrm{clip}}_{i})=\mathrm{conf}\left( {\mathrm{clip}}_{i}\right)-\mathrm{acc}({\mathrm{clip}}_{i})\)。 正の値は自信過剰なスコアを示し、負の値は自信が低いスコアを示します。 絶対誤差 (AE) は予測誤差の大きさであり、\(\mathrm{AE}\left({\mathrm{clip}}_{i}\right)=\left|\mathrm{PE} として定義されます。 ({\mathrm{clip}}_{i})\right|\)。 AE は常に正であり、\(\mathrm{AE}\left({\mathrm{clip}}_{i}\right)\) が大きいほど、\(\mathrm{conf}\left 間の絶対偏差が大きいことを示します) ({\mathrm{clip}}_{i}\right)\) と \(\mathrm{acc}({\mathrm{clip}}_{i})\)。

PE と AE は単一のクリップに対して定義されますが、\({\mathcal{D}}^{\mathrm{unlabeled}}\) のすべてのクリップにわたる平均絶対誤差と平均予測誤差も考慮します。 ここで、 \({\mathrm{clip}}_{1}, {\mathrm{clip}}_{2},\dots ,{\mathrm{clip}}_{n}\) の集合を表すものとします。 \(n\) 個のクリップ。 平均絶対誤差 (MAE) は \(\mathrm{MAE}=\frac{1}{n}\sum_{i=1}^{n}\mathrm{AE}({\mathrm{clip}} _{私})\)。 MAE は、セット内でランダムに選択されたクリップの予測精度と実際の精度の差の平均の大きさを表します。 したがって、たとえば \(\mathrm{MAE}=0.1\) の場合、ランダムに選択されたクリップの信頼スコアは、予想どおり、精度スコアと約 10 パーセント異なります。 一方、平均符号差 (MSD) は \(\mathrm{MSD}=\frac{1}{n}\sum_{i=1}^{n}\mathrm{PE}({\mathrm{クリップ}}_{i})\)。 MSD は、クリップ全体の予想精度の合計と実際の精度の合計との間の符号付きの差を表します。 したがって、たとえば \(\mathrm{MSD}=-0.05\) の場合、セット \({\mathrm{clip}}_{1}, {\mathrm{clip}} のアノテーションの推定精度の合計は_{2},\dots ,{\mathrm{clip}}_{n}\) は、実際の精度より 5% 低くなります。

信頼性に基づくレビューのパフォーマンスの指標を開発するために、まずユーザーが手動でラベル付けされていない \(n\) 個のクリップに対して予測ラベルを生成し、そのうち \(k\) 個を選択するケースを検討します。 \(k\le n\) の場合は確認してください。 残りの \(nk\) クリップはレビューされず、分類子によって生成された未修正のラベルを付けてエクスポートされます。 次に、ユーザーが選択した \(k\) クリップごとにクリップを確認し、分類子によって生成された誤ったラベルを修正します。 この形式では、特定のクリップをレビューした後、誤った分類子によって生成されたラベルは修正されているため、そのクリップの精度 (クリップのラベルと手動のアノテーションによって生成されたラベルの間の一致として定義されます) は \(1\) になります。

次に、\(n\) 個のクリップのシーケンス \(\mathcal{D}={(\mathrm{clip}}_{1}, {\mathrm{clip}}_{) が提供されたと仮定します。 2}、\dots 、{\mathrm{clip}}_{n})\)、そこからシーケンス内の最初の \(k\) クリップを選択して確認します。 \({\mathrm{clip}}_{i}^{\mathrm{unrev}}\) をレビュー前のクリップ \(i\) として表し、\({\mathrm{clip}}_{ i}^{\mathrm{rev}}\) をレビュー後のクリップ \(i\) として表現すると、レビュー後の最初の \(k\) クリップのシーケンスを \({\mathcal{ D}}_{k}^{\mathrm{rev}}=({\mathrm{clip}}_{1}^{\mathrm{rev}}, {\mathrm{clip}}_{2}^{ \mathrm{rev}}、\dots 、{\mathrm{clip}}_{k}^{\mathrm{rev}})\)。 次に、残りの \(nk\) クリップをシーケンス \({\mathcal{D}}_{k}^{\mathrm{unrev}}=({\mathrm{clip}}_{k+1}) として表現します。 ^{\mathrm{unrev}}、{\mathrm{clip}}_{k+2}^{\mathrm{unrev}}、\dots 、{\mathrm{clip}}_{n}^{\mathrm{ unrev}})\)。 次に、クリップのシーケンスの全体的な精度 \(\mathrm{acc}(\mathcal{D})\) は、レビューされたビデオの精度の単純な加重平均であると考えます \({\mathcal{D} }_{k}^{\mathrm{rev}}\)、および未レビューのもの \({\mathcal{D}}_{k}^{\mathrm{unrev}}\)、ここで重みは各クリップのフレーム数の関数。 正式には、

ここで、 \(\left|\mathcal{D}\right|\) は、セット \(\mathcal{D}\) 内のクリップ内のビデオ フレームの総数です (つまり、 \(\left|\mathcal{D} \right|={\sum }_{i\in \mathcal{D}}\left|{\mathrm{clip}}_{i}\right|\))。 次に、最初の \(k\) クリップをレビューして修正した後、レビューされた各クリップの精度が \(1\) になったと考えます。 つまり、すべての \({\mathrm{clip}} に対して \(\mathrm{acc}\left({\mathrm{clip}}_{i}^{\mathrm{rev}}\right)=1\) となります。 _{i}^{\mathrm{rev}}\in {\mathcal{D}}_{k}^{\mathrm{rev}}\)。 したがって、最初の \(k\) クリップを確認した後のシーケンス \(\mathcal{D}\) の合計精度は次のようになります。

最初の \(k\) クリップをレビューした後にデータセット \(\mathcal{D}\) の精度を計算するこの方法は、信頼性に基づくレビューのパフォーマンスを分析するのに役立ちます。 その理由を確認するために、まず \(\mathrm{acc}\left({\mathcal{D}}_{k}\right)\) の下限を検討します。 最悪の場合、信頼スコアは \(\mathcal{D}\) のクリップの相対精度に関する情報をまったく伝えません。 \(\mathrm{acc}\left({\mathrm{clip}}_{i}\right)\) と \(\mathrm{conf}\left({\mathrm{clip}}_{ i}\right)\)、信頼スコアに基づく並べ替えは、クリップをランダムに選択することと実質的に同じです。 このようにして、信頼スコアを使用して最初の \(k\) クリップにラベルを付けた後の精度と、最初の \(\mathrm{k}\) クリップをレビューした場合に得られる精度を比較できます。 信頼度指標 \(\mathrm{conf}\) を使用してこの精度の向上を「ランダムに対する向上」として表し、 \({\mathrm{IOR}}_{k}^{\mathrm{conf}} と形式化します) =\mathrm{acc}\left({\mathcal{D}}_{k}^{\mathrm{conf}}\right)-\mathrm{acc}\left({\mathcal{D}}_{k }^{\mathrm{rand}}\right)\)、ここで \({\mathcal{D}}_{k}^{\mathrm{conf}}\) と \({\mathcal{D}}_ {k}^{\mathrm{rand}}\) は、それぞれ信頼スコアによって並べ替えられたデータセットとランダムに並べ替えられたデータセット \(\mathcal{D}\) を示します。

次に、\(k\) 個のクリップをレビューした後に \(\mathcal{D}\) が得られる最大精度を考慮して、\({\mathrm{IOR}}_{k}\) に上限を設定します。 最良の場合、最初にレビューされる \(k\) クリップは精度が最も低い \(k\) クリップになります。 ここでは、精度がわかっている \({\mathcal{D}}^{\mathrm{test}}\) で評価しているため、これを計算できます。 \({\mathcal{D}}^{\mathrm{acc}}\) を真の精度で昇順にソートしたクリップのシーケンスを表す場合、\(\mathcal{D}\) の最大精度は次のようになります。 \(k\) 個のクリップを確認すると、\(\mathrm{acc}\left({\mathcal{D}}_{k}^{\mathrm{acc}}\right)\) になります。 次に、上記の分析と同様に、ランダム レビューに対する最適レビュー (つまり、真の精度に基づくレビュー) の改善を \({\mathrm{IOR}}_{k}^{\mathrm{opt}}=) として計算します。 \mathrm{acc}\left({\mathcal{D}}_{k}^{\mathrm{acc}}\right)-\mathrm{acc}\left({\mathcal{D}}_{k} ^{\mathrm{rand}}\right).\) 意味的には、\({\mathrm{IOR}}_{k}^{\mathrm{opt}}\) は、テスト セットの精度がどの程度高いかを表します。 \(k\) 個のクリップを最適な順序でレビューした後は、クリップをランダムにレビューした場合よりも優れています。

その後、信頼性に基づくレビューのための一連の全体的な尺度を導き出すことができます。 \({\mathrm{IOR}}_{k}\) はレビューされるクリップの単一数 \(k\) に対して定義されていますが、\({\mathrm{IOR}}_ を表すメジャーを生成することを検討します。 {k}\) の範囲の \(k\) の値。 そのために、\(0\) から合計数 \(n\) まで、レビューされたクリップの数全体でランダムに対する平均改善率を次のように計算します。

\({\overline{\mathrm{IOR}} }_{n}^{\mathrm{method}}\) は、ランダムな手法 \(\mathrm{method}\) の \(n\) に対する平均改善率を表します。クリップ。 \({\overline{\mathrm{IOR}} }_{n}^{\mathrm{conf}}\) と \({\overline{\mathrm{IOR}} }_{n}^{\) を計算した後mathrm{opt}}\) (つまり、信頼度に基づいた最適な並べ替えの場合は \({\overline{IOR} }_{n}\)) の平均改善を表すことにより、レビュー効率の最終的な尺度を生成できます。ランダムに対する信頼度スコア \(\mathrm{conf}\) と、ランダムに対する最大の改善率との相対値 (最適なレビュー):

この指標は、指標 \(\mathrm{conf}\) を使用したレビューがどの程度最適であるかを表します。 \(\mathrm{conf}\) に基づく並べ替え順序が精度による並べ替え順序と完全に一致する場合、 \({\mathrm{review}\_\mathrm{efficiency}}_{n}^{\mathrm{conf}} =1\)。 並べ替え順序がランダムと同等の場合は、\({\mathrm{review}\_\mathrm{efficiency}}_{n}^{\mathrm{conf}}=0\) となります。

ツールボックスは MATLAB バージョン 2020b に実装します。 注釈および信頼度に基づくレビュー用の GUI は、MATLAB アプリケーションとしてツールボックスに含まれています。 フィギュアはPrism9とOmniGraffleを使用して制作しています。 ツールボックス全体とサンプル スクリプト、ドキュメント、追加の実装詳細は、https://github.com/carlwharris/DeepAction のパブリック GitHub リポジトリ経由でホストされています。 ホームケージ データセット用に生成された中間データ (空間的および時間的フレームと特徴、注釈など) を、GitHub リポジトリにリンクされているサンプル プロジェクトとして提供します。 CRIM13 プロジェクトの結果を生成するために生成されたデータは、リクエストに応じて入手できますが、ファイル サイズが大きいため、サンプル プロジェクトとしては提供されていません。 結果を再現するために必要な完全なデータ (つまり、両方のプロジェクトの各テスト分割の結果) も、リクエストに応じて入手できます。 探索的データセットのデータは独自のものです。

この文書には補足情報が用意されています。 連絡や資料のリクエストは責任著者に宛ててください。

Crabbe, JC、Wahlsten, D. & Dudek, BC マウスの行動の遺伝学: 実験室環境との相互作用。 サイエンス 284、1670–1672 (1999)。

論文 ADS CAS PubMed Google Scholar

Wahlsten, D. et al. さまざまな研究室からのさまざまなデータ: 遺伝子と環境の相互作用の研究からの教訓。 J. Neurobiol. 54、283–311 (2003)。

論文 PubMed Google Scholar

Würbel, H. 行動表現型解析は (環境) 標準化を超えて強化されました。 遺伝子の脳の行動。 1、3–8 (2002)。

論文 PubMed Google Scholar

ヴァン・ダム、EA 他ラットのさまざまな特定の行動を認識するための自動システム。 J. Neurosci. 方法 218、214 ~ 224 (2013)。

論文 PubMed Google Scholar

Drai, D.、Kafkafi, N.、Benjamini, Y.、Elmer, G. & Golani, I. ラットとマウスは、探索行動の動物行動学的に関連する共通のパラメーターを共有しています。 振る舞い。 脳解像度 125、133–140 (2001)。

論文 CAS PubMed Google Scholar

Burgos-Artizzu, XP、Dollár, P.、Lin, D.、Anderson, DJ、Perona, P. 2012 年のコンピューター ビジョンとパターン認識に関する IEEE カンファレンス。 1322 ~ 1329 (IEEE)。

Jhuang、H.ら。 自動化されたホームケージ行動表現型解析。 ナット。 共通。 1、1–10 (2010)。

記事 ADS Google Scholar

Kabra, M.、Robie, AA、Rivera-Alba, M.、Branson, S. & Branson, K. JAABA: 動物行動の自動アノテーションのための対話型機械学習。 ナット。 方法 10、64–67 (2013)。

論文 CAS PubMed Google Scholar

画像解析と処理に関する国際会議における Lorbach, M.、Poppe, R.、Dam, EAV、Noldus, LP、Veltkamp, RC。 565–574 (スプリンガー)。

Lorbach、M. et al. ラットの社会的行動を認識する方法の学習: 新しいデータセットとデータセット間のアプリケーション。 J. Neurosci. メソッド 300、166–172 (2018)。

論文 PubMed Google Scholar

Bohnslav, JP et al. DeepEthogram は、生のピクセルから教師付き行動を分類するための機械学習パイプラインです。 Elife 10、e63377 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

コンピュータービジョンに関するアジア会議に Zhu, Y.、Lan, Z.、Newsam, S.、Hauptmann, A. が参加。 363–378 (スプリンガー)。

Piergiovanni, A. & Ryuo, M. 機械学習に関する国際会議にて。 5152 ~ 5161 (PMLR)。

Feichtenhofer, C.、Pinz, A.、Zisserman, A.、コンピューター ビジョンとパターン認識に関する IEEE 会議議事録。 1933 ~ 1941 年。

Ma, C.-Y.、Chen, M.-H.、Kira, Z. & AlRegib, G. TS-LSTM と時間的開始: 活動認識のための時空間ダイナミクスの利用。 信号プロセス。 画像コミュ。 71、76–87 (2019)。

記事 Google Scholar

ワン、L.ら。 時間セグメント ネットワーク: 深いアクション認識の優れた実践に向けて。 コンピュータビジョンに関するヨーロッパの会議で。 20–36(スプリンガー)。

クラミダ、G.ら。 手順で。 ヴィス。 観察してください。 アナル。 脊椎動物の昆虫の行動。 ワークショップ(VAIB)。 1~3。

Simonyan, K. & Zisserman, A. ビデオ内のアクション認識のための 2 ストリーム畳み込みネットワーク。 上級神経情報プロセス。 システム。 27 (2014)。

Zach, C.、Pock, T.、Bischof, H. による共同パターン認識シンポジウム。 214–223 (スプリンガー)。

Aeroglu, Y.、Yildirim, K.、Çinar, A. & Yildirim, M. ディープハイブリッドモデルを使用した小児の排尿時膀胱尿道造影画像における膀胱尿管逆流の診断と等級付け。 計算します。 メソッド プログラム Biomed。 210、106369 (2021)。

論文 PubMed Google Scholar

Moreno-Torres, JG、Raeder, T.、Alaiz-Rodríguez, R.、ネバダ州 Chawla、Herrera, F. 分類におけるデータセットの変化に関する統一見解。 パターン認識。 45、521–530 (2012)。

記事 ADS Google Scholar

Quinonero-Candela, J.、Sugyama, M.、Schwaighofer, A.、Lawrence, ND 機械学習におけるデータセットの変化。 (ミットプレス、2008)。

Le, VA & Murari, K. げっ歯類の行動認識のためのリカレント 3D 畳み込みネットワーク。 ICASSP 2019–2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、1174–1178 (2019)。

Jiang、Z.ら。 隠れマルコフ モデルを使用したコンテキスト認識型マウス動作認識。 IEEEトランス。 画像処理。 28、1133–1148 (2018)。

記事 ADS MathSciNet PubMed Google Scholar

Eyjolfsdottir、E. et al. 軌跡の特徴から動物の社会的行動を学習します。 エジンバラ大学(スコットランド)情報学部が主催。 https://homepages.inf.ed.ac.uk/rbf/VAIB12PAPERS/eyjolfsdottir.pdf (2012)。

Zhang, S. et al. 過完全独立成分分析に基づく行動認識。 情報科学。 281、635–647 (2014)。

記事 Google Scholar

Meng, Q.、Zhu, H.、Zhang, W.、Piao, X.、Zhang, A. フォームとモーション モダリティを使用したアクション認識。 ACMトランス。 マルチメッド。 計算します。 共通。 応用 (TOMM) 16、1–16 (2020)。

記事 Google Scholar

Chen、W. 人間と動物の行動の理解。 大学院論文、学位論文、および問題報告書、ウェストバージニア大学 (2014)。 https://doi.org/10.33915/etd.192

Farnebäck, G. 画像解析に関するスカンジナビアのカンファレンスにて。 363–370 (スプリンガー)。

Gianluigi, C. & Raimondo, S. ビデオ要約におけるキーフレーム抽出のための革新的なアルゴリズム。 J. リアルタイム画像処理 1、69–88 (2006)。

記事 Google Scholar

Wu, J.、Zhong, S.-H.、Jiang, J. & Yang, Y. 静的ビデオ要約のための新しいクラスタリング手法。 マルチメッド。 ツールアプリケーション 76、9625–9641 (2017)。

記事 Google Scholar

バティ、Eら。 BehaveNet: 行動ビデオの非線形埋め込みとベイジアン ニューラル デコード。 上級神経情報プロセス。 システム。 (2019年)。

Papernot, N. & McDaniel, P. ディープ k 最近傍: 自信があり、解釈可能で堅牢な深層学習に向けて。 arXiv プレプリント arXiv:1803.04765 (2018)。

Gal, Y. と Ghahramani, Z. が機械学習に関する国際会議に参加。 1050–1059 (PMLR)。

クライアン JF & ホームズ A. マウスの上昇: 人間のうつ病と不安のモデル化の進歩。 ナット。 Rev.DrugDiscov. 4、775–790 (2005)。

論文 CAS PubMed Google Scholar

Dollar, P. (ソフトウェア リファレンス): 「Piotr's Computer Vision Matlab Toolbox (PMT)」、Piotr Dollar 著、2016 年。https://github.com/pdollar/toolbox (2014) で入手可能。

ペレス=ゴンサレス、A.、ハラミロ=デュケ、Á. & Cano-Quintero、JB 深層学習 U-net モデルを使用した太陽光発電所の自動境界抽出。 応用科学。 11、6524 (2021)。

記事 Google Scholar

Cun, S. デュアル TVL1 オプティカル フロー。 (ソフトウェア リファレンス):「Dual TV-L1 Optical Flow」、Xiaodong Cun、2017 年。https://github.com/vinthony/Dual_TVL1_Optical_Flow (2017) から入手可能です。

デン、J.ら。 2009 年のコンピューター ビジョンとパターン認識に関する IEEE カンファレンス。 248–255 (IEEE)。

英国の Hussain, M.、Bird, JJ、Faria, DR 計算知能に関するワークショップ。 191–202 (スプリンガー)。

Duda、RO、Hart、PE&Stork、DG パターン分類第 2 版。 米国ニューヨーク州:ジョン・ワイリー&サンズ、35歳(2001年)。

Murphy、KP 機械学習: 確率論的な観点。 (MIT プレス、2012)。

Le, Q.、Karpenko, A.、Ngiam, J. & Ng, A. 効率的な過完全特徴学習のための再構築コストを備えた ICA。 上級神経情報プロセス。 システム。 (2011年)。

Nocedal, J. & Wright, SJ 数値最適化 (Springer、1999)。

MATH を予約する Google Scholar

Merity, S.、Keskar, NS、Socher, R. LSTM 言語モデルの正規化と最適化。 arXiv プレプリント arXiv:1708.02182 (2017)。

Dwarampudi, M. & Reddy, N. LSTM と CNN に対するパディングの影響。 arXiv プレプリント arXiv:1903.07288 (2019)。

Graves, A.、リカレント ニューラル ネットワークによる教師ありシーケンス ラベリング 5-13 (Springer、2012)。

グレイブス、A.、モハメッド、A.-r. & Hinton, G. 音響、音声、信号処理に関する 2013 年の IEEE 国際会議で。 6645 ~ 6649 (IEEE)。

Hochreiter, S. & Schmidhuber, J. 長期短期記憶。 ニューラルコンピューティング。 9、1735–1780 (1997)。

論文 CAS PubMed Google Scholar

小川、A. & 堀、T. ディープ双方向リカレント ニューラル ネットワークを使用した自動音声認識におけるエラー検出と精度推定。 スピーチコミュ。 89、70–83 (2017)。

記事 Google Scholar

Beaufays, F.、Sak, H.、Senior, A.(インタースピーチ)。 338–342。

Srivastava, N.、Hinton, G.、Krizhevsky, A.、Sutskever, I. & Salakhutdinov, R. Dropout: ニューラル ネットワークの過学習を防ぐ簡単な方法。 J.マッハ。 学ぶ。 解像度 15、1929 ~ 1958 年 (2014)。

MathSciNet MATH Google Scholar

ビショップ、CM、ナスラバディ、ニューメキシコ州パターン認識と機械学習 Vol. 4 (Springer、2006)。

Google スカラー

Keskar、NS、Mudigere、D.、Nocedal、J.、Smelyanskiy、M.、Tang、PTP 深層学習のための大規模バッチ トレーニングについて: 一般化ギャップと鋭い最小値。 arXiv プレプリント arXiv:1609.04836 (2016)。

Yildirim, M. & Çinar, A. 畳み込みニューラル ネットワークを使用したビデオ上の人間の動きの分類のための新しいモデル: MA-Net。 計算します。 方法 バイオメック。 バイオメッド。 工学画像可視化 9、651–659 (2021)。

記事 Google Scholar

機械学習に関する国際会議における Guo, C.、Pleiss, G.、Sun, Y.、Weinberger, KQ。 1321–1330 (PMLR)。

カル、M.ら。 温度スケーリングを超えて: ディリクレ校正を使用して適切に校正されたマルチクラス確率を取得します。 上級神経情報プロセス。 システム。 (2019年)。

リファレンスをダウンロードする

米国科学財団賞 #1632738 (PUT)、ダートマス大学のニューコム計算科学研究所 (CH に Neukom Scholars 賞、KF に Neukom Post-doctoral Fellowship)、および David C. Hodgson Endowment for Undergraduate Research Award (チ)。 この資料に記載されている意見、調査結果、結論または推奨事項は著者のものであり、必ずしも米国科学財団の見解を反映しているわけではありません。

心理脳科学学部、ダートマス大学、ハノーバー、ニューハンプシャー州、03755、米国

カール・ハリス、ケリー・R・フィン、マリー=ルイーゼ・キーセラー、マーヴィン・R・メクラー、ピーター・U・ツェー

ニューコム研究所、ダートマス大学、ハノーバー、ニューハンプシャー州、03755、米国

ケリー・R・フィン

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

CH はプロジェクトを発案し、アプローチとソフトウェアを開発し、KFCH からの情報をもとに結果を分析し、PT と KFMK からの情報をもとに原稿を執筆し、MM は探索的データセットを調達しました。

Peter U. Tse への往復書簡

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

ハリス、C.、フィン、KR、キーセラー、ML。 他。 DeepAction: ビデオ内の動物の行動を自動分類するための MATLAB ツールボックス。 Sci Rep 13、2688 (2023)。 https://doi.org/10.1038/s41598-023-29574-0

引用をダウンロード

受信日: 2022 年 8 月 3 日

受理日: 2023 年 2 月 7 日

公開日: 2023 年 2 月 15 日

DOI: https://doi.org/10.1038/s41598-023-29574-0

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。