新しい研究は、化石画像データセット (>415,000 画像) と深層畳み込みニューラル ネットワークに基づく自動分類学的識別を提案します

ニュース

ホームページホームページ / ニュース / 新しい研究は、化石画像データセット (>415,000 画像) と深層畳み込みニューラル ネットワークに基づく自動分類学的識別を提案します

Nov 21, 2023

新しい研究は、化石画像データセット (>415,000 画像) と深層畳み込みニューラル ネットワークに基づく自動分類学的識別を提案します

La paleontologia è un campo interessante che ci aiuta a comprendere la storia della vita

古生物学は、古代の生命体とその進化を研究することで、地球上の生命の歴史を理解するのに役立つ興味深い分野です。 しかし、古生物学研究における大きな課題の 1 つは、労力と時間がかかる分類学的同定プロセスであり、これには特定の分類群に関する広範な知識と経験が必要です。 さらに、多くの場合、識別結果は研究者やコミュニティ全体でより一貫したものでなければなりません。

深層学習技術は、化石の分類学的識別をサポートするための有望なソリューションとして浮上しています。 これに関連して、中国の研究チームは最近、分類学的識別精度を向上させるためのディープラーニングの可能性を探る論文を発表しました。

この論文の主な貢献は、Web クローラーと手動キュレーションを使用した大規模で包括的な化石画像データセット (FID) の作成と検証です。 このデータセットには、無脊椎動物、脊椎動物、植物、微化石、痕跡化石など、50 の異なるクレードの化石からの 415,339 枚の画像が含まれています。 畳み込みニューラル ネットワーク (CNN) を使用して化石画像を分類し、高い分類精度を達成しました。これは、化石の自動識別と分類に対する FID の可能性を実証しました。 また、著者らは、将来の使用および開発のために FID を一般に公開しました。

この研究では、化石画像データベース (FID) 内の化石を識別および分類するために、ImageNet でトレーニングされたモデルを使用した転移学習の使用を実験的に調査します。 著者らは、ネットワーク層の半分を特徴抽出器としてフリーズし、残りの層をトレーニングすると最高のパフォーマンスが得られることを発見しました。 データの拡張とドロップアウトは過学習を防ぐ効果的な方法であり、頻繁な学習率の減衰と大きなトレーニング バッチ サイズがより高速な収束と高精度に貢献しました。 この研究では、不均衡なデータがアルゴリズムに及ぼす影響も調査し、不均衡な学習のためのサンプリング手法を採用しました。 データセットの品質は正確な識別にとって重要であり、微化石は高品質の画像が利用できるため良好なパフォーマンスを示しましたが、保存状態が悪くサンプルが少ない特定の化石のパフォーマンスは悪かったです。 著者らはまた、識別特徴を抽出する際の DCNN アーキテクチャの難しさにより、特定のクレードのクラス内の形態学的多様性が大きく、識別精度を妨げることも発見しました。

Inception-ResNet-v2 アーキテクチャは、転移学習を使用した場合、テスト データセットで平均精度 0.90 を達成しました。 微化石と脊椎動物の化石の識別精度は、それぞれ 0.95 と 0.90 でした。 ただし、カイメン、コケムシ、痕跡化石などのクレードは、さまざまな形態を持っていたり、データセット内のサンプルがほとんどなかったりするため、識別精度は 0.80 未満でした。

結論として、深層学習技術、特に転移学習は、化石の分類学的識別の精度と効率の向上において有望な結果を示しています。 化石画像データベース (FID) などの大規模かつ包括的な化石画像データセットの作成と検証は、高い識別精度を達成するために重要です。 公共の利用と開発が可能であることは、古生物学の分野の進歩に有益です。 ただし、深層学習モデルの精度はデータセットの品質と多様性に依存し、特定のクレードではクラス内の形態学的多様性や保存状態の悪さにより課題が生じています。 これらの課題を克服し、古生物学研究の精度と効率を向上させるには、深層学習技術と大規模な化石画像データセットのさらなる研究開発が必要です。

さらに、古生物学における深層学習技術は、分類学的同定を超えて分野を変革する可能性があります。 これらの技術を使用すると、化石のセグメント化と再構成、化石データと他の種類のデータの統合、大規模な化石データセットのパターンや異常の検出など、化石データからより多くの情報を抽出できます。 これにより、地球上の生命の歴史についての理解が広がり、刺激的な発見と進歩への道が開かれます。

をチェックしてください紙。この研究の功績はすべて、このプロジェクトの研究者に与えられます。 また、忘れずに参加してください18,000 以上の ML SubRedditDiscordチャンネル、 そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。

🚀 AI Tools Club で 100 年代の AI ツールをチェックしてください

Mahmoud は機械学習の博士号研究者です。 また、物理科学の学士号と、通信およびネットワーキング システムの修士号も取得しています。 彼の現在の研究分野は、コンピュータ ビジョン、株式市場予測、ディープラーニングに関するものです。 彼は、個人の再識別とディープネットワークの堅牢性と安定性の研究に関するいくつかの科学記事を作成しました。

紙。 18,000 以上の ML SubReddit Discord チャンネルの電子メール ニュースレター 🚀 AI Tools Club で 100 の AI ツールをチェックしてください