ラベル付きデータを保存するための10のベストプラクティス

ラベル付きデータを保存するための10のベストプラクティス

    あなたは大きなアイデアを思いついた。あなたはよく本を読みますが、話し手の口調をラベル付けし、その政治的所属を決定する分類器があったら面白いと思いました。機械学習を使ってこの予測を行うために、あなたはどのように問題を分解し始めるでしょうか?私たちはこれを使った ピュー調査  これは、民主・共和両党の有権者が信頼する新聞への反応を利用したものである。

本番環境での機械学習モデルの構築を考える前に、データパイプラインについて考える必要があります。これは、MLモデルを実行するための基盤であり、強力な基盤がなければ、モデルの成功は期待できません。Skim AIの専門家は、ラベル付きデータを保存するための10のベストプラクティスをまとめました。

1.問題の定義:機械学習に適した問題か?

機械学習モデルが問題解決に適用されるためには、コンピュータにとって定義可能でなければならない: 

  • これらの単語は、文章のあるカテゴリーに近いパターンに当てはまるか、それとも別のカテゴリーに近いパターンに当てはまるか。
  • 機械がパターンを抽出するのに十分な代表的データを持つデータベースはあるのだろうか?

この例では、民主党寄りの言論と共和党寄りの言論の2つの結果がある。民主党と共和党を構成するグループは多数あり、無党派層や多くのグラデーションもあるので、問題はこれよりも明らかに複雑である。しかし、この例では、この2つのバリエーションに単純化する。

2.各結果について、少なくとも5,000のデータポイントを収集する。

少なくとも 5,000データポイント を、分類したい情報のカテゴリーごとにデータベースに保存します。この例では、記事、スピーチ、書籍、またはショーの記録からラベル付けされたデータポイントを格納します。バイナリ分類器を構築したいので、5,000例の民主党のライティングサンプルと5,000例の共和党のライティングサンプル、合計10,000サンプルが必要です。各結果につき5,000ポイントが推奨される最低値ですが、精度はデータが多いほど向上しますので、我慢しないでください。

3.文レベルでデータを保存する。

私たちの場合、ゴールは記事全体を民主主義か反共和主義のどちらかに分類することですが、各リソースを記事全体レベルではなく文レベルで保存することで、将来的な取り組みに備えたいと思うでしょう。そうすることで、特定のキーワードやエンティティ(人、場所、組織)を取り巻く段落や分析など、より具体的なエンティティを分類したい場合、将来的に少ないクリーニング作業でデータを使用できるようになります。 

 

一般的に、MLプロジェクトに費やされる時間の50-65%は、MLアルゴリズムが読み取り可能なフォーマットへのデータのクリーニングと変換に費やされる。ほとんどの分類器は文レベルと文書レベルの両方で動作する。

文と段落レベルの分類のための実践的な実装のヒント:

  • 分類の必要性は、1つの文章、1つの段落、または1つの文書(記事)から始めるようにしましょう。
  • 非標準的なニーズ(数単語、数センテンス)は、どのクラスタが重要かを予測するために2つ目のMLモデルを作成するという非常に難しい問題を追加する。
  • 最初は分類問題をできるだけ単純化し、より多くのデータが利用できるようになるにつれて、時間をかけて複雑さを増していく。

4.データを明確に定義されたカテゴリーに分類し、ラベルを付ける。

これは方法論について少し。できるだけ多くの純粋なシグナルを得ることが重要だ。つまり、ノイズやニュアンスの異なるリソースや情報を取り除くということだ。例えば、中道派のソースからラベル付けされたデータを保存している場合、明確なシグナルは少なくなり、中道派のソースからのデータ(記事)を共和党か民主党のデータセットのいずれかに追加した場合、共和党/民主党のスピーチ分類器の精度と有用性が低下することになる。

 

私たちの例では、人々の政治的信条は単純な党是よりもはるかに複雑であるため、これは特に難しい。さらに、さまざまな作家、講演者、新聞社が公式の党是とは異なる意見を持つことになる。この例では、例えば抑えなければならないノイズがたくさんありそうだ:

  • 新聞各紙は、特定の問題に関して保守寄りかリベラル寄りかで異なる。
  • 同じ出版社の記者同士であっても、特定の問題については特定の記者によって見解が異なる。
  • 株主やオーナーは、自分たちにとって重要な特定の問題について教義を説き、編集チームに特定の方法で問題を取り上げるよう指示することがある。

考えられるすべての変数を考慮するための方法論を定義するのに何時間も費やすこともできるだろう。できるだけ多くのデータを収集し、保存することをお勧めする。文レベルできれいなデータを探し、著者、出版、その他捕捉可能なフィールドを追跡するフィールドを作成する。

5. すべての代表データを保存する。

十分なデータにアクセスできるか?我々の場合、これらの出版物の古い記事にアクセスし、記事のデータセットと各分類カテゴリーに十分なデータポイントを集めることは比較的容易である。

 

もしそうでなければ、Amazon Mechanical Turkを利用してデータにラベルを付けるか、もしあなたの方法論にトレーニングが必要であれば、インドやマケドニアの人々にトレーニングをしてもらい、月$1,000ドルを支払ってデータセットを構築してもらうこともできる。

6. バックグラウンドデータを保存する。

分類したいものに関連するラベル付きデータを保存することで、よりロバストなモデルを構築することができ、そのモデルにはより多くの語彙、人、場所、トピックが含まれる可能性が高い。新しい語彙、トピック、エンティティに分類モデルをさらすことで、単語間の固有の関係を理解することができます。そうすることで、モデルは、最初に作成したデータ以外のデータも扱えるようになる。

 

下院議員や下院議員の著書、ツイート、インタビュー原稿、ケーブル・ニュース番組の原稿、下院での対話の原稿、特定の議員が書いた、あるいはスポンサーとなった法案や法律などを入手したいのかもしれない。

 

機械学習のポイントは、すべての変数を自分でテストする必要はなく、MLが機能するのに十分なデータを取得し、問題をしっかり定義すればいいということだ。

7. ラベル付けされたデータの生テキストを保存する(冗長性の練習)。

安全のため、ラベル付けしたデータの原文を常に保存しておくこと。例えば、記事中にラベルを付けたいデータの代表的な文章がある場合、その文章の原文とラベルを必ず保存してください。たとえ冗長なデータとして保存するだけでも、このアクションを取ってください。機械学習エンジニアやデータサイエンティストはあなたに感謝するでしょう。

8.データを最初から最後までマッピングする(インデックス値)。

ラベル付けされたデータを参照するためにインデックス値を使用する場合は、そのデータをマッピングし、マッピングをよく理解してください。例えば、ある記事の文章や段落を保存する場合、その文章や段落の開始位置に関するデータベースの値が、データを保存するソースの値と一致することを確認してください。念のため、最初の文、始まりと終わりの値、最後の文からテストしてください。

9.データをバックアップする。

これは自明のことだろう。データを定期的にバックアップする。

10.将来のために考え、構築する。

状況によっては、十分なラベル付きデータを集めるのに何年もかかる。特定の分野の問題を解決したいとわかっているのであれば、解決したい問題に関連するラベルのないデータとラベルのあるデータ、ドメイン固有のデータをできるだけ多く集め始める。

 

準備はいいですか?私たちの 機械学習に関する他の作品.

アイデアについて話し合おう

    関連記事

    ビジネスを加速させる準備

    行こう
    トーク
    ja日本語