10 Best Practices für die Speicherung beschrifteter Daten

10 Best Practices für die Speicherung beschrifteter Daten

    Sie hatten gerade Ihre große Idee. Sie lesen viel und dachten, es wäre interessant, einen Klassifikator zu haben, der den Tonfall eines Sprechers kennzeichnet und seine politische Zugehörigkeit bestimmt. Wie würden Sie das Problem aufschlüsseln, damit Sie maschinelles Lernen für diese Vorhersage nutzen können? Wir haben dies verwendet Pew-Umfrage  die die Antworten der demokratischen und republikanischen Wähler auf die Zeitungen, denen sie vertrauen, verwendet hat.

Bevor Sie überhaupt an die Erstellung eines produktionsreifen maschinellen Lernmodells denken können, müssen Sie sich Gedanken über Ihre Datenpipeline machen. Dies ist die Grundlage, auf der ein ML-Modell läuft, und ohne eine solide Grundlage können Sie nicht erwarten, dass Ihr Modell erfolgreich arbeitet. Die Experten von Skim AI haben die 10 besten Praktiken für die Speicherung gelabelter Daten zusammengestellt, die Ihnen zum Erfolg verhelfen werden.

1. Definieren Sie das Problem: Ist es ein gutes Problem für maschinelles Lernen?

Damit ein Modell des maschinellen Lernens für die Lösung eines Problems geeignet ist, muss es für einen Computer definierbar sein: 

  • Passt diese Wortgruppe in ein Muster, das eher der einen oder anderen Textkategorie entspricht?
  • Gibt es eine Datenbank mit genügend repräsentativen Daten, aus denen eine Maschine Muster extrahieren kann?

In dem Beispiel, auf das wir uns beziehen, gibt es zwei Ergebnisse: eine Rede, die den Demokraten zugeneigt ist, oder eine Rede, die den Republikanern zugeneigt ist. Das Problem ist natürlich viel komplexer, da es viele Gruppen gibt, die die Demokraten und Republikaner ausmachen, und es gibt auch Unabhängige und viele Abstufungen. Aber für dieses Beispiel werden wir uns auf diese beiden Varianten beschränken.

2. Sammeln Sie mindestens 5.000 Datenpunkte für jedes Ergebnis.

Sammeln Sie mindestens 5.000 Datenpunkte in Ihrer Datenbank für jede Kategorie von Informationen, die Sie klassifizieren möchten. In unserem Beispiel speichern wir beschriftete Datenpunkte aus Artikeln, Reden, Büchern oder Showtranskripten. Da wir einen binären Klassifikator erstellen wollen, benötigen wir 5.000 Beispiele für demokratische und 5.000 Beispiele für republikanische Schriftproben, also insgesamt 10.000 Beispiele. 5.000 Punkte pro Ergebnis sind zwar das empfohlene Minimum, aber die Genauigkeit wird sich mit mehr Daten verbessern, also halten Sie sich nicht zurück.

3. Daten auf der Satzebene speichern.

In unserem Fall besteht das Ziel darin, ganze Artikel entweder als demokratisch oder als republikanisch zu klassifizieren, aber Sie wollen Ihre Bemühungen für die Zukunft absichern, indem Sie jede Ressource auf Satzebene statt auf der Ebene des gesamten Artikels speichern. Auf diese Weise können Sie, wenn Sie spezifischere Einheiten wie Absätze oder Analysen zu bestimmten Schlüsselwörtern oder Entitäten (Personen, Orte und Organisationen) klassifizieren möchten, Ihre Daten in Zukunft mit weniger Bereinigungsaufwand verwenden. 

 

Im Allgemeinen entfallen 50-65% der Zeit, die für ein ML-Projekt aufgewendet wird, auf die Bereinigung und Umwandlung von Daten in ein Format, das von ML-Algorithmen gelesen werden kann. Die meisten Klassifikatoren arbeiten sowohl auf Satz- als auch auf Dokumentenebene.

Praktische Umsetzungstipps für die Klassifizierung auf Satz- und Absatzebene:

  • Beschränken Sie sich bei der Klassifizierung zunächst auf einen einzigen Satz, einen einzigen Absatz oder ein einziges Dokument (Artikel).
  • Bei nicht standardisierten Anforderungen (einige Wörter oder einige Sätze) ist es sehr schwierig, ein zweites ML-Modell zu erstellen, um vorherzusagen, welches Cluster wichtig ist.
  • Vereinfachen Sie das Klassifizierungsproblem zu Beginn so weit wie möglich und bauen Sie die Komplexität im Laufe der Zeit aus, wenn mehr Daten zur Verfügung stehen.

4. Klassifizierung und Kennzeichnung von Daten in genau definierten Kategorien.

Hier geht es ein wenig um die Methodik. Es ist wichtig, so viele reine Signale wie möglich zu erhalten. Das bedeutet, dass das Rauschen und die nuancierten Ressourcen und Informationen entfernt werden müssen. Wenn Sie beispielsweise markierte Daten aus zentristischen Quellen speichern, enthalten diese weniger eindeutige Signale, und wenn Sie dem republikanischen oder demokratischen Datensatz Daten (Artikel) aus einer zentristischen Quelle hinzufügen, würde dies die Genauigkeit und Nützlichkeit des Klassifizierers für republikanische/demokratische Sprache verringern.

 

In unserem Beispiel ist dies besonders schwierig, da die Menschen in ihren politischen Überzeugungen viel komplizierter sind als eine einfache Parteilinie. Außerdem werden verschiedene Autoren, Redner und Zeitungen eine andere Meinung vertreten als die offizielle Parteilinie. In diesem Beispiel wird es wahrscheinlich eine Menge Lärm geben, der unterdrückt werden muss:

  • Die Zeitungen unterscheiden sich darin, inwieweit sie in bestimmten Fragen konservativ oder liberal eingestellt sind.
  • Bestimmte Journalisten haben unterschiedliche Ansichten zu einem bestimmten Thema, selbst unter anderen Journalisten derselben Publikation.
  • Aktionäre oder Eigentümer können ein Dogma über ein bestimmtes Thema predigen, das ihnen wichtig ist, und die Redaktion anweisen, auf eine bestimmte Weise zu berichten.

Man könnte Stunden damit verbringen, eine Methodik zu entwickeln, die alle möglichen Variablen berücksichtigt. Wir empfehlen, so viele Daten wie möglich zu sammeln und zu speichern. Suchen Sie nach sauberen Daten auf Satzebene und erstellen Sie Felder, um Autor, Veröffentlichung und alle anderen Felder, die erfasst werden können, zu verfolgen.

5. Speichern Sie alle repräsentativen Daten.

Können Sie Zugang zu genügend Daten erhalten? In unserem Fall ist es relativ einfach, Zugang zu alten Artikeln aus diesen Veröffentlichungen zu erhalten, um einen Datensatz von Artikeln und genügend Datenpunkte für jede Klassifizierungskategorie zu sammeln.

 

Wenn dies nicht der Fall ist, können Sie Amazon Mechanical Turk für die Beschriftung von Daten nutzen. Wenn Ihre Methodik eine Schulung erfordert, können Sie Menschen in Indien oder Mazedonien schulen und ihnen $1.000 pro Monat für den Aufbau eines Datensatzes zahlen.

6. Speichern Sie Hintergrunddaten.

Die Speicherung von beschrifteten Daten, die mit dem, was Sie klassifizieren möchten, tangential verwandt sind, ermöglicht es Ihnen, robustere Modelle zu erstellen, die wahrscheinlich mehr Vokabular, Personen, Orte und Themen enthalten, die jedem Modell, das Sie erstellen, helfen werden. Es kann helfen, das Klassifizierungsmodell mit neuem Vokabular, Themen und Entitäten vertraut zu machen und die inhärenten Beziehungen zwischen den Wörtern zu verstehen. Dadurch wird das Modell besser in der Lage sein, Daten zu verarbeiten, die über die ursprünglichen Daten hinausgehen, mit denen Sie begonnen haben.

 

Vielleicht möchten Sie Bücher von Kongressmitgliedern und -abgeordneten, Tweets, Interviewprotokolle, Protokolle von Kabelnachrichten, Protokolle von Dialogen im Kongress, Gesetzesentwürfe und Gesetze, die von bestimmten Kongressmitgliedern verfasst oder unterstützt wurden, erhalten.

 

Der Vorteil des maschinellen Lernens besteht darin, dass Sie nicht alle Variablen selbst testen müssen, sondern nur genügend Daten für ML sammeln und Ihr Problem gut definieren müssen.

7. Speichern Sie den Rohtext der beschrifteten Daten (üben Sie Redundanz).

Um sicherzugehen, sollten Sie immer den Rohtext Ihrer beschrifteten Daten speichern. Wenn Sie z. B. einen Satz in einem Artikel haben, der repräsentativ für die Daten ist, die Sie beschriften wollen, speichern Sie den Rohtext dieses Satzes und die Beschriftung. Selbst wenn Sie diese Daten nur als Redundanz speichern, sollten Sie diese Maßnahme ergreifen. Ihr Ingenieur für maschinelles Lernen oder Datenwissenschaftler wird es Ihnen danken.

8. Bilden Sie Ihre Daten von Anfang bis Ende ab (Indexwerte).

Wenn Sie Indexwerte verwenden, um auf beschriftete Daten zu verweisen, müssen Sie diese Daten zuordnen und die Zuordnung gut verstehen. Wenn Sie z. B. einen Satz oder Absatz aus einem Artikel speichern, stellen Sie sicher, dass die Datenbankwerte für den Anfang dieses Satzes oder Absatzes mit dem Wert aus der Quelle übereinstimmen, aus der Sie die Daten speichern. Um sicherzugehen, sollten Sie den ersten Satz, die Anfangs- und Endwerte sowie den letzten Satz als Test verwenden.

9. Sichern Sie Ihre Daten.

Dies sollte selbsterklärend sein. Sichern Sie Ihre Daten regelmäßig.

10. Bauen und denken Sie für die Zukunft.

In manchen Fällen dauert es Jahre, bis man genügend beschriftete Daten gesammelt hat. Wenn Sie wissen, dass Sie ein Problem in einem bestimmten Bereich lösen wollen, beginnen Sie damit, so viele unbeschriftete und beschriftete Daten zu sammeln, die mit dem Problem, das Sie lösen wollen, und den bereichsspezifischen Daten zusammenhängen.

 

Sind Sie bereit, loszulegen? Besuchen Sie unser andere Artikel über maschinelles Lernen.

Let’s Discuss Your Idea

    Related Posts

    Ready To Supercharge Your Business

    LET’S
    TALK
    de_DEDeutsch