10 Fragen, die Sie sich stellen sollten, bevor Sie ein Machine Learning-Projekt starten
- 10 Fragen, die Sie sich stellen sollten, bevor Sie ein Machine Learning-Projekt starten
- 10 Fragen, die Sie sich stellen sollten, bevor Sie ein Machine Learning-Projekt starten
- 1) Was ist das Kernproblem und der Schwerpunkt des Projekts?
- 2) Anhand welcher Kennzahlen soll der Erfolg des Projekts gemessen werden, und ab welchem Schwellenwert/welchen Schwellenwerten?
- 3) Mit wie vielen Daten können wir beginnen?
- 4) Wie viele Daten können vor Beginn des Projekts beschriftet werden und wie viele können Sie pro Monat generieren?
- 5) Wie viel Subjektivität steckt in der Beschriftung durch die menschlichen Annotatoren?
- 6) Welche Metadaten werden für jedes Dokument verfügbar sein?
- 7) Ist es möglich, Zugang zu Listen von Einrichtungen zu erhalten, denen wir begegnen werden?
- 8) Gibt es irgendetwas, was wir tun können, um den Prozess der Datenerfassung/Beschriftung zu beschleunigen?
- 9) Gibt es irgendwelche vorhandenen unbeschrifteten Daten aus demselben Bereich oder irgendwelche vorhandenen beschrifteten Daten, die mit der Aufgabe der Pilotvorhersage nicht/kaum verwandt sind?
- 10) Gibt es eine bekannte Datenbank für den domänenspezifischen Text, die ein ähnliches Vokabular (und ähnliche Entitäten) enthält?
- 10 Fragen, die Sie sich stellen sollten, bevor Sie ein Machine Learning-Projekt starten
10 Fragen, die Sie sich stellen sollten, bevor Sie ein Machine Learning-Projekt starten
Über 80% der Data-Science-Projekte schaffen es nicht, über die Tests hinaus in die Produktion zu gehen. Wenn jeder ein Projekt zum maschinellen Lernen startet, was läuft dann schief? Zweifellos steigern ML-Lösungen die Effizienz derjenigen, die große Datenmengen sammeln oder analysieren müssen. Aber oft hält uns der bedrohliche Gedanke, wie ein solches Projekt zu implementieren ist, davon ab.
Wie geht man also an eine solche Aufgabe heran? Auf die gleiche Weise, wie man einen Elefanten essen würde - Bissen für Bissen. Durch meine Erfahrung als Leiter meines Teams beim Aufbau einer Standard-KI-Plattform (Skim AI Chrome-Symbolleiste) und benutzerdefinierten Lösungen habe ich die 10 Fragen identifiziert, die Sie sich stellen sollten, bevor Sie ein maschinelles Lernprojekt starten. Mit der Beantwortung dieser 10 Fragen erhalten Sie eine klare Grundlage für die Herangehensweise an das Projekt.
10 Fragen, die Sie sich stellen sollten, bevor Sie ein Machine Learning-Projekt starten
1) Was ist das Kernproblem und der Schwerpunkt des Projekts?
Es gibt mehrere gültige Antworten auf diese Frage, also lassen Sie uns diese aufschlüsseln. Bestimmen Sie zunächst das allgemeine Ziel: Müssen Sie Informationen extrahieren oder klassifizieren?
Legen Sie dann fest, auf welcher Detailebene dies geschehen soll. Soll das Modell beispielsweise eine Analyse auf Satzebene oder auf der Ebene des gesamten Dokuments durchführen. Oder benötigen Sie etwas Spezielles, wie z. B. eine Untergruppe von Sätzen in einem Absatz, die sich möglicherweise nicht ideal mit hoher Genauigkeit implementieren lässt?
2) Anhand welcher Kennzahlen soll der Erfolg des Projekts gemessen werden, und ab welchem Schwellenwert/welchen Schwellenwerten?
Bestimmen Sie die gewünschten quantitativen Ergebnisse. Vielleicht möchten Sie die Menge der Daten, die mit automatischer Datenextraktion klassifiziert werden, erhöhen. In diesem Fall müssen Sie angeben, um wie viel. Vielleicht möchten Sie auch die Datenmenge erhöhen, die Sie gemeinsam als Unternehmen kennzeichnen oder eine Vorhersage mit einem bestimmten Genauigkeitsgrad treffen können. Was auch immer das Ziel ist, machen Sie es klar und legen Sie messbare Kennzahlen fest.
3) Mit wie vielen Daten können wir beginnen?
Idealerweise sollten Sie mit zwei- bis fünftausend Datenpunkten beginnen, um jede Klassifizierungskategorie. Es ist von Vorteil, weitere fünfzig- bis hunderttausend unmarkierte Rohtexte, Artikel oder Ähnliches als Schicht in Ihrem Modell zu verwenden. Wenn Sie einen Sentiment-Klassifikator oder einen anderen Klassifikator für die Erwähnung eines Produkts in Nachrichtendaten erstellen möchten, wäre es immer noch gut, einige hunderttausend Nachrichten zu haben, in denen Produkte und die Branche, für die Sie das Modell erstellen, erwähnt werden, selbst wenn diese Artikel nicht gekennzeichnet sind.
4) Wie viele Daten können vor Beginn des Projekts beschriftet werden und wie viele können Sie pro Monat generieren?
Wie in Frage 3 erwähnt, sind mindestens 5.000 Datenpunkte pro Kategorie erforderlich, um ein Modell zu entwickeln, das Ergebnisse liefert, die der menschlichen Genauigkeit nahe kommen. Um einen realistischen Zeitplan zu erstellen, sollten Sie überlegen, wie lange es dauern würde, diesen ersten Satz manuell zu beschriften.
5) Wie viel Subjektivität steckt in der Beschriftung durch die menschlichen Annotatoren?
Zur Methodik:
Manchmal muss man sein System vereinfachen, um ein nützliches Modell für maschinelles Lernen zu entwickeln. Der Grund dafür ist oft, dass Sie einfach nicht genug Daten haben, um ein Modell mit menschlicher Genauigkeit zu erstellen, das zwischen Kategorien unterscheiden kann.
Ist Ihre Methodik für einen Menschen leicht zu verstehen? Sind Ihre Klassifizierungskategorien klar abgegrenzt und gibt es Unterschiede im Vokabular zwischen den Kategorien, oder ist die Unterscheidung aufgrund von Subjektivität und der Unfähigkeit, Regeln mit Sicherheit zu definieren, schwierig.
Wenn ein Mensch nicht in der Lage ist, innerhalb von ein oder zwei Sekunden eine Entscheidung zu treffen, wird eine Maschine ein Problem haben. Einige Teams schaffen Abhilfe, indem sie eine "gemischte" Klassifizierungskategorie erstellen und die Kategorie zur Überprüfung durch einen Analysten kennzeichnen, so wie ein Tesla den Fahrer auffordert, das Lenkrad zu übernehmen, wenn er nicht weiß, was er in einer verwirrenden Situation tun soll.
6) Welche Metadaten werden für jedes Dokument verfügbar sein?
Es ist hilfreich, die Informationen zu bestimmen, die Sie von jedem Dokument in Ihrer Datenbank sammeln können. Dazu gehören z. B. Autor, Datum, Uhrzeit, Zeitungsabschnitt, Ort, Quelle, Kategorie oder beteiligte Stellen (neben vielen anderen Dingen).
7) Ist es möglich, Zugang zu Listen von Einrichtungen zu erhalten, denen wir begegnen werden?
Bei den meisten Datenextraktionsprojekten sollen die Entitäten (Personen, Orte und Dinge) in einem Textstück einfach extrahiert werden. Viele Unternehmen möchten diese Daten einem bestimmten Kunden zuordnen oder einem Endbenutzer (wahrscheinlich einem Kunden) Analysen auf Entitätsebene anzeigen. Wenn Sie eine Entität im Text mit einer in Ihrer Datenbank abgleichen müssen, ist es hilfreich, die gewünschten Übereinstimmungen schriftlich festzuhalten.
Wenn Sie bereits Entitäten im Text beschriftet haben, wird die Erstellung eines Modells zur Extraktion von Entitäten aus neuem Text außerdem mit hoher Genauigkeit funktionieren. Dies ist insbesondere dann der Fall, wenn das Ziel darin besteht, alle Variationen einer einzigen, einheitlichen Entität zu kennzeichnen (z. B. die Zuordnung von "Facebook", "WhatsApp" und "Instagram" zu ihrem gemeinsamen Aktiensymbol "FB"). Die Erstellung einer Masterliste von Entitäten ist auch dann hilfreich, wenn Sie eine Entität, die in einem Text erwähnt wird, auf verschiedene Weise finden und dann in einer kundenorientierten Oberfläche wie einem BI-Dashboard anzeigen müssen.
8) Gibt es irgendetwas, was wir tun können, um den Prozess der Datenerfassung/Beschriftung zu beschleunigen?
Daten sind ein Wettbewerbsvorteil, der es Ihnen ermöglicht, Modelle zu erstellen. Sie sollten in Erwägung ziehen, diese Fähigkeit intern oder in einer ausgelagerten Kapazität aufzubauen, um Ihre zukünftigen Projekte zu ermöglichen.
Wenn Sie kein eigenes Team haben, können Sie Ihre Datenerfassung an Unternehmen in Indien oder Osteuropa auslagern. Sie haben sehr wettbewerbsfähige Tarife, die zwischen 500 und 1000 pro Monat für einen Datenerfasser liegen sollten, je nachdem, wie ausgefeilt Ihr Etikettierungssystem ist.
9) Gibt es irgendwelche vorhandenen unbeschrifteten Daten aus demselben Bereich oder irgendwelche vorhandenen beschrifteten Daten, die mit der Aufgabe der Pilotvorhersage nicht/kaum verwandt sind?
Gibt es z. B. noch viele Daten, die in der Datenbank gespeichert sind, für dieses spezielle Problem oder für andere domänenspezifische Dokumente, für die wir in Zukunft Modelle erstellen werden, zu beschriften?
Wenn ja, können Sie verschiedene Sprachmodelle erstellen oder anpassen, um die Leistung der meisten Lösungen zu steigern. Denn auch unetikettierte Daten sind für Modelle des maschinellen Lernens hilfreich, um aus den Beziehungen, die bereits im unetikettierten Text bestehen, eine Bedeutung zu extrahieren.
10) Gibt es eine bekannte Datenbank für den domänenspezifischen Text, die ein ähnliches Vokabular (und ähnliche Entitäten) enthält?
Aus demselben Grund wie oben erwähnt sind domänenspezifische Daten für ML/NLP sehr nützlich. Oft hat jemand oder ein Datenanbieter das, was Sie für den Anfang brauchen, manchmal sogar kostenlos. Viele Forschungsprojekte sind bereit, ihre Datensätze zur Verfügung zu stellen, oft für nichtkommerzielle Zwecke. Schreiben Sie ihnen einfach eine E-Mail. Erkundigen Sie sich, wie hoch die Kosten für den Zugang sind und ob es APIs gibt.
Google, Facebook, Regierungen, Anbieter von Marktdaten, Forschungsprojekte und andere können Ihnen dabei helfen, Ihren ersten Datensatz mit Daten zu füllen, die sie der Gemeinschaft zur Verfügung stellen. Oftmals können Sie mit einem so großen Datensatz mehr aus Ihren Modellen herausholen, selbst wenn Sie selbst über weniger gekennzeichnete Daten verfügen.