10 bonnes pratiques pour le stockage des données étiquetées
- 10 bonnes pratiques pour le stockage des données étiquetées
- 1. Définir le problème : s'agit-il d'un bon problème pour l'apprentissage automatique ?
- 2. Recueillir au moins 5 000 points de données pour chaque résultat.
- 3. Stocker les données au niveau de la phrase.
- 4. Classer et étiqueter les données dans des catégories bien définies.
- 5. Stocker toutes les données représentatives.
- 6. Stocker les données d'arrière-plan.
- 7. Stocker le texte brut des données étiquetées (pratique de la redondance).
- 8. Cartographiez vos données du début à la fin (valeurs d'index).
- 9. Sauvegardez vos données.
- 10. Construire et penser à l'avenir.
10 bonnes pratiques pour le stockage des données étiquetées
Vous venez d'avoir votre grande idée. Vous lisez beaucoup et vous avez pensé qu'il serait intéressant de disposer d'un classificateur permettant d'identifier le ton d'un orateur et de déterminer son appartenance politique. Comment commencer à décomposer le problème afin d'utiliser l'apprentissage automatique pour effectuer cette prédiction ? Nous avons utilisé cette Enquête Pew qui a utilisé les réponses des électeurs démocrates et républicains aux journaux auxquels ils faisaient confiance.
Avant même de songer à élaborer un modèle d'apprentissage automatique prêt pour la production, vous devez réfléchir à votre pipeline de données. Il s'agit de la base sur laquelle un modèle d'apprentissage automatique fonctionne et sans une base solide, vous ne pouvez pas vous attendre à ce que votre modèle fonctionne avec succès. Les experts de Skim AI ont rassemblé les 10 meilleures pratiques de stockage des données étiquetées qui vous permettront de réussir.1. Définir le problème : s'agit-il d'un bon problème pour l'apprentissage automatique ?
Pour qu'un modèle d'apprentissage automatique soit applicable à la résolution d'un problème, il doit être définissable pour un ordinateur :
- Cet ensemble de mots correspond-il à un modèle qui s'apparente davantage à une catégorie de texte ou à une autre ?
- Existe-t-il une base de données contenant suffisamment de données représentatives pour qu'une machine puisse en extraire des modèles ?
Dans l'exemple auquel nous faisons référence, il y a deux résultats : un discours qui penche vers la démocratie ou un discours qui penche vers la république. Le problème est manifestement plus complexe que cela, car les démocrates et les républicains se composent de nombreux groupes, mais aussi d'indépendants et d'une multitude de gradations. Mais pour cet exemple, nous allons nous contenter de ces deux variantes.
2. Recueillir au moins 5 000 points de données pour chaque résultat.
Collecter au moins 5 000 points de données dans votre base de données pour chaque catégorie d'informations que vous souhaitez classer. Dans notre exemple, nous stockons des points de données étiquetés provenant d'articles, de discours, de livres ou de transcriptions d'émissions. Comme nous voulons construire un classificateur binaire, nous avons besoin de 5 000 exemples d'écrits démocrates et de 5 000 exemples d'écrits républicains, soit un total de 10 000 échantillons. Bien que 5 000 points par résultat soit le minimum recommandé, la précision s'améliorera avec davantage de données, alors n'hésitez pas.
3. Stocker les données au niveau de la phrase.
Dans notre cas, l'objectif est de classer des articles entiers en tant que démocratiques ou républicains, mais vous voudrez protéger vos efforts à l'avenir en stockant chaque ressource au niveau de la phrase plutôt qu'au niveau de l'article entier. De cette façon, si vous souhaitez classer des entités plus spécifiques, telles que des paragraphes ou des analyses entourant certains mots-clés ou entités (personnes, lieux et organisations), vous pourrez utiliser vos données avec moins d'efforts de nettoyage à l'avenir.
En général, 50-65% du temps passé sur un projet de ML est consacré au nettoyage et à la transformation des données dans un format lisible par les algorithmes de ML. La plupart des classificateurs travaillent à la fois au niveau de la phrase et du document entier.
Conseils pratiques de mise en œuvre pour la classification au niveau de la phrase et du paragraphe :
- Pour commencer, limitez vos besoins de classification à une seule phrase, un seul paragraphe ou un seul document (article).
- Les besoins non standard (quelques mots ou quelques phrases) ajoutent un problème très difficile, à savoir la création d'un deuxième modèle ML pour prédire quel groupe est important.
- Simplifier autant que possible le problème de classification au départ, puis le complexifier au fur et à mesure que l'on dispose de plus de données.
4. Classer et étiqueter les données dans des catégories bien définies.
Il s'agit ici d'une question de méthodologie. Il est important d'obtenir autant de signaux purs que possible. Cela signifie qu'il faut éliminer le bruit et les ressources et informations nuancées. Par exemple, si vous stockez des données étiquetées provenant de sources centristes, elles contiendront moins de signaux clairs et si vous ajoutez des données (articles) provenant d'une source centriste à l'ensemble de données républicaines ou démocratiques, la précision et l'utilité du classificateur de discours républicain/démocrate s'en trouveront diminuées.
Dans notre exemple, c'est particulièrement difficile, car les convictions politiques des gens sont beaucoup plus complexes qu'une simple ligne de parti. En outre, divers écrivains, orateurs et journaux auront des opinions différentes de la ligne officielle du parti. Dans cet exemple, il est probable qu'il y ait beaucoup de bruit à supprimer, par exemple :
- Les articles varient selon qu'ils penchent pour le conservatisme ou pour le libéralisme sur certaines questions.
- Certains journalistes auront des opinions divergentes sur une question donnée, même parmi d'autres journalistes de la même publication.
- Les actionnaires ou les propriétaires peuvent prêcher un dogme sur un sujet particulier qui leur tient à cœur et demander à l'équipe éditoriale de couvrir les sujets d'une certaine manière.
On pourrait passer des heures à définir une méthodologie pour tenir compte de toutes les variables possibles. Nous recommandons de collecter et de stocker autant de données que possible. Recherchez des données propres au niveau de la phrase et créez des champs pour suivre l'auteur, la publication et tout autre champ pouvant être capturé.
5. Stocker toutes les données représentatives.
Pouvez-vous avoir accès à suffisamment de données ? Dans notre cas, il est relativement facile d'accéder aux anciens articles de ces publications afin de rassembler un ensemble d'articles et suffisamment de points de données pour chaque catégorie de classification.
Si ce n'est pas le cas, vous pouvez envisager d'utiliser Amazon Mechanical Turk pour étiqueter des données ou, si votre méthodologie nécessite une formation, vous pouvez former et payer des personnes en Inde ou en Macédoine $1 000 par mois pour construire un ensemble de données.
6. Stocker les données d'arrière-plan.
Le stockage de données étiquetées qui sont tangentiellement liées à ce que vous voulez classifier vous permettra de construire des modèles plus robustes qui incluront probablement plus de vocabulaire, de personnes, de lieux et de sujets qui aideront tout modèle que vous construisez. Il peut être utile d'exposer le modèle de classification à un nouveau vocabulaire, à de nouveaux sujets et à de nouvelles entités, et de comprendre les relations inhérentes entre les mots. Le modèle sera ainsi mieux à même de traiter des données autres que les données initiales.
Vous souhaitez peut-être obtenir des livres écrits par des membres du Congrès, des tweets, des transcriptions d'interviews, des transcriptions d'émissions d'information par câble, des transcriptions de dialogues au sein du Congrès, des projets de loi et des lois rédigés ou parrainés par certains membres du Congrès.
L'intérêt de l'apprentissage automatique est qu'il n'est pas nécessaire de tester toutes les variables soi-même. Il suffit d'obtenir suffisamment de données pour que l'apprentissage automatique fonctionne et de bien définir le problème.
7. Stocker le texte brut des données étiquetées (pratique de la redondance).
Par mesure de sécurité, stockez toujours le texte brut de vos données étiquetées. Par exemple, si une phrase d'un article est représentative des données que vous souhaitez étiqueter, veillez à stocker le texte brut de cette phrase et l'étiquette. Même si vous ne stockez ces données qu'à titre de redondance, prenez cette mesure. Votre ingénieur en apprentissage automatique ou votre scientifique des données vous remerciera.
8. Cartographiez vos données du début à la fin (valeurs d'index).
Si vous utilisez des valeurs d'index pour référencer des données étiquetées, mettez ces données en correspondance et comprenez bien cette correspondance. Par exemple, si vous stockez une phrase ou un paragraphe d'un article, assurez-vous que les valeurs de la base de données relatives au début de cette phrase ou de ce paragraphe correspondent à la valeur de la source à partir de laquelle vous stockez les données. Par sécurité, testez la première phrase, les valeurs de début et de fin, ainsi que la dernière phrase.
9. Sauvegardez vos données.
Cela devrait aller de soi. Sauvegardez régulièrement vos données.
10. Construire et penser à l'avenir.
Dans certains cas, il faut des années pour rassembler suffisamment de données étiquetées. Si vous savez que vous voulez résoudre un problème dans un domaine spécifique, commencez à collecter autant de données étiquetées et non étiquetées que possible en rapport avec le problème que vous voulez résoudre et des données spécifiques au domaine.
Prêt à commencer ? Consultez notre autres articles sur l'apprentissage automatique.