{"id":2560,"date":"2019-11-11T23:43:34","date_gmt":"2019-11-11T23:43:34","guid":{"rendered":"http:\/\/skimai.com\/?p=2560"},"modified":"2024-05-20T07:38:37","modified_gmt":"2024-05-20T12:38:37","slug":"10-bonnes-pratiques-pour-le-stockage-des-donnees-etiquetees","status":"publish","type":"post","link":"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/","title":{"rendered":"10 bonnes pratiques pour le stockage des donn\u00e9es \u00e9tiquet\u00e9es"},"content":{"rendered":"<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_1 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Table des mati\u00e8res<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Toggle Table des mati\u00e8res\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#10_Best_Practices_for_Storing_Labeled_Data\" >10 bonnes pratiques pour le stockage des donn\u00e9es \u00e9tiquet\u00e9es<\/a><ul class='ez-toc-list-level-2' ><li class='ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#1_Define_the_Problem_Is_it_a_good_problem_for_machine_learning\" >1. D\u00e9finir le probl\u00e8me : s'agit-il d'un bon probl\u00e8me pour l'apprentissage automatique ?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#2_Gather_at_least_5000_datapoints_for_each_outcome\" >2. Recueillir au moins 5 000 points de donn\u00e9es pour chaque r\u00e9sultat.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#3_Store_data_at_the_sentence_level\" >3. Stocker les donn\u00e9es au niveau de la phrase.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#4_Classify_and_label_data_in_well_defined_categories\" >4. Classer et \u00e9tiqueter les donn\u00e9es dans des cat\u00e9gories bien d\u00e9finies.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#5_Store_all_representative_data\" >5. Stocker toutes les donn\u00e9es repr\u00e9sentatives.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#6_Store_background_data\" >6. Stocker les donn\u00e9es d'arri\u00e8re-plan.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#7_Store_the_raw_text_of_labeled_data_practice_redundancy\" >7. Stocker le texte brut des donn\u00e9es \u00e9tiquet\u00e9es (pratique de la redondance).<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#8_Map_your_data_from_start_to_finish_index_values\" >8. Cartographiez vos donn\u00e9es du d\u00e9but \u00e0 la fin (valeurs d'index).<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#9_Backup_your_data\" >9. Sauvegardez vos donn\u00e9es.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/skimai.com\/fr\/10-best-practices-for-storing-labeled-data\/#10_Build_and_think_for_the_future\" >10. Construire et penser \u00e0 l'avenir.<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h1><span class=\"ez-toc-section\" id=\"10_Best_Practices_for_Storing_Labeled_Data\"><\/span>10 bonnes pratiques pour le stockage des donn\u00e9es \u00e9tiquet\u00e9es<span class=\"ez-toc-section-end\"><\/span><\/h1>\n<pre><code>    Vous venez d'avoir votre grande id\u00e9e. Vous lisez beaucoup et vous avez pens\u00e9 qu'il serait int\u00e9ressant de disposer d'un classificateur permettant d'identifier le ton d'un orateur et de d\u00e9terminer son appartenance politique. Comment commencer \u00e0 d\u00e9composer le probl\u00e8me afin d'utiliser l'apprentissage automatique pour effectuer cette pr\u00e9diction ? Nous avons utilis\u00e9 cette <a href=\"https:\/\/www.journalism.org\/2014\/10\/21\/political-polarization-media-habits\/\">Enqu\u00eate Pew\u00a0<\/a>\u00a0qui a utilis\u00e9 les r\u00e9ponses des \u00e9lecteurs d\u00e9mocrates et r\u00e9publicains aux journaux auxquels ils faisaient confiance.<br \/><br \/>Avant m\u00eame de songer \u00e0 \u00e9laborer un mod\u00e8le d'apprentissage automatique pr\u00eat pour la production, vous devez r\u00e9fl\u00e9chir \u00e0 votre pipeline de donn\u00e9es. Il s'agit de la base sur laquelle un mod\u00e8le d'apprentissage automatique fonctionne et sans une base solide, vous ne pouvez pas vous attendre \u00e0 ce que votre mod\u00e8le fonctionne avec succ\u00e8s. Les experts de Skim AI ont rassembl\u00e9 les 10 meilleures pratiques de stockage des donn\u00e9es \u00e9tiquet\u00e9es qui vous permettront de r\u00e9ussir.<\/p><h2><span class=\"ez-toc-section\" id=\"1_Define_the_Problem_Is_it_a_good_problem_for_machine_learning\"><\/span><strong>1. D\u00e9finir le probl\u00e8me : s'agit-il d'un bon probl\u00e8me pour l'apprentissage automatique ?<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2><p>Pour qu'un mod\u00e8le d'apprentissage automatique soit applicable \u00e0 la r\u00e9solution d'un probl\u00e8me, il doit \u00eatre d\u00e9finissable pour un ordinateur :\u00a0<\/p><ul><li>Cet ensemble de mots correspond-il \u00e0 un mod\u00e8le qui s'apparente davantage \u00e0 une cat\u00e9gorie de texte ou \u00e0 une autre ?<\/li><li>Existe-t-il une base de donn\u00e9es contenant suffisamment de donn\u00e9es repr\u00e9sentatives pour qu'une machine puisse en extraire des mod\u00e8les ?<\/li><\/ul><p>Dans l'exemple auquel nous faisons r\u00e9f\u00e9rence, il y a deux r\u00e9sultats : un discours qui penche vers la d\u00e9mocratie ou un discours qui penche vers la r\u00e9publique. Le probl\u00e8me est manifestement plus complexe que cela, car les d\u00e9mocrates et les r\u00e9publicains se composent de nombreux groupes, mais aussi d'ind\u00e9pendants et d'une multitude de gradations. Mais pour cet exemple, nous allons nous contenter de ces deux variantes.<\/p><h2><span class=\"ez-toc-section\" id=\"2_Gather_at_least_5000_datapoints_for_each_outcome\"><\/span><strong>2. Recueillir au moins 5 000 points de donn\u00e9es pour chaque r\u00e9sultat.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2><p>Collecter au moins <a href=\"https:\/\/www.mckinsey.com\/featured-insights\/artificial-intelligence\/notes-from-the-ai-frontier-applications-and-value-of-deep-learning\">5 000 points de donn\u00e9es<\/a> dans votre base de donn\u00e9es pour chaque cat\u00e9gorie d'informations que vous souhaitez classer. Dans notre exemple, nous stockons des points de donn\u00e9es \u00e9tiquet\u00e9s provenant d'articles, de discours, de livres ou de transcriptions d'\u00e9missions. Comme nous voulons construire un classificateur binaire, nous avons besoin de 5 000 exemples d'\u00e9crits d\u00e9mocrates et de 5 000 exemples d'\u00e9crits r\u00e9publicains, soit un total de 10 000 \u00e9chantillons. Bien que 5 000 points par r\u00e9sultat soit le minimum recommand\u00e9, la pr\u00e9cision s'am\u00e9liorera avec davantage de donn\u00e9es, alors n'h\u00e9sitez pas.<\/p><h2><span class=\"ez-toc-section\" id=\"3_Store_data_at_the_sentence_level\"><\/span><strong>3. Stocker les donn\u00e9es au niveau de la phrase.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2><p>Dans notre cas, l'objectif est de classer des articles entiers en tant que d\u00e9mocratiques ou r\u00e9publicains, mais vous voudrez prot\u00e9ger vos efforts \u00e0 l'avenir en stockant chaque ressource au niveau de la phrase plut\u00f4t qu'au niveau de l'article entier. De cette fa\u00e7on, si vous souhaitez classer des entit\u00e9s plus sp\u00e9cifiques, telles que des paragraphes ou des analyses entourant certains mots-cl\u00e9s ou entit\u00e9s (personnes, lieux et organisations), vous pourrez utiliser vos donn\u00e9es avec moins d'efforts de nettoyage \u00e0 l'avenir.\u00a0<\/code><\/pre>\n<p>\u00a0<\/p>\n<p>En g\u00e9n\u00e9ral, 50-65% du temps pass\u00e9 sur un projet de ML est consacr\u00e9 au nettoyage et \u00e0 la transformation des donn\u00e9es dans un format lisible par les algorithmes de ML. La plupart des classificateurs travaillent \u00e0 la fois au niveau de la phrase et du document entier.<\/p>\n<p><strong>Conseils pratiques de mise en \u0153uvre pour la classification au niveau de la phrase et du paragraphe :<\/strong><\/p>\n<ul>\n<li>Pour commencer, limitez vos besoins de classification \u00e0 une seule phrase, un seul paragraphe ou un seul document (article).<\/li>\n<li>Les besoins non standard (quelques mots ou quelques phrases) ajoutent un probl\u00e8me tr\u00e8s difficile, \u00e0 savoir la cr\u00e9ation d'un deuxi\u00e8me mod\u00e8le ML pour pr\u00e9dire quel groupe est important.<\/li>\n<li>Simplifier autant que possible le probl\u00e8me de classification au d\u00e9part, puis le complexifier au fur et \u00e0 mesure que l'on dispose de plus de donn\u00e9es.<\/li>\n<\/ul>\n<h2><span class=\"ez-toc-section\" id=\"4_Classify_and_label_data_in_well_defined_categories\"><\/span><strong>4. Classer et \u00e9tiqueter les donn\u00e9es dans des cat\u00e9gories bien d\u00e9finies.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Il s'agit ici d'une question de m\u00e9thodologie. Il est important d'obtenir autant de signaux purs que possible. Cela signifie qu'il faut \u00e9liminer le bruit et les ressources et informations nuanc\u00e9es. Par exemple, si vous stockez des donn\u00e9es \u00e9tiquet\u00e9es provenant de sources centristes, elles contiendront moins de signaux clairs et si vous ajoutez des donn\u00e9es (articles) provenant d'une source centriste \u00e0 l'ensemble de donn\u00e9es r\u00e9publicaines ou d\u00e9mocratiques, la pr\u00e9cision et l'utilit\u00e9 du classificateur de discours r\u00e9publicain\/d\u00e9mocrate s'en trouveront diminu\u00e9es.<\/p>\n<p>\u00a0<\/p>\n<p>Dans notre exemple, c'est particuli\u00e8rement difficile, car les convictions politiques des gens sont beaucoup plus complexes qu'une simple ligne de parti. En outre, divers \u00e9crivains, orateurs et journaux auront des opinions diff\u00e9rentes de la ligne officielle du parti. Dans cet exemple, il est probable qu'il y ait beaucoup de bruit \u00e0 supprimer, par exemple : <\/p>\n<ul>\n<li>Les articles varient selon qu'ils penchent pour le conservatisme ou pour le lib\u00e9ralisme sur certaines questions.<\/li>\n<li>Certains journalistes auront des opinions divergentes sur une question donn\u00e9e, m\u00eame parmi d'autres journalistes de la m\u00eame publication.<\/li>\n<li>Les actionnaires ou les propri\u00e9taires peuvent pr\u00eacher un dogme sur un sujet particulier qui leur tient \u00e0 c\u0153ur et demander \u00e0 l'\u00e9quipe \u00e9ditoriale de couvrir les sujets d'une certaine mani\u00e8re.<\/li>\n<\/ul>\n<p>On pourrait passer des heures \u00e0 d\u00e9finir une m\u00e9thodologie pour tenir compte de toutes les variables possibles. Nous recommandons de collecter et de stocker autant de donn\u00e9es que possible. Recherchez des donn\u00e9es propres au niveau de la phrase et cr\u00e9ez des champs pour suivre l'auteur, la publication et tout autre champ pouvant \u00eatre captur\u00e9. <\/p>\n<h2><span class=\"ez-toc-section\" id=\"5_Store_all_representative_data\"><\/span><strong>5. <\/strong><b>Stocker toutes les donn\u00e9es repr\u00e9sentatives.<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Pouvez-vous avoir acc\u00e8s \u00e0 suffisamment de donn\u00e9es ? Dans notre cas, il est relativement facile d'acc\u00e9der aux anciens articles de ces publications afin de rassembler un ensemble d'articles et suffisamment de points de donn\u00e9es pour chaque cat\u00e9gorie de classification.<\/p>\n<p>\u00a0<\/p>\n<p>Si ce n'est pas le cas, vous pouvez envisager d'utiliser Amazon Mechanical Turk pour \u00e9tiqueter des donn\u00e9es ou, si votre m\u00e9thodologie n\u00e9cessite une formation, vous pouvez former et payer des personnes en Inde ou en Mac\u00e9doine $1 000 par mois pour construire un ensemble de donn\u00e9es.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"6_Store_background_data\"><\/span><strong>6. <\/strong><b>Stocker les donn\u00e9es d'arri\u00e8re-plan.<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Le stockage de donn\u00e9es \u00e9tiquet\u00e9es qui sont tangentiellement li\u00e9es \u00e0 ce que vous voulez classifier vous permettra de construire des mod\u00e8les plus robustes qui incluront probablement plus de vocabulaire, de personnes, de lieux et de sujets qui aideront tout mod\u00e8le que vous construisez. Il peut \u00eatre utile d'exposer le mod\u00e8le de classification \u00e0 un nouveau vocabulaire, \u00e0 de nouveaux sujets et \u00e0 de nouvelles entit\u00e9s, et de comprendre les relations inh\u00e9rentes entre les mots. Le mod\u00e8le sera ainsi mieux \u00e0 m\u00eame de traiter des donn\u00e9es autres que les donn\u00e9es initiales.<\/p>\n<p>\u00a0<\/p>\n<p>Vous souhaitez peut-\u00eatre obtenir des livres \u00e9crits par des membres du Congr\u00e8s, des tweets, des transcriptions d'interviews, des transcriptions d'\u00e9missions d'information par c\u00e2ble, des transcriptions de dialogues au sein du Congr\u00e8s, des projets de loi et des lois r\u00e9dig\u00e9s ou parrain\u00e9s par certains membres du Congr\u00e8s.<\/p>\n<p>\u00a0<\/p>\n<p>L'int\u00e9r\u00eat de l'apprentissage automatique est qu'il n'est pas n\u00e9cessaire de tester toutes les variables soi-m\u00eame. Il suffit d'obtenir suffisamment de donn\u00e9es pour que l'apprentissage automatique fonctionne et de bien d\u00e9finir le probl\u00e8me.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"7_Store_the_raw_text_of_labeled_data_practice_redundancy\"><\/span><strong>7. <\/strong><b>Stocker le texte brut des donn\u00e9es \u00e9tiquet\u00e9es (pratique de la redondance).<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Par mesure de s\u00e9curit\u00e9, stockez toujours le texte brut de vos donn\u00e9es \u00e9tiquet\u00e9es. Par exemple, si une phrase d'un article est repr\u00e9sentative des donn\u00e9es que vous souhaitez \u00e9tiqueter, veillez \u00e0 stocker le texte brut de cette phrase et l'\u00e9tiquette. M\u00eame si vous ne stockez ces donn\u00e9es qu'\u00e0 titre de redondance, prenez cette mesure. Votre ing\u00e9nieur en apprentissage automatique ou votre scientifique des donn\u00e9es vous remerciera.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"8_Map_your_data_from_start_to_finish_index_values\"><\/span><strong>8. Cartographiez vos donn\u00e9es du d\u00e9but \u00e0 la fin (valeurs d'index).<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Si vous utilisez des valeurs d'index pour r\u00e9f\u00e9rencer des donn\u00e9es \u00e9tiquet\u00e9es, mettez ces donn\u00e9es en correspondance et comprenez bien cette correspondance. Par exemple, si vous stockez une phrase ou un paragraphe d'un article, assurez-vous que les valeurs de la base de donn\u00e9es relatives au d\u00e9but de cette phrase ou de ce paragraphe correspondent \u00e0 la valeur de la source \u00e0 partir de laquelle vous stockez les donn\u00e9es. Par s\u00e9curit\u00e9, testez la premi\u00e8re phrase, les valeurs de d\u00e9but et de fin, ainsi que la derni\u00e8re phrase.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"9_Backup_your_data\"><\/span><strong>9. Sauvegardez vos donn\u00e9es.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Cela devrait aller de soi. Sauvegardez r\u00e9guli\u00e8rement vos donn\u00e9es.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"10_Build_and_think_for_the_future\"><\/span><strong>10. Construire et penser \u00e0 l'avenir.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Dans certains cas, il faut des ann\u00e9es pour rassembler suffisamment de donn\u00e9es \u00e9tiquet\u00e9es. Si vous savez que vous voulez r\u00e9soudre un probl\u00e8me dans un domaine sp\u00e9cifique, commencez \u00e0 collecter autant de donn\u00e9es \u00e9tiquet\u00e9es et non \u00e9tiquet\u00e9es que possible en rapport avec le probl\u00e8me que vous voulez r\u00e9soudre et des donn\u00e9es sp\u00e9cifiques au domaine.<\/p>\n<p>\u00a0<\/p>\n<p>Pr\u00eat \u00e0 commencer ? Consultez notre <a href=\"http:\/\/skimai.com\/fr\/blog\/\">autres articles sur l'apprentissage automatique<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>10 Best Practices for Storing Labeled Data You just had your big idea. You read a lot, and you thought it would be interesting to have a classifier that labels a speaker\u2019s tone and determines their political affiliation. How would you begin to break down the problem so that you can use machine learning to [&hellip;]<\/p>\n","protected":false},"author":1003,"featured_media":2564,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"single-custom-post-template.php","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","footnotes":""},"categories":[67,78],"tags":[94,85,92,79,84,93],"class_list":["post-2560","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ml-nlp","category-ai-project-management","tag-best-practices","tag-checklist","tag-data","tag-how-to","tag-machine-learning","tag-storage"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v24.1 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>10 Best Practices for Storing Labeled Data - Skim AI<\/title>\n<meta name=\"description\" content=\"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/skimai.com\/fr\/10-bonnes-pratiques-pour-le-stockage-des-donnees-etiquetees\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"10 Best Practices for Storing Labeled Data - Skim AI\" \/>\n<meta property=\"og:description\" content=\"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions\" \/>\n<meta property=\"og:url\" content=\"https:\/\/skimai.com\/fr\/10-bonnes-pratiques-pour-le-stockage-des-donnees-etiquetees\/\" \/>\n<meta property=\"og:site_name\" content=\"Skim AI\" \/>\n<meta property=\"article:published_time\" content=\"2019-11-11T23:43:34+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2024-05-20T12:38:37+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"4608\" \/>\n\t<meta property=\"og:image:height\" content=\"3456\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Greggory Elias\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"Greggory Elias\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"6 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\"},\"author\":{\"name\":\"Greggory Elias\",\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6\"},\"headline\":\"10 Best Practices for Storing Labeled Data\",\"datePublished\":\"2019-11-11T23:43:34+00:00\",\"dateModified\":\"2024-05-20T12:38:37+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\"},\"wordCount\":826,\"publisher\":{\"@id\":\"https:\/\/skimai.com\/uk\/#organization\"},\"image\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"keywords\":[\"best practices\",\"checklist\",\"data\",\"how to\",\"machine learning\",\"storage\"],\"articleSection\":[\"LLMs \/ NLP\",\"Project Management\"],\"inLanguage\":\"fr-FR\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\",\"url\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\",\"name\":\"10 Best Practices for Storing Labeled Data - Skim AI\",\"isPartOf\":{\"@id\":\"https:\/\/skimai.com\/uk\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"datePublished\":\"2019-11-11T23:43:34+00:00\",\"dateModified\":\"2024-05-20T12:38:37+00:00\",\"description\":\"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions\",\"breadcrumb\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\",\"url\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"contentUrl\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"width\":4608,\"height\":3456,\"caption\":\"administration articles bank black and white 261949\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/skimai.com\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"10 Best Practices for Storing Labeled Data\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/skimai.com\/uk\/#website\",\"url\":\"https:\/\/skimai.com\/uk\/\",\"name\":\"Skim AI\",\"description\":\"The AI Agent Workforce Platform\",\"publisher\":{\"@id\":\"https:\/\/skimai.com\/uk\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/skimai.com\/uk\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/skimai.com\/uk\/#organization\",\"name\":\"Skim AI\",\"url\":\"https:\/\/skimai.com\/uk\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/\",\"url\":\"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png\",\"contentUrl\":\"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png\",\"width\":194,\"height\":58,\"caption\":\"Skim AI\"},\"image\":{\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.linkedin.com\/company\/skim-ai\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6\",\"name\":\"Greggory Elias\",\"url\":\"https:\/\/skimai.com\/fr\/author\/gregg\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"10 bonnes pratiques pour le stockage des donn\u00e9es \u00e9tiquet\u00e9es - Skim AI","description":"Dix bonnes pratiques pour stocker des donn\u00e9es \u00e9tiquet\u00e9es afin de mener \u00e0 bien des projets d'apprentissage automatique. Liste de contr\u00f4le pour am\u00e9liorer le d\u00e9ploiement des solutions d'apprentissage automatique","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/skimai.com\/fr\/10-bonnes-pratiques-pour-le-stockage-des-donnees-etiquetees\/","og_locale":"fr_FR","og_type":"article","og_title":"10 Best Practices for Storing Labeled Data - Skim AI","og_description":"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions","og_url":"https:\/\/skimai.com\/fr\/10-bonnes-pratiques-pour-le-stockage-des-donnees-etiquetees\/","og_site_name":"Skim AI","article_published_time":"2019-11-11T23:43:34+00:00","article_modified_time":"2024-05-20T12:38:37+00:00","og_image":[{"width":4608,"height":3456,"url":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","type":"image\/jpeg"}],"author":"Greggory Elias","twitter_card":"summary_large_image","twitter_misc":{"\u00c9crit par":"Greggory Elias","Dur\u00e9e de lecture estim\u00e9e":"6 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#article","isPartOf":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/"},"author":{"name":"Greggory Elias","@id":"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6"},"headline":"10 Best Practices for Storing Labeled Data","datePublished":"2019-11-11T23:43:34+00:00","dateModified":"2024-05-20T12:38:37+00:00","mainEntityOfPage":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/"},"wordCount":826,"publisher":{"@id":"https:\/\/skimai.com\/uk\/#organization"},"image":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage"},"thumbnailUrl":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","keywords":["best practices","checklist","data","how to","machine learning","storage"],"articleSection":["LLMs \/ NLP","Project Management"],"inLanguage":"fr-FR"},{"@type":"WebPage","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/","url":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/","name":"10 bonnes pratiques pour le stockage des donn\u00e9es \u00e9tiquet\u00e9es - Skim AI","isPartOf":{"@id":"https:\/\/skimai.com\/uk\/#website"},"primaryImageOfPage":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage"},"image":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage"},"thumbnailUrl":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","datePublished":"2019-11-11T23:43:34+00:00","dateModified":"2024-05-20T12:38:37+00:00","description":"Dix bonnes pratiques pour stocker des donn\u00e9es \u00e9tiquet\u00e9es afin de mener \u00e0 bien des projets d'apprentissage automatique. Liste de contr\u00f4le pour am\u00e9liorer le d\u00e9ploiement des solutions d'apprentissage automatique","breadcrumb":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage","url":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","contentUrl":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","width":4608,"height":3456,"caption":"administration articles bank black and white 261949"},{"@type":"BreadcrumbList","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/skimai.com\/"},{"@type":"ListItem","position":2,"name":"10 Best Practices for Storing Labeled Data"}]},{"@type":"WebSite","@id":"https:\/\/skimai.com\/uk\/#website","url":"https:\/\/skimai.com\/uk\/","name":"Skim AI","description":"La plateforme de travail des agents de l'IA","publisher":{"@id":"https:\/\/skimai.com\/uk\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/skimai.com\/uk\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/skimai.com\/uk\/#organization","name":"Skim AI","url":"https:\/\/skimai.com\/uk\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/","url":"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png","contentUrl":"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png","width":194,"height":58,"caption":"Skim AI"},"image":{"@id":"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/skim-ai"]},{"@type":"Person","@id":"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6","name":"Greggory Elias","url":"https:\/\/skimai.com\/fr\/author\/gregg\/"}]}},"_links":{"self":[{"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/posts\/2560","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/users\/1003"}],"replies":[{"embeddable":true,"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/comments?post=2560"}],"version-history":[{"count":0,"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/posts\/2560\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/media\/2564"}],"wp:attachment":[{"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/media?parent=2560"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/categories?post=2560"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/skimai.com\/fr\/wp-json\/wp\/v2\/tags?post=2560"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}