{"id":2560,"date":"2019-11-11T23:43:34","date_gmt":"2019-11-11T23:43:34","guid":{"rendered":"http:\/\/skimai.com\/?p=2560"},"modified":"2024-05-20T07:38:37","modified_gmt":"2024-05-20T12:38:37","slug":"10-melhores-praticas-para-armazenar-dados-etiquetados","status":"publish","type":"post","link":"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/","title":{"rendered":"10 pr\u00e1ticas recomendadas para armazenar dados rotulados"},"content":{"rendered":"<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_1 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar o \u00edndice\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Alternar<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#10_Best_Practices_for_Storing_Labeled_Data\" >10 pr\u00e1ticas recomendadas para armazenar dados rotulados<\/a><ul class='ez-toc-list-level-2' ><li class='ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#1_Define_the_Problem_Is_it_a_good_problem_for_machine_learning\" >1. Definir o problema: Trata-se de um bom problema para a aprendizagem autom\u00e1tica?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#2_Gather_at_least_5000_datapoints_for_each_outcome\" >2. Re\u00fana pelo menos 5.000 pontos de dados para cada resultado.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#3_Store_data_at_the_sentence_level\" >3. Armazenar dados ao n\u00edvel da frase.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#4_Classify_and_label_data_in_well_defined_categories\" >4. Classificar e rotular os dados em categorias bem definidas.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#5_Store_all_representative_data\" >5. Armazenar todos os dados representativos.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#6_Store_background_data\" >6. Armazenar dados de fundo.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#7_Store_the_raw_text_of_labeled_data_practice_redundancy\" >7. Armazenar o texto em bruto dos dados etiquetados (praticar a redund\u00e2ncia).<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#8_Map_your_data_from_start_to_finish_index_values\" >8. Mapeie os seus dados do in\u00edcio ao fim (valores de \u00edndice).<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#9_Backup_your_data\" >9. Fa\u00e7a uma c\u00f3pia de seguran\u00e7a dos seus dados.<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-11\" href=\"https:\/\/skimai.com\/pt\/10-best-practices-for-storing-labeled-data\/#10_Build_and_think_for_the_future\" >10. Construir e pensar no futuro.<\/a><\/li><\/ul><\/li><\/ul><\/nav><\/div>\n<h1><span class=\"ez-toc-section\" id=\"10_Best_Practices_for_Storing_Labeled_Data\"><\/span>10 pr\u00e1ticas recomendadas para armazenar dados rotulados<span class=\"ez-toc-section-end\"><\/span><\/h1>\n<pre><code>    Acabaste de ter a tua grande ideia. L\u00eas muito e achaste que seria interessante ter um classificador que rotulasse o tom de um orador e determinasse a sua filia\u00e7\u00e3o pol\u00edtica. Como \u00e9 que come\u00e7aria a decompor o problema de modo a poder utilizar a aprendizagem autom\u00e1tica para fazer esta previs\u00e3o? Utiliz\u00e1mos isto <a href=\"https:\/\/www.journalism.org\/2014\/10\/21\/political-polarization-media-habits\/\">Inqu\u00e9rito Pew\u00a0<\/a>\u00a0que utilizou as respostas dos eleitores democratas e republicanos aos jornais em que confiavam.<br \/><br \/>Antes mesmo de pensar em criar um modelo de aprendizagem autom\u00e1tica pronto para produ\u00e7\u00e3o, \u00e9 necess\u00e1rio pensar no seu pipeline de dados. Esta \u00e9 a base sobre a qual um modelo de aprendizagem autom\u00e1tica funciona e, sem uma base s\u00f3lida, n\u00e3o pode esperar que o seu modelo tenha um bom desempenho. Os especialistas da Skim AI reuniram as 10 melhores pr\u00e1ticas para armazenar dados rotulados que o v\u00e3o preparar para o sucesso.<\/p><h2><span class=\"ez-toc-section\" id=\"1_Define_the_Problem_Is_it_a_good_problem_for_machine_learning\"><\/span><strong>1. Definir o problema: Trata-se de um bom problema para a aprendizagem autom\u00e1tica?<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2><p>Para que um modelo de aprendizagem autom\u00e1tica seja aplic\u00e1vel \u00e0 resolu\u00e7\u00e3o de um problema, tem de ser defin\u00edvel para um computador:\u00a0<\/p><ul><li>Este conjunto de palavras enquadra-se num padr\u00e3o que se assemelha mais a uma categoria de texto ou a outra?<\/li><li>Existe uma base de dados com dados representativos suficientes para que uma m\u00e1quina possa extrair padr\u00f5es?<\/li><\/ul><p>No exemplo a que nos estamos a referir, h\u00e1 dois resultados: discurso de tend\u00eancia democr\u00e1tica ou discurso de tend\u00eancia republicana. O problema \u00e9 claramente mais complexo do que isto, uma vez que h\u00e1 muitos grupos que constituem os democratas e os republicanos e h\u00e1 tamb\u00e9m independentes e muitas grada\u00e7\u00f5es. Mas, para este exemplo, vamos simplificar e limitar-nos a estas duas varia\u00e7\u00f5es.<\/p><h2><span class=\"ez-toc-section\" id=\"2_Gather_at_least_5000_datapoints_for_each_outcome\"><\/span><strong>2. Re\u00fana pelo menos 5.000 pontos de dados para cada resultado.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2><p>Recolher pelo menos <a href=\"https:\/\/www.mckinsey.com\/featured-insights\/artificial-intelligence\/notes-from-the-ai-frontier-applications-and-value-of-deep-learning\">5.000 pontos de dados<\/a> na sua base de dados para cada categoria de informa\u00e7\u00e3o que pretende classificar. No nosso exemplo, estamos a armazenar pontos de dados rotulados de artigos, discursos, livros ou transcri\u00e7\u00f5es de espect\u00e1culos. Como queremos construir um classificador bin\u00e1rio, queremos 5.000 exemplos de amostras de escrita democr\u00e1tica e 5.000 exemplos de amostras de escrita republicana, num total de 10.000 amostras. Embora 5.000 pontos por resultado seja o m\u00ednimo recomendado, a exatid\u00e3o melhorar\u00e1 com mais dados, por isso n\u00e3o hesite.<\/p><h2><span class=\"ez-toc-section\" id=\"3_Store_data_at_the_sentence_level\"><\/span><strong>3. Armazenar dados ao n\u00edvel da frase.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2><p>No nosso caso, o objetivo \u00e9 classificar artigos inteiros como democr\u00e1ticos ou republicanos, mas \u00e9 melhor preparar os seus esfor\u00e7os para o futuro, armazenando cada recurso ao n\u00edvel da frase em vez de ao n\u00edvel do artigo inteiro. Desta forma, se pretender classificar entidades mais espec\u00edficas, como par\u00e1grafos ou an\u00e1lises em torno de determinadas palavras-chave ou entidades (pessoas, locais e organiza\u00e7\u00f5es), poder\u00e1 utilizar os seus dados com menos esfor\u00e7o de limpeza no futuro.\u00a0<\/code><\/pre>\n<p>\u00a0<\/p>\n<p>Em geral, 50-65% do tempo gasto em qualquer projeto de ML \u00e9 dedicado \u00e0 limpeza e transforma\u00e7\u00e3o de dados num formato que possa ser lido por algoritmos de ML. A maioria dos classificadores funciona tanto ao n\u00edvel da frase como do documento inteiro.<\/p>\n<p><strong>Dicas pr\u00e1ticas de implementa\u00e7\u00e3o para a classifica\u00e7\u00e3o ao n\u00edvel da frase e do par\u00e1grafo:<\/strong><\/p>\n<ul>\n<li>Para come\u00e7ar, limite as suas necessidades de classifica\u00e7\u00e3o a uma \u00fanica frase, um \u00fanico par\u00e1grafo ou um \u00fanico documento (artigo).<\/li>\n<li>As necessidades n\u00e3o estandardizadas (algumas palavras ou algumas frases) acrescentam um problema muito dif\u00edcil de criar um segundo modelo de ML para prever qual o cluster que \u00e9 importante.<\/li>\n<li>Simplificar o problema de classifica\u00e7\u00e3o tanto quanto poss\u00edvel no in\u00edcio, aumentar a complexidade ao longo do tempo \u00e0 medida que mais dados ficam dispon\u00edveis.<\/li>\n<\/ul>\n<h2><span class=\"ez-toc-section\" id=\"4_Classify_and_label_data_in_well_defined_categories\"><\/span><strong>4. Classificar e rotular os dados em categorias bem definidas.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Isto \u00e9 um pouco sobre metodologia. \u00c9 importante obter o maior n\u00famero poss\u00edvel de sinais puros. Isto significa eliminar o ru\u00eddo e os recursos e informa\u00e7\u00f5es com nuances. Por exemplo, se estiver a armazenar dados rotulados de fontes centristas, estes conter\u00e3o menos sinais claros e se adicionar dados (artigos) de uma fonte centrista ao conjunto de dados republicanos ou democr\u00e1ticos, isso diminuir\u00e1 a precis\u00e3o e a utilidade do classificador de discurso republicano\/democrata.<\/p>\n<p>\u00a0<\/p>\n<p>No nosso exemplo, isto \u00e9 especialmente dif\u00edcil porque as pessoas s\u00e3o muito mais complicadas nas suas cren\u00e7as pol\u00edticas do que uma simples linha partid\u00e1ria. Al\u00e9m disso, v\u00e1rios escritores, oradores e jornais v\u00e3o ter opini\u00f5es diferentes da linha oficial do partido. Neste exemplo, \u00e9 prov\u00e1vel que haja muito ru\u00eddo que precisa de ser suprimido, por exemplo: <\/p>\n<ul>\n<li>Os jornais variam quanto \u00e0 sua tend\u00eancia conservadora ou liberal em determinadas quest\u00f5es.<\/li>\n<li>Alguns jornalistas t\u00eam opini\u00f5es diferentes sobre um determinado assunto, mesmo entre outros jornalistas da mesma publica\u00e7\u00e3o.<\/li>\n<li>Os accionistas ou propriet\u00e1rios podem pregar um dogma sobre um determinado assunto que seja importante para eles e dar instru\u00e7\u00f5es \u00e0 equipa editorial para cobrir os assuntos de uma determinada forma.<\/li>\n<\/ul>\n<p>Poder-se-ia passar horas a definir uma metodologia para ter em conta todas as vari\u00e1veis poss\u00edveis. Recomendamos a recolha e o armazenamento do maior n\u00famero poss\u00edvel de dados. Procure dados limpos ao n\u00edvel das frases e crie campos para registar o autor, a publica\u00e7\u00e3o e quaisquer outros campos que possam ser capturados. <\/p>\n<h2><span class=\"ez-toc-section\" id=\"5_Store_all_representative_data\"><\/span><strong>5. <\/strong><b>Armazenar todos os dados representativos.<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>\u00c9 poss\u00edvel ter acesso a dados suficientes? No nosso caso, \u00e9 relativamente f\u00e1cil ter acesso a artigos antigos destas publica\u00e7\u00f5es para reunir um conjunto de artigos e pontos de dados suficientes para cada categoria de classifica\u00e7\u00e3o.<\/p>\n<p>\u00a0<\/p>\n<p>Caso contr\u00e1rio, pode considerar utilizar a Amazon Mechanical Turk para rotular dados ou, se a sua metodologia exigir forma\u00e7\u00e3o, pode formar e pagar a pessoas na \u00cdndia ou na Maced\u00f3nia $1.000 por m\u00eas para constru\u00edrem um conjunto de dados.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"6_Store_background_data\"><\/span><strong>6. <\/strong><b>Armazenar dados de fundo.<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>O armazenamento de dados rotulados que estejam tangencialmente relacionados com o que pretende classificar permitir-lhe-\u00e1 criar modelos mais robustos que, provavelmente, incluem mais vocabul\u00e1rio, pessoas, locais e t\u00f3picos que ajudar\u00e3o qualquer modelo criado. Pode ajudar expondo o modelo de classifica\u00e7\u00e3o a novo vocabul\u00e1rio, t\u00f3picos e entidades e compreender as rela\u00e7\u00f5es inerentes entre as palavras. Isto tornar\u00e1 o modelo mais capaz de lidar com dados fora dos dados iniciais com que come\u00e7ou.<\/p>\n<p>\u00a0<\/p>\n<p>Talvez queira obter livros escritos por congressistas, tweets, transcri\u00e7\u00f5es de entrevistas, transcri\u00e7\u00f5es de programas de not\u00edcias por cabo, transcri\u00e7\u00f5es do di\u00e1logo na C\u00e2mara do Congresso, projectos de lei e leis escritos ou patrocinados por determinados membros do Congresso.<\/p>\n<p>\u00a0<\/p>\n<p>O objetivo da aprendizagem autom\u00e1tica \u00e9 que n\u00e3o \u00e9 necess\u00e1rio testar todas as vari\u00e1veis, basta obter dados suficientes para que a aprendizagem autom\u00e1tica funcione e definir bem o problema.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"7_Store_the_raw_text_of_labeled_data_practice_redundancy\"><\/span><strong>7. <\/strong><b>Armazenar o texto em bruto dos dados etiquetados (praticar a redund\u00e2ncia).<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Por seguran\u00e7a, guarde sempre o texto em bruto dos seus dados etiquetados. Por exemplo, se tiver uma frase num artigo que seja representativa dos dados que pretende etiquetar, certifique-se de que armazena o texto em bruto dessa frase e a etiqueta. Mesmo que armazene estes dados apenas como redund\u00e2ncia, tome esta medida. O seu engenheiro de aprendizagem autom\u00e1tica ou cientista de dados agradecer-lhe-\u00e1.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"8_Map_your_data_from_start_to_finish_index_values\"><\/span><strong>8. Mapeie os seus dados do in\u00edcio ao fim (valores de \u00edndice).<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Se utilizar valores de \u00edndice para referenciar dados etiquetados, mapeie esses dados e compreenda bem o mapeamento. Por exemplo, se estiver a armazenar uma frase ou um par\u00e1grafo de um artigo, certifique-se de que os valores da base de dados para onde essa frase ou par\u00e1grafo come\u00e7a correspondem ao valor da fonte a partir da qual est\u00e1 a armazenar os dados. Por seguran\u00e7a, teste-o a partir da primeira frase, dos valores de in\u00edcio e fim e da \u00faltima frase.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"9_Backup_your_data\"><\/span><strong>9. Fa\u00e7a uma c\u00f3pia de seguran\u00e7a dos seus dados.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Isto deve ser auto-explicativo. Fa\u00e7a c\u00f3pias de seguran\u00e7a dos seus dados regularmente.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"10_Build_and_think_for_the_future\"><\/span><strong>10. Construir e pensar no futuro.<\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Nalgumas circunst\u00e2ncias, s\u00e3o necess\u00e1rios anos para reunir dados rotulados suficientes. Se sabe que quer resolver um problema numa \u00e1rea espec\u00edfica, comece a recolher o m\u00e1ximo de dados n\u00e3o etiquetados e etiquetados relacionados com o problema que quer resolver e dados espec\u00edficos do dom\u00ednio.<\/p>\n<p>\u00a0<\/p>\n<p>Pronto para come\u00e7ar? Consulte o nosso <a href=\"http:\/\/skimai.com\/pt\/blogue\/\">outros artigos sobre aprendizagem autom\u00e1tica<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>10 Best Practices for Storing Labeled Data You just had your big idea. You read a lot, and you thought it would be interesting to have a classifier that labels a speaker\u2019s tone and determines their political affiliation. How would you begin to break down the problem so that you can use machine learning to [&hellip;]<\/p>\n","protected":false},"author":1003,"featured_media":2564,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"single-custom-post-template.php","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","footnotes":""},"categories":[67,78],"tags":[94,85,92,79,84,93],"class_list":["post-2560","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ml-nlp","category-ai-project-management","tag-best-practices","tag-checklist","tag-data","tag-how-to","tag-machine-learning","tag-storage"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v24.1 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>10 Best Practices for Storing Labeled Data - Skim AI<\/title>\n<meta name=\"description\" content=\"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/skimai.com\/pt\/10-melhores-praticas-para-armazenar-dados-etiquetados\/\" \/>\n<meta property=\"og:locale\" content=\"pt_PT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"10 Best Practices for Storing Labeled Data - Skim AI\" \/>\n<meta property=\"og:description\" content=\"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions\" \/>\n<meta property=\"og:url\" content=\"https:\/\/skimai.com\/pt\/10-melhores-praticas-para-armazenar-dados-etiquetados\/\" \/>\n<meta property=\"og:site_name\" content=\"Skim AI\" \/>\n<meta property=\"article:published_time\" content=\"2019-11-11T23:43:34+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2024-05-20T12:38:37+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"4608\" \/>\n\t<meta property=\"og:image:height\" content=\"3456\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Greggory Elias\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Greggory Elias\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo estimado de leitura\" \/>\n\t<meta name=\"twitter:data2\" content=\"6 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\"},\"author\":{\"name\":\"Greggory Elias\",\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6\"},\"headline\":\"10 Best Practices for Storing Labeled Data\",\"datePublished\":\"2019-11-11T23:43:34+00:00\",\"dateModified\":\"2024-05-20T12:38:37+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\"},\"wordCount\":826,\"publisher\":{\"@id\":\"https:\/\/skimai.com\/uk\/#organization\"},\"image\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"keywords\":[\"best practices\",\"checklist\",\"data\",\"how to\",\"machine learning\",\"storage\"],\"articleSection\":[\"LLMs \/ NLP\",\"Project Management\"],\"inLanguage\":\"pt-PT\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\",\"url\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\",\"name\":\"10 Best Practices for Storing Labeled Data - Skim AI\",\"isPartOf\":{\"@id\":\"https:\/\/skimai.com\/uk\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"datePublished\":\"2019-11-11T23:43:34+00:00\",\"dateModified\":\"2024-05-20T12:38:37+00:00\",\"description\":\"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions\",\"breadcrumb\":{\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb\"},\"inLanguage\":\"pt-PT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-PT\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage\",\"url\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"contentUrl\":\"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg\",\"width\":4608,\"height\":3456,\"caption\":\"administration articles bank black and white 261949\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/skimai.com\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"10 Best Practices for Storing Labeled Data\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/skimai.com\/uk\/#website\",\"url\":\"https:\/\/skimai.com\/uk\/\",\"name\":\"Skim AI\",\"description\":\"The AI Agent Workforce Platform\",\"publisher\":{\"@id\":\"https:\/\/skimai.com\/uk\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/skimai.com\/uk\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-PT\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/skimai.com\/uk\/#organization\",\"name\":\"Skim AI\",\"url\":\"https:\/\/skimai.com\/uk\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-PT\",\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/\",\"url\":\"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png\",\"contentUrl\":\"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png\",\"width\":194,\"height\":58,\"caption\":\"Skim AI\"},\"image\":{\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.linkedin.com\/company\/skim-ai\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6\",\"name\":\"Greggory Elias\",\"url\":\"https:\/\/skimai.com\/pt\/author\/gregg\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"10 pr\u00e1ticas recomendadas para armazenar dados rotulados - Skim AI","description":"Dez melhores pr\u00e1ticas para armazenar dados rotulados para projectos de aprendizagem autom\u00e1tica bem sucedidos. Lista de verifica\u00e7\u00e3o para aumentar a implementa\u00e7\u00e3o de solu\u00e7\u00f5es de ML","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/skimai.com\/pt\/10-melhores-praticas-para-armazenar-dados-etiquetados\/","og_locale":"pt_PT","og_type":"article","og_title":"10 Best Practices for Storing Labeled Data - Skim AI","og_description":"Ten best practices for storing labeled data for successful machine learning projects. Checklist to increase deployment of ML solutions","og_url":"https:\/\/skimai.com\/pt\/10-melhores-praticas-para-armazenar-dados-etiquetados\/","og_site_name":"Skim AI","article_published_time":"2019-11-11T23:43:34+00:00","article_modified_time":"2024-05-20T12:38:37+00:00","og_image":[{"width":4608,"height":3456,"url":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","type":"image\/jpeg"}],"author":"Greggory Elias","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"Greggory Elias","Tempo estimado de leitura":"6 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#article","isPartOf":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/"},"author":{"name":"Greggory Elias","@id":"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6"},"headline":"10 Best Practices for Storing Labeled Data","datePublished":"2019-11-11T23:43:34+00:00","dateModified":"2024-05-20T12:38:37+00:00","mainEntityOfPage":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/"},"wordCount":826,"publisher":{"@id":"https:\/\/skimai.com\/uk\/#organization"},"image":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage"},"thumbnailUrl":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","keywords":["best practices","checklist","data","how to","machine learning","storage"],"articleSection":["LLMs \/ NLP","Project Management"],"inLanguage":"pt-PT"},{"@type":"WebPage","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/","url":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/","name":"10 pr\u00e1ticas recomendadas para armazenar dados rotulados - Skim AI","isPartOf":{"@id":"https:\/\/skimai.com\/uk\/#website"},"primaryImageOfPage":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage"},"image":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage"},"thumbnailUrl":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","datePublished":"2019-11-11T23:43:34+00:00","dateModified":"2024-05-20T12:38:37+00:00","description":"Dez melhores pr\u00e1ticas para armazenar dados rotulados para projectos de aprendizagem autom\u00e1tica bem sucedidos. Lista de verifica\u00e7\u00e3o para aumentar a implementa\u00e7\u00e3o de solu\u00e7\u00f5es de ML","breadcrumb":{"@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb"},"inLanguage":"pt-PT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/"]}]},{"@type":"ImageObject","inLanguage":"pt-PT","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#primaryimage","url":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","contentUrl":"https:\/\/skimai.com\/wp-content\/uploads\/2019\/11\/administration-articles-bank-black-and-white-261949.jpg","width":4608,"height":3456,"caption":"administration articles bank black and white 261949"},{"@type":"BreadcrumbList","@id":"https:\/\/skimai.com\/ko\/\ub77c\ubca8\ub9c1\ub41c-\ub370\uc774\ud130\ub97c-\uc800\uc7a5\ud558\ub294-10\uac00\uc9c0-\ubaa8\ubc94-\uc0ac\ub840\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/skimai.com\/"},{"@type":"ListItem","position":2,"name":"10 Best Practices for Storing Labeled Data"}]},{"@type":"WebSite","@id":"https:\/\/skimai.com\/uk\/#website","url":"https:\/\/skimai.com\/uk\/","name":"IA de desnata\u00e7\u00e3o","description":"A plataforma de for\u00e7a de trabalho de agentes de IA","publisher":{"@id":"https:\/\/skimai.com\/uk\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/skimai.com\/uk\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-PT"},{"@type":"Organization","@id":"https:\/\/skimai.com\/uk\/#organization","name":"IA de desnata\u00e7\u00e3o","url":"https:\/\/skimai.com\/uk\/","logo":{"@type":"ImageObject","inLanguage":"pt-PT","@id":"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/","url":"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png","contentUrl":"http:\/\/skimai.com\/wp-content\/uploads\/2020\/07\/SKIM-AI-Header-Logo.png","width":194,"height":58,"caption":"Skim AI"},"image":{"@id":"https:\/\/skimai.com\/uk\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/skim-ai"]},{"@type":"Person","@id":"https:\/\/skimai.com\/uk\/#\/schema\/person\/7a883b4a2d2ea22040f42a7975eb86c6","name":"Greggory Elias","url":"https:\/\/skimai.com\/pt\/author\/gregg\/"}]}},"_links":{"self":[{"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/posts\/2560","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/users\/1003"}],"replies":[{"embeddable":true,"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/comments?post=2560"}],"version-history":[{"count":0,"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/posts\/2560\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/media\/2564"}],"wp:attachment":[{"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/media?parent=2560"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/categories?post=2560"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/skimai.com\/pt\/wp-json\/wp\/v2\/tags?post=2560"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}