10 práticas recomendadas para armazenar dados rotulados

10 práticas recomendadas para armazenar dados rotulados

    Acabaste de ter a tua grande ideia. Lês muito e achaste que seria interessante ter um classificador que rotulasse o tom de um orador e determinasse a sua filiação política. Como é que começaria a decompor o problema de modo a poder utilizar a aprendizagem automática para fazer esta previsão? Utilizámos isto Inquérito Pew  que utilizou as respostas dos eleitores democratas e republicanos aos jornais em que confiavam.

Antes mesmo de pensar em criar um modelo de aprendizagem automática pronto para produção, é necessário pensar no seu pipeline de dados. Esta é a base sobre a qual um modelo de aprendizagem automática funciona e, sem uma base sólida, não pode esperar que o seu modelo tenha um bom desempenho. Os especialistas da Skim AI reuniram as 10 melhores práticas para armazenar dados rotulados que o vão preparar para o sucesso.

1. Definir o problema: Trata-se de um bom problema para a aprendizagem automática?

Para que um modelo de aprendizagem automática seja aplicável à resolução de um problema, tem de ser definível para um computador: 

  • Este conjunto de palavras enquadra-se num padrão que se assemelha mais a uma categoria de texto ou a outra?
  • Existe uma base de dados com dados representativos suficientes para que uma máquina possa extrair padrões?

No exemplo a que nos estamos a referir, há dois resultados: discurso de tendência democrática ou discurso de tendência republicana. O problema é claramente mais complexo do que isto, uma vez que há muitos grupos que constituem os democratas e os republicanos e há também independentes e muitas gradações. Mas, para este exemplo, vamos simplificar e limitar-nos a estas duas variações.

2. Reúna pelo menos 5.000 pontos de dados para cada resultado.

Recolher pelo menos 5.000 pontos de dados na sua base de dados para cada categoria de informação que pretende classificar. No nosso exemplo, estamos a armazenar pontos de dados rotulados de artigos, discursos, livros ou transcrições de espectáculos. Como queremos construir um classificador binário, queremos 5.000 exemplos de amostras de escrita democrática e 5.000 exemplos de amostras de escrita republicana, num total de 10.000 amostras. Embora 5.000 pontos por resultado seja o mínimo recomendado, a exatidão melhorará com mais dados, por isso não hesite.

3. Armazenar dados ao nível da frase.

No nosso caso, o objetivo é classificar artigos inteiros como democráticos ou republicanos, mas é melhor preparar os seus esforços para o futuro, armazenando cada recurso ao nível da frase em vez de ao nível do artigo inteiro. Desta forma, se pretender classificar entidades mais específicas, como parágrafos ou análises em torno de determinadas palavras-chave ou entidades (pessoas, locais e organizações), poderá utilizar os seus dados com menos esforço de limpeza no futuro. 

 

Em geral, 50-65% do tempo gasto em qualquer projeto de ML é dedicado à limpeza e transformação de dados num formato que possa ser lido por algoritmos de ML. A maioria dos classificadores funciona tanto ao nível da frase como do documento inteiro.

Dicas práticas de implementação para a classificação ao nível da frase e do parágrafo:

  • Para começar, limite as suas necessidades de classificação a uma única frase, um único parágrafo ou um único documento (artigo).
  • As necessidades não estandardizadas (algumas palavras ou algumas frases) acrescentam um problema muito difícil de criar um segundo modelo de ML para prever qual o cluster que é importante.
  • Simplificar o problema de classificação tanto quanto possível no início, aumentar a complexidade ao longo do tempo à medida que mais dados ficam disponíveis.

4. Classificar e rotular os dados em categorias bem definidas.

Isto é um pouco sobre metodologia. É importante obter o maior número possível de sinais puros. Isto significa eliminar o ruído e os recursos e informações com nuances. Por exemplo, se estiver a armazenar dados rotulados de fontes centristas, estes conterão menos sinais claros e se adicionar dados (artigos) de uma fonte centrista ao conjunto de dados republicanos ou democráticos, isso diminuirá a precisão e a utilidade do classificador de discurso republicano/democrata.

 

No nosso exemplo, isto é especialmente difícil porque as pessoas são muito mais complicadas nas suas crenças políticas do que uma simples linha partidária. Além disso, vários escritores, oradores e jornais vão ter opiniões diferentes da linha oficial do partido. Neste exemplo, é provável que haja muito ruído que precisa de ser suprimido, por exemplo:

  • Os jornais variam quanto à sua tendência conservadora ou liberal em determinadas questões.
  • Alguns jornalistas têm opiniões diferentes sobre um determinado assunto, mesmo entre outros jornalistas da mesma publicação.
  • Os accionistas ou proprietários podem pregar um dogma sobre um determinado assunto que seja importante para eles e dar instruções à equipa editorial para cobrir os assuntos de uma determinada forma.

Poder-se-ia passar horas a definir uma metodologia para ter em conta todas as variáveis possíveis. Recomendamos a recolha e o armazenamento do maior número possível de dados. Procure dados limpos ao nível das frases e crie campos para registar o autor, a publicação e quaisquer outros campos que possam ser capturados.

5. Armazenar todos os dados representativos.

É possível ter acesso a dados suficientes? No nosso caso, é relativamente fácil ter acesso a artigos antigos destas publicações para reunir um conjunto de artigos e pontos de dados suficientes para cada categoria de classificação.

 

Caso contrário, pode considerar utilizar a Amazon Mechanical Turk para rotular dados ou, se a sua metodologia exigir formação, pode formar e pagar a pessoas na Índia ou na Macedónia $1.000 por mês para construírem um conjunto de dados.

6. Armazenar dados de fundo.

O armazenamento de dados rotulados que estejam tangencialmente relacionados com o que pretende classificar permitir-lhe-á criar modelos mais robustos que, provavelmente, incluem mais vocabulário, pessoas, locais e tópicos que ajudarão qualquer modelo criado. Pode ajudar expondo o modelo de classificação a novo vocabulário, tópicos e entidades e compreender as relações inerentes entre as palavras. Isto tornará o modelo mais capaz de lidar com dados fora dos dados iniciais com que começou.

 

Talvez queira obter livros escritos por congressistas, tweets, transcrições de entrevistas, transcrições de programas de notícias por cabo, transcrições do diálogo na Câmara do Congresso, projectos de lei e leis escritos ou patrocinados por determinados membros do Congresso.

 

O objetivo da aprendizagem automática é que não é necessário testar todas as variáveis, basta obter dados suficientes para que a aprendizagem automática funcione e definir bem o problema.

7. Armazenar o texto em bruto dos dados etiquetados (praticar a redundância).

Por segurança, guarde sempre o texto em bruto dos seus dados etiquetados. Por exemplo, se tiver uma frase num artigo que seja representativa dos dados que pretende etiquetar, certifique-se de que armazena o texto em bruto dessa frase e a etiqueta. Mesmo que armazene estes dados apenas como redundância, tome esta medida. O seu engenheiro de aprendizagem automática ou cientista de dados agradecer-lhe-á.

8. Mapeie os seus dados do início ao fim (valores de índice).

Se utilizar valores de índice para referenciar dados etiquetados, mapeie esses dados e compreenda bem o mapeamento. Por exemplo, se estiver a armazenar uma frase ou um parágrafo de um artigo, certifique-se de que os valores da base de dados para onde essa frase ou parágrafo começa correspondem ao valor da fonte a partir da qual está a armazenar os dados. Por segurança, teste-o a partir da primeira frase, dos valores de início e fim e da última frase.

9. Faça uma cópia de segurança dos seus dados.

Isto deve ser auto-explicativo. Faça cópias de segurança dos seus dados regularmente.

10. Construir e pensar no futuro.

Nalgumas circunstâncias, são necessários anos para reunir dados rotulados suficientes. Se sabe que quer resolver um problema numa área específica, comece a recolher o máximo de dados não etiquetados e etiquetados relacionados com o problema que quer resolver e dados específicos do domínio.

 

Pronto para começar? Consulte o nosso outros artigos sobre aprendizagem automática.

Let’s Discuss Your Idea

    Related Posts

    Ready To Supercharge Your Business

    LET’S
    TALK
    pt_PTPortuguês