O que deve saber antes de selecionar um conjunto de dados de análise de sentimentos

O que deve saber antes de selecionar um
Conjunto de dados de análise de sentimentos

    

Porque é que é necessário um conjunto de dados de análise de sentimentos para formação?

Os modelos de sentimento são um tipo de algoritmo de processamento de linguagem natural (PLN) que determina a polaridade de um texto. Ou seja, um modelo de sentimento prevê se a opinião dada num texto é positiva, negativa ou neutra. Estes modelos constituem uma ferramenta poderosa para obter informações sobre grandes conjuntos de dados baseados em opiniões, como publicações em redes sociais e análises de produtos. Por exemplo, um vendedor no mercado da Amazon pode utilizar um modelo de sentimento para avaliar rapidamente milhares de comentários e medir a satisfação dos clientes com os seus produtos. Os modelos de sentimento também podem ser utilizados para prever as avaliações de um novo produto, comparando os metadados do produto com produtos semelhantes e analisando as avaliações desses produtos.

 

Tal como todos os algoritmos de aprendizagem automática, os modelos de sentimentos requerem grandes conjuntos de dados de treino rotulados para serem desenvolvidos e ajustados, também designados por conjunto de dados de análise de sentimentos de treino. O primeiro passo no desenvolvimento do modelo requer um conjunto de dados de análise de sentimentos de dezenas de milhares de afirmações já rotuladas como positivas, negativas ou neutras. Encontrar dados de treino é difícil, porque um perito humano tem de determinar e rotular a polaridade de cada afirmação nos dados de treino. A existência de um conjunto de dados de treino já rotulado reduz significativamente o tempo e o esforço necessários para desenvolver um modelo de sentimento. Dois desses conjuntos de dados de sentimentos frequentemente utilizados para treino são as bases de dados da Internet Movie Database (IMDB) e da Amazon.

Conjuntos de dados de treino primários: Bases de dados de críticas do IMDB e da Amazon

As bases de dados de críticas do IMDB e da Amazon são quase ideais para o treino de modelos de sentimentos (veremos mais adiante as suas limitações), uma vez que são conjuntos de dados prontos de sentimentos facilmente rotulados. A polaridade destas críticas pode ser determinada através da segmentação das críticas por pontuação. Para a base de dados IMBD, as avaliações de 0-3 estrelas são normalmente consideradas negativas, 4-6 estrelas neutras e 7-10 estrelas positivas. Da mesma forma, para as avaliações da Amazon, 1-2 estrelas são negativas, 3 estrelas são neutras e 4-5 estrelas são positivas. No entanto, a base de dados de críticas da Amazon não é tão popular, uma vez que uma classificação de 1 a 5 não tem a fidelidade de um sistema de 1 a 10 e o conjunto de dados da Amazon é mais complexo e, por conseguinte, mais difícil de utilizar.

 

A base de dados IMDB tem sido utilizada numa grande quantidade de estudos académicos, tutoriais e códigos de código aberto. O conjunto de dados IMDB padrão contém 50 000 críticas, com um número par de críticas positivas e negativas. Em geral, a base de dados IMDB é mais popular do que a base de dados Amazon, uma vez que fornece um conjunto de dados mais pequeno e mais fácil de manipular. O conjunto de dados IMDB é uma ferramenta poderosa para desenvolver as competências necessárias para desenvolver modelos de sentimento mais avançados.

 

O conjunto de dados de críticas da Amazon tem as vantagens da dimensão e da complexidade. A Amazon compilou críticas durante mais de 20 anos e oferece um conjunto de dados com mais de 130 milhões de sentimentos rotulados. O conjunto de dados da Amazon também oferece a vantagem adicional de conter críticas em vários idiomas. O conjunto de dados da Amazon fornece ainda avaliações rotuladas como "falsas" ou tendenciosas. Devido à sua dimensão e complexidade, o conjunto de dados da Amazon permite o desenvolvimento de modelos de sentimentos mais sofisticados. Além disso, o conjunto de dados da Amazon oferece mais utilidade, uma vez que a previsão do desempenho do produto através da modelação de sentimentos é um componente crítico para o lançamento de produtos modernos.

Limitações na aplicabilidade dos conjuntos de dados de análise de sentimentos do IMDB e da Amazon

Por muito tempo e esforço que estas bases de dados poupem ao treino de modelos de sentimento, não estão isentas de limitações. Dada a natureza quantitativa das críticas, a aplicação dos modelos treinados com estas bases de dados a opiniões qualitativas, como os tweets, conduz a uma perda de precisão. Além disso, no caso da base de dados IMBD, as críticas são altamente subjectivas em relação às preferências dos espectadores, o que pode distorcer os resultados. Do mesmo modo, na base de dados da Amazon, são comuns as críticas tendenciosas ou "falsas". Uma outra complicação de qualquer base de dados de sentimentos é a incapacidade inata do modelo para reconhecer o sarcasmo, que pode ser comum nas críticas.

Além disso, as palavras-chave (características) encontradas durante o processo de formação são limitadas quando se trabalha com análises. As críticas tendem frequentemente a ser repetitivas, contendo um subconjunto limitado de termos-chave. Além disso, as críticas contêm alguns termos que não são comuns em declarações de opinião normais, como "banda sonora fraca". Devido à singularidade de alguns dos termos-chave e à falta de diversidade de termos-chave, a aplicação de modelos de sentimento treinados nestas bases de dados pode conduzir a resultados não optimizados. Por exemplo, se uma empresa quiser utilizar um modelo de sentimento para prever a reação a uma mudança de política, um modelo treinado numa base de dados de críticas teria dificuldade em fazer essa previsão, dado que a reação não será uma avaliação quantitativa de um produto.

Em suma, os modelos de sentimentos são uma ferramenta poderosa para as empresas modernas, e estes modelos requerem um grande conjunto de dados de análise de sentimentos para serem treinados. As bases de dados de avaliações do IMDB e da Amazon são duas bases de dados de sentimentos comuns e facilmente acessíveis que são populares para treinar modelos de sentimentos. Apesar de constituírem uma ferramenta útil para o treino de modelos de sentimentos, estes conjuntos de dados têm algumas ressalvas que devem ser tidas em conta.

 

 

 

Interested in learning more about Skim AI's ML use case? Read about it aqui.

Vamos discutir a sua ideia

    Publicações relacionadas

    Pronto para impulsionar o seu negócio

    VAMOS
    TALK
    pt_PTPortuguês