10 buenas prácticas para almacenar datos etiquetados
- 10 buenas prácticas para almacenar datos etiquetados
- 1. Definir el problema: ¿Es un buen problema para el aprendizaje automático?
- 2. Reúna al menos 5.000 puntos de datos para cada resultado.
- 3. Almacenar datos a nivel de frase.
- 4. Clasificar y etiquetar los datos en categorías bien definidas.
- 5. Almacene todos los datos representativos.
- 6. Almacenar datos de fondo.
- 7. Almacenar el texto bruto de los datos etiquetados (practicar la redundancia).
- 8. Mapee sus datos de principio a fin (valores índice).
- 9. Haz una copia de seguridad de tus datos.
- 10. Construir y pensar en el futuro.
10 buenas prácticas para almacenar datos etiquetados
Acabas de tener tu gran idea. Lees mucho y has pensado que sería interesante disponer de un clasificador que etiquete el tono de un orador y determine su afiliación política. ¿Cómo empezarías a descomponer el problema para poder utilizar el aprendizaje automático para hacer esta predicción? Utilizamos este Encuesta Pew que utilizaba las respuestas de los votantes demócratas y republicanos a los periódicos en los que confiaban.
Antes de pensar siquiera en crear un modelo de aprendizaje automático listo para la producción, debe pensar en su canalización de datos. Esta es la base sobre la que se ejecuta un modelo de ML y, sin una base sólida, no se puede esperar que el modelo funcione correctamente. Los expertos de Skim AI han reunido las 10 mejores prácticas para el almacenamiento de datos etiquetados que le permitirán alcanzar el éxito.1. Definir el problema: ¿Es un buen problema para el aprendizaje automático?
Para que un modelo de aprendizaje automático sea aplicable a la resolución de un problema, debe ser definible para un ordenador:
- ¿Este conjunto de palabras responde a un patrón que se asemeja más a una u otra categoría de texto?
- ¿Existe una base de datos con suficientes datos representativos para que una máquina pueda extraer patrones?
En el ejemplo al que nos referimos, hay dos resultados: discurso de tendencia demócrata o discurso de tendencia republicana. El problema es claramente más complejo que esto, ya que hay muchos grupos que forman demócratas y republicanos y también hay independientes y muchas gradaciones. Pero para este ejemplo, vamos a simplificar a esas dos variaciones.
2. Reúna al menos 5.000 puntos de datos para cada resultado.
Recoger al menos 5.000 puntos de datos en su base de datos para cada categoría de información que desee clasificar. En nuestro ejemplo, estamos almacenando puntos de datos etiquetados de artículos, discursos, libros o transcripciones de programas. Como queremos construir un clasificador binario, queremos 5.000 ejemplos de muestras de escritos demócratas y 5.000 ejemplos de muestras de escritos republicanos para un total de 10.000 muestras. Aunque 5.000 puntos por resultado es el mínimo recomendado, la precisión mejorará con más datos, así que no te contengas.
3. Almacenar datos a nivel de frase.
En nuestro caso, el objetivo es clasificar artículos enteros como demócratas o republicanos, pero querrá prepararse para el futuro almacenando cada recurso a nivel de frase en lugar de a nivel de artículo entero. De este modo, si desea clasificar entidades más específicas, como párrafos o análisis en torno a determinadas palabras clave o entidades (personas, lugares y organizaciones), podrá utilizar sus datos con menos esfuerzo de limpieza en el futuro.
En general, entre el 50 y el 65% del tiempo empleado en cualquier proyecto de ML se dedica a limpiar y transformar los datos en un formato legible para los algoritmos de ML. La mayoría de los clasificadores trabajan tanto a nivel de frase como de documento completo.
Consejos prácticos de aplicación para la clasificación a nivel de frases y párrafos:
- Para empezar, limite sus necesidades de clasificación a una sola frase, un solo párrafo o un solo documento (artículo).
- Las necesidades no estándar (unas pocas palabras, o unas pocas frases) añaden un problema muy difícil de crear un segundo modelo ML para predecir qué clúster es importante.
- Simplifique el problema de clasificación en la medida de lo posible al principio, y aumente la complejidad con el tiempo a medida que disponga de más datos.
4. Clasificar y etiquetar los datos en categorías bien definidas.
Esto es un poco sobre metodología. Es importante obtener el mayor número posible de señales puras. Eso significa eliminar el ruido y los recursos e información matizados. Por ejemplo, si se almacenan datos etiquetados de fuentes centristas, contendrán menos señales claras y si se añaden datos (artículos) de una fuente centrista al conjunto de datos republicanos o demócratas, disminuirá la precisión y la utilidad del clasificador del discurso republicano/demócrata.
En nuestro ejemplo, esto es especialmente difícil, ya que las personas son mucho más complicadas en sus creencias políticas que una simple línea de partido. Además, varios escritores, oradores y periódicos van a tener opiniones diferentes a la línea oficial del partido. En este ejemplo, es probable que haya mucho ruido que haya que suprimir, por ejemplo:
- Los periódicos varían en la medida en que se inclinan hacia el conservadurismo o el liberalismo en determinadas cuestiones.
- Determinados periodistas tendrán opiniones diferentes sobre un tema concreto, incluso entre otros periodistas de la misma publicación.
- Los accionistas o propietarios pueden predicar un dogma sobre un tema concreto que sea importante para ellos y dar instrucciones al equipo editorial para que cubra los temas de una determinada manera.
Uno podría pasarse horas definiendo una metodología para tener en cuenta todas las variables posibles. Recomendamos recopilar y almacenar tantos datos como sea posible. Busque datos limpios a nivel de frase y cree campos para rastrear el autor, la publicación y cualquier otro campo que pueda capturarse.
5. Almacena todos los datos representativos.
¿Se puede acceder a datos suficientes? En nuestro caso, es relativamente fácil acceder a artículos antiguos de estas publicaciones para reunir un conjunto de artículos y datos suficientes para cada categoría de clasificación.
Si no, puedes plantearte utilizar Amazon Mechanical Turk para etiquetar datos o, si tu metodología requiere formación, puedes formar y pagar a personas de la India o Macedonia $1.000 al mes para que construyan un conjunto de datos.
6. Almacenar datos de fondo.
Almacenar datos etiquetados que estén tangencialmente relacionados con lo que se quiere clasificar permitirá construir modelos más robustos que probablemente incluyan más vocabulario, personas, lugares y temas que ayudarán a cualquier modelo que se construya. Puede ayudar exponer el modelo de clasificación a nuevo vocabulario, temas y entidades y comprender las relaciones inherentes entre las palabras. Esto hará que el modelo sea más capaz de manejar datos fuera de los datos iniciales con los que empezaste.
Tal vez quiera conseguir libros escritos por congresistas, tuits, transcripciones de entrevistas, transcripciones de programas de noticias por cable, transcripciones del diálogo en la cámara del congreso, proyectos de ley escritos o patrocinados por determinados congresistas.
La gracia del aprendizaje automático es que no tienes que probar todas las variables tú mismo, basta con obtener suficientes datos para que el ML funcione y definir bien tu problema.
7. Almacenar el texto bruto de los datos etiquetados (practicar la redundancia).
Para mayor seguridad, almacene siempre el texto en bruto de los datos etiquetados. Por ejemplo, si tiene una frase dentro de un artículo que es representativa de los datos que desea etiquetar, asegúrese de almacenar el texto en bruto de esa frase y la etiqueta. Incluso si sólo almacena estos datos como redundancia, realice esta acción. Su ingeniero de aprendizaje automático o científico de datos se lo agradecerá.
8. Mapee sus datos de principio a fin (valores índice).
Si utiliza valores de índice para hacer referencia a datos etiquetados, asigne esos datos y comprenda bien la asignación. Por ejemplo, si almacena una frase o un párrafo de un artículo, asegúrese de que los valores de la base de datos de dónde empieza esa frase o párrafo coinciden con el valor de la fuente de la que almacena los datos. Para estar seguro, pruébalo a partir de la primera frase, los valores de inicio y final, y la última frase.
9. Haz una copia de seguridad de tus datos.
Esto debería explicarse por sí mismo. Haga copias de seguridad de sus datos con regularidad.
10. Construir y pensar en el futuro.
En algunas circunstancias, se tarda años en recopilar suficientes datos etiquetados. Si sabes que quieres resolver un problema en un área específica, empieza a recopilar tantos datos etiquetados y no etiquetados relacionados con el problema que quieres resolver como datos específicos del dominio.
¿Listo para empezar? Consulte nuestra otros artículos sobre aprendizaje automático.