10 preguntas antes de iniciar un proyecto de aprendizaje automático

10 preguntas antes de iniciar un proyecto de aprendizaje automático

    Más del 80% de los proyectos de ciencia de datos no pasan de las pruebas a la producción. Si todo el mundo está empezando un proyecto de aprendizaje automático, ¿dónde está fallando? Sin duda, las soluciones de ML aumentan la eficiencia de quienes se dedican a recopilar o analizar grandes cantidades de datos. Pero, a menudo, la amenazadora idea de cómo poner en marcha un proyecto de este tipo nos impide hacerlo. 

¿Cómo empezar a abordar esta tarea? De la misma forma que se come un elefante: bocado a bocado. A través de mi experiencia dirigiendo a mi equipo en la construcción de una plataforma de IA estándar (Barra de herramientas Skim AI para Chrome) y soluciones personalizadas, he identificado las 10 preguntas que hay que hacerse antes de iniciar un proyecto de aprendizaje automático. Con estas 10 preguntas contestadas, tendrás una base clara de cómo abordar el proyecto.

Preguntas que debe hacerse antes de iniciar un proyecto de aprendizaje automático:

        

1) ¿Cuál es el problema central y el enfoque del proyecto?

Hay varias respuestas válidas para esta pregunta, así que vamos a desglosarla. En primer lugar, identifique el objetivo general: ¿necesita extraer información o clasificarla? 

 

A continuación, identifique con qué nivel de detalle debe ejecutarse. Por ejemplo, ¿debe el modelo analizar por nivel de frase o a nivel de todo el documento? ¿O necesita algo personalizado, como un subconjunto de frases de un párrafo que quizá no sea ideal para aplicar con gran precisión?

2) ¿Qué parámetros se utilizarán para medir el éxito del proyecto y con qué umbrales?

    

Determine los resultados cuantitativos deseados. Tal vez desee aumentar la cantidad de datos clasificados con la extracción automatizada de datos. En este caso, debe indicar en cuánto. O quizá quiera aumentar la cantidad de datos que se etiquetan colectivamente como empresa o poder hacer una predicción con un cierto nivel de precisión. Sea cual sea el objetivo, déjelo claro y establezca métricas cuantificables.

3) ¿Con cuántos datos contamos para empezar?

Lo ideal es disponer de entre dos mil y cinco mil puntos de datos para empezar. cada categoría de clasificación. Es beneficioso disponer de otros cincuenta o cien mil fragmentos de texto sin etiquetar, artículos o equivalentes para utilizarlos como capa en el modelo. Si estuviera creando un clasificador de sentimiento o de otro tipo para las menciones de un producto en los datos de noticias, seguiría siendo bueno tener unos cientos de miles de noticias que mencionen productos y la industria para la que está creando el modelo, incluso si esos artículos no están etiquetados.

4) ¿Cuántos datos se pueden etiquetar antes de empezar el proyecto y cuántos se pueden generar al mes?

Como se menciona en la pregunta 3, el número mínimo de puntos de datos necesarios es de 5.000 por categoría para desarrollar un modelo que proporcione resultados cercanos a la precisión humana. Para establecer un calendario realista, debe tener en cuenta el tiempo que se tardaría en etiquetar manualmente ese primer conjunto.

5) ¿Qué grado de subjetividad hay en el etiquetado realizado por los anotadores humanos?

Sobre metodología:

A veces hay que simplificar el sistema para desplegar un modelo de aprendizaje automático útil. A menudo, esto se debe a que no se dispone de datos suficientes para crear un modelo con precisión humana que distinga entre categorías.

 

¿Es su metodología fácil de entender para un ser humano? ¿Sus categorías de clasificación son distintas y tienen algunas diferencias de vocabulario entre categorías, o es difícil distinguirlas debido a la subjetividad y a la incapacidad de definir reglas con certeza?

 

Si un humano no puede tomar una decisión en uno o dos segundos, una máquina va a tener un problema. Algunos equipos alivian esta situación creando una categoría de clasificación "mixta", y marcan la categoría para que la revise un analista del mismo modo que cuando un Tesla no está seguro de qué hacer en una situación confusa pide al conductor que tome el control del volante.

6) ¿Qué metadatos estarán disponibles para cada documento?

    

Resulta útil determinar los elementos de información que podrá recopilar de cada documento de su base de datos. Puede incluir datos como el autor, la fecha, la hora, la sección del periódico, la ubicación, la fuente, la categoría o las entidades implicadas (entre muchos otros).

7) ¿Es posible acceder a listas de entidades con las que nos encontraremos?

La mayoría de los proyectos de extracción de datos quieren extraer fácilmente las entidades (personas, lugares y cosas) de un fragmento de texto. Muchas empresas desean asignar esos datos a un cliente concreto o mostrar análisis a nivel de entidad a un usuario final (probablemente un cliente). Si necesita hacer coincidir una entidad del texto con una de su base de datos, resulta útil escribir las coincidencias deseadas.

 

Además, si ya tiene entidades etiquetadas en el texto, la construcción de un modelo para extraer entidades del nuevo texto tendrá un alto nivel de precisión. Este es especialmente el caso si el objetivo es etiquetar todas las variaciones de una única entidad unificada (por ejemplo, emparejar "Facebook", "WhatsApp" e "Instagram" con su símbolo bursátil compartido "FB"). La creación de una lista maestra de entidades también es útil si hay varias formas de encontrar una entidad mencionada en un texto que luego es necesario mostrar en una interfaz front-end orientada al cliente, como un cuadro de mandos de BI.

8) ¿Hay algo que podamos hacer para acelerar el proceso de recogida de datos y etiquetado?

    

Los datos son una ventaja competitiva que le permite construir modelos. Debería plantearse desarrollar esta capacidad internamente o externalizarla para sus futuros proyectos.

 

Si no dispone de un equipo interno, considere la posibilidad de subcontratar la recopilación de datos a empresas de la India o Europa del Este. Tienen tarifas muy competitivas que oscilan entre 500 y 1.000 euros al mes por un recopilador de datos, en función de lo sofisticado que sea su sistema de etiquetado.

9) ¿Existen datos no etiquetados del mismo dominio o datos etiquetados que no estén relacionados con la tarea de predicción piloto?

    

Por ejemplo, ¿hay todavía muchos datos por etiquetar que estén almacenados en la base de datos, para este problema en particular u otros documentos específicos del dominio para los que crearemos modelos en el futuro?

 

Si es así, puede construir o adaptar varios modelos lingüísticos para aumentar el rendimiento de la mayoría de las soluciones. Esto se debe a que incluso los datos sin etiquetar son útiles para que los modelos de aprendizaje automático extraigan el significado de las relaciones que ya existen en el texto sin etiquetar.

10) ¿Existe alguna base de datos conocida del texto específico del dominio que comparta un vocabulario (y entidades) similar?

    

Por la misma razón expuesta anteriormente, los datos específicos de un dominio son muy útiles para ML/NLP. A menudo, alguien o algún proveedor de datos tendrá lo que necesitas para empezar, a veces de forma gratuita. Muchos proyectos de investigación se plantean compartir sus conjuntos de datos, a menudo para uso no comercial. Envíeles un correo electrónico. Averigua cuánto costaría acceder a ellos y si existen API. 

 

Google, Facebook, los gobiernos, los proveedores de datos de mercado, los proyectos de investigación y otros pueden ayudarle a sembrar su conjunto de datos inicial con datos que ponen a disposición de la comunidad. A menudo, disponer de un conjunto de datos tan amplio aumenta tu capacidad para sacar más partido a tus modelos, incluso si tienes datos propios menos etiquetados.

Let’s Discuss Your Idea

    Related Posts

    Ready To Supercharge Your Business

    LET’S
    TALK
    es_ESEspañol