6 consejos para dirigir un proyecto de aprendizaje automático

El aprendizaje automático y el aprendizaje profundo ya no son solo palabras de moda. Esta tecnología, antaño fronteriza, se ha convertido en un componente crucial de la pila tecnológica de empresas y startups, lo que ha transformado el desarrollo de software. Dado que el Machine Learning (ML) está entrelazado con los procesos de toma de decisiones en las empresas, queremos hacer la distinción de que la pila de tecnología ML es un proceso y no solo una pieza estática de software.

Las soluciones de aprendizaje automático están impulsadas por la disponibilidad y la cantidad de los datos adecuados, lo que cambia nuestra forma de pensar sobre la construcción, el mantenimiento y la mejora de la infraestructura. La creación de soluciones de aprendizaje automático no es sencilla debido a estos factores. Los científicos de datos, los desarrolladores de software y los ingenieros de DevOps deben colaborar en varias áreas para producir una solución útil. En este artículo se describen 6 buenas prácticas que toda organización que lidere un proyecto de Machine-Learning debería seguir.

1. Definir los objetivos y especificar los requisitos del proyecto

Definir una meta u objetivo concreto no es tan sencillo como parece. Existen diversos enfoques para resolver un problema, y no siempre está claro cuál es el mejor. Puede resultar tentador dedicar menos tiempo a definir claramente los objetivos, pero los objetivos mal definidos son la forma en que los proyectos acaban descarrilando las iniciativas, ya que el equipo que construye la solución no sabrá a qué dar prioridad y puede perderse probando para ver qué pueden conseguir varios modelos y destruir el impulso del proyecto, la probabilidad de que se ponga en marcha y el retorno de la inversión (ROI) debido a un desarrollo interminable.

Tener objetivos y prioridades claramente definidos es esencial para gestionar los objetivos de aprendizaje automático de su empresa. A menudo acabará sobrepasando los plazos debido a un alcance cada vez mayor y a la falta de criterios de evaluación, lo que puede hacer que deje de centrarse en identificar las soluciones que tienen un ROI y cumplen los objetivos de su empresa. Desde el principio del proyecto, todo el mundo debe trabajar con el mismo objetivo.

2. Elabore una lista de comprobación antes de iniciar su proyecto de ML

Debería tener un concepto sólido de cómo aparecerá su progreso incluso antes de escribir su primera línea de código. Piensa en las siguientes preguntas antes de empezar tu proyecto de ML:

¿Qué quiere conseguir su proyecto de ML?
¿Dispone de los datos adecuados?
¿Cómo se evaluará el rendimiento del modelo?
¿Es necesario que el modelo sea ligero y se ejecute en la máquina de un usuario o en el servidor de la empresa?
¿Puede el modelo procesar los datos por adelantado o necesita un modelo ligero que pueda funcionar en tiempo real?
¿Existe la infraestructura necesaria?
¿Es el rendimiento adicional de modelos más grandes y más GPU realmente importante para el caso de uso o merece la pena el retorno de la inversión?
¿Cuáles son los requisitos para el despliegue?
¿Es necesaria la explicabilidad?

3. Planificar y definir el proceso iterativo

Aunque el modelo inicial se esté utilizando en producción, tu trabajo aún no ha terminado. La clave para implementar con éxito el aprendizaje automático es empezar poco a poco, poner en marcha un MVP con los datos de los que se dispone y comparar la solución para ver si la precisión del modelo es o puede ser comparable con el rendimiento a nivel humano. Una vez hecho esto, se evalúa si hay retorno de la inversión en iteraciones posteriores, invirtiendo en obtener más y mejores datos y, potencialmente, resolviendo los casos extremos que no tienen suficientes datos con técnicas que no sean de aprendizaje automático.

Repita siempre el procedimiento para cada nueva solución y realice los cambios antes de la siguiente iteración. Los objetivos empresariales casi siempre varían. A medida que evolucionan la tecnología subyacente, la investigación, los métodos y el hardware para alimentar las soluciones de cálculo intensivo. Todo ello puede dar lugar a la necesidad de afinar u optimizar el modelo para adaptarlo a las condiciones cambiantes del mundo o el sector en el que se opera, los datos con los que se trabaja, nuevas capacidades o sistemas totalmente nuevos.

4. Recopilación de datos históricos de los sistemas existentes

A veces los requisitos no son muy obvios, lo que dificulta la identificación inmediata del objetivo correcto. Cuando se integra Machine Learning en sistemas heredados, esto ocurre con frecuencia. Recopila toda la información posible del sistema actual antes de entrar en los detalles de lo que hará tu aplicación y la función que desempeñará el aprendizaje automático.

De este modo, puede llevar a cabo la tarea encomendada utilizando datos históricos. Además, estos datos pueden señalar inmediatamente las áreas que necesitan optimización y el curso de acción óptimo.

5. Garantizar el acceso a los datos necesarios

Una vez que se tiene una idea del tema, se necesita información pertinente. Merece la pena buscarla porque la mayoría de las fuentes de datos son accesibles gratuitamente en sitios web como Kaggle y Conjuntos de datos de la UCI. Si su problema es distinto, puede que necesite recopilar, organizar y almacenar sus propios datos. El scraping de Internet y la categorización manual de los datos que recopile son dos opciones frecuentes. Obtener la calidad adecuada y la cantidad suficiente de los datos que necesita suele ser lo que le permitirá crear soluciones de ML útiles que tengan más probabilidades de entrar en producción tras las pruebas iniciales.

6. Evaluar y obtener la pila tecnológica adecuada

Los modelos de ML elegidos deben ejecutarse manualmente para comprobar su precisión después de la selección. Por ejemplo, en el caso del marketing por correo electrónico personalizado, debe adaptar su estrategia y probar más variables si los correos electrónicos promocionales que se envían no generan una tasa de conversión superior a la de referencia.

Es necesario seleccionar la mejor tecnología tras realizar pruebas manuales con éxito. Los equipos de ciencia de datos deben tener libertad para elegir entre varias pilas tecnológicas para permitir la experimentación y la selección de la pila tecnológica que simplifique el ML. La evaluación comparativa debe realizarse en función de la velocidad, la estabilidad, el rendimiento de la inversión, la capacidad para resolver problemas de los trabajadores y los clientes, los casos de uso futuros y el rendimiento en el dispositivo o en la nube.

¿Cómo puede ayudar Skim AI?

Los modelos de aprendizaje automático y aprendizaje profundo requieren amplios conocimientos del dominio, acceso a datos etiquetados de alta calidad y recursos informáticos para el entrenamiento y la mejora continuos de los modelos. La mejora de los modelos de aprendizaje automático es una habilidad que evoluciona a partir de abordar metódicamente las deficiencias de los modelos existentes con las restricciones dadas. Skim AI proporciona soluciones útiles para personas de todos los niveles, desde estudiantes hasta directores ejecutivos, que le ayudan a eliminar el ruido, discernir mejores perspectivas y tomar mejores decisiones basadas en datos que cuentan.

es_ESEspañol