Modèles de production en temps réel - En quoi diffèrent-ils des tests de référence ?

Que sont les modèles de production en temps réel et les tests de référence ?

Les modèles de production en temps réel sont des modèles qui permettent aux utilisateurs de prendre des données collectées pendant la production et d'analyser à la fois les capacités de production actuelles et de prédire les résultats de production futurs. Il s'agit de modèles destinés à optimiser la production et à évaluer les performances "avant la sortie", ce qui signifie qu'il s'agit d'outils de prédiction des performances. Si les modèles de production prennent de nombreuses formes, une méthode de modélisation de la production qui gagne en popularité est celle des algorithmes d'apprentissage automatique. Les algorithmes d'apprentissage automatique créent des modèles de production en apprenant à partir de données antérieures, puis en faisant des évaluations et des prédictions sur l'état actuel de la production à la lumière des leçons tirées des données antérieures. 

 

Dans le cadre de cet article, un exemple de modèle de production sera exploré : l'apprentissage automatique pour l'analyse de texte. Ce type de modèle de production d'apprentissage automatique se présente sous la forme de :

  • Le processus de production : analyse de données textuelles, c'est-à-dire d'un article.
  • Le produit de la production : un résumé concis des éléments les plus importants de la production.
    des faits importants de l'article.
  • Le modèle de production : l'algorithme d'apprentissage automatique appliqué au modèle de production.
    article.

Ce modèle de production apprend les informations pertinentes des articles précédents, puis les applique pour résumer les nouveaux articles. Contrairement aux modèles de production en temps réel, les tests de référence sont utilisés pour évaluer rétroactivement le résultat final de la production. Des données sont collectées, à la fois sur le processus de production et sur le produit final, et un ensemble standard de tests est réalisé à partir de ces données pour déterminer la qualité et la performance du produit. Les tests de référence sont basés sur la concurrence, l'objectif étant de "battre" des produits similaires d'autres entreprises ou de dépasser des critères de performance antérieurs, et ils mesurent la performance "après la sortie".

Les tests d'évaluation des performances impliquent :

  • Collecte de données à des moments prédéterminés tout au long de la production.
  • Collecte de données reproductibles - les mêmes données sont collectées pour chaque production et chaque produit.
  • Réalisation d'un ensemble de tests prédéfinis et standardisés sur les données.
  • Noter le produit final et le comparer à d'autres produits.
La principale différence entre les tests de référence et les modèles de production réside dans la différence entre la question "quelle a été la performance de mon produit par rapport à d'autres produits" et la question "comment puis-je optimiser ma production actuelle pour produire le meilleur produit possible".

1. Besoins en données - Quelles sont les données requises pour les modèles de production en temps réel ?

Un modèle de production bien développé et bien entraîné offre une multitude d'avantages ; cependant, ces modèles peuvent tout aussi bien être préjudiciables. Un modèle mal développé peut produire des résultats trompeurs, biaisés, voire absurdes. Le facteur déterminant de la qualité du modèle de production est la qualité des données utilisées pour l'entraîner. Lors de la production d'un algorithme d'apprentissage automatique, la question principale est toujours de savoir de quelles données et de combien de données le modèle a besoin pour s'entraîner de manière adéquate.

Les besoins en données pour l'analyse de texte peuvent être répartis comme suit :

  • Quels sont les articles nécessaires à la formation en fonction de l'application, par exemple des articles scientifiques, des journaux ou des blogs ?
  • Quel est le contexte nécessaire pour le texte, c'est-à-dire quels sont les mots, les combinaisons de mots et les définitions de mots les plus pertinents dans l'article ?
  • Combien d'articles l'algorithme doit-il utiliser pour s'entraîner ?

En général, il est préférable de disposer d'un plus grand nombre de données de formation, et ces données doivent être aussi contextuelles que possible. En outre, les données de formation doivent correspondre au cas d'utilisation actuel. Par exemple, si le texte à analyser est un billet de blog scientifique, les données de formation pour le modèle de production doivent inclure à la fois des articles scientifiques et des billets de blog connexes. Plus la distribution des données de formation est proche du sujet du texte analysé, meilleures seront les informations résumées.

2. Data Tuning - Comment les données de formation sont-elles collectées pour les modèles de production ?

La mise au point des données concerne la manière dont les données sont introduites dans le test de référence / le modèle de production et le type de données qui y sont introduites. de production. Pour les tests de référence, c'est simple : il s'agit de déterminer les données à collecter pendant la production et la fréquence de ces collectes. Les besoins en données du test de référence découlent de la précision relative des tests de référence précédents.

Il en va autrement de la modélisation de la production, où les algorithmes d'apprentissage automatique sont utilisés pour prédire les résultats au cours de la production. Dans ce cas, l'optimisation des données consiste à trouver les bonnes données à collecter pour former le modèle de production. Pour l'analyse Pour l'analyse de texte, il s'agit de
  • Sélectionner un ensemble suffisamment large d'articles pertinents.
  • Fournir un lexique, ou contexte, pour les articles - les mots, groupes de mots et définitions de mots qui transmettent les informations les plus pertinentes.
  • Apprendre à partir des articles - itérer sur l'ensemble des données pour découvrir quel sous-ensemble du lexique capture le meilleur résumé de l'information.
  • Application de ce lexique aux nouveaux articles : exécution du modèle de production.

3. Déséquilibre des données - Comment sélectionner les bonnes données de formation pour les modèles de production en temps réel ?

L'ajustement de l'ensemble des données de formation pour les modèles de production en temps réel n'est pas une tâche triviale. Toutes les données collectées pour la formation ne seront pas utiles, et une sélection descendante est souvent nécessaire. Les données doivent être pertinentes par rapport au texte à résumer, mais pas trop spécifiques pour ne trouver qu'un sous-ensemble limité d'informations pertinentes, ni trop vagues pour ne pas trouver trop d'informations. En outre, il y aura toujours un déséquilibre dans les données de formation. Il est peu probable de trouver un ensemble de données de formation suffisamment important pour un cas d'utilisation spécifique. Les données de formation doivent donc être équilibrées entre les différents sujets afin de correspondre au mieux à la distribution du sujet étudié.

Plusieurs écueils peuvent être rencontrés lors de la sélection des données d'entraînement, notamment :

  • Le choix d'un ensemble trop large d'articles d'entrée, conduisant à des résumés trop longs ou trop vagues.
  • Le choix d'un ensemble trop restreint d'articles d'entrée, conduisant à des résumés qui manquent d'informations clés.
  • Le choix d'articles de mauvaise qualité, c'est-à-dire de sources basées sur l'opinion, conduisant à des résumés biaisés.
  • Choix du mauvais lexique à appliquer aux articles d'entrée, conduisant à des résumés absurdes.

Trouver le bon ensemble de données de formation n'est pas une tâche triviale et nécessitera des compromis en termes de quantité de données de formation, de pertinence des données de formation et de contexte optimal.

4. Nouveaux vocabulaires - Comment les données de formation sont-elles appliquées dans les différents modèles de production ?

Trouver le bon ensemble de formation et l'adapter au cas d'utilisation donné peut s'avérer une tâche coûteuse et chronophage. Le coût associé à l'élaboration d'ensembles de formation fait naître le désir d'étendre les données de formation à d'autres applications. Idéalement, un modèle de production formé sur un ensemble d'articles pourrait être étendu à d'autres applications. L'objectif est de collecter, d'organiser et de contextualiser les données de formation de manière à ce qu'elles puissent s'appliquer à de multiples cas d'utilisation du modèle de production.


Cependant, le nouveau modèle de production ne peut pas comprendre le contexte de l'ancien modèle de production. Chaque nouveau mot du lexique sur lequel l'ancien modèle n'a pas été formé entraîne une perte de précision. Par conséquent, les modèles de production d'analyse de texte doivent être réajustés, c'est-à-dire qu'il faut leur donner un nouveau vocabulaire sur lequel s'entraîner. Cela ne signifie pas pour autant que les anciens modèles de production sont totalement inapplicables aux nouveaux domaines. Il existe plusieurs stratégies pour atténuer la perte de précision dans les différents cas d'utilisation :

  • Décomposition du lexique des données d'apprentissage en sous-groupes, tels que des combinaisons de lettres spécifiques ou des mots à haute fréquence.
  • Co-entraînement : création de l'ensemble de données d'entraînement avec deux contextes différents pour chaque article.
  • Minimisation de la perte réduite : détermination du sous-ensemble d'articles à former pour le nouveau modèle en estimant les articles qui réduisent la perte globale de précision.

5. Temps de latence - Combien de temps faut-il aux modèles de production pour fonctionner ?

Bien que les modèles de production en temps réel portent souvent le nom de "temps réel", parce qu'ils exploitent les données de production les plus récentes disponibles, ils peuvent en fait fonctionner à de nombreuses échelles de temps. Par exemple, un modèle de production peut être conçu pour analyser les tendances de l'information et avoir besoin de plusieurs jours de données d'entraînement. Mais, une fois exécuté, ce modèle de production peut fonctionner en quelques minutes pour analyser de nouvelles données.

 

Le temps de latence pour l'analyse de texte dépend des attentes à l'égard du modèle :

  • Combien de temps faut-il pour entraîner le modèle de production / combien de données d'entraînement faut-il collecter ?
  • À quelle fréquence le modèle doit-il prévoir les performances - toutes les heures, tous les jours, toutes les semaines, etc.
  • Quelle quantité de données sera modélisée, un court blog, un article de journal, un chapitre de livre, etc.
  • Quel est le degré d'interaction humaine nécessaire - à quelle fréquence les résultats du modèle sont-ils vérifiés quant à leur exactitude et interprétés par un opérateur humain ?

La modélisation de la production fournit des mesures proactives, ou prédictives, de la performance. Ils évaluent les performances "en amont de la courbe" afin de déterminer comment créer un meilleur produit final. Dans le cas de l'analyse de texte, les modèles de production prédisent quelles informations contenues dans un article de texte sont les plus pertinentes pour une application donnée. Une fois que les modèles de production ont été exécutés et qu'un produit a été fabriqué, des tests de référence peuvent être effectués pour évaluer la valeur du produit final. Les modèles de production offrent plusieurs avantages clés, tels que

  • Réduction des coûts de production grâce à l'optimisation des méthodes de production.
  • Réduction des biais dans les résultats car l'interaction de l'opérateur humain avec les données est réduite.
  • Amélioration de la précision au fil du temps grâce à l'accumulation de données de formation au cours de la production.
  • Une plus grande souplesse, car les changements de production peuvent être effectués en temps réel.

Au fur et à mesure que les algorithmes d'apprentissage automatique s'affinent, la modélisation de la production deviendra non seulement un outil bénéfique, mais aussi un outil vital pour la production. Par conséquent, l'adoption précoce de la modélisation de la production est peu risquée et potentiellement très payante, et les modèles de production joueront un rôle essentiel dans l'évolution des méthodes de production à l'avenir.

Système de gestion de la recherche basé sur l'IA pour la connaissance du marché.

fr_FRFrançais