Modèles de production en temps réel - En quoi diffèrent-ils des tests de référence ?

Modèles de production en temps réel - En quoi diffèrent-ils des tests de référence ?

        

Que sont les modèles de production en temps réel et les tests de référence ?

Les modèles de production en temps réel sont des modèles qui permettent aux utilisateurs de prendre des données collectées pendant la production et d'analyser à la fois les capacités de production actuelles et de prédire les résultats de production futurs. Il s'agit de modèles destinés à optimiser la production et à évaluer les performances "avant la sortie", ce qui signifie qu'il s'agit d'outils de prédiction des performances. Si les modèles de production prennent de nombreuses formes, une méthode de modélisation de la production qui gagne en popularité est celle des algorithmes d'apprentissage automatique. Les algorithmes d'apprentissage automatique créent des modèles de production en apprenant à partir de données antérieures, puis en faisant des évaluations et des prédictions sur l'état actuel de la production à la lumière des leçons tirées des données antérieures. 

 

Dans le cadre de cet article, un exemple de modèle de production sera exploré : l'apprentissage automatique pour l'analyse de texte. Ce type de modèle de production d'apprentissage automatique se présente sous la forme de :

  • Le processus de production : analyse de données textuelles, c'est-à-dire d'un article.
  • Le produit de la production : un résumé concis des éléments les plus importants de la production.
    des faits importants de l'article.
  • Le modèle de production : l'algorithme d'apprentissage automatique appliqué au modèle de production.
    article.

Ce modèle de production apprend les informations pertinentes des articles précédents, puis les applique pour résumer les nouveaux articles. Contrairement aux modèles de production en temps réel, les tests de référence sont utilisés pour évaluer rétroactivement le résultat final de la production. Des données sont collectées, à la fois sur le processus de production et sur le produit final, et un ensemble standard de tests est réalisé à partir de ces données pour déterminer la qualité et la performance du produit. Les tests de référence sont basés sur la concurrence, l'objectif étant de "battre" des produits similaires d'autres entreprises ou de dépasser des critères de performance antérieurs, et ils mesurent la performance "après la sortie".

Les tests d'évaluation des performances impliquent :

  • Collecte de données à des moments prédéterminés tout au long de la production.
  • Collecte de données reproductibles - les mêmes données sont collectées pour chaque production et chaque produit.
  • Réalisation d'un ensemble de tests prédéfinis et standardisés sur les données.
  • Noter le produit final et le comparer à d'autres produits.

La principale différence entre les tests de référence et les modèles de production réside dans la différence entre la question "quelle a été la performance de mon produit par rapport à d'autres produits" et la question "comment puis-je optimiser ma production actuelle pour produire le meilleur produit possible".

1. Besoins en données - Quelles sont les données requises pour les modèles de production en temps réel ?

    

Un modèle de production bien développé et bien entraîné offre une multitude d'avantages ; cependant, ces modèles peuvent tout aussi bien être préjudiciables. Un modèle mal développé peut produire des résultats trompeurs, biaisés, voire absurdes. Le facteur déterminant de la qualité du modèle de production est la qualité des données utilisées pour l'entraîner. Lors de la production d'un algorithme d'apprentissage automatique, la question principale est toujours de savoir de quelles données et de combien de données le modèle a besoin pour s'entraîner de manière adéquate.

Les besoins en données pour l'analyse de texte peuvent être répartis comme suit :

  • Quels sont les articles nécessaires à la formation en fonction de l'application, par exemple des articles scientifiques, des journaux ou des blogs ?
  • Quel est le contexte nécessaire pour le texte, c'est-à-dire quels sont les mots, les combinaisons de mots et les définitions de mots les plus pertinents dans l'article ?
  • Combien d'articles l'algorithme doit-il utiliser pour s'entraîner ?

En général, il est préférable de disposer d'un plus grand nombre de données de formation, et ces données doivent être aussi contextuelles que possible. En outre, les données de formation doivent correspondre au cas d'utilisation actuel. Par exemple, si le texte à analyser est un billet de blog scientifique, les données de formation pour le modèle de production doivent inclure à la fois des articles scientifiques et des billets de blog connexes. Plus la distribution des données de formation est proche du sujet du texte analysé, meilleures seront les informations résumées.

2. Data Tuning - Comment les données de formation sont-elles collectées pour les modèles de production ?

    Data tuning relates to how and what data is input into the benchmark test /

production model. This is straightforward for benchmark testing: determine the data to collect during production and how often to collect it. The data needs of the benchmark test are derived from the relative accuracy of previous benchmark tests.


Contrast this with production modeling, where machine learning algorithms are used to predict outputs during production. In this case, data tuning is finding the right data to collect to train the production model. For
text analysis, this involves:

  • Sélectionner un ensemble suffisamment large d'articles pertinents.
  • Providing a lexicon, or context, for the articles - the words, groups of words, and word definitions that convey the most relevant information.
  • Apprendre à partir des articles - itérer sur l'ensemble des données pour découvrir quel sous-ensemble du lexique capture le meilleur résumé de l'information.
  • Application de ce lexique aux nouveaux articles : exécution du modèle de production.

3. Déséquilibre des données - Comment sélectionner les bonnes données de formation pour les modèles de production en temps réel ?

    

L'ajustement de l'ensemble des données de formation pour les modèles de production en temps réel n'est pas une tâche triviale. Toutes les données collectées pour la formation ne seront pas utiles, et une sélection descendante est souvent nécessaire. Les données doivent être pertinentes par rapport au texte à résumer, mais pas trop spécifiques pour ne trouver qu'un sous-ensemble limité d'informations pertinentes, ni trop vagues pour ne pas trouver trop d'informations. En outre, il y aura toujours un déséquilibre dans les données de formation. Il est peu probable de trouver un ensemble de données de formation suffisamment important pour un cas d'utilisation spécifique. Les données de formation doivent donc être équilibrées entre les différents sujets afin de correspondre au mieux à la distribution du sujet étudié.

Plusieurs écueils peuvent être rencontrés lors de la sélection des données d'entraînement, notamment :

  • Le choix d'un ensemble trop large d'articles d'entrée, conduisant à des résumés trop longs ou trop vagues.
  • Le choix d'un ensemble trop restreint d'articles d'entrée, conduisant à des résumés qui manquent d'informations clés.
  • Le choix d'articles de mauvaise qualité, c'est-à-dire de sources basées sur l'opinion, conduisant à des résumés biaisés.
  • Choix du mauvais lexique à appliquer aux articles d'entrée, conduisant à des résumés absurdes.

Trouver le bon ensemble de données de formation n'est pas une tâche triviale et nécessitera des compromis en termes de quantité de données de formation, de pertinence des données de formation et de contexte optimal.

4. Nouveaux vocabulaires - Comment les données de formation sont-elles appliquées dans les différents modèles de production ?

    

Trouver le bon ensemble de formation et l'adapter au cas d'utilisation donné peut s'avérer une tâche coûteuse et chronophage. Le coût associé à l'élaboration d'ensembles de formation fait naître le désir d'étendre les données de formation à d'autres applications. Idéalement, un modèle de production formé sur un ensemble d'articles pourrait être étendu à d'autres applications. L'objectif est de collecter, d'organiser et de contextualiser les données de formation de manière à ce qu'elles puissent s'appliquer à de multiples cas d'utilisation du modèle de production.

Cependant, le nouveau modèle de production ne peut pas comprendre le contexte de l'ancien modèle de production. Chaque nouveau mot du lexique sur lequel l'ancien modèle n'a pas été formé entraîne une perte de précision. Par conséquent, les modèles de production d'analyse de texte doivent être réajustés, c'est-à-dire qu'il faut leur donner un nouveau vocabulaire sur lequel s'entraîner. Cela ne signifie pas pour autant que les anciens modèles de production sont totalement inapplicables aux nouveaux domaines. Il existe plusieurs stratégies pour atténuer la perte de précision dans les différents cas d'utilisation :

  • Décomposition du lexique des données d'apprentissage en sous-groupes, tels que des combinaisons de lettres spécifiques ou des mots à haute fréquence.
  • Co-entraînement : création de l'ensemble de données d'entraînement avec deux contextes différents pour chaque article.
  • Minimisation de la perte réduite : détermination du sous-ensemble d'articles à former pour le nouveau modèle en estimant les articles qui réduisent la perte globale de précision.

5. Temps de latence - Combien de temps faut-il aux modèles de production pour fonctionner ?

    

Bien que les modèles de production en temps réel portent souvent le nom de "temps réel", parce qu'ils exploitent les données de production les plus récentes disponibles, ils peuvent en fait fonctionner à de nombreuses échelles de temps. Par exemple, un modèle de production peut être conçu pour analyser les tendances de l'information et avoir besoin de plusieurs jours de données d'entraînement. Mais, une fois exécuté, ce modèle de production peut fonctionner en quelques minutes pour analyser de nouvelles données.

 

Le temps de latence pour l'analyse de texte dépend des attentes à l'égard du modèle :

  • Combien de temps faut-il pour entraîner le modèle de production / combien de données d'entraînement faut-il collecter ?
  • How often does the model need to predict performance - hourly, daily, weekly, etc.?
  • Quelle quantité de données sera modélisée, un court blog, un article de journal, un chapitre de livre, etc.
  • Quel est le degré d'interaction humaine nécessaire - à quelle fréquence les résultats du modèle sont-ils vérifiés quant à leur exactitude et interprétés par un opérateur humain ?

La modélisation de la production fournit des mesures proactives, ou prédictives, de la performance. Ils évaluent les performances "en amont de la courbe" afin de déterminer comment créer un meilleur produit final. Dans le cas de l'analyse de texte, les modèles de production prédisent quelles informations contenues dans un article de texte sont les plus pertinentes pour une application donnée. Une fois que les modèles de production ont été exécutés et qu'un produit a été fabriqué, des tests de référence peuvent être effectués pour évaluer la valeur du produit final. Les modèles de production offrent plusieurs avantages clés, tels que

  • Réduction des coûts de production grâce à l'optimisation des méthodes de production.
  • Réduction des biais dans les résultats car l'interaction de l'opérateur humain avec les données est réduite.
  • Amélioration de la précision au fil du temps grâce à l'accumulation de données de formation au cours de la production.
  • Une plus grande souplesse, car les changements de production peuvent être effectués en temps réel.

Au fur et à mesure que les algorithmes d'apprentissage automatique s'affinent, la modélisation de la production deviendra non seulement un outil bénéfique, mais aussi un outil vital pour la production. Par conséquent, l'adoption précoce de la modélisation de la production est peu risquée et potentiellement très payante, et les modèles de production joueront un rôle essentiel dans l'évolution des méthodes de production à l'avenir.

En savoir plus sur Skim AI.

    

AI-enabled research management system for market-intelligence.

Consultation gratuite

Discutons de votre idée

    Articles connexes

    • Conception sans titre (18)

      Stability AI a connu des montagnes russes de succès et de défis depuis sa fondation en 2019. De ses tours de financement record à son développement du modèle révolutionnaire Stable Diffusion, l'entreprise a laissé une marque indélébile sur le marché de l'innovation.

      Startups + VC
    • Adobe AI Video s'attaque à Open AI Sora

      Le marché de la création de contenu par l'IA est le théâtre d'une bataille féroce, les géants de la technologie rivalisant pour mettre au point des technologies révolutionnaires de conversion de texte en vidéo. La récente présentation par OpenAI de Sora, un modèle d'IA pionnier capable de générer des vidéos à partir de descriptions textuelles, a préparé le terrain.

      LLMs / NLP
    • Pile d'outils d'IA pour la création de contenu

      La statistique de la semaine : $5,2 milliards, c'est la taille estimée du marché universel de la création de contenu par l'IA, qui devrait atteindre $16,9 milliards d'ici 2028. Dans l'édition de cette semaine, nous donnons un aperçu des outils qui composent le marché de la création de contenu par l'IA.

      Startups + VC

    Prêt à donner un coup de fouet à votre entreprise

    LAISSONS
    PARLER
    fr_FRFrançais