Виробничі моделі в реальному часі - чим вони відрізняються від еталонних тестів?

Що таке виробничі моделі в реальному часі та бенчмарк-тести?

Моделі виробництва в реальному часі - це моделі, які дозволяють користувачам брати дані, зібрані під час виробництва, і аналізувати як поточні виробничі можливості, так і прогнозувати майбутні результати виробництва. Це моделі, призначені для оптимізації виробництва та оцінки продуктивності "до випуску", тобто вони є інструментами прогнозування продуктивності. Хоча виробничі моделі набувають різних форм, одним із методів виробничого моделювання, який набуває все більшої популярності, є алгоритми машинного навчання. Алгоритми машинного навчання створюють виробничі моделі, навчаючись на минулих даних, а потім роблячи оцінки і прогнози щодо поточного стану виробництва у світлі уроків, отриманих з минулих даних. 

 

У цій статті ми розглянемо приклад виробничої моделі: машинне навчання для аналізу тексту. Цей тип виробничої моделі машинного навчання має такий вигляд:

  • Виробничий процес: аналіз текстових даних, тобто статті.
  • Виробничий продукт/випуск продукції: стислий виклад найбільш
    важливі факти в статті.
  • Виробнича модель: алгоритм машинного навчання, застосований до
    статтю.

Ця виробнича модель вивчає відповідну інформацію з минулих статей, а потім застосовує цю інформацію для підсумовування нових статей. На відміну від моделей виробництва в реальному часі, еталонні тести використовуються для ретроспективної оцінки кінцевого результату виробництва. Збираються дані як про виробничий процес, так і про кінцевий продукт, і на основі цих даних проводиться стандартний набір тестів для визначення якості та продуктивності продукту. Тестування проводиться на основі конкуренції, з метою "перевершити" аналогічні продукти інших компаній або перевершити попередні еталони продуктивності, і вимірює продуктивність "після випуску".

Тестування включає в себе бенчмарк:

  • Збір даних у заздалегідь визначений час протягом усього виробництва.
  • Збір повторюваних даних - одні й ті самі дані збираються для кожного виробництва та продукту.
  • Виконання заздалегідь визначеного, стандартизованого набору тестів на даних.
  • Оцінка кінцевого продукту та порівняння його з іншими продуктами.
Ключова відмінність між еталонними випробуваннями та виробничими моделями полягає в тому, що між питаннями "наскільки добре мій продукт працює порівняно з іншими продуктами" та "як я можу оптимізувати своє поточне виробництво, щоб випускати найкращий з можливих продуктів".

1. Потреби в даних - які дані потрібні для виробничих моделей в реальному часі?

Добре розроблена і навчена виробнича модель дає багато переваг, але ці моделі можуть так само легко завдати шкоди. Погано розроблена модель може призвести до оманливих, упереджених або навіть безглуздих результатів. Вирішальним фактором якості виробничої моделі є якість даних, які використовуються для її навчання. При створенні будь-якого алгоритму машинного навчання головним питанням завжди буде те, які дані і в якому обсязі потрібні моделі для адекватного навчання?

Потреби в даних для аналізу тексту можна розбити на такі групи:

  • Які статті потрібні для навчання на основі програми, тобто наукові статті, газети чи блоги?
  • Який контекст необхідний для тексту, тобто які слова, словосполучення та визначення слів у статті є найбільш релевантними?
  • Скільки статей потрібно використовувати алгоритму для навчання?

Загалом, чим більше навчальних даних, тим краще, і ці дані потребують якомога більшого контексту. Крім того, навчальні дані повинні відповідати поточному сценарію використання. Тобто, якщо текст для аналізу - це наукова публікація в блозі, то навчальні дані для виробничої моделі повинні включати як наукові статті, так і пов'язані з ними публікації в блозі. Чим ближче розподіл навчальних даних відповідає тематиці тексту, що аналізується, тим кращою буде підсумкова інформація.

2. Налаштування даних - як збираються навчальні дані для виробничих моделей?

Налаштування даних стосується того, як і які дані вводяться в еталонний тест / виробничу модель. Для еталонного тестування це просто: визначте, які дані збирати під час виробництва і як часто їх збирати. Потреба в даних для еталонного тесту визначається на основі відносної точності попередніх еталонних тестів.

На відміну від виробничого моделювання, де алгоритми машинного навчання використовуються для прогнозування результатів під час виробництва. У цьому випадку налаштування даних - це пошук правильних даних, які потрібно зібрати для навчання виробничої моделі. Для Для аналізу тексту це передбачає
  • Відбір достатньо великого набору релевантних статей.
  • Надання лексики, або контексту, для статей - слів, груп слів і визначень слів, які передають найбільш релевантну інформацію.
  • Навчання на основі статей - повторюйте набір даних, щоб з'ясувати, яка підгрупа лексики найкраще відображає суть інформації.
  • Застосування цієї лексики до нових статей: запуск виробничої моделі.

3. Дисбаланс даних - як вибрати правильні навчальні дані для виробничих моделей у реальному часі?

Налаштування набору навчальних даних для виробничих моделей у реальному часі не є тривіальним завданням. Не всі дані, зібрані для навчання, будуть корисними, і часто потрібно проводити відбір. Дані мають бути релевантними до тексту, який узагальнюється, але не настільки конкретними, щоб знайти обмежену підмножину релевантної інформації, але й не настільки розпливчастими, щоб знайти занадто багато інформації. Крім того, у навчальних даних завжди буде дисбаланс. Знайти достатньо великий набір навчальних даних, орієнтований на один конкретний випадок використання, малоймовірно, тому навчальні дані повинні бути збалансовані за темами, щоб найкращим чином відповідати розподілу теми, що вивчається.

Під час відбору навчальних даних можна зіткнутися з кількома підводними каменями, такими як

  • Вибір занадто широкого набору вхідних статей, що призводить до занадто довгих або занадто розпливчастих резюме.
  • Вибір занадто вузького набору вхідних статей, що призводить до створення резюме, в яких відсутня ключова інформація.
  • Вибір неякісних статей, тобто джерел, що ґрунтуються на думках, що призводить до упереджених висновків.
  • Вибір неправильної лексики для застосування до вхідних статей, що призводить до безглуздих анотацій.

Пошук правильного набору навчальних даних не є тривіальним завданням і вимагає компромісів щодо кількості навчальних даних, релевантності навчальних даних та оптимального контексту.

4. Нові словники - як навчальні дані застосовуються в різних виробничих моделях?

Пошук правильного навчального набору та його налаштування для конкретного випадку використання може бути дорогим і трудомістким завданням. Витрати, пов'язані з розробкою навчальних наборів, породжують бажання розширити навчальні дані для різних застосувань. В ідеалі, виробнича модель, навчена на одному наборі статей, може бути поширена на інші додатки. Мета полягає в тому, щоб зібрати, організувати і надати контекст навчальним даним таким чином, щоб їх можна було застосовувати в різних варіантах використання виробничої моделі.


Однак нова виробнича модель не може зрозуміти контекст старої виробничої моделі. Кожне нове слово в лексиконі, на якому стара модель не тренувалася, призводить до втрати точності. Тому моделі для аналізу текстів потрібно переналаштовувати, тобто давати нову лексику, на якій можна тренуватися. Однак це не означає, що старі виробничі моделі повністю незастосовні до нових сфер. Існує кілька стратегій для зменшення втрати точності в різних варіантах використання, зокрема

  • Розбиття навчальної лексики на підгрупи, наприклад, певні літерні комбінації або високочастотні слова.
  • Спільне навчання: створення набору навчальних даних з двома різними контекстами для кожної статті.
  • Мінімізація урізаних втрат: визначення підмножини статей для навчання нової моделі шляхом оцінки того, які статті зменшують загальну втрату точності.

5. Затримка в часі - скільки часу потрібно для запуску виробничих моделей?

Хоча виробничі моделі часто називають "реальним часом", оскільки вони використовують найсвіжіші доступні виробничі дані, насправді вони можуть працювати в різних часових масштабах. На практиці, різні потреби в даних визначають час виконання; наприклад, виробнича модель може бути розроблена для аналізу тенденцій в інформації, а отже, потребувати багатоденних навчальних даних. Але після виконання ця виробнича модель може бути запущена за лічені хвилини для аналізу нових даних.

 

Час затримки для аналізу тексту пов'язаний з очікуваннями від моделі:

  • Скільки часу потрібно для навчання виробничої моделі / скільки навчальних даних потрібно зібрати?
  • Як часто модель повинна прогнозувати продуктивність - щогодини, щодня, щотижня тощо?
  • Який обсяг даних буде моделюватися, короткий блог, стаття в журналі, глава в книзі і т.д.?
  • Наскільки необхідна людська взаємодія - як часто результати моделювання перевіряються на точність та інтерпретуються людиною-оператором?

Виробниче моделювання забезпечує проактивні, або прогнозні, показники ефективності. Вони оцінюють продуктивність "на випередження", щоб визначити, як створити кращий кінцевий продукт. У наведеному прикладі аналізу тексту виробничі моделі передбачають, яка інформація, що міститься в текстовій статті, є найбільш релевантною для певної програми. Після того, як виробничі моделі виконані і продукт створений, можна провести еталонні тести, щоб оцінити цінність кінцевого продукту. Виробничі моделі надають кілька ключових переваг, таких як

  • Зниження собівартості продукції завдяки оптимізації виробничих методів під час виробництва.
  • Зменшення похибки у вихідних даних завдяки зменшенню взаємодії людини-оператора з даними.
  • Покращення точності з часом, оскільки під час виробництва збирається більше навчальних даних.
  • Підвищена гнучкість, оскільки зміни у виробництві можна вносити в режимі реального часу.

Оскільки алгоритми машинного навчання стають все більш досконалими, виробниче моделювання стане не просто корисним, а життєво необхідним інструментом для виробництва. Тому раннє впровадження виробничого моделювання має низький ризик, але потенційно може принести дуже високі прибутки, а виробничі моделі відіграватимуть вирішальну роль у формуванні того, як буде здійснюватися виробництво в майбутньому.

Система управління дослідженнями зі штучним інтелектом для ринкової розвідки.

ukУкраїнська