10 запитань, які варто поставити перед початком проекту з машинного навчання

10 запитань, які варто поставити перед початком проекту з машинного навчання

    Понад 80% проектів з науки про дані не виходять за рамки тестування і не переходять у виробництво. Якщо всі починають проєкти з машинного навчання, то що ж йде не так? Безсумнівно, ML-рішення підвищують ефективність для тих, хто займається збором та аналізом великих масивів даних. Але часто нас зупиняє страх перед тим, як реалізувати такий проект. 

Тож як ви навіть починаєте підходити до такого завдання? Так само, як ви їсте слона - шматок за шматком. З мого досвіду керівництва командою над створенням стандартної АІ-платформи (Пропустити панель інструментів AI Chrome) та індивідуальних рішень, я визначив 10 запитань, які варто поставити перед початком проекту з машинного навчання. Відповівши на ці 10 запитань, ви отримаєте чітке розуміння того, як підходити до проекту.

10 запитань, які варто поставити перед початком проекту з машинного навчання

        

1) Яка основна проблема та фокус проекту?

Існує кілька правильних відповідей на це запитання, тож давайте розберемо їх. По-перше, визначте загальну мету: вам потрібно витягти інформацію чи засекретити інформацію? 

 

Далі визначте, на якому рівні деталізації це має бути виконано. Наприклад, чи повинна модель аналізувати на рівні речень або на рівні всього документа. Або вам потрібно щось нестандартне, наприклад, підмножина речень в абзаці, що може бути не ідеально реалізовано з високою точністю?

2) Які показники будуть використовуватися для оцінки успіху проекту, і на якому пороговому рівні?

    

Визначте кількісні бажані результати. Можливо, ви хочете збільшити кількість даних, які засекречуються за допомогою автоматизованого вилучення даних. У цьому випадку ви повинні вказати, на скільки саме. Або, можливо, ви хочете збільшити кількість даних, які ви маркуєте колективно як фірма, або мати можливість робити прогнози з певним рівнем точності. Якою б не була ваша мета, чітко сформулюйте її та встановіть вимірювані показники.

3) З яким обсягом даних ми маємо почати?

В ідеалі, вам потрібно мати від двох до п'яти тисяч точок даних для початку кожен категорія класифікації. Корисно мати ще від п'ятдесяти до ста тисяч немаркованих текстів, статей або еквівалентів, які можна використовувати як шар у вашій моделі. Якщо ви будуєте класифікатор настроїв або інший класифікатор для згадок про продукт у даних новин, все одно було б корисно мати кілька сотень тисяч новин, у яких згадуються продукти та галузі, для яких ви будуєте модель, навіть якщо ці статті не позначені.

4) Скільки даних можна маркувати до початку проекту і скільки ви можете генерувати щомісяця?

Як згадувалося в питанні 3, мінімальна кількість точок даних, необхідна для розробки моделі, яка дає результати, близькі до людської точності, становить 5 000 на категорію. Для того, щоб створити реалістичну часову шкалу, слід врахувати, скільки часу знадобиться для виконання маркування цього першого набору вручну.

5) Наскільки суб'єктивним є маркування людьми-анотаторами?

Про методологію:

Іноді для розгортання корисної моделі машинного навчання доводиться спрощувати систему. Часто причиною цього є те, що у вас просто не вистачає даних, щоб побудувати модель з точністю до людського рівня для розрізнення категорій.

 

Чи є ваша методологія зрозумілою для людини? Чи є ваші категорії класифікації чіткими та мають певні лексичні відмінності між категоріями, або ж їх важко розрізнити через суб'єктивність та неможливість визначити правила з упевненістю?

 

Якщо людина не може прийняти рішення протягом однієї-двох секунд, то і у машини виникнуть проблеми. Деякі команди вирішують цю проблему, створюючи "змішану" категорію класифікації і позначаючи її для перегляду аналітиком, так само, як коли Tesla не впевнена, що робити в заплутаній ситуації, вона просить водія взяти кермо в свої руки.

6) Які метадані будуть доступні для кожного документа?

    

Корисно визначити, яку інформацію ви зможете зібрати з кожного документа у вашій базі даних. Це можуть бути такі речі, як автор, дата, час, розділ газети, місцезнаходження, джерело, категорія або залучені організації (серед багатьох інших).

7) Чи можна отримати доступ до списків організацій, з якими ми зустрінемося?

Більшість проектів з видобування даних хочуть легко вилучати сутності (людей, місця та речі) з тексту. Багато компаній хочуть зіставити ці дані з конкретним клієнтом або показати аналітику на рівні сутностей кінцевому користувачеві (ймовірно, клієнту або замовнику). Якщо вам потрібно зіставити сутність у тексті з сутністю у вашій базі даних, корисно виписати бажані відповідності.

 

Крім того, якщо ви вже маєте позначені в тексті сутності, побудова моделі для вилучення сутностей з нового тексту буде працювати з високим рівнем точності. Це особливо актуально, якщо мета полягає в тому, щоб позначити всі варіації однієї уніфікованої сутності (наприклад, зіставити "Facebook", "WhatsApp" та "Instagram" з їхнім спільним біржовим символом "FB"). Створення основного списку сутностей також корисне, якщо ви різними способами знаходите згадану в тексті сутність, яку потім потрібно відобразити у клієнтському інтерфейсі, наприклад, на інформаційній панелі BI.

8) Чи можемо ми якось допомогти прискорити процес збору даних/маркування?

    

Дані - це конкурентна перевага, яка дозволяє вам будувати моделі. Вам слід розглянути можливість створення такої можливості власними силами або за допомогою аутсорсингу, щоб уможливити реалізацію ваших майбутніх проектів.

 

Якщо у вас немає власної команди, розгляньте можливість аутсорсингу збору даних компаніям в Індії або Східній Європі. У них дуже конкурентоспроможні ціни, які можуть становити від 500 до 1000 доларів на місяць за збір даних, залежно від того, наскільки складною є ваша система маркування.

9) Чи існують немарковані дані з тієї ж області або будь-які наявні марковані дані, які не пов'язані/напівпов'язані з пілотним завданням прогнозування?

    

Наприклад, чи багато даних, які зберігаються в базі даних, ще потрібно позначити, для цієї конкретної проблеми або інших специфічних документів, для яких ми будемо створювати моделі в майбутньому?

 

Якщо це так, ви можете створити або адаптувати різні мовні моделі, щоб підвищити продуктивність більшості рішень. Це пояснюється тим, що навіть немарковані дані корисні для моделей машинного навчання, оскільки вони можуть витягувати значення зі зв'язків, які вже існують у немаркованому тексті.

10) Чи існує якась відома база даних текстів з певної тематики, які мають схожу лексику (та сутності)?

    

З тієї ж причини, що зазначена вище, для ВК/ФТ дуже корисними є дані, що стосуються конкретного домену. Часто хтось або якийсь постачальник даних може надати вам те, що потрібно для початку роботи, іноді безкоштовно. Багато дослідницьких проектів розглядають можливість поділитися своїми наборами даних, часто для некомерційного використання. Просто напишіть їм. Дізнайтеся, скільки коштуватиме доступ до даних і чи є API. 

 

Google, Facebook, уряди, постачальники ринкових даних, дослідницькі проекти та інші можуть допомогти вам поповнити ваш початковий набір даних даними, які вони надають спільноті. Часто наявність такого великого набору даних збільшує вашу здатність отримати більше від ваших моделей, навіть якщо ви маєте менше власних маркованих даних.

Давайте обговоримо вашу ідею

    Пов'язані публікації

    Готові зарядити ваш бізнес на повну потужність

    ДАВАЙТЕ
    ГОВОРИТИ
    ukУкраїнська