Що потрібно знати, перш ніж вибрати набір даних для аналізу настроїв

Що ви повинні знати, перш ніж вибрати
Набір даних для аналізу настроїв

    

Навіщо вам потрібен набір даних аналізу настроїв для навчання?

Моделі настроїв - це тип алгоритму обробки природної мови (NLP), який визначає полярність тексту. Тобто, модель настроїв передбачає, чи є думка, висловлена в тексті, позитивною, негативною або нейтральною. Ці моделі є потужним інструментом для аналізу великих масивів даних, заснованих на думках, таких як пости в соціальних мережах та відгуки про товари. Наприклад, продавець на ринку Amazon може використовувати модель настроїв, щоб швидко оцінити тисячі відгуків і виміряти задоволеність клієнтів своїми товарами. Моделі настроїв також можна використовувати для прогнозування відгуків про новий продукт, порівнюючи метадані продукту зі схожими продуктами та аналізуючи відгуки про них.

 

Як і всі алгоритми машинного навчання, моделі настроїв потребують великих наборів маркованих навчальних даних для розробки та налаштування, які також називають навчальним набором даних для аналізу настроїв. На першому етапі розробки моделі потрібен набір даних для аналізу настроїв, що складається з десятків тисяч висловлювань, які вже позначені як позитивні, негативні або нейтральні. Знайти навчальні дані складно, оскільки людина-експерт повинна визначити та позначити полярність кожного твердження в навчальних даних. Наявність готового тренувального набору даних, які вже промарковані, значно скорочує час і зусилля, необхідні для розробки моделі настроїв. Два таких набори даних настроїв, які часто використовуються для навчання, - це база даних фільмів в Інтернеті (IMDB) та база даних відгуків Amazon.

Набори даних для початкового навчання: Бази даних відгуків IMDB та Amazon

Бази даних відгуків IMDB та Amazon є майже ідеальними для навчання моделей настроїв (докладніше про їхні обмеження буде сказано далі), оскільки вони є готовими наборами даних, які легко маркують настрої. Полярність цих відгуків можна визначити шляхом сегментації відгуків за оцінками. У базі даних IMBD відгуки з оцінкою 0-3 зірки зазвичай вважаються негативними, 4-6 зірок - нейтральними, а 7-10 зірок - позитивними. Аналогічно, для відгуків на Amazon відгуки з 1-2 зірками вважаються негативними, з 3 зірками - нейтральними, а з 4-5 зірками - позитивними. Однак база даних відгуків Amazon не така популярна, оскільки оцінка від 1 до 5 не має такої точності, як система від 1 до 10, а набір даних Amazon складніший, а отже, складніший у використанні.

 

База даних IMDB була використана в багатьох академічних дослідженнях, навчальних посібниках та відкритих кодах. Стандартний набір даних IMDB містить 50 000 відгуків, з рівною кількістю позитивних і негативних відгуків. Загалом, база даних IMDB є більш популярною, ніж база даних Amazon, оскільки вона надає менший і простіший для маніпулювання набір даних. Набір даних IMDB є потужним інструментом для розвитку навичок, необхідних для розробки більш просунутих моделей настроїв.

 

Перевагами бази даних відгуків Amazon є її розмір і складність. Amazon збирає відгуки вже понад 20 років і пропонує набір даних, що містить понад 130 мільйонів маркованих відгуків. Набір даних Amazon також пропонує додаткову перевагу, оскільки містить відгуки кількома мовами. Крім того, база даних Amazon містить марковані "фейкові" або упереджені відгуки. Завдяки своєму розміру та складності, набір даних Amazon дозволяє розробляти більш складні моделі настроїв. Крім того, набір даних Amazon пропонує більше користі, враховуючи, що прогнозування продуктивності продукту за допомогою моделювання настроїв є критично важливим компонентом для сучасного випуску продукту.

Обмеження у застосуванні наборів даних для аналізу настроїв IMDB та Amazon

Незважаючи на те, що ці бази даних заощаджують багато часу та зусиль для навчання моделей настроїв, вони не позбавлені обмежень. Враховуючи кількісну природу відгуків, застосування моделей, навчених за допомогою цих баз даних, до якісних думок, таких як твіти, призводить до втрати точності. Крім того, для бази даних IMBD відгуки є дуже суб'єктивними і залежать від уподобань глядачів, що може спотворювати результати. Аналогічно, для бази даних Amazon упереджені або "фейкові" відгуки є поширеним явищем. Ще одним ускладненням будь-якої бази даних настроїв є вроджена нездатність моделі розпізнавати сарказм, який може бути поширеним серед відгуків.

Крім того, ключові слова (ознаки), знайдені в процесі навчання, обмежені при роботі з оглядами. Рецензії часто повторюються, містять обмежену підмножину ключових термінів. Крім того, в рецензіях зустрічаються терміни, які не зустрічаються у звичайних відгуках, наприклад, "слабкий саундтрек". Через унікальність деяких ключових термінів і брак різноманітності ключових термінів, застосування моделей настроїв, навчених на цих базах даних, може призвести до неоптимальних результатів. Наприклад, якщо компанія хоче використати модель настроїв для прогнозування реакції на зміну в політиці, модель, навчена на базі даних відгуків, не впорається з таким прогнозуванням, оскільки реакція не буде кількісною оцінкою продукту.

Підсумовуючи, можна сказати, що моделі настроїв є потужним інструментом для сучасного бізнесу, і ці моделі вимагають для навчання великого набору даних для аналізу настроїв. Бази даних відгуків IMDB та Amazon - це дві поширені, легкодоступні бази даних настроїв, які є популярними для навчання моделей настроїв. Хоча ці бази даних є корисним інструментом для навчання моделей настроїв, вони мають певні застереження, які необхідно враховувати.

 

 

 

Хочете дізнатися більше про використання Skim AI у сфері ML? Читайте про це тут..

Давайте обговоримо вашу ідею

    Пов'язані публікації

    Готові зарядити ваш бізнес на повну потужність

    ДАВАЙТЕ
    ГОВОРИТИ
    ukУкраїнська