Всі ми так чи інакше вміємо робити висновки на структурованих даних, але більшість розгубиться, якщо попросити зробити аналіз на неструктурованих даних. Сьогодні я спробую трохи детальніше зупинитись саме на цьому процесі.
На всяк випадок,
Неструктуровані дані - це дані які не мають певної структури. Класичні приклади: відгуки про товар чи послугу, повідомлення в соцмережах, результати пошуку на сайті і т.д.
Трохи про самі дані: Коли студенти починають навчання на курсі PRO ANALYTICS - вони заповнюють невелику анкету. Фактично два поля:
І відповіді, звісно, пишуть у вільному форматі. Я завжди читаю їх, але враховуючи, що курсу вже більше 3-х років, то відповідей там багато і захотілось побачити загальну картину.
Ось приклад таких даних:
Як бачите написано багато і різного, але рішення є. Використаємо ChatGPT до цього аналізу і як на мене, забігаючи наперед, то він дуже добре виконав це завдання. Результат розподілу студентів за посадами можна побачити на скріні нижче. А аналіз очікувань та практичних навичок буде трохи далі.
Там, звісно, є велика частина Невідомого, але враховуючи відповіді деяких студентів, які проходять вже другий чи третій курс, наприклад такі:
- "Все, що буде на курсі"
- "очікування, що курс крутий, як і завжди )"
- та інші в такому форматі, то це нормально. Не тільки ChatGPT не знає куди їх віднести)
Нижче розповім трохи про процес і лайфхаки такого аналізу, бо насправді просто кинути файл і сказати побудуй візуалізацію тут не вийде. Точніше візуалізація вийде, але користі з неї не буде. Приклад першого аналізу "в лоб" можна побачити на скріні нижче.
Тому давайте розберемо, як робити це правильніше. Звісно що є купа підходів до такого промптингу, тому нижче поділюсь тим, що працює в мене:
Нижче про кожен з пунктів детальніше.
Якщо підхід "в лоб" не працює, то можна спробувати попросити чат провести категоризацію, але, скоріш за все, він може виділити не ті групи, які вам потрібні. Наприклад, мені він виділив дата-інженерів окремо, хоча такий був всього один за всю історію курсу.
Тому найкраще, щоб ви самі попросили його розподілити існуючі варіанти на підготовлені вами категорії. Я це робив в два етапи:
В моєму випадку я вибрав підхід, який описав вище, тому що я знаю більшість категорій професій, які приходять до мене на курс. Просто не очікував, що SEO-спеціалістів вже значна група. Якщо ж вам, завідомо, не відомі варіанти - є ще один альтернативний шлях формування списку категорій - попросити чат проаналізувати входження слів у відповідях і на основі них сформувати Категорії. Ось приклад відповіді чату, на основі якої я б міг сформувати категорії:
Проблема цього підходу в тому, що він не враховує логічні для нас поєднання, наприклад, Маркетолог, Marketing і Digital, тут все мова про маркетолога. Або PPC і Контекстної. Тому виділення ключових слів це лише початок. Далі потрібно їх згрупувати в логічні групи. В моєму випадку це виглядало так:
Як ви бачите, цей підхід дуже допомагає в формуванні категорій навіть якщо ви не дуже знайомі з даними. Але фінальна наша ціль не просто виділення категорій, а визначити, до якої Категорії (Професії) відноситься студент. Тому наступний крок - це вже призначення кожному студенту його стандартизованої професії, нижче приклад, що з того вийшло.
Як ви бачите, цей підхід наче добре працює, але насправді є й багато ситуацій, де чат повиставляв Інше там, де при логічному аналізі ми б без проблем віднесли відповідь студента до потрібної мені категорії. Один з таких прикладів “CMO” - мені, наприклад, зрозуміло, що це Маркетолог, але оскільки студенти пишуть таку відповідь не часто, чат просто проігнорував цей ключ при аналізі. Щоб правильно співвіднести такі відповіді ми використаємо ще один спосіб.
Як ви вже зрозуміли, наша мета тепер не просто шукати ключові слова, а провести логічний аналіз. Його приклад нижче:
Ну і нижче ви також бачите як ChatGPT пропонує вам запустити такий аналіз в промпті. Просто використайте фразу “Гнучка класифікація за логікою”. Це і було останнім кроком мого розподілення. Я, звісно, ще запросив вивести що там залишилось в Інше після такого аналізу, але там дійсно “Інше”))
Результат по професіям ви вже бачили на початку статті. Схожий аналіз я провів і для відповідей в колонці Які знання та практичні навички ти хочеш отримати на курсі? Очікування від курсу? Результати нижче:
Ця стаття не є розширеним посібником по аналізу неструктурованих даних. Насправді, зазвичай, все це набагато складніше, ніж вам могло здатись. Але основна моя мета, донести думку, що навіть непідготовлена людина маючи під руками неструктуровані дані і ChatGPT та використовуючи прості техніки може витягнути з них певні інсайти за досить короткий проміжок часу. І, надіюсь, мені це вдалося.
А як ви зараз аналізуєте свої неструктуровані дані? Чи використовуєте ChatGPT для аналізу і якщо так, то які використовуєте техніки?
Якщо вам сподобався матеріал — підписуйтесь на мій канал в Telegram та Facebook.
Вебаналітик, Маркетолог