У рамках актуальної ініціативи Epica Awards, яка вже понад 30 років відома як творча премія, що присуджується журналістами, створила AIJE — експеримент із застосуванням штучного інтелекту в журі. Проект мав на меті дослідити потенціал штучного інтелекту в оцінці та розумінні творчих ідей.
Експеримент проводився паралельно з конкурсом 2023 року, і його результати не були включені в основні нагороди, які оцінює журі, що складається з понад 150 журналістів-людей.
Незважаючи на це, процес оцінки ШІ був ретельним. У першій версії він спирався виключно на текстові описи кампаній, надані учасниками. Він також обмежувався включеними в шорт-лист записами у категоріях, які піддавалися текстовому поясненню. Учасникам було надано інструмент стандартизації, щоб допомогти їм перетворити творчі концепції на стислі описи, які можна було б легко обробити за допомогою ШІ.
Ніколя Юве, операційний директор Epica Awards і креатор AIJE, прокоментував: «Покладання виключно на текстовий опис має свої переваги, оскільки є дещо демократичнішим. Зрештою, хороша ідея повинна мати можливість бути підсумована як презентація для ліфту».
Описи всіх конкурсних робіт були згруповані за категоріями та передані до новітнього API GPT4- Turbo разом із підказкою, яка містила опис категорії та шкалу оцінювання Epica Awards, від 1 до 10. Це забезпечило відповідність ШІ-оцінок критеріям, що використовуються членами журі.
Потім ШІ генерував бали, а також текстове обґрунтування свого вибору для кожного. Процес повторювався не один раз, а 80 разів, і всі показники усереднювалися з використанням міжквартильного розмаху (IQR). 80 текстових обґрунтувань також були синтезовані для створення всеосяжних коментарів до кожної кампанії, які були підготовлені АІ.
Експеримент AIJE виявив помірну кореляцію з моделями голосування людей, про що свідчить коефіцієнт кореляції близько 0,25.
Ніколя Юве прокоментував: «Наші початкові тести показали багатообіцяючу кореляцію з людськими оцінками, особливо в нижньому ярусі. Однак у реальному експерименті ми зосередилися лише на шорт-листі, що призвело до помітної розбіжності, хоча це й не дивно, оскільки всі ці роботи вже були визнані високоякісними людським журі».
Оцінки ШІ були вищими, в середньому 7,45 бала, на відміну від оцінок людей, які в середньому становили
6.60. Ця тенденція підкреслює фундаментальну різницю в підході до оцінювання.
«Журналісти, відомі своїм критичним аналізом, зазвичай більш суворі у своїх оцінках. На противагу цьому, AIJE, як правило, легше піддається враженням. У кімнаті для журі журналісти могли ідентифікувати ідеї, які вже певним чином були зроблені раніше, тоді як AIJE оцінював їх як новизну», — зазначає Юве.
Ця різниця підкреслює глибше розуміння журналістів у визначенні оригінальності. Але AIJE був більш неупередженим.
Щоб проілюструвати людський фактор в оцінці, Юве наводить приклад «The X-Tinction Timeline» від McCann Worldgroup Germany — пост, у якому порівнюється ребрендинг пташки Twitter із вимиранням тварин.
Штучний інтелект прокоментував: «Потужна та лідируюча на ринку кампанія, яка розумно використовує хвилю поточної події для вирішення нагальної глобальної проблеми. Творча паралель, проведена між ребрендингом Twitter і вимиранням дикої природи, ефективно поєднує поп-культуру з екологічним активізмом».
Людина була точніша у коментуванні: «Дуже розумний спосіб використати і перенаправити обурення. Якщо відсутність піару — це поганий піар, то це пішло на користь і Х, на жаль. Сподіваюся, це конвертувалося в пожертви для WWF, а не просто в увагу до пихи Маска».
Робота отримала срібло в категорії Topical & Real Time на конкурсі.
Цей експеримент дає цінну інформацію про потенційну роль ШІ в оцінці креативності. Наступні версії AIJE включатимуть більше категорій, а також візуальних матеріалів.
У 2024 році учасники Epica Awards автоматично отримають право на участь у наступній ітерації AIJE.