В рамках актуальной инициативы Epica Awards, которая уже более 30 лет известна как творческая премия, присуждаемая журналистами, создала AIJE — эксперимент с применением искусственного интеллекта в жюри. Цель проекта — исследовать потенциал искусственного интеллекта в оценке и понимании творческих идей.
Эксперимент проводился параллельно с конкурсом 2023 года, и его результаты не были включены в основные награды, которые оценивает жюри, состоящее из более чем 150 журналистов-людей.
Несмотря на это, процесс оценки ИИ был тщательным. В первой версии он опирался исключительно на текстовые описания кампаний, предоставленные участниками. Он также ограничивался включенными в шорт-лист записями в категориях, подвергавшихся текстовому объяснению. Участникам был предоставлен инструмент стандартизации, чтобы помочь им превратить творческие концепции в краткие описания, которые можно легко обработать с помощью ИИ.
Николя Юве, операционный директор Epica Awards и креатор AIJE, прокомментировал: «Пологание исключительно на текстовое описание имеет свои преимущества, поскольку несколько демократичнее. В конце концов, хорошая идея должна иметь возможность быть подведена как презентация для лифта».
Описания всех конкурсных работ были сгруппированы по категориям и переданы в новейший API GPT4-Turbo вместе с подсказкой, содержащей описание категории и шкалу оценивания Epica Awards, от 1 до 10. Это обеспечило соответствие ИИ-оценок критериям, используемым членами жюри.
Затем ИИ генерировал баллы, а также текстовое обоснование выбора для каждого. Процесс повторялся не раз, а 80 раз, и все характеристики усреднялись с внедрением межквартильного размаха (IQR). 80 текстовых обоснований также были синтезированы для создания всеобъемлющих комментариев к каждой кампании, подготовленных АI.
Эксперимент AIJE обнаружил умеренную корреляцию с моделями голосования людей, о чем свидетельствует коэффициент корреляции около 0,25.
Николя Юве прокомментировал: «Наши начальные тесты показали многообещающую корреляцию с человеческими отметками, особенно в нижнем ярусе. Однако в реальном эксперименте мы сосредоточились только на шорт-листе, что привело к заметному расхождению, хотя это неудивительно, поскольку все эти работы уже были признаны высококачественными жюри».
Оценки ИИ были выше, в среднем 7,45 балла, в отличие от оценок людей, которые в среднем составляли
6.60. Эта тенденция подчеркивает фундаментальную разницу в подходе к оценке.
«Журналисты, известные своим критическим анализом, обычно более строги в своих оценках. В противоположность этому, AIJE, как правило, легче поддается впечатлениям. В комнате для жюри журналисты могли идентифицировать идеи, которые уже были сделаны ранее, тогда как AIJE оценивал их как новизну», — отмечает Юве.
Эта разница подчеркивает более глубокое понимание журналистов в определении оригинальности. Но AIJE был более беспристрастным.
Чтобы проиллюстрировать человеческий фактор в оценке, Юве приводит пример «The X-Tinction Timeline» от McCann Worldgroup Germany — пост, в котором сравнивается ребрендинг птицы Twitter с вымиранием животных.
Искусственный интеллект прокомментировал: «Мощная и лидирующая на рынке кампания, разумно использующая волну текущего события для решения насущной глобальной проблемы. Творческая параллель, проведенная между ребрендингом Twitter и вымиранием дикой природы, эффективно сочетает поп-культуру с экологическим активизмом».
Человек был более точным в комментировании: «Очень разумный способ использовать и перенаправить возмущение. Если отсутствие пиара — это плохой пиар, то это пошло на пользу и Х, к сожалению. Надеюсь, это конвертировалось в пожертвования для WWF, а не просто во внимание к надменности Маска».
Работа получила серебро в категории Topical&Real Time на конкурсе.
Этот эксперимент дает ценную информацию о потенциальной роли ИИ в оценке креативности. Следующие версии AIJE будут включать в себя больше категорий, а также визуальных материалов.
В 2024 году участники Epica Awards автоматически получат право на участие в следующей итерации AIJE.