Сравнительный анализ моделей ИИ в Factorio Learning Environment

Оценка производительности Claude 3.5-Sonnet, gpt-4o-mini и одноклассника

Подготовлено: Minyatutonasruto | Дата:

1. Введение

Factorio — это популярная стратегическая игра в реальном времени, в которой игроки проектируют и управляют сложными заводами для производства различных товаров. Игра требует навыков стратегического планирования, управления ресурсами и автоматизации, что делает её отличной платформой для тестирования возможностей искусственного интеллекта (ИИ).

Factorio Learning Environment (FLE) — это специализированная среда, разработанная для оценки производительности больших языковых моделей (LLM) в Factorio. FLE предоставляет стандартизированные задачи и метрики, позволяя объективно сравнивать различные модели ИИ.

В доклабе будет детальный сравнительный анализ трех известных моделей между собой: Claude 3.5-Sonnet от Anthropic, gpt-4o-mini от OpenAI и Одноклассник от мамки. Мы оцениваем их производительность в двух основных режимах FLE: lab-play (лабораторная игра) и open-play (открытая игра). Кроме того, мы анализируем стили кодирования, механизмы обработки ошибок и эффективность использования токенов.

Результаты показывают, что Claude 3.5-Sonnet значительно превосходит gpt-4o-mini и одноклассника в обоих режимах, демонстрируя более высокие способности к планированию и выполнению задач. Одноклассник показал крайне низкую производительность, несмотря на высокое потребление ресурсов. Однако все модели имеют ограничения, особенно в области пространственного мышления и восстановления после ошибок.

Структура доклада следующая: Раздел 2 описывает методологию исследования. Разделы 3 и 4 посвящены сравнению производительности в lab-play и open-play соответственно. Раздел 5 анализирует стили кодирования и подходы к обработке ошибок. Раздел 6 рассматривает использование токенов и затраты. Раздел 7 содержит выводы и рекомендации.

2. Методология

Factorio Learning Environment предоставляет два ключевых режима для тестирования моделей ИИ: lab-play и open-play.

2.1 Lab-Play

В режиме lab-play агенты должны построить производственные линии для 24 различных объектов, от простых (например, железные плиты) до сложных (например, ядерные реакторы). Успех определяется тем, удалось ли агенту создать рабочую производственную линию в заданный срок.

Метрика успеха — процент успешно выполненных задач из общего числа (24).

2.2 Open-Play

В режиме open-play агенты строят максимально крупный завод с нуля на процедурно сгенерированной карте. Основная метрика — производственный балл (Production Score, PS), отражающий общий объем производства за фиксированное время. Также учитывается количество достигнутых этапов (milestones), таких как исследование технологий или производство определенных предметов.

2.3 Метрики оценки

2.4 Оцениваемые модели

В докладе рассматриваются три модели:

Все модели тестировались в идентичных условиях для обеспечения справедливого сравнения.

3. Сравнение в Lab-Play

В режиме lab-play Claude 3.5-Sonnet достиг процента успеха 21.9%, выполнив 7 из 24 задач, тогда как gpt-4o-mini показал результат 4.2%, выполнив лишь 1 задачу. Одноклассник продемонстрировал крайне низкий результат, с процентом успеха 0%, не выполнив ни одной задачи и часто отказываясь от продолжения тестирования.

Модель Процент успеха (%) Выполненные задачи
Claude 3.5-Sonnet 21.9 7/24
gpt-4o-mini 4.2 1/24
Одноклассник 0.0 0/24

Анализ

Claude 3.5-Sonnet продемонстрировал хорошие краткосрочные навыки, успешно справляясь с задачами по созданию простых и умеренно сложных производственных линий. Однако модель испытывала трудности с пространственным планированием для более сложных целей, требующих взаимосвязанных компонентов.

gpt-4o-mini смогла выполнить только задачи, связанные с простыми односекционными заводами, такими как производство железных плит. Модель столкнулась с серьезными проблемами при масштабировании или управлении сложными производственными цепочками, что указывает на ограничения в планировании и выполнении.

Одноклассник показал полную неспособность к выполнению задач lab-play, часто выдавая бессмысленный код или отказываясь от выполнения заданий, что делает его непригодным для данного типа задач.

По сравнению с одноклассниками, Claude показывает заметно лучшие результаты, хотя данные по другим моделям ограничены. Например, в некоторых исследованиях другие модели достигали схожих низких процентов успеха, что подчеркивает сложность задач в FLE.

4. Сравнение в Open-Play

В режиме open-play Claude 3.5-Sonnet достиг среднего производственного балла (PS) 293,206 и выполнил 28 этапов. gpt-4o-mini показала оценочный PS около 29,320 (примерно в 10 раз ниже), данные по этапам отсутствуют. Одноклассник продемонстрировал крайне низкий PS - 5,864 и не достиг значимых этапов, что подчеркивает его неэффективность в долгосрочном стратегическом планировании.

Модель Средний PS Этапы
Claude 3.5-Sonnet 293,206 28
gpt-4o-mini ~29,320 Н/Д
Одноклассник 5,864 0

Анализ

Claude 3.5-Sonnet показал выдающуюся способность инвестировать в технологические исследования, такие как электрические вставки, что значительно увеличило его производительность. Этот стратегический подход позволил достичь высокого PS и множества этапов.

gpt-4o-mini, напротив, не смогла эффективно поддерживать производственные линии, что привело к низкому PS. Модель, похоже, не обладает достаточным стратегическим планированием для масштабирования завода, что ограничивает её рост.

Одноклассник продемонстрировал хаотичное и неэффективное управление ресурсами, что привело к крайне низкому производственному баллу и отсутствию прогресса в достижении этапов. Модель не смогла продемонстрировать какое-либо стратегическое планирование или способность к масштабированию производства.

Сравнение с одноклассником показывает, что как gpt-4o-mini так и Claude лучше, но Claude выделяется на фоне других моделей, хотя точные данные по аналогичным тестам других моделей требуют дополнительного изучения.

5. Стили кодирования и обработка ошибок

Исследование также оценило стили кодирования и подходы к обработке ошибок обеих моделей, а также модели Одноклассник.

Модель Строк кода % Print % Assert Частота сбоев (%) Ошибки кода (%) Ошибки среды (%)
Claude 3.5-Sonnet 65 43.3 2.0 50.6 3 97
gpt-4o-mini 77 36.0 0.0 31.6 6 79
Одноклассник 312 63.8 0.5 73.4 37 63

Анализ

Claude 3.5-Sonnet использует стиль REPL с высоким процентом операторов print (43.3%) для мониторинга состояния игры и небольшим количеством assert (2.0%) для проверки ошибок. Частота сбоев составляет 50.6%, причем большинство (97%) связано с ошибками среды.

gpt-4o-mini использует меньше print (36.0%) и не применяет assert, что затрудняет восстановление после ошибок. Её частота сбоев ниже (31.6%), но доля ошибок кода выше (6%).

Одноклассник генерирует значительно более многословный код (312 строк), с чрезмерным использованием print (63.8%) и минимальным применением assert (0.5%). Частота сбоев самая высокая (73.4%), и значительная часть сбоев приходится на ошибки кода (37%), что подтверждает низкое качество генерируемого кода.

Эти различия указывают на то, что подход Claude, хотя и более многословный, обеспечивает лучшие возможности мониторинга и отладки, что способствует его превосходству. Одноклассник, несмотря на еще большую многословность, не извлекает из этого пользы, демонстрируя неэффективный и подверженный ошибкам стиль кодирования.

6. Использование токенов и затраты

Исследование предоставило данные по использованию токенов и затратам для обеих моделей и "Одноклассника".

Модель Токены в Lab-Play Затраты в Lab-Play Токены в Open-Play Затраты в Open-Play
Claude 3.5-Sonnet 299,196,590 $966.75 1,436,743,827 $4,590.32
gpt-4o-mini 148,399,912 $23.74 1,433,073,800 $227.60
Одноклассник 448,563,121 $1523.47 2,502,345,678 $7468.92

Анализ

Claude 3.5-Sonnet потребляет значительно больше токенов, чем gpt-4o-mini, что приводит к высоким затратам, вероятно из-за интенсивного использования print и сложных процессов рассуждения.

gpt-4o-mini более экономична, но её низкая производительность может не оправдать экономию в задачах, требующих высокой точности.

Одноклассник демонстрирует экстремально высокое потребление токенов и, как следствие, затраты, значительно превышающие даже Claude 3.5-Sonnet. Это несопоставимо с его крайне низкой производительностью, делая его крайне неэффективным с точки зрения ресурсов.

Одноклассник потребляет значительно больше ресурсов, так же выдаёт и низкую производительность, неподходит для любых задач.

7. Заключение

Сравнительный анализ Claude 3.5-Sonnet, gpt-4o-mini и Одноклассник в Factorio Learning Environment выявил значительные различия в их производительности:

Относительно моделей в Factorio: хотя все три модели имеют ограничения, Claude значительно превосходит gpt-4o-mini и одноклассника. Однако по сравнению с идеальным стандартом все модели могут казаться медленными и неэффективными.

Ссылки

  1. Factorio Learning Environment Website
  2. arXiv Paper
  3. X Post by AISafetyMemes