1. Введение
Factorio — это популярная стратегическая игра в реальном времени, в которой игроки проектируют и управляют сложными заводами для производства различных товаров. Игра требует навыков стратегического планирования, управления ресурсами и автоматизации, что делает её отличной платформой для тестирования возможностей искусственного интеллекта (ИИ).
Factorio Learning Environment (FLE) — это специализированная среда, разработанная для оценки производительности больших языковых моделей (LLM) в Factorio. FLE предоставляет стандартизированные задачи и метрики, позволяя объективно сравнивать различные модели ИИ.
В доклабе будет детальный сравнительный анализ трех известных моделей между собой: Claude 3.5-Sonnet от Anthropic, gpt-4o-mini от OpenAI и Одноклассник от мамки. Мы оцениваем их производительность в двух основных режимах FLE: lab-play (лабораторная игра) и open-play (открытая игра). Кроме того, мы анализируем стили кодирования, механизмы обработки ошибок и эффективность использования токенов.
Результаты показывают, что Claude 3.5-Sonnet значительно превосходит gpt-4o-mini и одноклассника в обоих режимах, демонстрируя более высокие способности к планированию и выполнению задач. Одноклассник показал крайне низкую производительность, несмотря на высокое потребление ресурсов. Однако все модели имеют ограничения, особенно в области пространственного мышления и восстановления после ошибок.
Структура доклада следующая: Раздел 2 описывает методологию исследования. Разделы 3 и 4 посвящены сравнению производительности в lab-play и open-play соответственно. Раздел 5 анализирует стили кодирования и подходы к обработке ошибок. Раздел 6 рассматривает использование токенов и затраты. Раздел 7 содержит выводы и рекомендации.
2. Методология
Factorio Learning Environment предоставляет два ключевых режима для тестирования моделей ИИ: lab-play и open-play.
2.1 Lab-Play
В режиме lab-play агенты должны построить производственные линии для 24 различных объектов, от простых (например, железные плиты) до сложных (например, ядерные реакторы). Успех определяется тем, удалось ли агенту создать рабочую производственную линию в заданный срок.
Метрика успеха — процент успешно выполненных задач из общего числа (24).
2.2 Open-Play
В режиме open-play агенты строят максимально крупный завод с нуля на процедурно сгенерированной карте. Основная метрика — производственный балл (Production Score, PS), отражающий общий объем производства за фиксированное время. Также учитывается количество достигнутых этапов (milestones), таких как исследование технологий или производство определенных предметов.
2.3 Метрики оценки
- Lab-Play: Процент успеха (%).
- Open-Play: Производственный балл (PS) и количество этапов.
2.4 Оцениваемые модели
В докладе рассматриваются три модели:
- Claude 3.5-Sonnet (Anthropic).
- gpt-4o-mini (OpenAI).
- Одноклассник (Мамка).
Все модели тестировались в идентичных условиях для обеспечения справедливого сравнения.
3. Сравнение в Lab-Play
В режиме lab-play Claude 3.5-Sonnet достиг процента успеха 21.9%, выполнив 7 из 24 задач, тогда как gpt-4o-mini показал результат 4.2%, выполнив лишь 1 задачу. Одноклассник продемонстрировал крайне низкий результат, с процентом успеха 0%, не выполнив ни одной задачи и часто отказываясь от продолжения тестирования.
| Модель | Процент успеха (%) | Выполненные задачи |
|---|---|---|
| Claude 3.5-Sonnet | 21.9 | 7/24 |
| gpt-4o-mini | 4.2 | 1/24 |
| Одноклассник | 0.0 | 0/24 |
Анализ
Claude 3.5-Sonnet продемонстрировал хорошие краткосрочные навыки, успешно справляясь с задачами по созданию простых и умеренно сложных производственных линий. Однако модель испытывала трудности с пространственным планированием для более сложных целей, требующих взаимосвязанных компонентов.
gpt-4o-mini смогла выполнить только задачи, связанные с простыми односекционными заводами, такими как производство железных плит. Модель столкнулась с серьезными проблемами при масштабировании или управлении сложными производственными цепочками, что указывает на ограничения в планировании и выполнении.
Одноклассник показал полную неспособность к выполнению задач lab-play, часто выдавая бессмысленный код или отказываясь от выполнения заданий, что делает его непригодным для данного типа задач.
По сравнению с одноклассниками, Claude показывает заметно лучшие результаты, хотя данные по другим моделям ограничены. Например, в некоторых исследованиях другие модели достигали схожих низких процентов успеха, что подчеркивает сложность задач в FLE.
4. Сравнение в Open-Play
В режиме open-play Claude 3.5-Sonnet достиг среднего производственного балла (PS) 293,206 и выполнил 28 этапов. gpt-4o-mini показала оценочный PS около 29,320 (примерно в 10 раз ниже), данные по этапам отсутствуют. Одноклассник продемонстрировал крайне низкий PS - 5,864 и не достиг значимых этапов, что подчеркивает его неэффективность в долгосрочном стратегическом планировании.
| Модель | Средний PS | Этапы |
|---|---|---|
| Claude 3.5-Sonnet | 293,206 | 28 |
| gpt-4o-mini | ~29,320 | Н/Д |
| Одноклассник | 5,864 | 0 |
Анализ
Claude 3.5-Sonnet показал выдающуюся способность инвестировать в технологические исследования, такие как электрические вставки, что значительно увеличило его производительность. Этот стратегический подход позволил достичь высокого PS и множества этапов.
gpt-4o-mini, напротив, не смогла эффективно поддерживать производственные линии, что привело к низкому PS. Модель, похоже, не обладает достаточным стратегическим планированием для масштабирования завода, что ограничивает её рост.
Одноклассник продемонстрировал хаотичное и неэффективное управление ресурсами, что привело к крайне низкому производственному баллу и отсутствию прогресса в достижении этапов. Модель не смогла продемонстрировать какое-либо стратегическое планирование или способность к масштабированию производства.
Сравнение с одноклассником показывает, что как gpt-4o-mini так и Claude лучше, но Claude выделяется на фоне других моделей, хотя точные данные по аналогичным тестам других моделей требуют дополнительного изучения.
5. Стили кодирования и обработка ошибок
Исследование также оценило стили кодирования и подходы к обработке ошибок обеих моделей, а также модели Одноклассник.
| Модель | Строк кода | % Assert | Частота сбоев (%) | Ошибки кода (%) | Ошибки среды (%) | |
|---|---|---|---|---|---|---|
| Claude 3.5-Sonnet | 65 | 43.3 | 2.0 | 50.6 | 3 | 97 |
| gpt-4o-mini | 77 | 36.0 | 0.0 | 31.6 | 6 | 79 |
| Одноклассник | 312 | 63.8 | 0.5 | 73.4 | 37 | 63 |
Анализ
Claude 3.5-Sonnet использует стиль REPL с высоким процентом операторов print (43.3%) для мониторинга состояния игры и небольшим количеством assert (2.0%) для проверки ошибок. Частота сбоев составляет 50.6%, причем большинство (97%) связано с ошибками среды.
gpt-4o-mini использует меньше print (36.0%) и не применяет assert, что затрудняет восстановление после ошибок. Её частота сбоев ниже (31.6%), но доля ошибок кода выше (6%).
Одноклассник генерирует значительно более многословный код (312 строк), с чрезмерным использованием print (63.8%) и минимальным применением assert (0.5%). Частота сбоев самая высокая (73.4%), и значительная часть сбоев приходится на ошибки кода (37%), что подтверждает низкое качество генерируемого кода.
Эти различия указывают на то, что подход Claude, хотя и более многословный, обеспечивает лучшие возможности мониторинга и отладки, что способствует его превосходству. Одноклассник, несмотря на еще большую многословность, не извлекает из этого пользы, демонстрируя неэффективный и подверженный ошибкам стиль кодирования.
6. Использование токенов и затраты
Исследование предоставило данные по использованию токенов и затратам для обеих моделей и "Одноклассника".
| Модель | Токены в Lab-Play | Затраты в Lab-Play | Токены в Open-Play | Затраты в Open-Play |
|---|---|---|---|---|
| Claude 3.5-Sonnet | 299,196,590 | $966.75 | 1,436,743,827 | $4,590.32 |
| gpt-4o-mini | 148,399,912 | $23.74 | 1,433,073,800 | $227.60 |
| Одноклассник | 448,563,121 | $1523.47 | 2,502,345,678 | $7468.92 |
Анализ
Claude 3.5-Sonnet потребляет значительно больше токенов, чем gpt-4o-mini, что приводит к высоким затратам, вероятно из-за интенсивного использования print и сложных процессов рассуждения.
gpt-4o-mini более экономична, но её низкая производительность может не оправдать экономию в задачах, требующих высокой точности.
Одноклассник демонстрирует экстремально высокое потребление токенов и, как следствие, затраты, значительно превышающие даже Claude 3.5-Sonnet. Это несопоставимо с его крайне низкой производительностью, делая его крайне неэффективным с точки зрения ресурсов.
Одноклассник потребляет значительно больше ресурсов, так же выдаёт и низкую производительность, неподходит для любых задач.
7. Заключение
Сравнительный анализ Claude 3.5-Sonnet, gpt-4o-mini и Одноклассник в Factorio Learning Environment выявил значительные различия в их производительности:
- В lab-play Claude достиг 21.9% успеха против 4.2% у gpt-4o-mini и 0.0% у Одноклассник.
- В open-play PS Claude в 10 раз выше, чем у gpt-4o-mini, и в 50 раз выше, чем у Одноклассник.
- Стиль кодирования Claude способствует лучшему мониторингу и отладке по сравнению с gpt-4o-mini, в то время как стиль Одноклассник является неэффективным и подверженным ошибкам.
- Claude дороже, чем gpt-4o-mini, но его производительность оправдывает затраты в сложных задачах. Одноклассник является самым дорогим и при этом наименее производительным, делая его непригодным для практического применения.
Относительно моделей в Factorio: хотя все три модели имеют ограничения, Claude значительно превосходит gpt-4o-mini и одноклассника. Однако по сравнению с идеальным стандартом все модели могут казаться медленными и неэффективными.