Сравнительный анализ моделей ИИ в Factorio Learning Environment

1. Введение

Factorio — это популярная стратегическая игра в реальном времени, в которой игроки проектируют и управляют сложными заводами для производства различных товаров. Игра требует навыков стратегического планирования, управления ресурсами и автоматизации, что делает её отличной платформой для тестирования возможностей искусственного интеллекта (ИИ).

Factorio Learning Environment (FLE) — это специализированная среда, разработанная для оценки производительности больших языковых моделей (LLM) в Factorio. FLE предоставляет стандартизированные задачи и метрики, позволяя объективно сравнивать различные модели ИИ.

В доклабе будет детальный сравнительный анализ трех известных моделей между собой: Claude 3.5-Sonnet от Anthropic, gpt-4o-mini от OpenAI и Одноклассник от мамки. Мы оцениваем их производительность в двух основных режимах FLE: lab-play (лабораторная игра) и open-play (открытая игра). Кроме того, мы анализируем стили кодирования, механизмы обработки ошибок и эффективность использования токенов.

Результаты показывают, что Claude 3.5-Sonnet значительно превосходит gpt-4o-mini и одноклассника в обоих режимах, демонстрируя более высокие способности к планированию и выполнению задач. Одноклассник показал крайне низкую производительность, несмотря на высокое потребление ресурсов. Однако все модели имеют ограничения, особенно в области пространственного мышления и восстановления после ошибок.

Структура доклада следующая: Раздел 2 описывает методологию исследования. Разделы 3 и 4 посвящены сравнению производительности в lab-play и open-play соответственно. Раздел 5 анализирует стили кодирования и подходы к обработке ошибок. Раздел 6 рассматривает использование токенов и затраты. Раздел 7 содержит выводы и рекомендации.

2. Методология

Factorio Learning Environment предоставляет два ключевых режима для тестирования моделей ИИ: lab-play и open-play.

2.1 Lab-Play

В режиме lab-play агенты должны построить производственные линии для 24 различных объектов, от простых (например, железные плиты) до сложных (например, ядерные реакторы). Успех определяется тем, удалось ли агенту создать рабочую производственную линию в заданный срок.

Метрика успеха — процент успешно выполненных задач из общего числа (24).

2.2 Open-Play

В режиме open-play агенты строят максимально крупный завод с нуля на процедурно сгенерированной карте. Основная метрика — производственный балл (Production Score, PS), отражающий общий объем производства за фиксированное время. Также учитывается количество достигнутых этапов (milestones), таких как исследование технологий или производство определенных предметов.

2.3 Метрики оценки

Lab-Play: Процент успеха (%).
Open-Play: Производственный балл (PS) и количество этапов.

2.4 Оцениваемые модели

В докладе рассматриваются три модели:

Claude 3.5-Sonnet (Anthropic).
gpt-4o-mini (OpenAI).
Одноклассник (Мамка).

Все модели тестировались в идентичных условиях для обеспечения справедливого сравнения.

3. Сравнение в Lab-Play

В режиме lab-play Claude 3.5-Sonnet достиг процента успеха 21.9%, выполнив 7 из 24 задач, тогда как gpt-4o-mini показал результат 4.2%, выполнив лишь 1 задачу. Одноклассник продемонстрировал крайне низкий результат, с процентом успеха 0%, не выполнив ни одной задачи и часто отказываясь от продолжения тестирования.

Модель	Процент успеха (%)	Выполненные задачи
Claude 3.5-Sonnet	21.9	7/24
gpt-4o-mini	4.2	1/24
Одноклассник	0.0	0/24

Анализ

Claude 3.5-Sonnet продемонстрировал хорошие краткосрочные навыки, успешно справляясь с задачами по созданию простых и умеренно сложных производственных линий. Однако модель испытывала трудности с пространственным планированием для более сложных целей, требующих взаимосвязанных компонентов.

gpt-4o-mini смогла выполнить только задачи, связанные с простыми односекционными заводами, такими как производство железных плит. Модель столкнулась с серьезными проблемами при масштабировании или управлении сложными производственными цепочками, что указывает на ограничения в планировании и выполнении.

Одноклассник показал полную неспособность к выполнению задач lab-play, часто выдавая бессмысленный код или отказываясь от выполнения заданий, что делает его непригодным для данного типа задач.

По сравнению с одноклассниками, Claude показывает заметно лучшие результаты, хотя данные по другим моделям ограничены. Например, в некоторых исследованиях другие модели достигали схожих низких процентов успеха, что подчеркивает сложность задач в FLE.

4. Сравнение в Open-Play

В режиме open-play Claude 3.5-Sonnet достиг среднего производственного балла (PS) 293,206 и выполнил 28 этапов. gpt-4o-mini показала оценочный PS около 29,320 (примерно в 10 раз ниже), данные по этапам отсутствуют. Одноклассник продемонстрировал крайне низкий PS - 5,864 и не достиг значимых этапов, что подчеркивает его неэффективность в долгосрочном стратегическом планировании.

Модель	Средний PS	Этапы
Claude 3.5-Sonnet	293,206	28
gpt-4o-mini	~29,320	Н/Д
Одноклассник	5,864	0

Анализ

Claude 3.5-Sonnet показал выдающуюся способность инвестировать в технологические исследования, такие как электрические вставки, что значительно увеличило его производительность. Этот стратегический подход позволил достичь высокого PS и множества этапов.

gpt-4o-mini, напротив, не смогла эффективно поддерживать производственные линии, что привело к низкому PS. Модель, похоже, не обладает достаточным стратегическим планированием для масштабирования завода, что ограничивает её рост.

Одноклассник продемонстрировал хаотичное и неэффективное управление ресурсами, что привело к крайне низкому производственному баллу и отсутствию прогресса в достижении этапов. Модель не смогла продемонстрировать какое-либо стратегическое планирование или способность к масштабированию производства.

Сравнение с одноклассником показывает, что как gpt-4o-mini так и Claude лучше, но Claude выделяется на фоне других моделей, хотя точные данные по аналогичным тестам других моделей требуют дополнительного изучения.

5. Стили кодирования и обработка ошибок

Исследование также оценило стили кодирования и подходы к обработке ошибок обеих моделей, а также модели Одноклассник.

Модель	Строк кода	% Print	% Assert	Частота сбоев (%)	Ошибки кода (%)	Ошибки среды (%)
Claude 3.5-Sonnet	65	43.3	2.0	50.6	3	97
gpt-4o-mini	77	36.0	0.0	31.6	6	79
Одноклассник	312	63.8	0.5	73.4	37	63

Анализ

Claude 3.5-Sonnet использует стиль REPL с высоким процентом операторов print (43.3%) для мониторинга состояния игры и небольшим количеством assert (2.0%) для проверки ошибок. Частота сбоев составляет 50.6%, причем большинство (97%) связано с ошибками среды.

gpt-4o-mini использует меньше print (36.0%) и не применяет assert, что затрудняет восстановление после ошибок. Её частота сбоев ниже (31.6%), но доля ошибок кода выше (6%).

Одноклассник генерирует значительно более многословный код (312 строк), с чрезмерным использованием print (63.8%) и минимальным применением assert (0.5%). Частота сбоев самая высокая (73.4%), и значительная часть сбоев приходится на ошибки кода (37%), что подтверждает низкое качество генерируемого кода.

Эти различия указывают на то, что подход Claude, хотя и более многословный, обеспечивает лучшие возможности мониторинга и отладки, что способствует его превосходству. Одноклассник, несмотря на еще большую многословность, не извлекает из этого пользы, демонстрируя неэффективный и подверженный ошибкам стиль кодирования.

6. Использование токенов и затраты

Исследование предоставило данные по использованию токенов и затратам для обеих моделей и "Одноклассника".

Модель	Токены в Lab-Play	Затраты в Lab-Play	Токены в Open-Play	Затраты в Open-Play
Claude 3.5-Sonnet	299,196,590	$966.75	1,436,743,827	$4,590.32
gpt-4o-mini	148,399,912	$23.74	1,433,073,800	$227.60
Одноклассник	448,563,121	$1523.47	2,502,345,678	$7468.92

Анализ

Claude 3.5-Sonnet потребляет значительно больше токенов, чем gpt-4o-mini, что приводит к высоким затратам, вероятно из-за интенсивного использования print и сложных процессов рассуждения.

gpt-4o-mini более экономична, но её низкая производительность может не оправдать экономию в задачах, требующих высокой точности.

Одноклассник демонстрирует экстремально высокое потребление токенов и, как следствие, затраты, значительно превышающие даже Claude 3.5-Sonnet. Это несопоставимо с его крайне низкой производительностью, делая его крайне неэффективным с точки зрения ресурсов.

Одноклассник потребляет значительно больше ресурсов, так же выдаёт и низкую производительность, неподходит для любых задач.

7. Заключение

Сравнительный анализ Claude 3.5-Sonnet, gpt-4o-mini и Одноклассник в Factorio Learning Environment выявил значительные различия в их производительности:

В lab-play Claude достиг 21.9% успеха против 4.2% у gpt-4o-mini и 0.0% у Одноклассник.
В open-play PS Claude в 10 раз выше, чем у gpt-4o-mini, и в 50 раз выше, чем у Одноклассник.
Стиль кодирования Claude способствует лучшему мониторингу и отладке по сравнению с gpt-4o-mini, в то время как стиль Одноклассник является неэффективным и подверженным ошибкам.
Claude дороже, чем gpt-4o-mini, но его производительность оправдывает затраты в сложных задачах. Одноклассник является самым дорогим и при этом наименее производительным, делая его непригодным для практического применения.

Относительно моделей в Factorio: хотя все три модели имеют ограничения, Claude значительно превосходит gpt-4o-mini и одноклассника. Однако по сравнению с идеальным стандартом все модели могут казаться медленными и неэффективными.

1. Введение

2. Методология

2.1 Lab-Play

2.2 Open-Play

2.3 Метрики оценки

2.4 Оцениваемые модели

3. Сравнение в Lab-Play

Анализ

4. Сравнение в Open-Play

Анализ

5. Стили кодирования и обработка ошибок

Анализ

6. Использование токенов и затраты

Анализ

7. Заключение

Ссылки