- Генерация веб-страницы для Settlers of Catan:
Grok 3 успешно справилась с задачей создания веб-страницы с шестиугольной сеткой, подобной той, что используется в игре Settlers of Catan. Модель корректно реализовала возможность изменения количества "колец" с помощью слайдера. Это задача, с которой справляются только топовые модели, такие как OpenAI GPT-4 (o1-pro), но не DeepSeek-R1, Gemini 2.0 или Claude.
- Расчёт FLOP для обучения GPT-2:
Модель смогла оценить количество вычислительных операций (FLOP), необходимых для обучения GPT-2, основываясь на данных из научной статьи. Это сложная задача, требующая как поиска информации, так и математических расчётов. Grok 3 справилась с этим, в то время как GPT-4 (o1-pro) и GPT-4o не смогли.
- Решение задач с цепочкой рассуждений:
Grok 3 успешно решила несколько задач с цепочкой рассуждений, например, простые головоломки с крестиками-ноликами. Однако при попытке создать "сложные" доски для игры, модель не справилась, но это также не удалось и GPT-4 (o1-pro).