Grok 3: Первые впечатления от новой модели искусственного интеллекта от xAI

Новости
Время на чтение: 7 минут
Время на чтение: 7 минут
Теперь у пользователей появилась уникальная возможность протестировать Grok 3 — новую модель искусственного интеллекта от xAI. За несколького часов активного использования удалось оценить её возможности и сравнить с другими ведущими моделями, такими как OpenAI GPT-4, DeepSeek-R1 и Gemini 2.0. Вот что удалось выяснить.
Grok 3: Первые впечатления от новой модели искусственного интеллекта от xAI
/
/

Мышление (Thinking Mode)

Успехи:

  • Генерация веб-страницы для Settlers of Catan:
Grok 3 успешно справилась с задачей создания веб-страницы с шестиугольной сеткой, подобной той, что используется в игре Settlers of Catan. Модель корректно реализовала возможность изменения количества "колец" с помощью слайдера. Это задача, с которой справляются только топовые модели, такие как OpenAI GPT-4 (o1-pro), но не DeepSeek-R1, Gemini 2.0 или Claude.

  • Расчёт FLOP для обучения GPT-2:
Модель смогла оценить количество вычислительных операций (FLOP), необходимых для обучения GPT-2, основываясь на данных из научной статьи. Это сложная задача, требующая как поиска информации, так и математических расчётов. Grok 3 справилась с этим, в то время как GPT-4 (o1-pro) и GPT-4o не смогли.

  • Решение задач с цепочкой рассуждений:
Grok 3 успешно решила несколько задач с цепочкой рассуждений, например, простые головоломки с крестиками-ноликами. Однако при попытке создать "сложные" доски для игры, модель не справилась, но это также не удалось и GPT-4 (o1-pro).

Неудачи:

  • Загадка с эмодзи:
Grok 3 не смогла расшифровать сообщение, скрытое в эмодзи с использованием Unicode variation selectors, даже после подсказки в виде Rust-кода. DeepSeek-R1, например, частично справился с этой задачей.

  • Гипотеза Римана:
Хотя Grok 3 попыталась решить гипотезу Римана (что уже само по себе впечатляет), она, конечно, не смогла её доказать. Однако стоит отметить, что многие другие модели, такие как GPT-4 (o1-pro), Claude и Gemini 2.0, даже не пытаются решать такие задачи.

DeepSearch: Глубокий поиск

Успехи:

  • Ответы на исследовательские вопросы:
Grok 3 показала себя хорошо в ответах на вопросы, требующие поиска информации в интернете. Например, она корректно ответила на вопросы о предстоящем запуске Apple, росте акций Palantir и местах съёмок сериала "Белый лотос".

  • Поиск специфической информации:
Модель смогла найти информацию о том, какую зубную пасту использует Брайан Джонсон.

Неудачи:

  • Ошибки в фактах:
В некоторых случаях Grok 3 выдавала неверную информацию без ссылок на источники. Например, она утверждала, что участники шоу "Singles Inferno" до сих пор встречаются, что, скорее всего, не соответствует действительности.

  • Исключение xAI из списка крупных лабораторий:
Когда модель попросили составить отчёт о крупных лабораториях, занимающихся разработкой языковых моделей, она не включила xAI в список, что выглядит как упущение.

Случайные "подвохи" для LLM

Успехи:

  • Подсчёт букв:
Grok 3 правильно определила количество букв "r" в слове "strawberry", но ошиблась с буквами "L" в слове "LOLLAPALOOZA". Однако включение режима Thinking исправило ошибку.

  • Сравнение чисел:
Модель изначально утверждала, что 9.11 > 9.9, что является распространённой ошибкой среди LLM. Но с включенным Thinking она исправила себя.

  • Простые головоломки:
Grok 3 справилась с простыми задачами, например, определила количество сестёр у Салли, в то время как GPT-4o дал неправильный ответ.

Неудачи:

  • Чувство юмора:
Юмор Grok 3 оставляет желать лучшего. Например, шутка "*Почему курица присоединилась к группе? Потому что у неё были барабанные палочки и она хотела стать клукс-звездой!*" не впечатляет. Режим Thinking не улучшил ситуацию.

  • Этические вопросы:
Модель оказалась слишком чувствительной к сложным этическим дилеммам. Например, она отказалась отвечать на вопрос о том, может ли быть этически оправдано неправильное обращение по гендеру, если это спасёт миллион жизней.

  • Генерация SVG:
Grok 3 не справилась с задачей создания SVG-изображения пеликана на велосипеде. Хотя результат был близок к успешному, он всё же оказался не идеальным.
Вашему бизнесу нужен искусственный интеллект — и мы поможем вам с этим!
Технологии искусственного интеллекта, такие как Grok 3, уже сегодня демонстрируют невероятные возможности: от автоматизации сложных задач до анализа данных и генерации креативных решений. Внедрение ИИ в ваш бизнес может стать ключом к повышению эффективности, снижению затрат и созданию новых возможностей для роста.
Ранние результаты тестирования выглядят многообещающе, и остаётся ждать дальнейших оценок и улучшений. Команда xAI заслуживает поздравлений с этим достижением, и будущее Grok 3 выглядит весьма перспективным.
Grok 3, особенно в режиме Thinking, демонстрирует результаты, сопоставимые с топовыми моделями, такими как OpenAI GPT-4 (o1-pro), и даже превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это впечатляющий результат, учитывая, что команда xAI начала разработку всего около года назад. Однако, как и любая модель, Grok 3 имеет свои слабые стороны, такие как ошибки в фактах, ограниченное чувство юмора и излишняя осторожность в этических вопросах.
20/02/2025
Свяжитесь с нами, и мы вместе придумаем, как воплотить ваши идеи в реальность.
Свяжитесь с нами
Свяжитесь с нами
2024 © ООО “Куки эдженси”
Все права защищены
Республика Беларусь,
220062, г. Минск,
пр-т Победителей, д. 135, пом. 660
УНП 193739886
Спасибо, что заполнили форму. Мы скоро свяжемся с вами!