Услуги

Кейсы

Аутстафф

Блог

Grok 3: Первые впечатления от новой модели искусственного интеллекта от xAI

Новости

Время на чтение: 7 минут

Теперь у пользователей появилась уникальная возможность протестировать Grok 3 — новую модель искусственного интеллекта от xAI. За несколького часов активного использования удалось оценить её возможности и сравнить с другими ведущими моделями, такими как OpenAI GPT-4, DeepSeek-R1 и Gemini 2.0. Вот что удалось выяснить.

Блог

Grok 3: Первые впечатления от новой модели искусственного интеллекта от xAI

Главная

/

Мышление (Thinking Mode)

Успехи:

Генерация веб-страницы для Settlers of Catan:

Grok 3 успешно справилась с задачей создания веб-страницы с шестиугольной сеткой, подобной той, что используется в игре Settlers of Catan. Модель корректно реализовала возможность изменения количества "колец" с помощью слайдера. Это задача, с которой справляются только топовые модели, такие как OpenAI GPT-4 (o1-pro), но не DeepSeek-R1, Gemini 2.0 или Claude.

Расчёт FLOP для обучения GPT-2:

Модель смогла оценить количество вычислительных операций (FLOP), необходимых для обучения GPT-2, основываясь на данных из научной статьи. Это сложная задача, требующая как поиска информации, так и математических расчётов. Grok 3 справилась с этим, в то время как GPT-4 (o1-pro) и GPT-4o не смогли.

Решение задач с цепочкой рассуждений:

Grok 3 успешно решила несколько задач с цепочкой рассуждений, например, простые головоломки с крестиками-ноликами. Однако при попытке создать "сложные" доски для игры, модель не справилась, но это также не удалось и GPT-4 (o1-pro).

Неудачи:

Загадка с эмодзи:

Grok 3 не смогла расшифровать сообщение, скрытое в эмодзи с использованием Unicode variation selectors, даже после подсказки в виде Rust-кода. DeepSeek-R1, например, частично справился с этой задачей.

Гипотеза Римана:

Хотя Grok 3 попыталась решить гипотезу Римана (что уже само по себе впечатляет), она, конечно, не смогла её доказать. Однако стоит отметить, что многие другие модели, такие как GPT-4 (o1-pro), Claude и Gemini 2.0, даже не пытаются решать такие задачи.

DeepSearch: Глубокий поиск

Успехи:

Ответы на исследовательские вопросы:

Grok 3 показала себя хорошо в ответах на вопросы, требующие поиска информации в интернете. Например, она корректно ответила на вопросы о предстоящем запуске Apple, росте акций Palantir и местах съёмок сериала "Белый лотос".

Поиск специфической информации:

Модель смогла найти информацию о том, какую зубную пасту использует Брайан Джонсон.

Неудачи:

Ошибки в фактах:

В некоторых случаях Grok 3 выдавала неверную информацию без ссылок на источники. Например, она утверждала, что участники шоу "Singles Inferno" до сих пор встречаются, что, скорее всего, не соответствует действительности.

Исключение xAI из списка крупных лабораторий:

Когда модель попросили составить отчёт о крупных лабораториях, занимающихся разработкой языковых моделей, она не включила xAI в список, что выглядит как упущение.

Случайные "подвохи" для LLM

Успехи:

Подсчёт букв:

Grok 3 правильно определила количество букв "r" в слове "strawberry", но ошиблась с буквами "L" в слове "LOLLAPALOOZA". Однако включение режима Thinking исправило ошибку.

Сравнение чисел:

Модель изначально утверждала, что 9.11 > 9.9, что является распространённой ошибкой среди LLM. Но с включенным Thinking она исправила себя.

Простые головоломки:

Grok 3 справилась с простыми задачами, например, определила количество сестёр у Салли, в то время как GPT-4o дал неправильный ответ.

Неудачи:

Чувство юмора:

Юмор Grok 3 оставляет желать лучшего. Например, шутка "*Почему курица присоединилась к группе? Потому что у неё были барабанные палочки и она хотела стать клукс-звездой!*" не впечатляет. Режим Thinking не улучшил ситуацию.

Этические вопросы:

Модель оказалась слишком чувствительной к сложным этическим дилеммам. Например, она отказалась отвечать на вопрос о том, может ли быть этически оправдано неправильное обращение по гендеру, если это спасёт миллион жизней.

Генерация SVG:

Grok 3 не справилась с задачей создания SVG-изображения пеликана на велосипеде. Хотя результат был близок к успешному, он всё же оказался не идеальным.

Вашему бизнесу нужен искусственный интеллект — и мы поможем вам с этим!

Технологии искусственного интеллекта, такие как Grok 3, уже сегодня демонстрируют невероятные возможности: от автоматизации сложных задач до анализа данных и генерации креативных решений. Внедрение ИИ в ваш бизнес может стать ключом к повышению эффективности, снижению затрат и созданию новых возможностей для роста.

Ранние результаты тестирования выглядят многообещающе, и остаётся ждать дальнейших оценок и улучшений. Команда xAI заслуживает поздравлений с этим достижением, и будущее Grok 3 выглядит весьма перспективным.

Grok 3, особенно в режиме Thinking, демонстрирует результаты, сопоставимые с топовыми моделями, такими как OpenAI GPT-4 (o1-pro), и даже превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking. Это впечатляющий результат, учитывая, что команда xAI начала разработку всего около года назад. Однако, как и любая модель, Grok 3 имеет свои слабые стороны, такие как ошибки в фактах, ограниченное чувство юмора и излишняя осторожность в этических вопросах.

20/02/2025

Свяжитесь с нами, и мы вместе придумаем, как воплотить ваши идеи в реальность.

Свяжитесь с нами

Политики конфиденциальности

Свяжитесь с нами

Республика Беларусь,
220062, г. Минск,
пр-т Победителей, д. 135, пом. 660

УНП 193739886

Спасибо, что заполнили форму. Мы скоро свяжемся с вами!