Сотрудники OpenAI публично обвинили XAI в том, что результаты тестирования модели искусственного интеллекта Grok3 имеют вводящие в заблуждение Бенчмарк

robot
Генерация тезисов в процессе

ChainCatcher сообщает, согласно отчету Jinse, сотрудник OpenAI публично обвинил компанию XAI, принадлежащую Маску, в том, что результаты тестирования модели искусственного интеллекта Grok3, выпущенной компанией, имеют вводящий в заблуждение Бенчмарк. В то же время сооснователь XAI Игорь Бабушкин настаивает на том, что компания не совершала ничего нечестного. Графики XAI показывают, что две версии Grok3 - Grok3 Reasoning Beta и Grok3 mini Reasoning - превзошли текущую самую мощную модель o3-mini-high от OpenAI на AIME 2025. Однако сотрудники OpenAI быстро указали на платформе X, что графики XAI не включают оценку o3-mini-high в условиях "cons@64" для AIME 2025. Бабушкин на платформе X заявил, что OpenAI ранее также публиковало вводящие в заблуждение графики тестирования, аналогичные Бенчмарк. Несмотря на то, что эти графики были использованы для сравнения производительности их собственных моделей.

XAI1.06%
GROK3.28%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить