Превзошла СhatGPT и Grok 3. Что улучшили в нейросети Google Gemini 2.5 Pro?

27.03.2025

Поисковый гигант представил «думающую» ИИ-модель Gemini 2.5 Pro. Она вырвалась в лидеры практически по всем метрикам, оставив прежних гегемонов позади. Приводим тесты новинки.

Приросты и сравнение с конкурентами

Качественного скачка добились за счёт внедрения функции Reasoning в Gemini Pro следующего поколения. Как и в других моделях рассуждающего типа, этот механизм эффективен в сложных задачах. Контекст составляет 1 млн токенов, что позволяет принимать на вход крупные массивы данных. Например, длинные репозитории кода и документы на тысячи страниц. Позже окно расширят до 2 млн. Предусмотрена и мультимодальность: обрабатываются картинки, аудио, видео.

В бенчмарках фиксируют результаты моделей за одну и за несколько попыток. В первом случае Gemini 2.5 Pro всегда лидирует, а во втором аналоги иногда лучше. Первенство в сложном тесте Humanity’s Last Exam (18,8%) говорит о том, что ИИ отлично справляется с разнообразными вопросами, требующими глубокого мышления. Ближайший конкурент o3-mini набирает только 14%. Впечатляет и точность извлечения данных из очень длинных текстов (MRCR — 83,1% при работе с миллионным контекстом). Та же GPT 4.5 (пока без рассуждений) демонстрирует 48,8% надёжности на куда меньшем объёме информации (128 тысяч токенов).

Заметны высокие показатели в математике (86,7%), научных задачах (84%) и взаимодействии с визуальным контентом (81,7%). А вот в практических заданиях по кодингу всё ещё лидирует Claude 3.7 Sonnet (70,3 против 63,8 процента у Gemini).

Пользовательский рейтинг

Дополнительное представление о качестве моделей даёт топ-10 портала LMSYS Arena, составленный на базе отзывов тестировщиков. В нём почти на всех языках, включая русский, Gemini 2.5 Pro с отрывом занимает первое место. То есть чаще всего сейчас предпочитают ответы решения Google, причём это не ограничивается английским.

Если сравнивать с ChatGPT и o3-mini в частности, можно выделить два преимущества: длинный контекст, при взаимодействии с которым новинка не теряет в точности анализа, а также общее превосходство по производительности. У Grok 3 Beta тоже контекст на 1 млн и сопоставимые цифры в тестах. Однако для получения наилучших результатов может потребоваться больше одной попытки.

Опробовать Gemini 2.5 Pro бесплатно можно на платформе Google AI Studio. Поскольку в РФ сервис недоступен официально, здесь приводим инструкцию по заходу на сайт.

Галлерея:

Источник