Как создать ChatGPT за $450
Команда разработчиков NovaSky представила большую языковую модель (LLM), которая справляется с задачами на логическое мышление лучше, чем o1 от OpenAI. NovaSky 10 января опубликовала код и обучающие данные для своей модели Sky-T1-32B-Preview. В своем блоге разработчики отмечают, что она демонстрирует более высокие, чем o1, оценки в решении математических задач и задач на написание кода с опорой на бенчмарки Math500, AIME2024, LiveCodeBench-Medium и LiveCodeBench-Hard. При этом в NovaSky подчеркивают, что обучение модели потребовало вложений в размере всего $450.
Команда не обучала модель с нуля, а взяла готовую Qwen2.5-32B-Instruct и дообучила ее на сгенерированных данных. Был использован облачный сервис предоставления вычислительных мощностей Lambda Cloud, модель дообучалась на восьми картах Nvidia H100 на протяжении 19 часов.
Для обучения разработчики использовали модель для логических вычислений QwQ-32B-Preview: с ее помощью были сгенерированы данные для дообучения, ответы на задачи по математике и программированию. Неправильные ответы QwQ исключались из обучающих данных. После этого данные были приведены в пригодный для обработки Qwen формат при помощи GPT-4o-mini.
По разным оценкам, на обучение GPT-4 у OpenAI ушло от $63 млн до $100 млн.
Реальная мощь
Идея обучить меньшую модель на синтетических данных, сгенерированных большей (или более мощной) моделью, очень новая, отмечает заведующий научно-учебной лабораторией моделей и методов вычислительной прагматики факультета компьютерных наук НИУ ВШЭ и AIRI Дмитрий Игнатов. Традиционно такие модели достаточно хорошо показывают себя на бенчмарках, но это не обязательно выливается в высокое качество в реальных задачах. Задачи в особо популярных бенчмарках могут утекать в открытый доступ, и оттуда — в обучающие данные модели; из-за этого получается, что LLM уже заранее «знает» ответы на вопросы, которые, по идее, ей должны быть неизвестны. Кроме того, возможно так называемое катастрофическое забывание: если модель слишком сильно обучается на задачах программирования и математики (или любой другой области), она может терять общую информацию о мире, продолжает Игнатов. Судя по отзывам сообщества, модель от NovaSky вышла не очень хорошей, замечает он.
Та же проблема и у o1 от OpenAI, которая обучалась с фокусом на задачи формальной логики, математики, физики, программирования, объясняет руководитель направления Data Science Hybe, adtech-экосистемы Hybrid Алексей Калабурдин. Что касается модели Sky-T1-32B-Preview, несмотря на результаты бенчмарков, она не может решить базовую задачу на шифр про клубнику, которую предлагает OpenAI. На это уже указали пользователи. Задача про клубнику состоит в том, что у LLM просят назвать число букв r в слове strawberry — многие модели, в том числе GPT-4o и Claude, не справляются с этим, так как в них изначально не заложены даже такие абстрактные представления, как «слово» и «буква».
«Уместно сохранять скептицизм. Работа команды NovaSky — это небезынтересный рецепт создания „понимающей“ LLM модели. Но представляет ценность, скорее, академическую: для авторов — получить публикацию в научном журнале; для сообщества — пример, от которого можно отталкиваться в своих разработках. Но за пределами синтетических тестов и бенчмарков едва ли она является настоящей перчаткой, брошенной продукту OpenAI», — считает Калабурдин.
Можно и бесплатно
Расходы NovaSky в основном связаны с дообучением модели, — возможно, это экономически эффективно, но вряд ли применимо при создании с нуля полноценной модели, которая могла бы конкурировать с гигантами OpenAI или Google, считает партнер и директор по развитию платформы кадрового электронного документооборота HRlink Дмитрий Махлин.
Но такой подход однозначно открывает новые возможности для среднего и малого бизнеса адаптировать и дообучать модели под конкретные задачи, добавляет он. Это в первую очередь снижает порог входа на разработку разных продуктов и может стимулировать инновации в нишевых сегментах.
Обладая суммой в $450 для аренды сервера с восемью H100, командой аналитиков для сбора и подготовки моделей и датасетов и двумя более сильными LLM, любой желающий может повторить данный эксперимент, уверен архитектор решений ГК DатаРу Дмитрий Тонких. Тем не менее никаких принципиально иных возможностей для бизнеса это не открывает. Для этого необходимо, чтобы ИИ мог более качественно выполнять задачи бизнеса за меньшие деньги, чем если бы это делал наемный сотрудник. Для этого разработчики в основном борются за удешевление работы наиболее сильных моделей, подчеркивает Тонких.
На самом деле высоких результатов можно достичь и бесплатно, отмечает Игнатов. Для этого можно взять предобученную модель и воспользоваться ею без дообучения, подобрав подходящие промпты, построив базу знаний для RAG и добавив, например, переводчика в общение с клиентами.