Apple, Nvidia и Anthropic обучали свои ИИ с помощью субтитров на YouTube

Apple, Nvidia и Anthropic обучали свои ИИ с помощью субтитров на YouTube

18.07.2024
Новости Искусственный интеллект

Согласно отчёту, опубликованному ProofNews, набор данных, используемый этими компаниями для обучения моделей ИИ, включал субтитры из видео на YouTube.

Набор данных под названием «Субтитры YouTube» был опубликован в 2020 году и создан компанией EleutherAI. Издание обнаружило, что оно включает субтитры из 173 536 видеороликов YouTube, загруженных с более чем 48 000 каналов.

Во-первых, набор данных, похоже, противоречит условиям YouTube, которые запрещают доступ к видео «автоматическими средствами». Согласно публикации, YouTube Subtitles представляет собой набор обучающих данных объемом 5,7 ГБ (489 миллионов слов) и включает субтитры из более чем 12 000 видео, которые были удалены с платформы.

Транскрипции видео, полученные с YouTube, охватывают широкий круг авторов и каналов, в том числе те, у которых сотни миллионов подписчиков, и более 100 000 подписчиков.

Набор данных субтитров YouTube подпадает под зонтик под названием «The Pile», который включает в себя несколько других наборов обучающих данных. Большинство наборов данных Pile открыты для всех, у кого достаточно места и вычислительной мощности для доступа к ним.