В прошлом году OpenAI провела в Сан-Франциско DevDay — свое ежегодное корпоративное событие с анонсом новинок. А 5 августа 2024 года компания заявила, что в этом году она меняет формат своей конференции на серию выездных обучающих сессий и встреч с разработчиками.
OpenAI также подтвердила, что не будет анонсировать свою следующую флагманскую модель во время DevDay, а вместо этого сосредоточится на обновлениях программ и сервисов для разработчиков.
Компания на своем сайте предлагает присоединиться к команде компании на мероприятиях, чтобы «наладить связь друг с другом и глубже погрузиться в новые функции и продукты искусственного интеллекта».
События, организованные OpenAI, пройдут в Сан-Франциско 1 октября, в Лондоне — 30 октября и Сингапуре — 21 ноября текущего года.
Компания планирует провести семинары, заседания, на которых состоятся обсуждения передового опыта в области настройки моделей, оценок, управляемости, масштабирования и ряда других тем под руководством экспертов по искусственному интеллекту.
В планах OpenAl значится познакомить партнеров с командами разработчиков и инженеров OpenAI и посмотреть на модели и платформу в действии.
Стоит отметить, что летом этого года компания выпустила промежуточную модель ChatGPT-4о mini, которая вошла в тройку самых продвинутых языковых моделей.
Данные для обучения моделей LLM программа ChatGPT находила в Интернете. Она была обучена примерно на 570 ГБ текстовых данных, что составляет около трехсот миллиардов слов, взятых из онлайн-статей, книг, Википедии и других источников.
Важно отметить, что чат-бот ChatGPT-4o сегодня входит в число лучших языковых моделей в мире. По оценкам экспертов, а также согласно исследованиям платформы LMSYS Chatbot Arena, которая опросила порядка полутора миллионов человек, нейропрограмма Gemini от Google наступает на пятки модели ChatGPT и по некоторым параметрам даже превосходит ее.
При этом нельзя не отметить тот факт, что Gemini — печально известная нейросеть, которая когда-то рекомендовала людям добавлять «клей в пиццу или есть камни», то есть давала советы, полученные программой из постов Reddit и статей с сатирического сайта The Onio (TechCrunch).
Этот факт вызвал широкое беспокойство в социальных сетях: пользователи утверждали, что в некоторых случаях программа использовала в качестве источников сомнительные сайты.
А недавнее исследование института Epoch AI и вовсе прогнозирует, что к 2026–2032 годам ИИ может исчерпать все общедоступные данные, и это затруднит дальнейшее развитие языковых моделей без доступа к новой информации.
Данный ход событий вынуждает такие компании, как OpenAI, заключать дорогостоящие лицензионные соглашения на контент, о чем я уже писал в предыдущих статьях.
Известно, что OpenAI только в течение 2023 и 2024 годов подписала соглашения с Axel Springer, Associated Press, Le Monde, Prisa Media, El País, Cinco Días, Financial Times и другими медиахолдингами.
Сейчас компания OpenAl анонсирует встречи в Сан-Франциско, Лондоне и Сингапуре на мероприятиях для разработчиков, призванных помочь им наладить связь друг с другом и глубже погрузиться в новые функции.
Согласно данным Originality.AI, более 35% из тысячи крупнейших веб-сайтов мира сегодня блокируют сканер OpenAl. А около 25% данных из «высококачественных» источников были ограничены в основных наборах данных, используемых для обучения моделей ИИ (Массачусетский технологический институт).
В настоящее время OpenAl тратит миллиарды долларов на обучение своих моделей и наем высокооплачиваемых научных сотрудников. И компания не хочет сегодня попадать под риски нарушения авторских прав.
Поэтому даже если данные закончатся, считают некоторые исследователи, то частные данные и синтетические данные могут стать выходом из ситуации — нейропрограммы будут генерировать их, продолжая получать новый контент как источник «питания» больших языковых моделей.