14.08.2024 в 08:21 Общество 414

Владимир Бебех: «Новые планы OpenAI»

В прошлом году OpenAI провела в Сан-Франциско DevDay — свое ежегодное корпоративное событие с анонсом новинок. А 5 августа 2024 года компания заявила, что в этом году она меняет формат своей конференции на серию выездных обучающих сессий и встреч с разработчиками.

OpenAI также подтвердила, что не будет анонсировать свою следующую флагманскую модель во время DevDay, а вместо этого сосредоточится на обновлениях программ и сервисов для разработчиков.

Компания на своем сайте предлагает присоединиться к команде компании на мероприятиях, чтобы «наладить связь друг с другом и глубже погрузиться в новые функции и продукты искусственного интеллекта».

События, организованные OpenAI, пройдут в Сан-Франциско 1 октября, в Лондоне — 30 октября и Сингапуре — 21 ноября текущего года.

Компания планирует провести семинары, заседания, на которых состоятся обсуждения передового опыта в области настройки моделей, оценок, управляемости, масштабирования и ряда других тем под руководством экспертов по искусственному интеллекту.

В планах OpenAl значится познакомить партнеров с командами разработчиков и инженеров OpenAI и посмотреть на модели и платформу в действии.

Стоит отметить, что летом этого года компания выпустила промежуточную модель ChatGPT-4о mini, которая вошла в тройку самых продвинутых языковых моделей.

Данные для обучения моделей LLM программа ChatGPT находила в Интернете. Она была обучена примерно на 570 ГБ текстовых данных, что составляет около трехсот миллиардов слов, взятых из онлайн-статей, книг, Википедии и других источников.

Важно отметить, что чат-бот ChatGPT-4o сегодня входит в число лучших языковых моделей в мире. По оценкам экспертов, а также согласно исследованиям платформы LMSYS Chatbot Arena, которая опросила порядка полутора миллионов человек, нейропрограмма Gemini от Google наступает на пятки модели ChatGPT и по некоторым параметрам даже превосходит ее.

При этом нельзя не отметить тот факт, что Gemini — печально известная нейросеть, которая когда-то рекомендовала людям добавлять «клей в пиццу или есть камни», то есть давала советы, полученные программой из постов Reddit и статей с сатирического сайта The Onio (TechCrunch).

Этот факт вызвал широкое беспокойство в социальных сетях: пользователи утверждали, что в некоторых случаях программа использовала в качестве источников сомнительные сайты.

А недавнее исследование института Epoch AI и вовсе прогнозирует, что к 2026–2032 годам ИИ может исчерпать все общедоступные данные, и это затруднит дальнейшее развитие языковых моделей без доступа к новой информации.

Данный ход событий вынуждает такие компании, как OpenAI, заключать дорогостоящие лицензионные соглашения на контент, о чем я уже писал в предыдущих статьях.

Известно, что OpenAI только в течение 2023 и 2024 годов подписала соглашения с Axel Springer, Associated Press, Le Monde, Prisa Media, El País, Cinco Días, Financial Times и другими медиахолдингами.

Сейчас компания OpenAl анонсирует встречи в Сан-Франциско, Лондоне и Сингапуре на мероприятиях для разработчиков, призванных помочь им наладить связь друг с другом и глубже погрузиться в новые функции.

Согласно данным Originality.AI, более 35% из тысячи крупнейших веб-сайтов мира сегодня блокируют сканер OpenAl. А около 25% данных из «высококачественных» источников были ограничены в основных наборах данных, используемых для обучения моделей ИИ (Массачусетский технологический институт).

В настоящее время OpenAl тратит миллиарды долларов на обучение своих моделей и наем высокооплачиваемых научных сотрудников. И компания не хочет сегодня попадать под риски нарушения авторских прав.

Поэтому даже если данные закончатся, считают некоторые исследователи, то частные данные и синтетические данные могут стать выходом из ситуации — нейропрограммы будут генерировать их, продолжая получать новый контент как источник «питания» больших языковых моделей.