истории

Google провел презентацию, посвященную искусственному интеллекту. ИИ теперь везде: в поиске, фотогалерее и даже телефонных разговорах с мошенниками

15:29, 15 мая 2024

Источник: Meduza

Google показал новые продукты на своей ежегодной конференции для разработчиков Google I/O. Ее почти полностью посвятили искусственному интеллекту: компания рассказала о развитии линеек ИИ-моделей Gemini и Gemma, представила виртуального ассистента и показала сервис для генерации видео. «Медуза» рассказывает, как изменятся продукты Google в ближайшем будущем.

Гендиректор Alphabet Сундар Пичаи во время выступления на презентации Google I/O.

Jeff Chiu / AP / Scanpix / LETA

Google улучшила существующие ИИ-модели и анонсировала новые

Google обновила свою модель искусственного интеллекта Gemini 1.5 Pro, представленную в феврале 2024 года. По словам разработчиков, теперь она еще лучше справляется с переводами, написанием кода и построением логических выводов.
Вышла Gemini 1.5 Flash — мультимодальная модель, оптимизированная для более быстрого решения задач. Engadget пишет, что, по сути, это облегченная версия Gemini 1.5 Pro, сохранившая возможности старшей модели.
Обе модели доступны в формате публичного превью более чем в 200 странах. России, Украины и Беларуси среди них нет, но Gemini API поддерживает русский и украинский языки. Полноценный запуск ожидается в июне этого года.
Анонсирована и Gemma 2 — более мощная открытая ИИ-модель в семействе Gemma. Она включает 27 миллиардов параметров (у двух предыдущих версий — два и семь миллиардов параметров), релиз запланирован на июнь. Также представлена модель PaliGemma, оптимизированная для задач, связанных с обработкой изображений.

Поисковик будет отвечать на сложные вопросы с помощью искусственного интеллекта

Google продолжает улучшать свою поисковую систему — уже на этой неделе пользователи в США получат доступ к функции AI Overviews. Это краткое резюме, сгенерированное искусственным интеллектом на основе запроса, которое будет выводиться перед основными результатами поиска. В Google отмечают, что новая функция лучше всего работает с комплексными запросами, в которых необходимо учитывать несколько параметров, в том числе текущую локацию пользователя. В качестве примера глава направления поиска Лиз Рейд привела такой запрос: «Найди лучшую студию йоги или пилатеса в Бостоне с рейтингом выше четырех звезд в получасе ходьбы от Бикон-Хилл». В ближайшее время AI Overviews появится и в других странах.

Search in the Gemini era | Google I/O 2024

Google

Голосовой ИИ-ассистент Project Astra будет видеть и анализировать пространство вокруг

Подразделение Google DeepMind представило Project Astra. Это мультимодальный ИИ-ассистент с голосовым управлением, который может видеть и анализировать окружающее пространство через камеру мобильного устройства. На конференции виртуальному помощнику показывали предметы в помещении, код на экране компьютера и вид из окна. Во всех случаях ассистент корректно отвечал на заданные вопросы.

Project Astra работает на усовершенствованной версии Gemini Ultra и, по сути, получился ответом на вчерашнюю демонстрацию GPT-4o от OpenAI. Запуск ожидается в 2024 году.

Project Astra: Our vision for the future of AI assistants

Google

А ИИ-модель Veo сможет генерировать ролики на основе текста, изображений или видео

Новая генеративная ИИ-модель (аналог Sora от OpenAI), которая может создавать видео в разных кинематографических и визуальных стилях, а также редактировать их. Максимальное разрешение итоговых роликов — 1080p, продолжительность может составлять до одной минуты и даже больше. В качестве промптов можно использовать текст, изображения или другие видео. Часть возможностей Veo станет доступна отдельным пользователям через VideoFX, новую экспериментальную разработку от Labs.google. В будущем эти функции появятся в других продуктах, включая платформу коротких видео YouTube Shorts.

Filmmaking with Donald Glover and his creative studio, Gilga | Veo

Google

ИИ появится во всех сервисах Google Workspace

Модель Gemini 1.5 Pro интегрируют во все сервисы Google Workspace — документы, почту и облачное хранилище. Уже в следующем месяце доступ к этой функции начнут получать платные подписчики. Пользователи получат универсального ИИ-ассистента в боковой панели, который сможет анализировать информацию из всех доступных источников в рамках Workspace и помогать в решении задач. Например, пересказывать содержание переписок и видеозвонков, составлять письма, используя информацию из открытого в данный момент документа, или напоминать о необходимости ответа.

И еще несколько анонсов с презентации Google I/O

Imagen 3 — новая версия модели, которая создает изображения на основе текстового запроса. Разработчики обещают улучшенное распознавание текста и более качественные и детализированные картинки.
В Google Lens появится возможность поиска с помощью видео — пользователь записывает ролик, связанный с запросом, и задает вопрос, а ИИ поможет найти релевантный ответ. Правда, как пишет The Verge, даже в демонстрационное видео этой функции закралась фактическая ошибка в ответе.
Летом 2024 года в сервисе «Google Фото» появится функция Ask Photos, которая позволит составлять сложные запросы и находить нужные фотографии в галерее с учетом контекста.
Благодаря Gemini пользователи Android смогут задавать вопросы о видео на экране и получать ответы на основе автоматически сгенерированных титров. Обладатели платной подписки Gemini Advanced также получат возможность анализировать информацию в PDF-документах.
Google добавит в десктопную версию браузера Chrome ИИ-модель Gemini Nano, которая поможет пользователям с написанием текстов.
Android-смартфоны с помощью Gemini Nano научатся распознавать звонки от мошенников и предупреждать пользователей о потенциальной опасности.

Google I/O '24 in under 10 minutes

Google

Михаил Герасимов