Google провел презентацию, посвященную искусственному интеллекту. ИИ теперь везде: в поиске, фотогалерее и даже телефонных разговорах с мошенниками
Google показал новые продукты на своей ежегодной конференции для разработчиков Google I/O. Ее почти полностью посвятили искусственному интеллекту: компания рассказала о развитии линеек ИИ-моделей Gemini и Gemma, представила виртуального ассистента и показала сервис для генерации видео. «Медуза» рассказывает, как изменятся продукты Google в ближайшем будущем.
Google улучшила существующие ИИ-модели и анонсировала новые
- Google обновила свою модель искусственного интеллекта Gemini 1.5 Pro, представленную в феврале 2024 года. По словам разработчиков, теперь она еще лучше справляется с переводами, написанием кода и построением логических выводов.
- Вышла Gemini 1.5 Flash — мультимодальная модель, оптимизированная для более быстрого решения задач. Engadget пишет, что, по сути, это облегченная версия Gemini 1.5 Pro, сохранившая возможности старшей модели.
- Обе модели доступны в формате публичного превью более чем в 200 странах. России, Украины и Беларуси среди них нет, но Gemini API поддерживает русский и украинский языки. Полноценный запуск ожидается в июне этого года.
- Анонсирована и Gemma 2 — более мощная открытая ИИ-модель в семействе Gemma. Она включает 27 миллиардов параметров (у двух предыдущих версий — два и семь миллиардов параметров), релиз запланирован на июнь. Также представлена модель PaliGemma, оптимизированная для задач, связанных с обработкой изображений.
Поисковик будет отвечать на сложные вопросы с помощью искусственного интеллекта
Google продолжает улучшать свою поисковую систему — уже на этой неделе пользователи в США получат доступ к функции AI Overviews. Это краткое резюме, сгенерированное искусственным интеллектом на основе запроса, которое будет выводиться перед основными результатами поиска. В Google отмечают, что новая функция лучше всего работает с комплексными запросами, в которых необходимо учитывать несколько параметров, в том числе текущую локацию пользователя. В качестве примера глава направления поиска Лиз Рейд привела такой запрос: «Найди лучшую студию йоги или пилатеса в Бостоне с рейтингом выше четырех звезд в получасе ходьбы от Бикон-Хилл». В ближайшее время AI Overviews появится и в других странах.
Голосовой ИИ-ассистент Project Astra будет видеть и анализировать пространство вокруг
Подразделение Google DeepMind представило Project Astra. Это мультимодальный ИИ-ассистент с голосовым управлением, который может видеть и анализировать окружающее пространство через камеру мобильного устройства. На конференции виртуальному помощнику показывали предметы в помещении, код на экране компьютера и вид из окна. Во всех случаях ассистент корректно отвечал на заданные вопросы.
Project Astra работает на усовершенствованной версии Gemini Ultra и, по сути, получился ответом на вчерашнюю демонстрацию GPT-4o от OpenAI. Запуск ожидается в 2024 году.
А ИИ-модель Veo сможет генерировать ролики на основе текста, изображений или видео
Новая генеративная ИИ-модель (аналог Sora от OpenAI), которая может создавать видео в разных кинематографических и визуальных стилях, а также редактировать их. Максимальное разрешение итоговых роликов — 1080p, продолжительность может составлять до одной минуты и даже больше. В качестве промптов можно использовать текст, изображения или другие видео. Часть возможностей Veo станет доступна отдельным пользователям через VideoFX, новую экспериментальную разработку от Labs.google. В будущем эти функции появятся в других продуктах, включая платформу коротких видео YouTube Shorts.
ИИ появится во всех сервисах Google Workspace
Модель Gemini 1.5 Pro интегрируют во все сервисы Google Workspace — документы, почту и облачное хранилище. Уже в следующем месяце доступ к этой функции начнут получать платные подписчики. Пользователи получат универсального ИИ-ассистента в боковой панели, который сможет анализировать информацию из всех доступных источников в рамках Workspace и помогать в решении задач. Например, пересказывать содержание переписок и видеозвонков, составлять письма, используя информацию из открытого в данный момент документа, или напоминать о необходимости ответа.
И еще несколько анонсов с презентации Google I/O
- Imagen 3 — новая версия модели, которая создает изображения на основе текстового запроса. Разработчики обещают улучшенное распознавание текста и более качественные и детализированные картинки.
- В Google Lens появится возможность поиска с помощью видео — пользователь записывает ролик, связанный с запросом, и задает вопрос, а ИИ поможет найти релевантный ответ. Правда, как пишет The Verge, даже в демонстрационное видео этой функции закралась фактическая ошибка в ответе.
- Летом 2024 года в сервисе «Google Фото» появится функция Ask Photos, которая позволит составлять сложные запросы и находить нужные фотографии в галерее с учетом контекста.
- Благодаря Gemini пользователи Android смогут задавать вопросы о видео на экране и получать ответы на основе автоматически сгенерированных титров. Обладатели платной подписки Gemini Advanced также получат возможность анализировать информацию в PDF-документах.
- Google добавит в десктопную версию браузера Chrome ИИ-модель Gemini Nano, которая поможет пользователям с написанием текстов.
- Android-смартфоны с помощью Gemini Nano научатся распознавать звонки от мошенников и предупреждать пользователей о потенциальной опасности.