Некоммерческая организация OpenSearch Software Foundation, контролируемая Linux Foundation, опубликовала релиз проекта OpenSearch 3.0, развивающего форк платформы поиска, анализа и хранения данных Elasticsearch и web-интерфейса Kibana. В разработке форка принимают участие такие компании, как Amazon, SAP, Uber, Aryn, Atlassian, Canonical, DigitalOcean и NetApp. Код распространяется под лицензией Apache 2.0.
Форк был создан в 2021 году в ответ на перевод проекта Elasticsearch на несвободную лицензию SSPL (Server Side Public License) и прекращение публикации изменений под старой лицензией Apache 2.0. Несмотря на возвращение Elasticsearch на использование свободной лицензии, проект OpenSearch не потерял актуальность, так как в нём продолжено использование пермиссивной лицензии Apache 2.0 вместо лицензии AGPLv3, на которую перешёл Elasticsearch, а также развивается ряд специфичных надстроек, ранее поставлявшихся компанией Amazon в отдельном дистрибутиве Open Distro for Elasticsearch и заменяющих платные компоненты Elasticsearch.
OpenSearch включает движок хранения и поиска OpenSearch, web-интерфейс и среду визуализации данных OpenSearch Dashboards, а также набор дополнений для машинного обучения, поддержки SQL, генерации уведомлений, диагностики производительности кластера, шифрования трафика, разграничения доступа на основе ролей (RBAC), аутентификации через Active Directory, Kerberos, SAML и OpenID, реализации единой точки входа (SSO) и ведения детального лога для аудита.
Среди изменений в OpenSearch 3.0:
- Добавлен векторный движок (OpenSearch Vector Engine), который может применяться для хранения и работы с данными, используемыми в системах машинного обучения. Для ускорения векторного поиска задействованы вычисления на стороне GPU, которые позволили повысить скорость индексации в 9.3 раза и снизить операционные расходы в 3.75 раз по сравнению с решениями, использующими только CPU. Для организации взаимодействия с источниками данных, LLM-приложениями и AI-платформами реализована поддержка протокола MCP (Model Context Protocol). Поддерживается интеграция с AI-агентами компаний Anthropic, LangChain и OpenAI.
- Добавлена оптимизация, позволяющая на треть сократить размер хранилища векторов k-NN (k-ближайших соседей), а также до 30 раз сократить задержки при выполнении запросов сразу после запуска (холодный старт) за счёт удаления избыточной вторичной информации и использования первичных данных для воссоздания необходимой информации.
- Добавлена экспериментальная возможность использования протокола gRPC (protobuf поверх gRPC) для передачи данных между клиентами, серверами и узлами хранения. По сравнению с JSON применение gRPC позволяет снизить издержки на сериализацию и поднять производительность за счёт одновременной отправки разных запросов в одном TCP-соединении.
- Добавлен pull-режим получения данных, при котором OpenSearch напрямую запрашивает данные из потоковых источников, таких как Apache Kafka и Amazon Kinesis.
- В кластере предоставлена возможность разделения трафика, связанного с индексацией и поиском. Добавлен API, позволяющий отключить операции записи и оставить индекс доступным только для поиска с целью оптимизации работы с данными, которые не будут изменяться (конфигурации, в которых данные записываются один раз и читаются многократно).
- Расширена интеграция с Apache Calcite и реализована возможность использования языка запросов PPL (Piped Processing Language) для операций поиска, фильтрации и слияния.
- Обеспечено автоматическое определение типа индексов. Для индексов с данными, связанными с ведением логов, задействованы специфичные оптимизации, ускоряющие операции по анализу логов.
- Движок полнотекстового поиска Lucene обновлён до ветки 10, в которой улучшена работа с индексами и повышена производительность параллельной обработки задач.
- Добавлена поддержка Java-модулей (Java Platform Module System) для разделения компонентов на отдельные библиотеки. В качестве минимальной версии заявлен выпуск Java 21.
- Ускорена работа с диапазонами значений и полями, содержащими даты и числа (скорость прохождения тестового набора Big5 выросла на 25%). Ускорены операции агрегирования данных (в тесте p90 задержки снизились на 75%). Для векторов k-NN по умолчанию включён режим распараллеливания поиска сегментов, позволивший 2.5 раза поднять производительность запросов.
Источник: https://www.opennet.ru/opennews/art.shtml?num=63218