Что такое Date Lake (озера данных) и в чем их отличие от баз данных
Буквально ежесекундно в мире увеличивается количество разнообразных электронных данных, и соответственно этому усложняется процесс их обработки и хранения. И вот к концу 2000-х годов мы имеем понятие «Big Data», которое подразумевает различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных, а чуть позже появляется метод хранения информации «Data Lake» (Озеро Данных).
Data Lake позволяют хранить большое количество информации различной степени структурированности. Если в классической базе данных (БД) информация хранится в строго определенных для этого ячейках таблиц, учитывающих тип данных, то в «озерах» любые разрозненные сведения и файлы в различных форматах складываются в общее хранилище без какого-либо предварительного анализа. Они просто помещаются в одно место (как мы это делаем с файлами на жестком диске нашего компьютера) и могут быть использованы для различных анализов, прогнозов, оптимизации бизнес-процессов и т. п.
- Data Lake удешевляют и упрощают хранение больших объемов информации, полученной из различных источников: транспортные датчики, счетчики потребления, камеры видеонаблюдения, сельскохозяйственное оборудование, активность пользователей в социальных сетях, носимые устройства, термостаты, и т. п. Структурирование информации запускается на выходе, когда требуется ее извлечь из «озера» и проанализировать. Перед извлечением пользователям необходимо определиться:
- • когда и сколько данных им нужно,
- • типы данных и их источники,
- • методы аналитики, которые будут использованы в последующем.
- Процесс анализа никак не влияет на сами данные в «озере», они остаются там в первозданном виде и в последующем могут быть снова извлечены в различных комбинациях.
Data Lake считаются более гибкими и легче масштабируемыми по сравнению с обычными БД, но существует риск их «замусоривания», в таких случаях говорят, что озеро данных превратилось в болото или кладбище. Если собирать слишком много информации «просто так» и никак с ней не работать, то хранилище становится бесполезным. Поэтому важно заранее определиться, для чего именно вы собираете данные и не терять их из виду.
Интерес к Data Lake в бизнес-среде постепенно увеличивается. Во всем мире различные компании используют сервисы облачного хранения, к примеру, Google Cloud и Amazon Simple Storage Service, или распределенную файловую систему, такую как Apache Hadoop. Наибольшее применение данная технология хранения информации получила в среде отраслевых предприятий, финансовых организациях, транспортных компаниях, сфере здравоохранения и в розничных продажах.
- Рекомендуем заглянуть в другие тематические подборки нашего блога:
- Разработка программного обеспечения