Введение в типы данных

Друзья, прежде чем мы приступим и начнем погружаться в мир работы с векторными базами данных, важно разобраться, какие виды данных у нас существуют. 

Как раз в этом видео мы остановимся на этом вопросе и подробнее разберёмся. Когда мы говорим о данных, которые будут храниться в базе данных, как правило, их разделяют на три вида: 

+ структурированные данные

+ наполовину структурированные данные

+ неструктурированные данные 

Для каждого из этих видов данных существует своя база данных, в которой эти данные хранятся.

Структурированные данные

Давайте разбираться, что такое структурированные данные. Исходя из названия можно понять, что у этих данных есть чётко определённая структура. 

Под этим понимается то, что данные, которые являются структурированными, можно разбить и хранить в таблицах. У них есть чёткая структура.

 Например, у нас есть участок, и мы можем создать под этот участок некую таблицу. У этой таблицы, у этого участка соответственно будет номер, адрес, блок, стоимость и так далее.

Кроме того, у участка может быть владелец, у которого тоже есть ФИО, адрес и номер участка, которым он владеет. Соответственно, у блока может быть район и так далее. Мы разбиваем данные на колонки, на структуры, у каждой колонки есть свой тип данных, которые эта колонка может хранить, и между этими различными таблицами могут быть некие отношения (либо relation по-английски).

Такие виды данных, которые имеют чёткую структуру, в которых мы конкретно определяем, какой тип данных в какой колонке хранится, называются структурированными данными и хранятся в реляционных базах данных. Как правило, это такие базы данных, как MySQL, PostgreSQL и другие.

Полуструктурированные и неструктурированные данные

Кроме структурированных данных, мы можем иметь дело с наполовину структурированными данными. 

Это данные, которые имеют структуру, но эта структура может расширяться. Когда мы говорим о наполовину структурированных данных, мы говорим о нереляционных базах данных, в которых хранятся некие документы либо JSON-объекты. Это может быть такая база данных, как MongoDB.

Что касается неструктурированных данных - это те данные, которые мы не можем никаким образом структурировать. Например, посты в социальной сети могут быть такими данными. Пользователи публикуют пост, и этот пост может содержать совершенно любое содержание: видео, набор абзацев, картинки и так далее. Другим примером неструктурированных данных могут быть показания приборов учёта на промышленном предприятии.

Когда мы говорим о векторных базах данных, мы говорим о работе с неструктурированными данными. Задача векторных баз данных - обработать эти неструктурированные данные, найти логику между ними и по запросу пользователя выдать определённый результат. О том, как эти данные будут храниться в векторной базе данных, что они собой будут представлять, мы поговорим в следующих видео.