руководство

Построение оптимальной модели данных в Tableau

Подготовить правильную модель данных для дашборда – значит заложить надежную основу для анализа данных и обеспечить уверенность в достоверности и актуальности информации. А это является залогом верных выводов и бизнес-решений, которые должен стимулировать любой дашборд.
Процесс построения оптимальной модели данных в Tableau можно разделить на 2 этапа:
  1. Выбор и подключение к источникам данных
  2. Комбинация источников и формирование уникальной модели
Содержание:
1. Выбор и подключение к источникам данных
1.1. Файлы
1.2. Базы данных и облачные хранилища
2. Комбинация источников и формирование уникальной модели данных
2.1. Логический слой данных. Виды отношений.
2.2 Физический слой данных. Виды соединений.

1. Выбор и подключение к источникам данных

Любая компания, вне зависимости от масштабов, оперирует разными источниками данных. Очень редко встречаются ситуации, когда вся необходимая информация представлена только в одной таблице Excel – их как минимум будет несколько. По мере развития бизнеса в работу компании внедряют дополнительные системы. В итоге, информация хранится в разных источниках. Когда же дело доходит до аналитики, часто возникает проблема с обработкой полученных данных.
Уникальная особенность Tableau – возможность работать с разными источниками данных одновременно. В платформе доступно подключение более 30 различных видов источников данных, среди которых – файлы, облачные хранилища и БД. Для подключения к остальным источникам данных можно использовать ODBC и JDBC драйвера от поставщиков систем-источников.
Чтобы посмотреть все возможные источники данных, которые можно использовать при аналитике, нужно нажать на кнопку More, которая расположена под коротким списком.

Пример источников данных в Табло Tableau
Рассмотрим перечень возможных подключений.
1.1. Файлы
Tableau предлагает несколько различных типов источников данных (файлы из системы пользователя). Для подключения и анализа можно использовать документы следующих разновидностей:
- Excel
- Access
- PDF
- JSON
- текстовые файлы
- статистика (SPSS)
На платформе доступна загрузка файлов непосредственно с устройства, на котором работает аналитик. Дополнительно есть возможность получить доступ к файлам данных, уже находящимся в хранилище, и подключить к ним Tableau.

1.2. Базы данных и облачные хранилища
Пользователи Tableau имеют возможность выбрать источники данных онлайн. Среди них:
- реляционные базы данных (Tableau Server, Oracle, MySQL, Salesforce, IBM DB, PostgreSQL Maria DB, Microsoft SQL Server, Vertica и другие)
- источники Big Data (Google BigQuery)
- базы данных in-memory (SAP HANA)
- ODBC и JDBC

Когда аналитик подключается к таким источникам данных, необходимо заполнить реквизиты подключения: имя сервера, порт, логин пользователя, пароль, относящийся к этому соединению.

2. Комбинация источников и формирование уникальной модели данных


Начиная с версии 2020.2 в Tableau появилась возможность формировать эффективные модели данных, что позволило повысить скорость работы дашбордов.
Модель данных состоит из 2х слоев – логический и физический. Пользователь может формировать структуру данных как на обоих уровнях, так и в одном. Разберем принцип работы каждого слоя.

2.1. Логический слой данных. Виды отношений.
На логическом уровне данных можно комбинировать источники с разным уровнем детализации. Это происходит без дублирования строк, позволяя в дальнейшем отказаться от необходимости создания LOD вычислений, которые требуются при обработке дубликатов. Например, есть 2 таблицы по продаже продуктов: в таблице «Категории» данные просуммированы до категории, в таблице «Категории и продукты» - информация более детализирована – указана дата продажи и сам продукт:
Категории
Примеры источников данных в Табло Tableau
Категории и продукты
Примеры источников данных в Tableau
Подключаемся к источнику данных типа «Файл» - Microsoft Excel. На панели подключения отобразится список нужных таблиц. Чтобы сформировать логический слой нужно просто перетащить первую таблицу в область работы с данными. И сразу же под этой областью откроется состав таблицы:
Пример источников данных в Табло Tableau
Так как в дальнейшем может понадобиться детальная информация о продуктах, нужно вытащить таблицу «Категории и продукты» и связать ее с таблицей «Категории». На логическом уровне данных связывание таблиц называется «отношением» (relationships), которое бывает нескольких типов:
Пример источников данных в Табло Tableau
- Many to Many (многие ко многим) – записи из ключевого поля одной таблицы соотносятся со всеми записями в другой. Например, если в данных ключевым полем является «Категория», то при таком типе отношений можно получить как значения стоимости по каждому продукту, так и посмотреть разбивку по поставщикам из таблицы «Категории»:
Пример источников данных в Табло Tableau
Этот тип отношений в Tableau проставляется по умолчанию, как только будут выбраны ключевые поля.
- One to one (один к одному) – для одной записи по ключевому полю из одной таблицы находится соответствующая единственная запись из другой. Если записей с одинаковыми значениями несколько, то результат из другой таблицы не будет отображаться.
Например, если бы в таблице «Категории» было 2 записи по категории «Фрукты» с поставщиками Мексика и ЮАР, то при связывании таблиц, число продаж из таблицы «Категории и продукты» по этой категории продублировались, а напротив ЮАР продаж не было. Это обусловлено тем, что в условии связывания таблиц не указана дополнительная детализация по поставщику:
Пример источников данных в Табло Tableau
- Many to one (многие к одному) - несколько записей по ключевому полю одной таблицы может быть соотнесено только с одной строчкой во второй таблице. В текущем примере таким образом можно получить стоимость только по одному продукту внутри каждой категории:
Пример источников данных в Табло Tableau

- One to many (один ко многим) - одна запись по ключевому полю одной таблицы может быть соотнесена с несколькими строчками в другой. Этот тип отношений можно также использовать с текущими данными, при условии, что наверняка известно, что повторных записей по одинаковым категориям в таблице «Категории» не будет:
Пример источников данных в Табло Tableau


2.2 Физический слой данных. Виды соединений.
Существуют несколько различных методов объединения данных на платформе «Tableau». Ключевые из них – присоединение (JOIN), объединение (UNION) и смешивание (data blending). На логическом и физическом уровне данных доступно слияние. На физическом уровне можно использовать присоединение таблиц. А когда будет готова модель данных, ее уже можно смешивать с другой. Рассмотрим, что подразумевают эти способы, и в каких случаях к ним стоит прибегать.

- Присоединение данных (Join Your Data)
Обычно данные, которые нужно проанализировать содержаться в нескольких таблицах. И часто бывает, что они представлены с высокой детализацией. Тогда потребуется эти таблицы соединять друг с другом. В текущем примере, добавим к таблице «Категории и продукты» данные из таблицы «Затраты и продукты». Это позволит посчитать прибыль.
Чтобы перейти с логического на физический слой, нужно дважды щелкнуть по таблице «Категории и продукты». К уже имеющейся таблице по продуктам нужно перетащить «Затраты и продукты». При соединении появляется знак пересечения, если нажать на него, то видно, что был выбран тип соединения Inner Join по полю «Продукт»:
Пример источников данных в Табло Tableau
Tableau автоматически определил нужные атрибуты для связки. В открывшемся окне настройки соединений видно 4 их вида.
a) Inner join (внутреннее соединение) – результатом его является таблица, которая содержит только те значения, которые совпадают в обоих источниках.
В имеющимся примере это будет значить, что данные для анализа будут только по тем продуктам, по которым были продажи и есть информация о затратах. Если товар закупили, но он еще не был продан, то в результирующей таблице его не будет.
b) Left join (левое соединение) – результатом является таблица, которая содержит все записи из левой таблицы и те записи из правой таблицы, которые совпадают с основной. Если соответствующих записей в правой таблице не будет, то эти строки вернут значение Null. Например, если какого-то продукта не будет в правой таблице, но по нему есть продажи в таблице «Категории и продукты», то эти записи будут отмечены Null.
c) Right join (правое соединение) – обратная ситуация для Left join: результатом является таблица, которая содержит все записи из правой таблицы и те записи из левой таблицы, которые совпадают с основной. Если соответствующих записей в левой таблице не будет, то эти строки вернут значение Null. К примеру, когда необходимо посмотреть, по каким из закупленных продуктов были продажи, нужно использовать данный тип соединения.
d) Full outer (внешний) – результирующая таблица будет содержать значения из обоих источников. Для непарных записей будет проставлен Null.

- Объединение данных (Union)
Данные одной структуры из одного источника можно объединять в одну таблицу. Объединять можно на обоих уровнях данных. Главное условие – объединяемые таблицы должны иметь одинаковую структуру. К примеру, появилась дополнительная информация о новых категориях продуктах и поставщиках в таблице «Новые категории». Чтобы добавить их перечень к уже имеющейся таблице «Категории», необходимо на панели данных логического слоя нажать на раскрывающийся список таблицы «Категория» и выбрать Convert to Union:
Пример источников данных в Табло Tableau
В открывшемся окне уже будет указана главная таблица. И нужно будет добавить таблицу, строки которой должны появиться в объединенной: «Новые категории». После нажатия OK, таблица «Категории» будет помечена знаком объединения, а в составе таблице можно увидеть новые строки:
Пример работы с источниками данных в Табло
Чтобы произвести объединение на физическом слое, достаточно перетащить таблицу с новой информацией к объединяемой таблице:
Пример источников данных в Табло Tableau

- Смешивание данных (Data blending)
Еще один метод объединения данных – смешивание. В этом случае необходимо выбрать первичный и один вторичный источники. Основной из них дополняется данными из вторичного. Отличительная черта такого способа объединения данных – отображение непосредственно в представлении без смешивания на уровне источников.
Один из основных нюансов заключается в правильном выборе основного источника данных. К примеру, есть отдельная таблица контактных лиц поставщиков. Если сделать этот источник первичным, то поставщики, которых нет в этой таблице, но присутствуют в «Категории», не будут отображены. Также, если модель данных содержит определенную структуру на логическом уровне, то такой источник не может быть использован как вторичный.
Чтобы сделать data blending в Tableau необходимо:
a) Добавить источник к списку используемых данных (подключиться к новым данным, причем тип источника может отличаться от изначального)

Пример источников данных в Табло Tableau

b) В верхнем меню на вкладке Data необходимо выбрать «Edit blend relationship» и выбрать поля, по которым будут связываться источники:
Пример источников данных в Табло Tableau

c) Из основного (первичного) источника нужно выбрать атрибут – это будет «Поставщик».
d) Напротив поля «Поставщик» в источнике «Поставщики» нажать на иконку связки:
Пример источников данных в Табло Tableau
e) Вывести на область построения графиков из первичного источника поля «Категория» и «Поставщик», а из вторичного источника – «Контактное лицо»:
Пример источников данных в Табло Tableau
Теперь, зная, как подключаться к источникам Tableau и стоить модель данных, можно переходить к разработке дашборда.

ПОКАЗАТЬ ЕЩЕ