Андрей Сальников - Индексы в PostgreSQL. Как понять, что создавать

Рік тому

Ближайшая конференция: JPoint 2024, 17 апреля (online), 24-25 апреля (offline, Москва)
Подробности и билеты: cutt.ly/AwDEziay
- -
Любой разработчик знает, что индексы - это мощный инструмент, который может улучшить работу запросов в базе данных и, как следствие, сократить отклик приложения или сервиса на внешние запросы.
Но опыт Андрея, как ДБА, показывает, что у разработчиков нет понимания, какой, когда и из каких соображений можно создавать индекс. Спикер приведет простые и понятные примеры, которые вы сможете легко повторить на своих реальных базах данных.
Скачать презентацию: squidex.jugru.team/api/assets...

КОМЕНТАРІ: 54

@jellyfish6265 4 місяці тому

сколько ж надо всякой хероты просмотреть, чтобы найти это гениальное видео

@mgsfdgsfdgsgssdgrsdgdrgsr16 10 днів тому

Отличный доклад, информативный, без воды. На 1.75 хорошо слушается.

@esabkosabko4902 Рік тому

Очень хороший доклад получился. С одной стороны простой, с другой хорошо структурирован и покрывает тему индексов с практической точки зрения. Спасибо, Андрей.

@user-mc5ew1db2p Рік тому

Очень классный доклад, спасибо Андрею Сальникову за доклад!

@gregoryrubies6045 6 місяців тому

"Ты считаешь себя умнее базы данных?" - лучший ответ, по моему )

@Nfix106 9 днів тому

Хороший доклад, спасибо!

@user-bl2zs2vt5s Рік тому

Спасибо, Андрей!

@twentxx Рік тому

Спасибо, Андрей! 👍

@Narryel 6 місяців тому

Крутой доклад, спасибо Андрею!

@maxx27i 10 місяців тому

Спасибо за знания! Очень полезный доклад! 🔥

@hhh-sn2kj 2 місяці тому

офигенный доклад. Спасибо!

@eugenevodyanko4641 Місяць тому

Доклад, конечно, достойный. Но явно вводит в заблуждение пример с idx(created,state) - это эффективно будет работать только в частном случае распределения данных. В общем случае (и для разных СУБД), для реализации очереди или Top-N вариант с idx(state,created) будет гораздо более предсказуемым. Здесь явно не хватило подробных планов и сравнений. Кроме того, если таблица очень волотильная, то статистика может показывать «мультики», иногда ее следует отключить или «заморозить», чтобы оптимизатор не оптимизировал под «вчерашний день».

@3dvfx1 6 місяців тому

Андрей, Вас очень приятно слушать, Вы объясняете очень доходчиво, большое спасибо! 🤝

@stanislavzemlyakov5442 Рік тому

Максимально интересно.

@Alex-qy5mh 3 місяці тому

Очень добротный доклад, все по существу

@oleg_shulga Місяць тому

Спасибо за видео. Очень хороший доклад.

@user-jg9bm6ft3q Місяць тому

Супер-доклад, раскрываются неочевидные моменты.

@andreymironov697 Місяць тому

Очень содержательно! Жаль, что Андрею не предоставили больше времени

@antonmuzeev 6 місяців тому

Блин! Век живи, век учись! Буквально недавно прошёл курс от Postgres Pro по оптимизации запросов и смотря этот доклад, про себя думаю "Наверно мало чего нового узнаю"... А НЕТ! Очень крутой момент по индекс на ForeignKey. Я знал, что его нужно создавать, если планируется делать JOIN, но про кейс с удалением каскадом вообще не думал. За это огромное спасибо!

@pick-pock 11 місяців тому

Докладчик не очень быстрый, тк не хватает индекса

@user-hq6nm2tf6j 2 місяці тому

Не понял немного пример по индексу, где мы создали по (дата, state). Если я захочу выбрать не обработанные транзакции по state, то индекс не будет работать. Чтобы работал мне надо в запросе использовать дату. А как я узнаю с какой даты у меня начинаются необработанные транзакции не используя для этого дополнительный запрос?

@greenbear8179 5 місяців тому

прекрасный доклад

@bit_happens_ 10 місяців тому

Спасибо!!!

@SARFEX 3 місяці тому

Полезно ❤

@user-lv3hn6uz4e Рік тому

Почему сказано что VACUUM не чистит индексы? Это конечно можно отключить и он их реже чистит чем таблицу, но чистит и можно явно указать чтобы чистил всегда.

@22222222222222223464 8 місяців тому

на 49:00 разве нахождение дубликатов в btree, которое внесли в 13 версию не сделает эту работу за нас?

@Romerosmr 4 місяці тому

Интересный разбор, только надо было всетаки по просьбе Владимира включить buffers в analyze. Тогда стало бы видно, что если первым полем в составном индексе сделать поле которое с критерием на равенство (статус), а вторым интервальный критерий (дату), то было бы меньше чтений блоков индекса, т к плотность нужных данных в листьях индекса была бы выше и соотв такой вариант эффективнее... и что ценно для ДБА - меньший IO

@danku3498 5 місяців тому

Доклад интересный и полезный, спасибо! В целом со всеми моментами в видео согласен, но есть дополнение о котором не было сказано, нужно учитывать типы данных при его создании и текущий пример с фруктами можно было улучшить если сделать таблицу типов фруктов, ее id будет иметь маленький целый тип и индекс по двум прям будет значительно меньшего объема, а также чем меньше тип поля в индексе тем и объем меньше и стоимость его использования ниже..

@jellyfish6265 4 місяці тому

запили свое видео, посмотрим сколько будет просмотров

@crazym8nd 2 дні тому

я как будто на лмампочку смотрел от этих флешбнгов на фоне

@MrAlexandrStv 3 місяці тому

топчик

@vladimir.kravets Рік тому

Если в исходном запросе (слайд 10) убрать limit, то разве перевернутая версия "от dba" будет адекватно работать? Мне кажется этот момент как-то очень не явно обозначен и, думаю, именно по этому вызвал много вопросов во время самого доклада. Тут ведь риск, что люди после доклада могут побежать переворачивать "как dba" там где надо и где не надо.

@ogyct 11 місяців тому

Многое не знал. Спасибо за доклад. Если честно, до сих пор не понимаю, в чем смысл индекса по ПК, ведь это всегда уникальные значения.

@oleglevin7742 10 місяців тому

Для поддержки уникальности нужна проверка, занято ли значение ПК, то есть выполняется поиск. А чтобы поиск был быстрым, нужен индекс.

@ogyct 10 місяців тому

@@oleglevin7742 а как индексирование ускорит поиск по уникальным величинам? Я всё время себе представлял индекс как из энциклопедий, где для одного слова выписаны страницы, где оно встерчается

@ogyct 10 місяців тому

хотя вроде уже понял, индекс это упорядоченный список, поэтому поиск по нему быстрее. Поправьте если ошибаюсь.

@oleglevin7742 10 місяців тому

@@ogyct если говорить про b-деревья, на которых обычно строятся индексы, то принцип поиска и правда такой же, как бинарный поиск. Но структура - это, понятное дело, дерево :) То есть, оно состоит из узлов, каждый из которых хранит набор ключей и ссылки на дочерние узлы. Ключи в каждом узле отсортированы. Пара соседних ключей задает границы диапазона ключей дочернего узла. Применительно к базам данных рассмотрим два этапа: поиск ключа в узле и переход к следующему узлу. - Поиск ключа в узле быстрый, так как узел уже в оперативной памяти. Должно быть тут используется бинарный поиск. - Переход к дочернему узлу медленный, так как нужно читать с диска (если индекс не влез в оперативную память). Где-то видел, что обычно узлы хранят от 50 до 2000 ключей. То есть узлы крупные, зато дерево небольшое в высоту. Соответственно, количество чтений с диска сильно меньше, чем если бы использовались другие деревья поиска или просто упорядоченный список.

@user-007-1 8 місяців тому

Не совсем понял - зачем создавать индекс на поле created_at, да ещё и ставить его первым? Мы же выбираем записи с совсем другим полем

@pashk1ns 2 місяці тому

Для кейса из презентации подходит пример из доки: Важный особый случай представляет ORDER BY в сочетании с LIMIT n: при явной сортировке системе потребуется обработать все данные, чтобы выбрать первые n строк, но при наличии индекса, соответствующего столбцам в ORDER BY, первые n строк можно получить сразу, не просматривая остальные вовсе.

@IlyaMatveev 7 місяців тому

5:26, oltp голосом, на слайде опечатка (olpt) Online Transaction Processing

@jellyfish6265 4 місяці тому

охуенный доклад

@walcermelodia 11 місяців тому

лол докладчик родственник олега тинькова?

@outlaw4Iife 2 місяці тому

постгресовый ведьмак

@crypto338 7 місяців тому

Вот так наслушаешься этих горе докладчиков. И потом индексы не правильно работают. Индекс по двум полям будет работать, только по первому полю и обеим но не по второму.

@crypto338 7 місяців тому

pg_stats показывает частоту вхождения только включенной настройке в конфиге.

@user-hq6nm2tf6j 2 місяці тому

кстати согласен. это очень важный момент должен быть был озвучен в докладе. что порядок очень важен и потом как используется в where. Даже в его примере не используется дата, т.к. будут выбираться не обработанные транзакции, там нет смысла включать дату, если только не разбивать по каким-то группам дат, если транзакций таких очень много. Но тогда лучше уже по лимит их брать и обрабатывать