Агрегатная функция GROUPING

Обсудим теперь один более тонкий вопрос. Если вы помните (см. Лекцию 12), определение столбцов DEPT_NO и EMP_BDATE таблицы EMP допускает появление в этих столбцах неопределенных значений. Поэтому тело таблицы EMP могло бы иметь, например, следующий вид:

EMP

EMP_NO	DEPT_NO	EMP_BDATE	EMP_SAL
			15000.00
			16000.00
			14000.00
			19000.00
		NULL	15000.00
		NULL	17000.00
			17000.00
			16000.00
			14000.00
			20000.00
			18000.00
			13000.00
			21000.00
			22000.00
	NULL		13000.00
	NULL		14000.00
	NULL	NULL	19000.00

Тогда результат запроса из примера 16.1 будет иметь следующий вид*:

DEPT_NO	EMP_BDATE	MAX_SAL
NULL	NULL	22000.00
NULL	NULL	19000.00
NULL	NULL	14000.00
	NULL	19000.00
	NULL	20000.00
	NULL	22000.00
	NULL	17000.00
		16000.00
		19000.00
		17000.00
		20000.00
		18000.00
		22000.00
NULL		14000.00

Рис. 16.2. Результат запроса с разделом GROUP BY ROLLUP к таблице с неопределенными значениями столбцов группировки

Очевидно, что просматривая строки таблицы, показанной на рис. 16.2, невозможно установить, в какой из первой трех строк неопределенное значение столбцов DEPT_NO и EMP_BDATE означает, что эта строка является сводной для всего предприятия, а не то, что она является сводной для всех сотрудников с неизвестными номером отдела и годом рождения или просто для всех сотрудников с неизвестным номером отдела. Аналогичным образом, невозможно понять, какая строка в следующей далее паре строк является сводной для всех сотрудников отдела номер 1, а не сводной для всех сотрудников отдела номер 1 с неизвестным годом рождения.

Для того чтобы можно было всегда разобраться в результатах запросов, включающих раздел GROUP BY ROLLUP, в язык SQL была введена специальная агрегатная функция GROUPING. Эта функция применяется к столбцу, входящему в список столбцов раздела GROUP BY ROLLUP, и принимает целое значение 1 в тех строках результирующей таблицы, в которых соответствующий столбец имеет значение NULL по той причине, что строка является сводной для более обобщенной группы. В противном случае функция GROUPING принимает значение 0.

Уточним формулировку запроса из примера 16.1 (пример 16.1a):

SELECT DEPT_NO, EMP_BDATE, MAX(EMP_SAL) AS MAX_SAL,
GROUPING (DEPT_NO) AS GDN, GROUPING (EMP_BDATE) AS GEB
FROM EMP
GROUP BY ROLLUP (DEPT_NO, EMP_BDATE);

Результирующая таблица для этого запроса будет иметь следующий вид:

DEPT_NO	EMP_BDATE	MAX_SAL	GDN	GEB
NULL	NULL	22000.00
NULL	NULL	19000.00
NULL	NULL	14000.00
	NULL	19000.00
	NULL	20000.00
	NULL	22000.00
	NULL	17000.00
		16000.00
		19000.00
		17000.00
		20000.00
		18000.00
		22000.00
NULL		14000.00

Рис. 16.3. Результат запроса с разделом GROUP BY ROLLUP и вызовами агрегатной функции GROUPING к таблице с неопределенными значениями столбцов группировки

Анализируя значения столбцов GDN и GEB в строках таблицы, показанной на рис. 16.4, можно убедиться, что значение столбца MAX_SAL в первой является максимальным значением зарплаты всех служащих предприятия, во второй строке – максимальным значением зарплаты служащих с неизвестными номером отдела и годом рождения, а в третьей строке –максимальным значением зарплаты всех служащих с неизвестным номером отдела. В следующих трех строках значения столбца MAX_SAL являются максимальными значениями зарплаты сотрудников с неизвестным годом рождения из отделов с номерами 1, 2 и 3 соответственно. Как видно, значения столбцов GDN и GEB являются своего рода индикаторами, указывающими на природу основных значений строки.

Раздел GROUP BY CUBE

Наконец, заметим, что, в отличие от запросов с традиционной группировкой, результат запроса, содержащего раздел GROUP BY ROLLUP, зависит от порядка столбцов в списке группировки. При выполнении запроса происходит движение по этому списку слева направо с повышением уровня детальности результирующих данных. Существует еще одна разновидность запроса с группировкой, основанная на использовании раздела GROUP BY CUBE.

Пусть раздел группировки запроса имеет вид GROUP BY CUBE (cname₁, cname₂,…, cname_n), где cname_i (i = 1, 2,…, n) – имя столбца таблицы-результата раздела FROM запроса. Обозначим через S_GBC множество {cname₁, cname₂,…, cname_n}. Пусть S_i является произвольным подмножеством S_GBC, т.е. S_i является пустым множеством или имеет вид {cname_i₁, cname_i₂,…, cname_im}, где m £ n, и каждое имя столбца cname_ij совпадает с одним и только одним именем столбца из списка столбцов раздела GROUP BY CUBE. Очевидно, что у множества S_GBC существует 2ⁿподмножеств различных вида S_i. Тогда по определению результат этого запроса совпадает с объединением результатов 2ⁿ запросов с теми же разделами SELECT, FROM и WHERE, что и у запроса с GROUP BY CUBE, и с разделом группировки вида GROUP BY S_i, причем во всех строках результата частичного запроса значением любого столбца cname_j такого, что cname_j Î S_GBC и cname_j Ï S_i, является NULL. Запрос с разделом группировки вида GROUP BY S, где S – пустое множество, трактуется как запрос без раздела GROUP BY. Вот пример запроса, содержащего раздел GROUP BY CUBE.

Пример 16.2. Найти максимальный размер зарплаты во всем предприятии, максимальный размер зарплаты в каждом отделе, максимальный размер зарплаты сотрудников в каждой возрастной категории и максимальный размер зарплаты сотрудников каждой возрастной категории каждого отдела.

SELECT DEPT_NO, EMP_BDATE, MAX (EMP_SAL)AS MAX_SAL,
GROUPING (DEPT_NO) AS GDN, GROUPING (EMP_BDATE) AS GEB
FROM EMP
GROUP BY CUBE (DEPT_NO, EMP_BDATE);

Результирующая таблица для этого запроса будет иметь следующий вид:

DEPT_NO	EMP_BDATE	MAX_SAL	GDN	GEB
NULL	NULL	22000.00
NULL	NULL	19000.00
NULL	NULL	14000.00
	NULL	19000.00
	NULL	20000.00
	NULL	22000.00
	NULL	17000.00
		16000.00
		19000.00
		17000.00
		20000.00
		18000.00
		22000.00
NULL		14000.00
NULL		18000.00
NULL		22000.00

Рис. 16.4. Результат запроса с разделом GROUP BY CUBE и вызовами агрегатной функции GROUPING к таблице с неопределенными значениями столбцов группировки

Как видно, результат запроса из примера 16.2 совсем немного отличается от результата запроса из примера 16.1a. Добавились две последние строки, показывающие максимальные значения зарплаты всех сотрудников предприятия, родившихся в 1950-м и 1960-м годах соответственно.

Наш пример может навести на мысль, что и в общем случае запросы, содержащие раздел GROUP BY CUBE, не слишком отличаются от запросов с GROUP BY ROLLUP, и выполнение этих запросов тоже не слишком различается. Однако это совсем не так. Запрос, содержащий раздел GROUP BY CUBE, действительно вырождается в объединение результатов 2ⁿ запросов с обычным разделом GROUP BY. Соответственно, сложность выполнения такого запроса несравненно больше сложности выполнения похожего запроса с GROUP BY ROLLUP. В нашем примере все получилось так просто только по той причине, что в запросе имеются всего два столбца группировки.

5rik.ru

Материалы для учебы и работы

Агрегатная функция GROUPING