Диаграмма разброса (корреляционный анализ)

 

Диаграмма разброса, также как и метод расслоения, используется для выявления причинно-следственных связей показателей качества и влияющих факторов при анализе причинно-следственной диаграммы, например, между параметрами качества стекломассы (плотность, однородность и др.) или ленты стекла (толщина, разнотолщинность, кривизна, величина торцевых напряжений и др.) и технологическими параметрами варки и выработки (температура, скорость и др.). Анализ диаграмм разброса или оценка корреляционной взаимосвязи параметров является важнейшей частью корреляционно-регрессионного анализа.

Диаграмма разброса строится как график корреляции между двумя параметрами: оба параметра качества, один параметр качества – другой технологический параметр, оба параметра техпроцесса. С помощью диаграммы выясняется, имеется ли между этими двумя параметрами корреляционная зависимость (иначе говоря, взаимосвязанная изменчивость). Если усматривается наличие такой зависимости, то считают, что причинный параметр оказывает большое влияние на характеристику. А это значит, что удерживая этот параметр под контролем, можно достичь стабильности характеристики. Наличие взаимосвязи между исследуемыми параметрами облегчает контроль процесса производства с технологической, временно'й и экономической точек зрения. Зная характер взаимосвязи, можно осуществлять контроль только одного из двух параметров; нет необходимости в приборном контроле за другим параметром.

Для построения диаграммы разброса с целью определения зависимости между двумя видами данных сначала проводят сбор этих данных и представляют их в виде таблицы (например, табл. 6.) В ней: F – содержание в стекле оксида Fe 2O 3 , мас.%, и D – светопропускание стекла в ИК-области спектра, % ).

 

Таблица 6.

Выборка для оценки связи между светопропусканием

стекла и содержанием в нём оксида железа

 

№ изме- рения   F   D № изме- рения   F   D
0,28 64,7 0,28 63,4
0,28 65,9 0,28 62,9
0,295 64,3 0,27 64,9
0,29 62,9 0,28 64,3
0,28 63,6 0,27 64,4
0,3 61,8 0,275 64,5
0,3 61,5 0,285 63,1
0,29 62,8 0,295 62,6
0,29 63,2 0,27 66,2
0,29 63,5 0,285 62,9
0,3 62,9 0,295 61,8
0,29 64,1 0,285 64,4
0,28 63,5 0,275 65,5

 

 

Далее данные в порядке измерения наносятся на график (например, см. рис. 18).

По диаграмме можно увидеть, имеется ли между двумя параметрами корреляционная зависимость. О наличии такой связи можно уверенно говорить, когда разброс данных имеет линейную тенденцию.

Представленные диаграммы разброса на рис. 19 демонстрируют характер корреляционной зависимости, возможный при оценке взаимосвязи

 
 

Рис. 18.

Пример диаграммы разброса

на основании данных таблицы 10

 

различных параметров, т.е. дают представление о том, как будет изменяться один параметр при определённом изменении другого.

Так, корреляция может быть п р я м о й (при увеличении одного параметра увеличивается и другой, см. рис. 20 А и Б ) и о б р а т н о й или отрицательной (при увеличении одного параметра другой при этом уменьшается, см. рис. 19 В). Корреляция может быть т е с н о й (сильной) или л ё г к о й (слабой), см. рис. 19. А и Б, В. Наконец, корреляция может быть к р и в о л и н е й н о й (рис. 19 Д и Е)

Оценивают степень тесноты (значимость) корреляционной зависимости различными методами. Так, можно вычислить коэффициент корреляции по формуле:

r = ,

где x i и y i – значения параметров х и у для i-го измерения;

, - средние арифметические значения величин х и у;

S x , S y – стандартные отклонения величин х и у;

n – число измерений в выборке (объём выборки).

Чем ближе коэффициент корреляции к ±1, тем теснее зависимость между параметрами. Если r = 0 , корреляционная зависимость отсутствует.

Более простым методом анализа корреляционной зависимости является метод медиан. На диаграмме разброса (например, на рис. 21 [8]) проводится вертикальная линия медианы и горизонтальная линия медианы. Выше и ниже горизонтальной медианы, справа и слева от вертикальной медианы должно быть равное число точек. Если число точек нечётное, одна из медиан проходит через центральную точку.

В каждом получившихся при разделении квадрантов подсчитывается число точек и обозначают их соответственно n 1 , n 2 , n 3 , n 4 . Точки, через которые прошла медиана, не учитывают. Отдельно складывают точки в положительных и отрицательных квадрантах:

n (+) = n 1 + n 3 = 9 + 9 = 18;

n (-) = n 2 + n 4 = 2 + 2 = 4;

k = n (+) + n (-) = 18 + 4 = 22.

Так как три точки находятся на медианах, k не равно n = 25.

Для определения наличия и степени корреляции по методу медианы используется таблица кодовых значений, соответствующих различным k при двух значениях уровня значимости (коэффициента риска) α / 0,01 и 0,05 / (см.табл. 7 [8]).

 

 

Рис. 19.

Диаграммы разброса

( А – сильная положительная или прямая корреляция, Б – слабая положительная корреляция, В – слабая отрицательная или обратная корреляция, Г – отсутствие корреляции, Д и Е – варианты криволинейной корреляции )

 

 

 

Рис. 20.

Определение корреляции между параметрами

методом медиан

 

Сравнивая меньшее из чисел n (+) и n (-) c кодовым значением из табл. 7 , соответствующим значению k , делают заключение о наличии и характере корреляции. Если меньшее из чисел n (+) и n (-) оказывается равным или меньше кодового значения, то корреляционная зависимость имеет место. В рассматриваемом примере табличное кодовое значение при уровне значимости α = 0,01 , соответствующее k = 22, равно 4. Поскольку меньшим является значение n (-) = 4 , можно утверждать, что в данном случае между двумя параметрами существует корреляционная зависимость с коэффициентом риска 1%. Поскольку n (+) > n (-) , это свидетельствует о прямой корреляции. А если бы n (+) было меньше n (-) , мы говорили бы об обратной корреляции.

В тех случаях, когда характеристика (результат) у и влияющий на неё фактор (причина) х контролируются с помощью временных графиков или контрольных карт, заключение о наличии или отсутствии корреляции между ними может быть сделано и без построения диаграммы разброса, а только на основании сравнения соответствующих кривых (см. пример из работы [8] на рис. 21 ) или сравнения самих данных измерений (см. табл. 8).

При сравнении графиков на них проводятся линии медиан, разделяющие график так, что точки графика распределяются поровну выше и ниже соответствующей медианы (в таблицах рассчитываются значения Ме ).

  k α   α   α
0,01 0,05 k 0,01 0,05 k 0,01 0,05

 

Таблица 7.

Кодовые значения для оценки степени корреляции методом медиан

 

 

Придаётся точкам со значениями бо'льшими, чем значения медиан, знак (+), а точкам со значениями меньшими, чем у медиан, знак (-); точкам, находящимся на линиях медиан на графиках, или равных по значению медианам в таблицах, присваивается знак (0).

Далее записывается ряд знаков, полученных в результате последовательного перемножения знаков обоих параметров, причём если знаки у параметров х и у одинаковы, произведение х* у получает знак (+), если разные – знак (-), а если одно из значений (или х, или у) имеет знак (0), то и произведение х*у получает знак (0).

 

 

Рис. 21.

Оценка степени корреляции между параметрами

по их временным рядам.

( 1 – выход продукта, 2 – температура, 3 – линия медианы )

 

 

Теперь складываем число знаков (+), число знаков (-) и число знаков (0) и обозначаем их как n'(+) , n'(-) , n'0 . Определяем n (+) и n (-) (например для данных из табл. 10):

n (+) = n'(+) + n'0 / 2 = 4 + 5/2 = 6,5;

n (-) = n'(-) + n'0 / 2 = 17 + 5/2 = 19,5.

Определяем k = n (+) + n (-) = 6,5 + 19,5 = 26. Меньшее из чисел n (+) и n (-) сравниваем с кодовым значением из табл. 7 , соответствующим k, и делаем заключение о наличии или отсутствии корреляции. В нашем примере меньшее из двух чисел n (+) = 6,5. Из таблицы видим, что кодовое число для k = 26 при уровне значимости (коэффициенте риска) 0,05 равно 7. Поскольку n (+) = 6,5 < 7 , можно сделать вывод о наличии корреляции между параметрами F и D , причём отрицательной и относительно слабой. Кстати, расчётный коэффициент корреляции r = - 0,751 тоже говорит о легкой корреляции между рассматриваемыми параметрами.

 

Таблица 8.

Оценка корреляции между светопропусканием стекла (D)

и содержанием в нём оксида железа (F) методом медиан

 

№ изме- рения   F   D Сравнение F с Ме Сравнение D с Ме   F*D
0,28 64,7 - + -
0,28 65,9 - + -
0,295 64,3 + + +
0,29 62,9 + - -
0,28 63,6 - + -
0,3 61,8 + - -
0,3 61,5 + - -
0,29 62,8 + - -
0,29 63,2 + - -
0,29 63,5 +
0,3 62,9 + - -
0,29 64,1 + + +
0,28 63,5 -
0,28 63,4 - - +
0,28 62,9 - - +
0,27 64,9 - + -
0,28 64,3 - + -
0,27 64,4 - + -
0,275 64,5 - + -
0,285 63,1 -
0,295 62,6 + - -
0,27 66,2 - + -
0,285 62,9 -
0,295 61,8 + - -
0,285 64,4 +
0,275 65,5 - + -
Ме 0,285 63,5