Введение
ЗАДАНИЕ:
Анализ продуктов питания
Лаборатория производит анализ продуктов, которые обрабатываются при определенной температуре X 1 (t, °С), и в которые добавляются для увеличения срока годности определенные консерванты Х 2 (мг). В готовом продукте может содержаться некоторое количество нежелательных веществ Y (в долях к общей массе). Х 1 и Х 2 даны в относительных единицах (абсолютные значения t Î [60; 80]; консервант Х 2 Î [0,5; 1]), Y - в абсолютных
Необходимо определить зависимость Y = f(Х 1 ,Х 2 ) и установить значения Х 1 и Х 2 , которые обеспечивают номинал Y ном. =0,009; 0,010; 0,011; 0,01 г. Определить ошибку e , которая соответствует установленному номиналу Y ном
Исходные данные, соответствующие конкретному варианту:
№ |
X 1i |
Х 2i |
Y i |
1. |
3 |
6 |
0,016 |
2. |
3 |
6 |
0,015 |
3. |
3 |
6 |
0,014 |
4. |
6 |
4 |
0,014 |
5. |
4 |
7 |
0,013 |
6. |
4 |
7 |
0,013 |
7. |
9 |
1 |
0,011 |
8. |
9 |
1 |
0,012 |
9. |
1 |
10 |
0,012 |
10. |
1 |
10 |
0,017 |
11. |
1 |
10 |
0,015 |
12. |
9 |
2 |
0,009 |
13. |
9 |
2 |
0,010 |
14. |
2 |
9 |
0,014 |
15. |
2 |
9 |
0,018 |
Описание задачи статистического анализа .
выборочное среднее:
выборочная дисперсия:
среднеквадратичное отклонение:
мат. ожидание произведения для вычисления коэф. ковариации:
Оценка параметров регрессии fr(x)=a+b*x
Уравнение линейной регрессии:
коэффициент корреляции:
отклонения фактических значений от теоретических (ошибка):
Расчетная часть
Вычисленные характеристики заданных факторов:
Фактор |
N |
Mxy |
Mx |
Dx |
s x |
a |
b, 10 -4 |
rxy |
X1 |
15 |
0.054 |
4.4 |
9.307 |
3.051 |
0.016 |
-6.032 |
-0.761 |
X2 |
15 |
0.086 |
6 |
10.267 |
3.204 |
0.01 |
5.13 |
0.68 |
Выявление линейной связи Y от X1 и Y от Х2
Фактор Х1:
Фактор Х2:
Вывод: вариационный ряд случайной ошибки: видно, что нормальный закон распределения искажен, что свидетельствует о неадекватности выявленной зависимости
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитаем t-критерии Стьюдента и доверительный интервал каждого из показателей. Оценка значимости коэффициентов регрессии и корреляции с помощью критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
tb=b/mb; ta=a/ma; trxy=rxy/mrxy; где mb,ma,mrxy - величины случайной ошибки
Выдвигаем гипотезу H0 о статистически незначимом отличии параметров
линейной регрессии от нуля: a=b=rxy = 0.
Определяем tтабл - это квантиль уровня 1-a/2 распределения Стьюдента с параметром n-m-1, где m - число параметров функции регресии при x
Определяем случайные ошибки
Фактичекие t-статистики
Фактор |
Soct, 10 -3 |
Ma, 10 -4 |
mb, 10 -4 |
Mrxy |
ta |
tb |
trxy |
rxy 2 |
Х1 |
1.686 |
7.64 |
1.427 |
0.18 |
21.189 |
4.227 |
4.227 |
0.579 |
Х2 |
1.906 |
1.04 |
1.536 |
0.203 |
10.01 |
3.341 |
3.341 |
0.462 |
Коэффициент детерминации: rxy 2
Так как фактические t-статистики превосходят tтабл = 2.16 , то гипотеза H0 отклоняется, т.е. a,b,rxy неслучайно отличаются от нуля и статистически значимы на уровне a =0.05
( фактор
Х1)
В среднем расчетные значения функции регрессии отклоняются от фактических на 9.6%. Качество построенной модели оценивается как хорошее(менее 10%)
(фактор
Х2)
В среднем расчетные значения функции регрессии отклоняются от фактических на 11.5%. Качество построенной модели оценивается как плохое(более 8%)
Проверим гипотезу о статистической незначимости уравнения регрессии
показателя тесноты связи (критерий Фишера).
Выдвигаем гипотезу H0 о статистической незначимости уравнения регрессии показателя тесноты связи
Критериальная статистика: Ffakt=(n-m-1)*((rxy)2/(1-(rxy)2)
Критическая область: Ftabl<Ffakt, где Ftabl- максимально возможное значение критерия F под влиянием случайных факторов при данных степенях свободы и уровне значимости
Фактор |
Ffakt |
Ftabl |
Х1 |
17.869 |
4.667 |
Х2 |
11.16 |
4.667 |
Вывод: так как <
, то это
указывает на необходимость отклонить принятие гипотезы H0 о случайной природе
выявленной зависимости и статистической незначимости при a=0.05 уравнения
регрессии и показателя тесноты связи
Расчет доверительного интервала для a,b. Для этого определим предельную ошибку для каждого параметра функции регрессии.
Доверительные интервалы параметров функции регрессии
Фактор |
D a,10 -3 |
D b,10 -3 |
amin(amax) |
bmin(bmax) 10 -4 |
Х1 |
1.65 |
3.083 |
0.015(0.018) |
-9.114(-2.949) |
Х2 |
2.256 |
3.317 |
0.0082(0.013) |
1.812(8.447) |
Анализ верхней и нижней границ доверительных интервалов приводят к выводу о том, что с вероятностью P = 1-a =0.95 параметры ,находясь в указанных границах, не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличаются от нуля
Фактор Х1 Фактор Х2
Полученные оценки уравнения регрессии позволяют использовать его для прогноза
прогнозное значение фактора
прогнозное значение результата
Ошибка прогноза составит:
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
Доверительный интервал прогноза:
Выборка |
xp |
yp |
myp, 10 -3 |
D yp, 10 -3 |
ypmin(ypmax), 10 -3 |
Х1 |
4.62 |
0.013 |
1.741 |
3.762 |
9.638(17) |
Х2 |
6.3 |
0.014 |
1.969 |
4.253 |
9.434(18) |
Анализ полученных результатов.
По полученным данным можно сделать вывод, что две величины X1,X2 влияют на Y, т.к. на данном уровне значимости коэффициенты корреляции не равны нулю, что подтверждает гипотеза о параметрах a,b,rxy. Про зависимость Y от Х1 можно сказать, что Y зависит от X1 линейно. Этот факт подтверждается значениями признаков: приемлемой ошибкой аппроксимации , близким к нулю значением коэффициента при х в функции регрессии и отношением величины этого коэффициента к величины его доверительного интервала. Этот же вывод можно сделать по графическим представлениям зависимостей. Что касается зависимости Y от Х2, то можно сказать, что Y зависит от X2 линейно. Этот факт подтверждается значениями тех же признаков, что и для описанных выше зависимостей
Из-за допущенной отрицательной ошибки D нет значений X1 и X2, которые удовлетворяют заданному номиналу 0.009