Лекция 10. Основы математической статистики

Цель: познакомиться с выборочным методом, числовыми характеристиками выборки – средними по выборке и показателями вариации.

Основные задачи математической статистики

Математическая статистика – это раздел математики, который изучает методы обработки и классификации статистических данных для получения научно обоснованных выводов и принятия решений.

Основные задачи математической статистики могут быть сформулированы следующим образом:

а) оценка неизвестных параметров случайной величины (вероятности случайного события, математического ожидания случайной величины, дисперсии, функции распределения);

б) статистическая проверка гипотез, т. е. проверка предположений, сделанных относительно некоторых случайных событий, случайных величин (о вероятности события, о законе распределения случайной величины и т. д.);

в) принятие решений (сюда относятся, в частности, задачи оптимального выбора момента настройки или замены действующей аппаратуры, например, определения срока замены двигателя самолета, отдельных деталей станков и т. д.).

Пусть требуется изучить множество значений случайной величины или совокупности объектов относительно некоторого признака. Например, требуется определить процент изделий, выпускаемых одним и тем же оператором, параметры которых отличаются от номинальных.

Если число элементов в совокупности не очень большое, то можно исследовать каждый элемент в отдельности и сделать тот или иной вывод о наблюдаемом или измеряемом признаке.

Если же совокупность состоит из очень большого числа объектов, то сплошное обследование невозможно или нецесообразно. Нецелесообразно, например, исследовать на долговечность всю партию электрических лампочек, так как в результате исследуемые лампочки сгорают и вся партия уничтожилась бы.

В этих случаях выводы об исследуемом признаке делаются на основе изучения ограниченного числа объектов, должным образом отобранных из общей совокупности. Здесь мы подошли к понятиям генеральной и выборочной совокупностей.

Множество всех значений некоторой изучаемой величины или, другими словами, совокупность всех объектов, которая подлежит изучению, носит название генеральной совокупности, а специальным образом отобранная группа объектов – выборочной совокупности или выборки. Например, партия всех электрических лампочек, которая подлежит изучению, является генеральной совокупностью, а множество лампочек, взятых для обследования, составляет выборочную совокупность.

Число объектов совокупности (генеральной или выборочной) называется объемом данной совокупности (выборки). Например, если цех выпустил 2000 деталей, а для обследования отобрано 150 деталей, то объем генеральной совокупности равен 2000 (N = 2000), а объем выборки – 150 (n = 150).

Сейчас можно сказать, что основная задача математической статистики состоит в получении обоснованных выводов о свойствах генеральной совокупности по известным свойствам извлеченной из нее выборки.

Говорят, что выборка репрезентативна (представительна), если она достаточно «хорошо» представляет изучаемые признаки генеральной совокупности.

Важным условием обеспечения репрезентативности выборки является соблюдение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку.

Группировка статистических данных. Определение статистических (выборочных) распределений

Для установления закономерностей массовых случайных явлений изучаются статистические данные, т. е. сведения, полученные путем наблюдений или экспериментов о значениях интересующего нас признака. Выше уже были приведены примеры статистических данных. Рассмотрим здесь еще один пример. Экономист, интересующийся тарифным разрядом рабочих некоторого подразделения завода, выбрал документы 100 рабочих и выписал из них последовательность разрядов 5, 1, 4, 5, 4, 3, 6 и т. д. Эта последовательность представляет собой статистические данные, которые подлежат обработке.

Изучение статистических данных обычно начинается с их группировки в порядке возрастания значения признака. Пусть в нашем примере после упорядочения по возрастанию статистических данных мы получили ряд из 100 чисел

1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, ..,,

где 1 повторяется 4 раза, 2 – 6 раз, 3 – 12 раз, 4 – 16 раз (для экономии места мы не выписали этот ряд полностью), 5 – 44 раза и 6 – 18 раз.

Наблюдаемые значения рассматриваемого признака называются вариантами, а последовательность вариант, записанных в возрастающем порядке, называется выборочным или вариационным рядом.

Условимся обозначать через х₁, х₂, ..., x_k значения вариант в данной выборке. Если х₁, х₂, ..., x_k – вариационный ряд, т. е. х₁ < х₂ < ... < x_k, то х₁ – это наименьшее значение признака, x_k – наибольшее значение признака в данной выборке, а разность х_k – х₁ называется размахом выборки. В нашем примере х₁ = 1, х₂ = 2, х₃ = 3, x₄ = 4, x₅ = 5, х₆ = 6.

Пусть из генеральной совокупности отобрана выборка, в которой значение х₁ признака X наблюдалось n₁ раз, значение х₂ – n₂ раз, ..., значение x_k– n_k раз. Если объем выборки равен n, то

Числа n₁, n₂, ..., n_k называются частотами, а их отношения к объему выборки, т, е. – относительными частотами соответствующих вариант.

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.

Статистическое распределение выборки можно записать в виде таблицы, в первой строке которой указываются значения вариант выборки, во второй строке – значения частот:

x_i	x₁	x₂	…	x_k
n_i	n₁	n₂	…	n_k

или значения относительных частот (которые легко вычисляются по известным частотам и объему выборки):

x_i	x₁	x₂	…	x_k
w_i	w₁	w₂	…	w_k

Так, статистическое распределение выборки рассмотренного выше примера, запишется в виде

x_i	1	2	3	4	5	6
n_i	4	6	12	16	44	18

или

x_i	1	2	3	4	5	6
w_i	0,04	0,06	0,12	0,16	0,44	0,18

Можно свести обе эти характеристики выборки в одну таблицу 1:

x_i	1	2	3	4	5	6
n_i	4	6	12	16	44	18
w_i	0,04	0,06	0,12	0,16	0,44	0,18

Пример 1. Дано статистическое распределение выборки

x_i	2	6	12
n_i	3	10	7

Найти относительные частоты.

Пример 2. Найти вариационный ряд, частоты, относительные частоты для выборки, полученной при измерении электрической емкости двадцати пластин пьезоэлементов в пикофарадах по следующим результатам:

9,9, 11,0, 9,2, 12,0, 8,0, 8,7, 7,0, 11,8, 11,7, 10,3, 11,2, 8,1, 9,5, 11,5, 11,6, 9,7, 10,2, 11,4, 8,6, 10,0.

Вариационный ряд для данной выборки будет:

x₁ = 7,0, x₂= 8,0, x₃ = 8,1, x₄ = 8,6, x₅ = 8,7, x₆ = 9,2, x₇ = 9,5, x₈ = 9,7, x₉ = 9,9, x₁₀ = 10,0, x₁₁ = 10,2, x₁₂ = 10,3, x₁₃= 11,0, x₁₄= 11,2, x₁₅= 11,4, x₁₆= 11,5, x₁₇ = 11,6, x₁₈= 11,7, x₁₉= 11,8, x₂₀= 12,0.

Здесь каждая варианта встречается по одному разу, следовательно, n_i = 1 для всех i = 1, 2, ..., 20. Равными будут также и относительные частоты, причем .

При большом числе наблюдений и большом числе вариант, удобно варианты группировать по отдельным интервалам их значений. Для этого шкала интересующего нас признака разделяется на некоторое число интервалов, и вместо отдельных вариант рассматриваются группы значений вариант, попавших в последовательно расположенные интервалы. Число m таких интервалов, как правило, берется в пределах от 10 до 20. Ширина интервалов Dх определяется путем деления размаха выборки x_k – x₁ на количество интервалов.

В таких случаях составляется статистическое распределение выборки по частотам интервалов (интервальное статистическое распределение выборки). При этом частота интервала равна сумме частот вариант, попавших в данный интервал.

Пример 3. Для выборки примера 2 составить таблицу статистического распределения по интервалам, беря число интервалов m = 10.

Вычисляем ширину интервалов.

Следовательно, имеем интервалы (точнее, - промежутки): [7,0; 7,5], (7,5; 8,0], (8,0; 8,5], (8,5; 9,0], (9,0; 9,5], (9,5; 10,0], (10,0; 10,5], (10,5; 11,0], (11,0; 11,5], (11,5; 12,0]. Используя данные примера 2, получаем следующую таблицу статистического распределения выборки по интервалам:

[7,0; 7,5]	1	(9,5; 10,0]	3
(7,5; 8,0]	1	(10,0; 10,5]	2
(8,0; 8,5]	1	(10,5; 11,0]	1
(8,5; 9,0]	2	(11,0; 11,5]	3
(9,0; 9,5]	2	(11,5; 12,0]	4

Числовые характеристики выборки

Как мы уже говорили выше, одной из основных задач математической статистики является оценка параметров генеральной совокупности (случайной величины) при помощи соответствующих параметров выборки.

Пусть дана случайная величина X, принимающая значения x_i, i = 1, ..., k.

Выборочным средним выборки объема n со статистическим распределением

x_i	x₁	x₂	…	x_k
n_i	n₁	n₂	…	n_k

называется «среднее взвешенное» значений признака выборки.

Если рассмотренная выборка является генеральной совокупностью объема N со статистическим распределением

x_i	x₁	x₂	…	x_k
N_i	N₁	N₂	…	N_k

то получаем генеральное среднее.

Вероятность p_i того, что случайная величина X получает значение x_i, будет . Вычислим математическое ожидание М(Х) случайной величины X:

Генеральное среднее (а, следовательно, и математическое ожидание случайной величины) может быть оценено при помощи выборочной средней той или иной выборки. Точность таких оценок зависит от степени репрезентативности данной выборки.

Пример 7. Вычислить генеральное среднее для генеральной совокупности, заданной таблицей:

x_i	1	2	3	4	5	6
N_i	4	6	12	16	44	18

Пример 8. Оценить генеральное среднее генеральной совокупности примера 1 при помощи выборочного среднего выборки

x_i	1	2	3	4	5	6
n_i	1	1	3	4	11	5

Следовательно, можно принять , что близко к истинному значению (см. пример 7).

Пример 9. По данным таблицы оценить среднюю выработку на одного рабочего завода в отчетном году в процентах к предыдущему году (в качестве вариант берутся середины соответствующих интервалов):

Интервал значений варианты (выработка в отчетном году в % по отношению к предыдущему году)

Частота интервала (количество рабочих с данной выработкой)

[80; 90]

[90; 100]

[100; 110]

[110; 120]

[120; 130]

[130; 140]

[140; 150]

Решение. Оценим среднюю выработку при помощи выборочного среднего.

Выборочной дисперсией D_в которой выборки называется среднее взвешенное квадратов отклонений значений признака от выборочной средней .

Если варианты x₁, х₂, ..., x_k выборки объема n имеют частоты n₁, n₂, ..., n_k,

Если рассматриваемая выборка является генеральной совокупностью, то получаем генеральную дисперсию D_г. Пусть X – случайная величина, значения которой предоставлены генеральной совокупностью объема N со статистическим распределением

x_i	x₁	x₂	…	x_k
N_i	N₁	N₂	…	N_k

Генеральная дисперсия генеральной совокупности (а, следовательно, и дисперсия случайной величины) может быть оценена при помощи выборочной дисперсии той или иной выборки. Точность такой оценки зависит от степени репрезентативности данной выборки.

Напомним, что дисперсия является характеристикой рассеяния значений признака вокруг своего среднего значения.

Часто рассматривается еще величина, которая называется средним квадратическим отклонением выборки.

Пример 10. Вычислить генеральную дисперсию генеральной совокупности из примера 7.

Пример 11. Оценить генеральную дисперсию генеральной совокупности из примера 7, при помощи выборочной дисперсии выборки из примера 8.

Следовательно, можно принять , что близко к истинному значению D_г (см. пример 4).

Пример 12. По данным таблицы из примера 9 оценить дисперсию средней выработки на одного рабочего завода и среднее квадратическое отклонение.

Вопросы для самоконтроля:

1. Каковы задачи статистического анализа?

2. В чем отличие генеральной совокупности от выборочной?

3. Приведите примеры генеральной совокупности, выборки и исследуемого признака.

4. Для чего исследуются числовые характеристики выборок?

5. Что называется вариационным рядом?

6. Что такое частота выборочных данных и как она определяется?

7. Что называется выборочным средним? Генеральным средним?

8. Какой смысл имеет математическое ожидание для выборочного распределения?

9. Что характеризует дисперсия?

10. Как рассчитывается дисперсия для выборочного распределения?

11. Что называется средним квадратическим отклонением? По какой формуле оно вычисляется?