Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по эконометрике
Математическая статистика; описательная (дескриптивная) статистика

Математическая статистика; описательная (дескриптивная) статистика

👀 448 просмотров
📌 398 загрузок

Выбери формат для чтения

Конспект лекции по дисциплине «Математическая статистика; описательная (дескриптивная) статистика», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Математическая статистика; описательная (дескриптивная) статистика», Word формат

Математическая статистика Математическая статистика разрабатывает специальные методы обработки результатов наблюдений во всех областях человеческой деятельности: в экономике, производстве, медицине и т.д. Математическая статистика – наука, занимающаяся изучением методов получения, описания и обработки опытных данных с целью изучения закономерностей случайных массовых явлений. В математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а используются приближенные методы нахождения этих законов и числовых характеристик по результатам экспериментов. Математическая статистика на основании опытных данных оценивает структуру математических моделей, проверяет, правильно ли подобрано распределение (биномиальное, нормальное, Пуассона и т. д.), оценивает параметры этого распределения, проверяет гипотезы о параметрах принятого распределения. Типичными задачами математической статистики, которые наиболее важны для нас по своим практическим применениям, являются следующие. 1. Первичная статистическая обработка данных или описательная (дескриптивная) статистика, в которой разрабатываются рациональные способы задания статистических данных и вычисления сводных характеристик выборки. Данные в том виде, как они получены при наблюдении, обычно труднообозримы из-за большого их числа. Для того чтобы начать анализ, в них надо внести некоторый порядок и придать им удобный для исследования вид. При этом желательно также получить представление о распределении изучаемых случайных величин или случайных признаков. 2. Статистическое оценивание неизвестных параметров. Предполагается, что изучаемая случайная величина имеет закон распределения вероятностей определенного вида. Параметры, задающие это распределение, неизвестны и подлежат определению по результатам экспериментов. Здесь также рассматриваются вопросы оценивания параметров статистических зависимостей, существующих между анализируемыми величинами. 3. Статистическая проверка гипотез. На разных стадиях статистического исследования возникает необходимость в формулировке и экспериментальной проверке некоторых предположений или гипотез относительно природы или величины неизвестных параметров рассматриваемой стохастической схемы. Наша цель – проверить, не противоречит ли высказанная нами гипотеза имеющимся данным. Процедура обоснованного сопоставления высказанной гипотезы с имеющимися в нашем распоряжении выборочными данными осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез. Описательная (дескриптивная) статистика Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным – контролируемый размер детали. При математическом описании количественному признаку будет соответствовать случайная величина Χ , дискретная или непрерывная. Качественный признак, как правило, характеризуется набором количественных, поэтому при математическом описании ему будет соответствовать система случайных величин или многомерная случайная величина. В дальнейшем будем считать, что нас интересует некоторый количественный показатель (случайная величина Χ ), характеризующий исследуемый признак. Генеральной совокупностью называют совокупность всех мыслимых наблюдений или всех мысленно возможных объектов интересующего нас типа, с которых «снимаются» наблюдения. Генеральная совокупность называется конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых наблюдений. Объем генеральной совокупности Ν – это число объектов этой совокупности. Выборка из данной генеральной совокупности – это результаты ограниченного ряда наблюдений случайной величины Χ . Число наблюдений, образующих выборку, называют объемом выборки. Объем выборки n намного меньше объема генеральной совокупности n  Ν  . Итак, пусть проведено n независимых наблюдений случайной величины Χ . В результате этих наблюдений получены значения x1 , x2 ,, xn , которые образуют выборку объема n . В дальнейшем будем обозначать выборку через x1 , x2 ,, xn , xi – наблюдаемые значения признака или варианты. Сущность выборочного метода статистики состоит в том, что по некоторой части генеральной совокупности (т. е. по выборке) выносятся суждения о ее свойствах в целом. Для того чтобы выводы, получаемые в результате статистической обработки данных, были достоверными, т. е. полно и адекватно представляли интересующие нас свойства генеральной совокупности, выборка должна быть репрезентативной или представительной. Представительность выборки обеспечивается различными способами ее организации. Выборка x1 , x2 , , xn  имеющихся в нашем распоряжении значений исследуемой случайной величины Χ является той исходной информацией, на основании которой строятся выводы о свойствах изучаемой генеральной совокупности в целом и, в частности, составляется представление о функции и ряде распределения или плотности анализируемого закона распределения вероятностей. Вариационные ряды и их графики Упорядоченная по величине последовательность выборочных значений x1n   x2n     xnn  называется вариационным рядом. Среди членов вариационного ряда могут быть совпадающие между собой значения. Если через n1 , n2 , , nr обозначить число повторений всех несовпадающих значений выборки, то получим два ряда чисел: xi x1 x2  xr r ni n1 n2  nr  ni  n . (1) i 1 Первый ряд содержит различные выборочные значения, расположенные в порядке возрастания. Числа второго ряда показывают количество повторений каждого из этих значений в выборке и называются частотами. Ряд (1) называют также точечным вариационным рядом, что соответствует дискретной вариации признака, или эмпирическим распределением признака по частотам. От распределения частот можно перейти к распределению относительr n ных частот ωi  i ,   i  1, заданных в виде доли или в виде процента n i 1  i  100%   100% , т.е. получить ряд: xi x1 ωi 1  2   r      i  100% x2  xr r  i  1 (2) i 1 r i  100%  100% i 1 Так как на основании закона больших чисел (теорема Бернулли), относительная частота рассматриваемого события сколь угодно мало отличается от его вероятности, то можно утверждать, что вариационный ряд вида (2), построенный по относительным частотам, является статистической аппроксимацией или статистическим приближением теоретического ряда распределения случайной величины Χ . Если объем выборки n велик ( n  50 ) и при этом мы имеем дело с непрерывной величиной, то часто удобнее, с точки зрения упрощения дальнейшей статистической обработки результатов наблюдений, перейти к так называемым «группированным» выборочным данным или интервальному вариационному ряду. Этот переход осуществляется следующим образом: 1. Отмечаются наименьшее x min и наибольшее xmax значения в выборке. 2. Весь обследованный диапазон  xmin ; xmax  разбивается на определенное число k равных интервалов группирования (количество интервалов k не должно быть меньше 8–10 и больше 20–25); выбор количества интервалов существенно зависит от объема выборки n , для примерной ориентации в выборе k можно пользоваться приближенной формулой k  log2 n  1 либо k  1  1,45ln n . x  xmin 3. Определяется шаг группирования h  max и отмечаются границы k интервалов C0  xmin , C1  C0  h, C2  C1  h и т.д. 4. Подсчитываются числа выборочных данных, попавших в каждый из интервалов: n1 , n2 , , nk (очевидно, n1  n2    nk  n ); выборочные данные, попавшие на границы интервалов, либо равномерно распределяются по двум соседним интервалам, либо относятся только к какому-либо одному из них, например, к левому. В зависимости от конкретного содержания задачи в данную схему группирования могут быть внесены некоторые изменения (например, в некоторых случаях целесообразно отказаться от требования равной длины интервалов h группирования либо положить C0  xmin  , C1  C0  h . 2 Таким образом, следуя этой методике от ряда (1) или (2) при больших r можно перейти к интервальному вариационному ряду, который запишется в виде: Ci  Ci 1 ni C0  C1 C1  C2  Ck 1  Ck n1 n2  k  ni  n (3) i 1 nk От интервального ряда можно вновь перейти к точечному, т.е. ряду вида (1), если в качестве значения случайной величины, соответствующего i -му C  Ci 1 интервалу, взять его середину xi0 , где xi0  i . В итоге получить ряд: 2 xi0 ni x10 n1 x20  xk0 n2  nk k  ni  n i 1 (4) Несмотря на видимую несхожесть, ряды (1) – (4) отражают одно и то же фактическое распределение признака. Для наглядного представления вариационные ряды изображают в виде графиков. Наиболее распространенными способами представления эмпирических данных являются гистограмма, полигон частот или относительных частот и полигон накопленных частот или кумулятивная кривая – кумулята. Гистограмма строится для интервального вариационного ряда и состоит из последовательности примыкающих друг к другу прямоугольников (рис. 1). Ширина этих прямоугольников равна ширине интервалов группировки h и откладывается по оси абсцисс, а высота измеряется по оси ординат и пропорциональна частоте ni или относительной частоте ωi . В первом случае n имеем гистограмму частот с высотами прямоугольников, равными i , и h общей площадью, равной объему выборки n . Во втором – гистограмму отноn сительных частот с высотами прямоугольников – i и общей площадью, nh равной 1. Ступенчатая ломаная ~ f x  , ограничивающая в этом случае сверху построенную фигуру, является статистической аппроксимацией кривой распределения, т.е. графика теоретической функции плотности вероятности f  x  исследуемой случайной величины Χ . ~  f x x .0 Рис. 1 Если соединить плавной кривой середины верхних оснований прямоугольников (пунктир), то получим также приближенное представление графика функции плотности f  x  . Полигон частот или относительных частот представляет собой многоугольник с вершинами в точках xi ,ni  или xi ,ωi  (рис. 2). ni ωi  xmod Рис. 2 xi При изображении полигона частот или относительных частот интервального вариационного ряда вершины многоугольника расположены в точках с абсциссами, соответствующими срединным значениям интервалов xi0 . Очевидно, полигон относительных частот является статистической аппроксимацией многоугольника распределения. Полигон накопленных частот (кумулята) получается изображением в прямоугольной системе координат точечного вариационного ряда с накопленными частотами. При построении кумуляты дискретного признака на ось абсцисс наносятся значения признака – элементы выборки xi . Ординатами служат вертикальные отрезки – накопленные частоты mi (рис. 3). mi n n 2 x1 xmed xr xi Рис. 3 Накопленная частота mi значения xi получается суммированием частот значений, предшествующих данному, с частотой ni , т.е. mi  n1  n2    ni . Отсюда, накопленная частота крайнего правого значения (или максимального элемента выборки) равна объему выборки n . Эмпирическая функция распределения Пусть n x – число элементов выборки x1 , x2 , , xn  объема n , меньших n x . Тогда x будет относительной частотой тех значений выборки, которые n меньше x . С изменением x будет, очевидно, меняться и эта относительная частота, т.е. относительная частота будет функцией аргумента x . Эмпирической или статистической функцией распределения называется функция n F   x   x . Иначе, эмпирическая функция распределения F   x  есть относиn тельная частота события Χ  x в серии из n независимых измерений случайной величины Χ . F  x  является статистической аппроксимацией функции распределения F x  Ρ Χ  x и обладает следующими свойствами: значения F   x  принадлежат отрезку [0;1]; F   x  – неубывающая функция; если xmax – наибольший элемент выборки, а x min – наименьший, то 0, x  xmin F  x    ; 1 , x  x max  1) 2) 3) 4) F   x  непрерывна слева. Для выборки, представленной рядом (1) эмпирическая функция распределения F   x  запишется как  0, x  x1 n  1 , x1  x  x2 n  n  n2 (5) F  x    1 , x 2  x  x3 n       1, x  xr  График эмпирической функции распределения представляет собой ступенчатую линию со скачками в точках x1 , x2 , , xr (рис. 4). F  x  1 n1 n x1 x2 x3 xr Рис. 4 Проиллюстрируем построение вариационных рядов, их графиков, а также эмпирической функции распределения на следующем примере. Пример 1. Анализируется выборка из ста малых предприятий региона. Целью является изучение коэффициента соотношения заемных и собственных средств xi  на каждом i -ом предприятии. Таким образом, n  100 , а i  1,, n . Результаты обследования n  100 малых предприятий представлены в табл. 1. (Результаты обследования выстроены в таблице размером 10  10 в порядке регистрации по строкам, так что 2-я строка начинается с 11го наблюдения, 3-я – с 21-го и т. д.). Таблица 1 Коэффициенты соотношения заемных и собственных средств предприятий 5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31 5,46 5,61 5,11 5,41 5,31 5,57 5,33 5,11 5,54 5,43 5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49 5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38 5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37 5,33 5,49 5,50 5,54 5,40 5,58 5,42 5,29 5,05 5,79 5,79 5,65 5,70 5,71 5,84 5,44 5,47 5,48 5,47 5,55 5,67 5,71 5,73 5,03 5,35 5,72 5,49 5,61 5,57 5,69 5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81 5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51 Требуется: 1. По данным выборки построить точечный вариационный ряд, распределив значения xi по частотам ni (ряд 1). 2. От ряда 1 перейти к интервальному вариационному ряду (ряд 2). 3. От ряда 2 перейти к точечному ряду, распределив значения x i0 по частотам ni (ряд 3) и относительным частотам в виде доли ωi и в виде процента  i  100% (ряд 4). 4. Построить: а) гистограмму относительных частот для ряда 2; б) полигон частот для ряда 3; в) кумулятивную кривую для ряда 3. 5. Записать эмпирическую функцию распределения случайной величины Χ – соотношения заемных и собственных средств предприятий, используя ряд 3, и построить ее график. Решение. 1. Для того чтобы построить точечный вариационный ряд, необходимо расположить наблюдаемые значения xi в порядке их возрастания и относительно каждого xi указать частоту ni , т. е. число повторений xi в выборке, при этом сумма всех частот должна быть равна объему выборки n . Ряд 1: xi 5,03 5,05 5,11 5,19 5,20 5,21 5,22 5,23 ni 1 1 3 1 1 2 1 1 xi 5,24 5,25 5,26 5,27 5,29 5,31 5,32 5,33 ni 1 1 1 2 1 2 1 3 xi 5,34 5,35 5,36 5,37 5,38 5,39 5,40 5,41 ni 1 1 1 3 2 3 2 2 xi 5,42 5,43 5,44 5,45 5,46 5,47 5,48 5,49 ni 2 1 1 3 4 3 5 4 xi 5,50 5,51 5,53 5,54 5,55 5,56 5,57 5,58 ni 2 2 1 3 2 1 2 2 xi 5,59 5,60 5,61 5,63 5,64 5,65 5,67 5,68 ni 2 2 3 1 1 1 1 2 xi 5,69 5,70 5,71 5,72 5,73 5,79 5,81 5,84 ni 1 1 2 1 2 2 1 1 Здесь объем выборки n   ni  100 , а число различных значений r  56 . 2. Так как объем выборки велик и число различных значений исследуемого случайного признака также велико, то целесообразно перейти от точечного ряда 1 к интервальному. Такой переход осуществляется по изложенной выше методике следующим образом: а) отмечаются наименьшее xmin  5,03 и наибольшее xmax  5,84 значения в выборке; б) весь обследованный диапазон [5,03; 5,84] разбивается на k равных интервалов группирования, где k  1  log2 n  1  1,45ln n  7,68  8 , отсюда шаг x  xmin 5,84  5,03 группирования или ширина интервала h  max   0,101 . k 8 Примем h  0,10 ; в) отмечаются крайние точки каждого из интервалов, а также подсчитываются числа выборочных данных, попавших в каждый из интервалов n1 , n2 ,, nk (очевидно, здесь n1  n2    n8  100 ). За нижнюю границу пер- вого интервала принимаем тогда C0  xmin  5,03 , C1  C0  h  5,13, C2  C1  h  5,23 ,  , C8  C0  8h  5,83 . Значения признака, попавшие на границу интервала, условимся равномерно распределять по двум соседним интервалам. Заметим, что схема группирования может быть построена иначе. Так, нижняя граница первого интервала может быть выбрана как h C0  xmin   4,98 , тогда C1  C0  h  5,08,, C8  C0  8h  5,78 . Частоты, 2 соответствующие интервалам группирования, можно также определять иначе: значения признака, попавшие на границу интервала, относить к одному из соседних, например, только к левому. Следуя первоначально описанной схеме, получим ряд 2: Ряд 2: Ci  Ci 1 5,03-5,13 5,13-5,23 5,23-5,33 5,33-5,43 ni 5 6 10 20 Ci  Ci 1 5,43-5,53 5,53-5,63 5,63-5,73 5,73-5,83 ni 25 18 11 5 8  ni  100 . i 1 3. Для того чтобы перейти от интервального ряда 2 вновь к точечному, необходимо отметить середины интервалов xi0 и сопоставить им частоты ni или относительные частоты ωi . Так, распределение коэффициента соотношения заемных и собственных средств предприятий по частотам запишется в виде ряда 3, а распределение по относительным частотам в виде ряда 4: Ряд 3: xi0 ni 5,08 5,18 5,28 5,38 5,48 5,58 5,68 5,78 5 6 10 20 25 18 11 5  ni  100 . Ряд 4: xi0 5,08 5,18 5,28 5,38 5,48 5,58 5,68 5,78 i 0,05 0,06 0,10 0,20 0,25 0,18 0,11 0,05  i 100% 5 6 10 20 25 18 11 5  i  1 , i  100%  100% . 4. Гистограмма относительных частот для ряда 2 изображена на рис. 5.5. ni nh 2,5 0,5 . 5,0 5,1 3 3 5,83 x Рис. 5 Полигон частот для ряда 3 показан на рис. 5.6. ni 25 5 5,08 5,18 xmod Рис. 6 5,78 Для построения кумуляты представим ряд 3 по накопленным частотам mi : xi0 5,08 5,18 5,28 5,38 5,48 5,58 5,68 5,78 mi 5 11 21 41 66 84 95 100 Тогда кумулятой будет плавная кривая, изображенная на рис. 7. 100 mi 50 5 5,08 xmed 5,78 xi Рис. 7 5. Эмпирическая функция распределения для ряда 3 запишется как 0, x  5,08 0,05, 5,08  x  5,18  0,11, 5,18  x  5,28  0,21, 5,28  x  5,38  F   x   0,41, 5,38  x  5,48 . 0,66, 5,48  x  5,58  0,84, 5,58  x  5,68 0,95, 5,68  x  5,78  1, x  5,78 Здесь, например, значение функции F   x  , равное 0,05, найдено как 5 , так как значение Χ  5,18 , а именно, x1  5,08 наблюдалось 5 раз; зна100 чения Χ  5,28 , а именно, x1  5,08 и x1  5,18 наблюдались 5 + 6 = 11 раз, 11  0,11 при 5,18  x  5,28 и т. д. следовательно, F   x   100 График F   x  изображен на рис. 8. F  x  1 0,05 x 5,0 8 Рис. 8 5,7 8 График F   x  является статистическим приближением соответствующего графика теоретического распределения F x  . Геометрическое представление теоретической функции распределения может также давать и кумулята.