Выборочное наблюдение в статистике. Ошибки выборки. Задачи, решаемые при применении выборочного наблюдения Предельная ошибка выборки прямо пропорциональна

Понятие и расчет ошибки выборки.

Задачей выборочного наблюдения является дача верных представлений о сводных показателях всей совокупности на основе некоторой их части, подвергнутой наблюдению. Возможное отклонение выборочной доли и выборочной средней от доли и средней в генеральной совокупности называется ошибкойвыборки или ошибкойрепрезентативности. Чем больше величина этой ошибки, тем больше показатели выборочного наблюдения отличаются от показателей генеральной совокупности.

Различаются:

Ошибки выборки;

Ошибки регистрации.

Ошибки регистрации возникают при неправильном установлении факта в процессе наблюдения. Они свойственны как сплошному наблюдению, так и выборочному, но в выборочном их меньше.

По природе ошибки бывают:

Тенденциозные – преднамеренные, т.е. были отобраны либо лучшие, либо худшие единицы совокупности. При этом наблюдения теряют смысл;

Случайные – основной организационный принцип выборочного наблюдения состоит в том, чтобы не допустить преднамеренного отбора, т.е. обеспечить строгое соблюдение принципа случайного отбора.

Общим правилом случайного отбора является: у отдельных единиц генеральной совокупности должны быть совершенно одинаковые условия и возможности упасть в число единиц, входящих в выборку. Это характеризует независимость результата выборки от воли наблюдателя. Воля же наблюдателя порождает тенденциозные ошибки. Ошибка выборки при случайном отборе носит случайный характер. Она характеризует размеры отклонений генеральных характеристик от выборочных.

В связи с тем, что признаки в изучаемой совокупности варьируют, то состав единиц, попавших в выборку, может не совпадать с составом единиц всей совокупности. Это означает, что Р и не совпадают с W и . Возможное расхождение между этими характеристиками определяется ошибкой выборки, которая определяется по формуле:

где - генеральная дисперсия.

где - выборочная дисперсия.

Отсюда видно, где генеральная дисперсия отличается от выборочной дисперсии в раз.

Существует повторный и бесповторный отбор. Сущность повторного отбора состоит в том, что каждая, попавшая в выборку единица, после наблюдения возвращается в генеральную совокупность и может быть исследована повторно. При повторном отборе средняя ошибка выборки рассчитывается:

Для показателя доли альтернативного признака дисперсия выборки определяется по формуле:

На практике повторный отбор применяется редко. При бесповторном отборе, численность генеральной совокупности N в ходе выборки сокращается, формула средней ошибки выборки для количественного признака имеет вид:



Одно из возможных значений, в которых может находиться доля изучаемого признака равно:

где - ошибка выборки альтернативного признака.

Пример .

При выборочном обследовании 10 % изделий партии готовой продукции по методу без повторного отбора получены следующие данные о содержании влаг в образцах.

Определить средний % влажности, дисперсию, среднее квадратическое отклонение, с вероятностью 0,954 возможные пределы, в которых ожидается ср. % влажности всей готовой продукции, с вероятность 0,987 возможные пределы удельного веса стандартной продукции при условии, что к нестандартной партии относятся изделия с влажностью до 13 и выше 19 %.

Лишь с определенной вероятностью можно утверждать, что генеральная доля от выборочной доли и генеральная средняя от выборочной средней, отклоняются в t раз.

В статистике эти отклонения называются предельнымиошибкамивыборки и обозначаются .

Вероятность суждений можно повысить или понизить в t раз. При вероятности 0,683 , при 0,954 , при 0,987 , тогда показатели генеральной совокупности по показателям выборки определяются:

Понятие о выборочном наблюдении.

Выборочным называется такое наблюдение, при котором характеристика всей совокупности единиц дается по некоторой их части, отобранной в случайном порядке.

Причины применения выборочного наблюдения:

1. Экономия материальных, трудовых, финансовых ресурсов и времени.

2. Выбранное наблюдение часто приводит к повышению точности данных, т.к. уменьшение числа единиц наблюдения резко снижает ошибки регистрации величин признака (описки, недоучет, двойной счет…).

3. Выборочное наблюдение является единственно возможным, если наблюдение сопровождается полной или частичной порчей наблюдаемых объектов (качество партий яиц, прочность тканей и т.д.).

Ту часть единиц, которые отобраны для наблюдения, принято называть выборочной совокупностью или просто выборкой , а всю совокупность единиц, из которых производится отбор, - генеральной совокупностью .

Принята следующая система обозначения показателей для выбранной и генеральной совокупности.

В зависимости от применения техники отбора разделяют выборку серийную (гнездовую) и типологическую.

· В случае типологической выборки генеральная совокупность разделяется на типы (группы, районы), а затем производится случайный отбор единиц из каждого типа.

· При серийной выборке выбирают не единицы, а определенные серии, группы, районы, внутри которых производится сплошное наблюдение.

Существуют два способа отбора единиц в выборочную совокупность:

- повторный отбор

каждая попавшая в выборку единица возвращается в генеральную совокупность и имеет шанс вторично попасть в выборку.

- бесповторный отбор

отобранная единица не возвращается в генеральную совокупность, а для оставшихся единиц вероятность попасть в выборку увеличивается. Бесповторный отбор дает более точные результаты, но иногда его провести нельзя (исследование потребительского спроса).

Качество результатов выборочного наблюдения зависит от того, насколько состав выборки представляет генеральную совокупность, иначе говоря, от того, на сколько выборка репрезентативна (представительна). Для обеспечения репрезентативности выборки необходимо соблюдение принципа случайности отбора единиц.

Ошибка выборки

Понятие и виды ошибок выборки

Поскольку изучаемая статистическая совокупность состоит из единиц с варьирующими признаками, то состав выборочной совокупности может в той или иной мере отличаться от состава генеральной совокупности.

Расхождение между характеристиками выборки и генеральной совокупности составляет ошибку выборки .

Виды ошибок выборки

Основная задача выборочного метода – изучение случайных ошибок репрезентативности.

Средняя ошибка выборки

Случайная ошибка репрезентативности зависит от следующих фактов (при этом считается, что ошибок регистрации нет):

1. Чем больше численность выборки при прочих равных условиях, тем меньше величина ошибки выборки, т.е. ошибка выборки обратно пропорциональна ее численности.

2. Чем меньше варьирование признака, тем меньше ошибка выборки. Если признак совсем не варьирует, а, следовательно, величина дисперсии равна нулю, то ошибки выборки не будет, т.к. любая единица совокупности будет совершенно точно характеризовать всю совокупность по этому признаку. Таким образом, ошибка выборки прямо пропорциональна величине дисперсии.

В математической статистике доказывается, что величина средней ошибки случайной повторной выборки может быть определена по формуле

Однако следует иметь в виду, что величина дисперсии в генеральной совокупности s 2 нам не известна, т.к. наблюдение выборочное. Мы можем рассчитать лишь дисперсию в выборочной совокупности S 2 . Соотношение между дисперсиями генеральной и выборочной совокупности выражается формулой:

(6.2)

Если n велико, следовательно

s 2 = S 2

И формула средней ошибки повторной выборки (6.1.) примет вид:

Но здесь мы рассмотрели только ошибку выборки для средней величины интересующего признака. Существует также показатель доли единиц с интересующим признаком. Расчет ошибки этого показателя имеет свои особенности.

Дисперсия для показателя доли признака определяется по формуле:

S 2 =w(1-w) (6.4)

Тогда средняя ошибка повтора выборки для показателя доли признака будет равна:

(6.5)

Доказательство формул (6.3) и (6.5) исходит из схемы повторной выборки. Обычно же выборку организуют бесповторным способом. Т.к. при бесповторном отборе численность генеральной совокупности N в коде выборки сокращается, то в формулы ошибки выборки включают дополнительный множитель , и формулы принимают вид:

(6.6)

(6.7)

Пример 1. Определим, на сколько отличаются выборочные и генеральные показатели по данным 10%-ной бесповторной выборки успеваемости студентов.

Расчет ошибки бесповторной выборки для средней величины:

n = 100 N = 1000

Найдем выборочную дисперсию по формуле:

Здесь не известна величина , которую можно найти как обычную среднюю взвешенную величину:

Таким образом,

Т.е. можно сказать, что средний балл всех студентов () равен 3,65±0,07

Теперь рассчитаем долю студентов в генеральной совокупности, обучающихся на «4» и «5».

Найдем по выборке долю студентов, получивших оценки «4» и «5».

(или 64%)

Расчет ошибки бесповторной выборки для доли производится по формуле:

(или 4,5%)

Таким образом, доля студентов, обучающихся на «4» и «5» по генеральной совокупности (P )составляет 0,64±0,045 (или 64%±4,5%).

Предельная ошибка выборки

То, что генеральная средняя и генеральная доля не выйдут за определенные пределы можно утверждать не с абсолютной достоверностью, а лишь с определенной степенью вероятности.

В математической статистике доказано, что генеральные характеристики отклоняются от выборочных на величину ошибки выборки (±m) , лишь с вероятностью 0,683. Применительно к выборочным исследованиям это понимается так, что значения пределов можно гарантировать лишь в 683 случаях из 1000. В остальных же 317 случаях значения этих пределов будут иными.

Вероятность суждения можно повысить, если расширить пределы отклонений, приняв в качестве меры среднюю ошибку выборки, увеличенную в t раз.

Т.е. с определенной степенью вероятности мы можем утверждать, что отклонения выборочных характеристик от генеральных не превысят некоторой величины, которая называется предельной ошибкой выборки D (дельта):

где t – коэффициент доверия (коэффициент кратности ошибки), определяемый в зависимости от того, с какой доверительной вероятностью надо гарантировать результаты выборочного исследования.

На практике пользуются таблицами, где вычислены вероятности для различных значений t . Приведем некоторые из них.

t Вероятность t Вероятность
0,5 0,383 2,0 0,954
1,0 0,683 2,5 0,988
1,5 0,866 3,0 0,997

Например, если в нашем примере мы хотим увеличить вероятность суждения до 0,954, то мы берем t = 2 и таким образом изменяем пределы отклонений среднего балла всех студентов и доли студентов, обучающихся на «4» и «5».

То есть, (6.9)

То есть, (6.10)

Предельная ошибка — максимально возможное расхождение средних или максимум ошибок при заданной вероятности ее появления.

1. Предельную ошибку выборки для средней при повторном отборе в рассчитывают по формуле:

где t - нормированное отклонение - «коэффициент доверия», который зависит от вероятности, гарантирующей предельную ошибку выборки;

мю х - средняя ошибка выборки.

2. Предельная ошибка выборки для доли при повторном отборе определяется по формуле:

3. Предельная ошибка выборки для средней при бесповторном отборе:

Предельную относительную ошибку выборки определяют как процентное соотношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности. Она определяется таким образом:

Малая выборка

Теория малых выборок была разработана английским статистиком Стьюдентом в начале 20 века. В 1908 г. он выявил специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При n больше 100 дают такие же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 < n < 100 различия получаются незначительные. Поэтому на практике к малым выборкам относятся выборки объемом менее 30 единиц.

Понятие о выборочном наблюдении.

При статистическом методе наблюдения возможно применение двух методов наблюдения: сплошного, охватывающего все единицы совокупности, и выборочного (несплошного).

Под выборочным понимается метод исследования, связанный с установлением обобщающих показателей совокупности по некоторой ее части на основе метода случайного отбора.

При выборочном наблюдении обследованию подвергается сравнительно небольшая часть всей совокупности (5-10%).

Вся совокупность, подлежащая обследованию, называется генеральной совокупностью .

Отобранная из генеральной совокупности часть единиц, подвергающаяся обследованию, называется выборочной совокупностью или выборкой.

Показатели, характеризующие генеральную и выборочную совокупность:

1) Доля альтернативного признака;

В генеральной совокупности доля единиц, обладающих каким-либо альтернативным признаком, обозначается буквой «Р».

В выборочной совокупности доля единиц, обладающих каким-либо альтернативным признаком, обозначается буквой «w».

2) Средний размер признака;

В генеральной совокупности средний размер признака обозначается буквой (генеральная средняя).

В выборочной совокупности средний размер признака обозначается буквой (выборочная средняя).

Определение ошибки выборки.

Выборочное наблюдение основано на принципе равной возможности попадания единиц генеральной совокупности в выборочную. Это позволяет избежать систематических ошибок наблюдения. Однако, в связи с тем, что исследуемая совокупность состоит из единиц с варьирующими признаками, состав выборки может отличаться от состава генеральной совокупности, вызывая расхождения между генеральными и выборочными характеристиками.

Такие расхождения называются ошибками репрезентативности или ошибками выборки.

Определение ошибки выборки – основная задача, решаемая при выборочном наблюдении.

В математической статистике доказывается, что средняя ошибка выборки определяется по формуле:

Где m - ошибка выборки;

s 2 0 – дисперсия генеральной совокупности;

n – количество единиц выборочной совокупности.

На практике для определения средней ошибки выборки используется дисперсия выборочной совокупности s 2 .

Между генеральной и выборочной дисперсиями существует равенство:

(2).

Из формулы (2) видно, что генеральная дисперсия больше выборочной на величину (). Однако при достаточно большой величине выборки это соотношение близко к единице, поэтому можно записать, что

Однако такая формула для определения средней ошибки выборки применяется только при повторном отборе.

На практике обычно применяется бесповторный отбор и средняя ошибка выборки рассчитывается несколько иначе, так как численность выборки в ходе исследования сокращается:

(4)

где n – численность выборочной совокупности;

N – численность генеральной совокупности;

s 2 - выборочная дисперсия.

Для доли альтернативного признака средняя ошибка выборки при бесповторном отборе определяется по формуле:

(5), где

w (1-w) - средняя ошибка выборочной доли альтернативного признака;

w – доля альтернативного признака выборочной совокупности.

При повторном отборе средняя ошибка доли альтернативного признака определяется по упрощенной формуле:

(6)

Если численность выборки не превышает 5%, средняя ошибка выборочной доли и выборочной средней определяется по упрощенным формулам (3) и (6).

Определение средней ошибки выборочной средней и выборочной доли необходимо для установления возможных значений генеральной средней (х) и генеральной доли (Р) на основе выборочной средней (х) и выборочной доли (w).

Одно из возможных значений, в пределах которого находится генеральная средняя, определяется по формуле:

Для генеральной доли этот интервал можно записать в виде:

(8)

Полученные таким образом характеристики доли и средней в генеральной совокупности отличаются от величины выборочной доли и выборочной средней на величину m. Однако гарантировать это можно не с полной уверенностью, а лишь с определенной степенью вероятности.

В математической статистике доказывается, что пределы значений характеристик генеральной и выборочной средней отличаются на величину m лишь с вероятностью 0,683. Следовательно, только в 683 случаях из 1000 генеральная средняя находится в пределах х= х m х, в остальных случаях она выйдет за эти пределы.

Вероятность суждений можно повысить, если расширить пределы отклонений, приняв в качестве меры среднюю ошибку выборки, увеличенную в t раз.

Множитель t называют коэффициентом доверия. Он определяется в зависимости от того, с какой доверительной вероятностью надо гарантировать результаты исследования.

Математик А.М.Ляпушев рассчитал различные значения t , которые обычно приводятся в готовых таблицах.

Представляет из себя такое расхождение между средними выборочной и генеральной совокупностями, которое не превышает ±б (дельта).

На основании теоремы Чебышева П. Л. величина средней ошибки при случайном повторном отборе рассчитывается по формуле (для среднего количественного признака):

где числитель - дисперсия признака х в выборочной совокупности;
n - численность выборочной совокупности.

Для альтернативного признака формула средней ошибки выборки для доли по теореме Я. Бернулли рассчитывается по формуле:

где р(1- р) - дисперсия доли признака в генеральной совокупности;
n - объем выборки.

Вследствие, того что дисперсия признака в генеральной совокупности точно не известна, на практике используют значение дисперсии, которое рассчитано для выборочной совокупности на основании закона больших чисел . Согласно данному закону выборочная совокупность при большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.

Поэтому расчетные формулы средней ошибки при случайном повторном отборе будут выглядеть таким образом:

1. Для среднего количественного признака:

где S^2 - дисперсия признака х в выборочной совокупности;
n - объем выборки.

где w (1 — w) - дисперсия доли изучаемого признака в выборочной совокупности.

В теории вероятностей было показано, что выражается через выборочную согласно формуле:

В случаях малой выборки , когда её объем меньше 30, необходимо учитывать коэффициент n/(n-1). Тогда среднюю ошибку малой выборки рассчитывают по формуле:

Так как в процессе бесповторной выборки сокращается численность единиц генеральной совокупности, то в представленных выше формулах расчета средних ошибок выборки нужно подкоренное выражение умножить на 1- (n/N).

Расчетные формулы для такого вида выборки будут выглядеть так:

1. Для средней количественного признака:

где N - объем генеральной совокупности; n - объем выборки.

2. Для доли (альтернативного признака):

где 1- (n/N) — доля единиц генеральной совокупности, не попавших в выборку.

Поскольку n всегда меньше N, то дополнительный множитель 1 — (n/N) всегда будет меньше единицы. Это означает, что средняя ошибка при бесповторном отборе всегда будет меньше, чем при повторном. Когда доля единиц генеральной совокупности, которые не попали в выборку, существенная, то величина 1 — (n/N) близка к единице и тогда расчет средней ошибки производится по общей формуле.

Средняя ошибка зависит от следующих факторов:

1. При выполнении принципа случайного отбора средняя ошибка выборки определяется во-первых объемом выборки: чем больше численность, тем меньше величины средней ошибки выборки . Генеральная совокупность характеризуется точнее тогда, когда больше единиц данной совокупности охватывает выборочное наблюдение

2. Средняя ошибка также зависит от степени варьирования признака. Степень варьирования характеризуется . Чем меньше вариация признака (дисперсия), тем меньше средняя ошибка выборки. При нулевой дисперсии (признак не варьируется) средняя ошибка выборки равна нулю, таким образом, любая единица генеральной совокупности будет характеризовать всю совокупность по этому признаку.