Определить необходимый объем выборки. Оптимальный объем представительной выборки

Наиболее корректный статистический анализ общественного процесса обеспечивают сведения о каждом его проявлении. Или, говоря статистическим языком, полный анализ всей совокупности возможен только при учете значения признака у каждой единицы совокупности. В качестве примера такого анализа можно привести всеобщие переписи населения.

Однако, массовый характер общественного явления часто влечет за собой невозможность исследования его в полном объеме, т.е. во всех его проявлениях. В статистической науке разработан специальный метод, позволяющей исследовать лишь часть явления, а результаты и выводы транспонировать на все явление в целом. Такой метод называется «выборочное наблюдение». Основой метода выборочного наблюдения служит взаимосвязь между единичным и общим, между частью и целым, которая существует в общественных явлениях.

Исследуемая часть статистической совокупности называется выборочной, а количество единиц, составляющих ее объем принято обозначать n. Вся совокупность называется генеральной, объем генеральной совокупности обычно обозначают N.

Можно выделить ряд причин применения выборочного наблюдения:

— недостаток временных ресурсов (как для проведения обследования, так и для анализа полученного большого объема данных);

— недостаток кадровых ресурсов, т.е. квалифицированных специалистов для проведения наблюдения и анализа;

— недостаток материальных ресурсов, т.е. слишком дорогостоящее наблюдение;

— практическая невозможность учета всех единиц совокупности в связи с их уничтожением в результате наблюдения (например, в случае обследования всхожести партии семян, продолжительности горения электроламп и т.д.);

— практическая нецелесообразность наблюдения каждой единицы совокупности (например, определения уровня потребления продукта питания населением региона и т.д.)

Основным принципом выборочного наблюдения является принцип рэндомизации (от англ. random – случай), т.е. принцип случайности отбора единиц совокупности, определяющий равенство единиц по возможности быть отобранными в выборочную совокупность. Данный принцип должен выполняться даже в случае планомерного отбора единиц.

В результате неполного обследования генеральной совокупности могут возникнуть ошибки наблюдения – ошибки репрезентативности. Поэтому, основной задачей исследователя является, во-первых, обеспечение представительности (репрезентативности) выборки, и, во-вторых, определение степени уверенности в соответствии параметров выборочной и генеральной совокупностей.

Определение способа отбора единиц совокупности является важной частью выборочного исследования. Существует множество способов отбора единиц совокупности, все их можно представить в виде трех групп (см. рис. 1.):


Рис. 1 Способы отбора единиц совокупности

Собственно-случайный отбор – выбор единиц совокупности без какой-либо схемы или системы. Может осуществляться методом жеребьевки или с помощью таблицы случайных чисел. При применении данного способа отбора необходимо удостовериться в выполнении принципа рэндомизации.

Отбор с предварительным выделением структуры генеральной совокупности применяется, если исследуется структурированная распределенная на группы) совокупность. Серийный отбор предполагает выбор одной группы единиц, внутри которой производится сплошное обследование, среди всех групп. Районированный отбор представляет собой определение границ выборочной совокупности с учетом территориальной принадлежности единиц генеральной совокупности. Механический отбор применяется для совокупности, в которой каждой единице присвоен отдельный номер, а выбор осуществляется пропорционально количеству единиц, например, каждая десятая единица и др.

Ступенчатый или смешанный отбор применяется в случае поэтапного проведения выборочного наблюдения, когда на разных этапах наблюдения используют различные варианты отбора единиц.

Серийный отбор – с генеральной совокупности отбираются не отдельные единицы, а целые серии, группы, а затем в каждой попавшей в выборку серии обследуются все без исключения единицы. Например, рабочих отбирают бригадами.

Комбинированный отбор – генеральная совокупность делится на одинаковые группы, затем производится отбор групп из которых отбираются отдельные единицы.

Типический отбор
— генеральная совокупность делится на однородные типические группы из которых собственно случайным или механическим способом производится отбор единиц.

Типический отбор дает самые точные результаты по сравнению с другими способами, т.к. обеспечивается репрезентативность в выборке. Например, рабочие делятся на группы по квалификации.

Прежде чем приступить к осуществлению выборочного наблюдения необходимо определить количество единиц выборочной совокупности, обеспечивающее репрезентативность, и, следовательно, надежность результатов исследования.

На практике для реализации выборочного наблюдения исследователем задаются:

— степень точности исследования (вероятность);

— предельная ошибка, т.е. интервал отклонения, определяемый целями исследования.

Исходя из этих критериев, рассчитывается необходимая численность выборочной совокупности (n) на основе формулы предельной ошибки выборки.

Разность между показателями выборочной и генеральной совокупности называется
ошибкой выборки .
Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т. д.

Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам, сотням и т. д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог.

Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки - принцип случайности. Случайные ошибки репрезентативности означают, что, несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности и является основной задачей выборочного метода.

Предельная ошибка выборки определяется для средней величины () и для доли (w), то, соответственно, имеем два варианта определения необходимой численности выборочной совокупности:

а) для повторного отбора:


б) для бесповторного отбора:


Разрабатывая программу выборочного наблюдения, сразу задают величину допустимой ошибки выборки и доверительную вероятность. Неизвестным остается тот минимальный объем выборки, который должен обеспечить требуемую точность формулы для определения численности выборки (п) зависят от метода отбора.

n i =

где n i – объем выборки из I – й группы;

N – общий объем выборки;

N i — объем i – й группы;

N — объем генеральной совокупности.

ЗАДАНИЕ 1

В результате выборочного обследования заработной платы 60-ти работников предприятия промышленности были получены следующие данные (табл. 1).

Постройте интервальный ряд распределения по результативному признаку, образовав пять групп с равными интервалами.

Определите основные показатели вариации (дисперсию, среднее квадратическое отклонение, коэффициент вариации), среднюю степенную величину (среднее значение признака) и структурные средние. Изобразите графически в виде: а) гистограммы; б) кумуляты; в) огивы. Сделайте вывод.

РЕШЕНИЕ

1. Определим размах вариации по результативному признаку – по производственному стажу по формуле:

R = Хmax – Хmin = 36 – 5 = 31

где Хmax – максимальный размер активов

Хmin – минимальный размер активов

2. Определим величину интервала

i = R/n = 31/5= 6,2

с учетом полученной величины интервалов производим группировку банков и получаем

3. Построим вспомогательную таблицу

Группа призна-ка

Значение значений в группе

х i

Количество частота признака (частота)

f i

в % к итогу

ω

Накопленная частота

S i

Середина интервала

* f i

ω

I

5 – 11,2

6,8,7,5,8,6,10,9,9,6,66,9,10,7,9,10,10,11,89,8,7,6,6,10

43,3

43,3

210,6

350,73

44,89

1167,14

II

11,2 – 17,4

16,15,13,12,17,14, 14, 12,14,17,13,15,17, 14

23,3

66,6

14,3

200,2

333,19

0,25

III

17,4 – 23,6

18,21,20, 21,18, 19,22,21,21,21,18, 19

20,0

86,6

20,5

410,0

32,49

389,88

IV

23,6 –29,8

28,29,25,28, 24

26,7

133,5

221,61

11,9

141,61

708,05

V

29,8 – 36

36,35,33

32,9

98,7

164,5

18,1

327,61

982,83

ИТОГО

1480,03

546,85

3251,4

4. Среднее значение признака в изучаемой совокупности определяется по формуле арифметической взвешенной:

года

5. Дисперсия и среднее квадратическое отклонение признака определяется по формуле



Определение колеблемости


Таким образом, V>33,3%, следовательно, совокупность неоднородна.

6. Определение моды

Мода – значение признака, наиболее часто встречающееся в изучаемой совокупности. В исследуемом интервальном вариационном ряду мода рассчитывается по формуле:


где

x M0
– нижняя граница модального интервала:

i M0 – величина модального интервала;

f M0-1 f M0 f M0+1 – частоты (частости) соответственно модального, домо-дального и послемодального интервалов.

Модальный интервал – это интервал, имеющий наибольшую частоту (частость). В нашей задаче – это первый интервал.


7. Рассчитаем медиану.

Медиана – вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части, таким образом, что половина единиц совокупности имеют значения признака меньше, чем медиана, а половина– больше, чем медиана.

В интервальном ряду медиана определяется по формуле:


где – начало медианного интервала;

– величина медианного интервала

– частота медианного интервала;

– сумма накопленных частот в домедианном интервале.

Медианный интервал – это интервал, в котором находится порядковый номер медианы. Для его определения необходимо подсчитать сумму накопленных частот до числа, превышающего половину совокупности.

По данным гр. 5 вспомогательной таблицы находим интервал, сумму накопленных часто в котором превышает 50%. Это второй интервал – от 11,6 до 18,4, он и является медианным.

Тогда


Следовательно, половина работников имеющих стаж работы меньше 12,971 лет, а половина – больше этой величины.

6. Изобразим ряд в виде полигона, гистограммы, кумулятивной прямой, огивы.

Графическое представление играет важную роль в изучении вариационных рядов, так как позволяет в простой и наглядной форме проводить анализ статистических данных.

Существует несколько способов графического изображения рядов (гистограмма, полигон, кумулята, огива), выбор которых зависит от цели исследования и от вида вариационного ряда.

Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к декретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (x i , q i), где x i — значение i-го признака, q i — частота или частость i-ro признака.

Гистограмма распределения применяется для изображения интервального ряда. Для построения гистограммы на горизонтальной оси откладывают последовательно отрезки, равные интервалам признака, и на этих отрезках, как на основаниях, строят прямоугольники, высоты которых равны частотам или частностям для ряда с равными интервалами, плотностям; для ряда с неравными интервалами.


Кумулята есть графическое изображение вариационного ряда, когда на вертикальной оси откладываются накопленные частоты или частности, а на горизонтальной – значения признака. Кумулята служит для графического представления как дискретных, так и интервальных вариационных рядов.


Вывод: Таким образом, были рассчитаны основные показатели вариации исследуемого ряда: среднее значение признака – производственного стажа составляет 14,8 лет, рассчитана дисперсия равная 54,19, в свою очередь среднее квадратическое отклонение признака – 7,36. Мода имеет значение 9,5, в модальным интервалом является первый интервал изучаемого ряда. Медиана ряда равная 12,971, делит ряд на две равные части говорит о том что в исследуемой организации половина работников имеет стаж работы меньше 12,971 лет, а половина – больше.

ЗАДАНИЕ 2

Имеются следующие исходные данные, характеризующие динамику за 2000 – 2004 г.г. (таблица 2). Исчислите основные показатели рядов динамики. Расчет представьте в виде таблицы. Рассчитайте среднегодовые значения показателей. В виде графического изображения – полигона, обозначьте динамику анализируемого показателя. Сделайте вывод.

Таблица 2 Исходные данные

Год

2000

2001

2002

2003

2004

РЕШЕНИЕ

1) Средний уровень динамики рассчитывается по формуле


2) Цепные и базисные темпы роста рассчитываем следующим образом:

1. Абсолютный прирост определяется по формуле:

Аiб = yi – y0

Аiц = yi – yi-1

2. Темп роста определяется по формуле: (%)

Трб = (yi / y0) *100

Трц = (yi / yi-1)*100

3. Темп прироста определяется по формуле: (%)

Тnрб = Трб –100%:

Тnрц = Трц – 100%

4. Средний абсолютный прирост:


y n
– конечный уровень динамического ряда;

y 0
– начальный уровень динамического ряда;

n ц
– число цепных абсолютных приростов.

5. Среднегодовой темп роста:


6. Среднегодовой темп прироста:


3) Абсолютное содержание 1% прироста:

А = Хi-1 / 100.

Все рассчитанные показатели сводим в таблицу.

Показатели

Годы

2000

2001

2002

2003

2004

Средняя численность работающих на предприятии

2. Абсолютный прирост

Aiц

3. Темп роста

Трib

81,25

50,0

62,5

56,25

Трiц

81,25

61,54

125,0

90,0

4. Темп прироста

Тпib

18,75

50,0

37,5

53,75

Тпiц

18,75

38,46

25,0

10,0

5. Значение 1% прироста

0,65

7. Изобразим графически в виде полигона.

Xi


Таким образом, получено следующее. Наибольшее значение средней численности работающих на предприятии отмечается в базовом 2000 году. Средний уровень численности работников предприятия равен 56 человек, средний абсолютный прирост имеет отрицательную величину и равен 8,75. Среднегодовой темп роста равен 75%. Ввиду отрицательной динамики ряда среднегодовой темп прироста равен -25%. Максимальное снижение численности работников по сравнению с базовым 2000 годом отмечается в 2002 году и равен -40 человек (темп роста 50%). Цепной рост в 2003 году имеет положительную величину (+10 человек, темп роста цепной 125%), в 2004 году продолжилось снижение численности работников.

ЗАДАНИЕ 3

Имеются данные о реализации товаров (см. таблицу 3)

Таблица 3 Исходные данные о реализации товаров

Товар

Базовый год

Отчетный год

кол-во

цена

кол-во

цена

1200

1300

1100

1000

Определить: а) индивидуальные индексы (i p , i q ); б) сводные индексы (I p , I q , I pq); в) абсолютное изменение товарооборота за счет: 1) количества товаров; 2) изменения цены. Сделать вывод по решению задачи.

РЕШЕНИЕ

Составим вспомогательную таблицу

Вид

Базисный период

Отчетный период

Произведение

Индексы

Кол-во, q 0

Цена, p 0

Кол-во, q 1

Цена, p 1

q 0 * p 0

q 1 * p 1

q 1 * p 0

i q =q 1 /q 0

i p =p 1 /p 0

49140

54780

51480

1,048

1,064

61320

54780

67200

1,096

0,941

62400

56700

50400

0,808

1,125

1848

2432

2128

1,152

1,143

1200

1300

90000

106600

97500

1,0833

1,093

1100

1000

92400

88000

84000

0,909

1,077

ИТОГО

357108

363292

352708


Вывод: Как видим общий прирост товарооборота за год составил 6184 усл.ед., включая влияние изменения количества проданного товара на — 4400 и из-за изменения цены на товар увеличение на 10584 усл.ед. Общий прирост товарооборота составил 101,7%. В тоже время в общем цены на реализуемые товары выросли на 103%, а объем реализации снизился на 1,1%.

ЗАДАНИЕ 4

Из исходных данных таблицы № 1 (выбрать строки с 14 до 23 провести корреляционно-регрессионный анализ, определить параметры корреляции и детерминации. Построить график корреляционной зависимости между двумя признаками (результативным и факторным). Сделать вывод.

РЕШЕНИЕ

Исходные данные

Производственный стаж

Размер заработной платы

1800

2500

1750

1580

1750

1560

1210

1160

1355

1480

Прямолинейная зависимость

Параметры уравнения определяются по методу наименьших квадратов, по системе нормальных уравнения


Для решения системы используем метод определителей.

Параметры рассчитывает по формулам


x

y

В каждой профессии есть свой набор любимых вопросов. Для исследователей рынка этот список возглавляет, безусловно, вопрос о размере выборки. Обычно его формулируют так:

  • Мы хотели бы заказать исследование по посетителям московских торговых центров. Какая нам нужна выборка?
  • Наша целевая аудитория – примерно 300 000 человек. Сколько людей нам нужно опросить, чтобы было репрезентативно? А если целевая аудитория будет 3 млн?
  • Нам нужно оценить потенциал продаж квартир в Санкт-Петербурге жителям северных городов России. Какую сделать выборку?
Размер выборки действительно важен, потому что определяет стоимость будущего исследования, не говоря уже о качестве итоговых результатов и выводов. В этой статье мы расскажем о том, как рассчитать оптимальный размер выборки массового опроса. Наш материал будет полезен всем, кто так или иначе сталкивается с необходимостью проведения маркетинговых исследований своими силами или заказывает их у специализированного агентства.

Главное заблуждение о размере выборки

Многие уверены, что чем больше размер целевой группы, тем больше должен быть размер выборки. Поэтому, якобы, чтобы узнать мнение жителей маленького города, достаточно опросить человек 200-300, ну а для выяснения мнения по России в целом и 5000 будет мало.

Между тем, этот стереотип не имеет ничего общего с реальностью. Размер выборки не зависит от численности целевой группы (на языке статистики она называется «генеральной совокупностью») и определяется двумя совершенно другими факторами. Единственное исключение из этого правила – случаи, когда генеральная совокупность очень маленькая, например, 1-2 тысячи человек, но такие ситуации в реальной практике маркетинговых исследований встречаются редко.

Два фактора, от которых зависит размер выборки

Размер выборки массового опроса зависит от двух факторов:

  1. Точности данных, которые нужно получить на выходе – это та самая «статистическая погрешность». Для выборки в 100 респондентов она будет в пределах плюс-минус 10%, а для выборки в 1000 респондентов – в пределах плюс-минус 3,1%. Более подробно об этом – ниже.
  2. Количества и размера подгрупп, на которые нужно разбивать выборку при анализе. Например, если проводится электоральное исследование, то в основном нас будет интересовать ядро активных избирателей. Как правило, доля «ядра» редко превышает 20-25% от всего населения. Поэтому размер выборки нужно рассчитывать так, чтобы одна четверть от ее общего объема позволяла проводить полноценный статистический анализ.
Вопреки расхожему мнению, качество выборки определяется не ее размером, а репрезентативностью. Репрезентативность – это соответствие между выборкой и генеральной совокупности по ключевым параметрам. Чаще всего, в качестве таких «реперных точек» используют легко измеряемые социально-демографические показатели: пол, возраст, образование, род занятий и место жительства.

Две разновидности ошибки выборки

Любое выборочное наблюдение (то есть когда мы опрашиваем не всех подряд, а делаем случайный отбор из генеральной совокупности) сопряжено с погрешностью данных. Эту погрешность обычно называют «ошибкой выборки». Она может быть двух видов:

  1. Систематическая – связана с ошибками проектирования выборки. Оценить ее размер, направление и степень смещения очень сложно, чаще всего – невозможно. Например, если вопросы респондентам будут задавать представители маргинальных социальных слоев, это повлияет на готовность участвовать в исследовании со стороны представителей более обеспеченных групп населения. В итоге это приведет к крайне трудно оцениваемой систематической ошибке и искажению данных.
  2. Случайная – связана с действием законов статистики. Ее размер легко рассчитывается по формулам математической статистики и теории вероятности. Они позволяют делать обоснованные выводы о доверительном интервале признака. Например, если статистическая погрешность составляет плюс-минус 10%, а полученное значение показателя оказалось равно 25%, то доверительный интервал равен от 15% до 35%.

Задача исследователя – собрать данные так, чтобы минимизировать систематическую ошибку выборки. Тогда можно будет свести статпогрешность лишь к случайной ошибке, которую можно рассчитать по формулам.

Как рассчитать размер случайной ошибки выборки

Случайная ошибка выборки зависит не только от объема выборки, но и от дисперсии, то есть степени однородности данных. Чем однороднее данные (т.е. чем меньше разброс полученных значений, или дисперсия), тем меньше ошибка выборки.

Существует формула расчета случайной ошибки выборки, однако для удобства рекомендуем пользоваться онлайн-калькуляторами, например, вот этим . Он позволяет легко провести два вида расчета:

  • рассчитать величину статистической погрешности на основе размера выборки и предполагаемой дисперсии;
  • определить размер выборки, требуемый для получения оценки нужной степени точности.
Вот так выглядит его рабочее окно:

В качестве параметра доверительной надежности (одно из полей в калькуляторе) обычно используется значение в 95%. Это означает, что в 95% случаев распределение признака в генеральной совокупности попадет в рассчитанный доверительный интервал (т.е. само значение признака в выборке плюс-минус размер статистической погрешности). Реже используется значение надежности в 97% или 99% – оно, соответственно, означает, что подобное попадание произойдет в 97% или 99% случаев. В данном случае надежность выборки повышается, но увеличивается размер выборки.

Самое сложное при определении размера выборки – поиск компромисса между требуемой точностью и стоимостью сбора данных. Этот процесс усложняется тем, что увеличение размера выборки в четыре раза приводит к увеличению точности лишь в два раза (соответствует квадратному корню от величины прироста выборки).

Кейс: определение размера выборки для оценки потенциала рынка продаж столичной недвижимости покупателям из регионов

В ноябре-декабре 2016 года мы провели исследование спроса на квартиры в новостройках Москвы и Санкт-Петербурга со стороны жителей разных городов России. Исследование включало в себя три метода сбора данных: массовый репрезентативный опрос населения в возрасте от 20 до 60 лет (проводился с использованием технологии CATI), а также серию экспертных интервью с риэлторами и глубинных интервью с потенциальными покупателями квартир.

Исследование охватывало 33 города, отличающихся повышенным спросом на петербургскую и московскую недвижимость. Плановая выборка исследования, рассчитанная по формулам, составила 21 500 респондентов. Этот объем значительно больше «стандартного» объема выборки, используемого в маркетинговых исследованиях. С чем же связан такой большой размер выборки?

Все дело в том, что клиенту были нужны оценки отдельно по каждому городу, а не просто «в целом по стране». Фактически мы работаем не с 1 выборкой, а с 33 отдельными выборками по каждому городу. Доля людей, заинтересованных в покупке квартиры в Санкт-Петербурге или Москве, была экспертно определена в рамках 5% от числа жителей опрашиваемых городов.

В зависимости от важности города для заказчика, руководитель проекта со стороны Агентства определил допустимую статистическую погрешность, в которую должны укладываться итоговые результаты. Для этого мы использовали специальный макрос в MS Excel, но эти расчеты можно также выполнить с помощью калькулятора выборки. В результате размер выборки варьировал от 500 до 1000 респондентов по каждому из городов исследования, что в сумме и дало заявленные 21 500 человек.

  1. Определите структуру целевой группы. Планируете ли вы анализировать отдельные подгруппы или достаточно будет анализа по выборке в целом?
  2. Определите желаемую точность данных. Например, если нужно оценить динамику рыночной доли за год, подставьте в специальный калькулятор примерное значение доли и «поиграйте» с разными объемами выборки.
  3. Найдите баланс между стоимостью сбора данных (прямо пропорциональна объему выборки) и требуемой точностью.

В процессе решения задач легко убедиться, что довери­тельный интервал оценки средней и оценки доли зависит от объема выборки. Чем больше выборка, тем уже будет ин­тервал, тем точнее оценка генеральных статистик. В самом деле, во всех формулах расчета ошибки выборки объем выборки стоит в знаменателе, значит, между объемом выбор­ки и ошибкой существует обратная связь. Самая большая выборка - это вся генеральная совокупность, и тогда оценка вообще будет точечной. При этом, конечно же, не будет соблюдаться экономичность исследования, которая и явля­ется целью выборочного метода. Поэтому следует найти такой оптимальный размер выборки, который будет удов­летворять всем требованиям.

Определение 13.8. Минимальный объем выборки, при котором ее можно назвать репрезентативной называется оптимальным объемом.

Объем выборки не должен быть меньше оптимального объема. Для различных способов отбора существуют свои формулы предельной ошибки Δ = t · μ и формулы средних ошибок выборки, определяются формулы необходимой чис­ленности выборки.

Так, для определения доверительного интервала оценки средней в генеральной совокупности минимальный объем ре­презентативной выборки рассчитывается по формулам:

При повторном отборе:

(13.14)

При бесповторном отборе:

(13.15)

где σ 2 - выборочная дисперсия значений признака,

п - объем выборки;

N

t

Минимальный объем репрезентативной выборки для оцен­ки генеральной доли рассчитывается по формулам:

При повторном отборе:

(13.16)

При бесповторном отборе:

(13.17)

где ω ·(1 - ω) - выборочная дисперсия доли значений признака;

п - объем выборки;

N - объем генеральной совокупности;

ω - доля обследованной совокупности;

t - аргумент функции Лапласа, зависящий от надежно­сти интервальной оценки средней,

Δ - предельная ошибка выборки.



При расчете объема выборки надо учитывать, что опти­мальное количество элементов в выборке - целое число, поэтому оно будет определяться с округлением до наиболь­шего целого. Например, если п, вычисленный по формуле, равен 58,013, то это число определяет минимальный объем репрезентативной выборки, поэтому округлять надо до большего целого, до 59.


Вопросы для самоконтроля

1. Поясните сущность выборочного метода. Какие теоре­мы теории вероятностей служат обоснованием выбо­рочного метода?

2. Определите характеристики выборки, которые называ­ются выборочными статистиками. Как они рассчиты­ваются?

3. С какой целью используются выборочные данные?

4. От чего зависит качество точечных оценок параметров генеральной совокупности?

5. Какие величины являются точечными оценками для ге­неральной средней, генеральной доли?

6. Какие точечные оценки используются для генеральной дисперсии? Какие условия должны выполняться, чтобы статистики служили хорошими оценками параметров генеральной совокупности?

7. Как определяется интервальная оценка генеральной средней?

8. Что представляет собой доверительный интервал для оценки генеральной доли? Поясните сущность парамет­ров, определяющих его размер.

9. Какие величины определяют размер предельной ошиб­ки выборки?

10. Как заданная вероятность влияет на величину довери­тельного интервала для оценки генеральных параметров?

11. По каким формулам определяется средняя ошибка вы­борки в зависимости от способа отбора выборки?

12. От чего зависит ошибка выборки для оценки средней в генеральной совокупности?

13. Какие формулы используются для оценки генеральной доли в повторной и бесповторной выборке?

14. От чего зависит оптимальный объем представительной выборки?

15. Какая зависимость существует между размером дове­рительного интервала оценки генеральных параметров и объемом выборки?

16. Каким требованиям должен удовлетворять оптимальный размер выборки при оценке генеральных параметров?

17. По каким формулам рассчитывается минимальный объем репрезентативной выборки для оценки генераль­ной средней и генеральной доли?

С одной стороны, величина выборочной совокупности должна быть статистически значимой, т. е. достаточно большой, для того, чтобы получить достоверную информацию. С другой стороны, выборка должна быть «экономной», т. е. оптимальной.

Каков же критерий оптимальности?

Математики считают, что таким критерием является числовые значения контрольных признаков респондентов (пол, возраст, стаж и т. д.), точнее их дисперсия (разброс). Напомним, что формы расчета дисперсии и другие формулы расчета выборки студенты проходят на занятиях по математике и статистике. Итак, чем больше дисперсия, тем больший объем выборки потребуется. Допустим, мы осуществляем отбор из генеральной совокупности в 2000 человек по признаку «пол»: 70% - мужчин и 30% - женщин. Согласно теории вероятности, можно предположить, что примерно, из каждых десяти отбираемых респондентов встретится 3 женщины. Если, например, мы хотим опросить 90 женщин, нам необходимо опросить 300 человек.

Когда информация о признаках элементов генеральной совокупности отсутствует, исключается возможность определения объема выборки при помощи формул.

В этом случае можно опереться на многолетний опыт социологов – практиков, свидетельствующий о том, что для пробных опросов достаточна выборка объемом 100-250 человек.

При массовых опросах , если величина генеральной совокупности составляет менее 5000 человек, достаточный объем выборки не менее 500 человек. Если же величина генеральной совокупности 5000 человек и более, то выборка должна быть не менее 10% ее состава, но не более 2000-2500 человек. Это гарантирует достаточно достоверные результаты.

Для телефонных опросов даже в крупных городах достаточна выборка в 100 максимум 300 респондентов.

Определение объема выборки

При проведении устных опросов целесообразно использовать метод случайной бесповоротной выборки (его суть заключается в том, что респондент отбирается случайно и второй раз уже не опрашивается). Формула выборки при этом такова:

, где

n – объем выборки;

t – коэффициент доверия, вычисляемый по таблицам в зависимости от вероятности, с которой можно гарантировать, что предельная ошибка не превысит t-кратную среднюю ошибку (при вероятности 0,990 он равен 3, а при вероятности 0,999 он равен –3, 28; чаще всего опираются на вероятность 0,954, при которой t составляет 2);

s - среднеквадратическое отклонение в генеральной совокупности или дисперсия;

Предельная (задаваемая) ошибка выборки;

N – численность генеральной совокупности.

Например, объем генеральной совокупности – 50771 человек;

· при уровне доверительной вероятности 95%, коэффициент доверия t =2

· среднеквадратическом отклонении s =50;

· и предельной ошибке выборки =7;

· объем выборки n = 203 чел.

Пример . Предположим, что магазин обслуживает за определенный период около 100 000 человек. По данным предыдущих опросов установлено, что дисперсия составляет ± 25 руб./чел. Коэффициент доверия равен 2. Предельную ошибку мы приняли равной 1 руб. Тогда численность выборки составит чел.

Следовательно, для получения надежных представительных данных надо опросить 100 чел.

В целях получения однородности изучаемой совокупности и общей точности расчета совокупность стратифицируют, разбивают на ряд групп по какому-то признаку, например по полу, доходу и т.д. Здесь формула выборки отличается от предыдущей только тем, что выборочная дисперсия заменяется средней из внутригрупповых дисперсий. Однако в этом случае целесообразно вести отбор по каждой группе пропорционально дифференциации признака (ni ). Тогда формула выборки (по каждой группе) значительно упрощается:

где k – число i -х групп населения;

Ni – численность i -й группы населения;

- среднеквадратическое отклонение признака в i- группе.

Пример. Для обследования, ставящего целью выявить мнение потребителей о новом товаре в населенном пункте, насчитывающем 50тыс. семей, необходимо провести анкетирование. Условно принимается, что в каждой квартире проживает одна семья и на нее будет выделена одна анкета. Предварительные исследования установили, что дисперсия среднего размера покупки составляет ± 25 руб.; t = 2; предельная ошибка не должна превышать 0,01 тыс. руб. Отсюда численность выборки составила:

Эта величина округляется до 1000 семей, т.е. установлена 2%-ная выборка.

Используются в практике расчета выборки и другие формулы:

Для малых массивов используется другая формула:

Ошибки выборки

Ошибки выборки бывают случайные (систематические) и ошибки смещения.

Случайные ошибки . Если отклонение полученных результатов в ту или иную сторону не превышает в среднем 5%, то выборка является репрезентативной, а ошибка случайной. Например, из соотношения генеральной совокупности 40% женщин 60% мужчин в выборку должны попасть 40% женщин 60% мужчин, а попало, например, 37% женщин и 62% мужчин, или 42% женщин и 58% мужчин. Указанные ошибки считаются случайными, т. к. они не превышают 5% барьера.

Ошибки смещения . Ошибки смещения – это более сложные ошибки. Например, в нашем примере вместо желаемых иметь в выборке 40% женщин и 60% мужчин, мы получаем, наоборот, 60% женщин и 40% мужчин. Проблема заключается в том, что рассчитать с помощью формул ошибки смещения невозможно, и они автоматически переходят на результаты и выводы исследования. Ошибки смещения могут являться следствием:

Неверных исходных статистических данных о параметрах контрольных признаков генеральной совокупности;

Слишком малого объема выборки;

Неверного применения способа отбора единиц анализа (например, отбор из неверно составленного списка, неудачный выбор места и времени проведения исследования).

При формировании выборочных совокупностей следует добиваться полноты, точности, адекватности, репрезентативности.

Полнота означает, что в генеральной совокупности должны быть представлены все единицы анализа, ибо неполнота ведет к ошибкам.

Точность характеризует информацию по каждой единице. Точность, например, считается достаточной, если сумма погрешностей и ошибок не превышает 5 %.

Адекватность есть свойство основы выборки. Довольно часто точность выборки отождествляется с ее адекватностью. Между тем это не так. Адекватность же подразумевает характеристику выборки как модели качества исследуемого объекта. Например, список молодых рабочих не может быть основой для выборки всех членов трудового коллектива. В этом случае основа выборки является неадекватной. И, наоборот, список членов трудового коллектива не может быть основой выборки для исследования молодых рабочих.

Свойство выборки отражать характеристики генеральной совокупности называется репрезентативностью. Репрезентативност ь (представительность) выборки означает, что у всех элементов генеральной совокупности был шанс попасть в выборку, и что выборка отражает генеральную совокупность.

В завершение темы представим стандартные таблицы выборки с учетом предельной ошибки выборки и доверительной вероятности, разработанные социологами - практиками (табл.5).

Таблица 5

Стандартные таблицы выборки

Если тип выборки говорит о том, как попадают люди в выборочную совокупность , то объем выборки сообщает о том, какое их количество попало сюда .

Объем выборки количество единиц выборочной совокупности .

Поскольку выборочная совокупность (или выборка, что одно и то же) – это часть генеральной совокупности, отобранной с помощью специальных методов, – ее объем всегда меньше объема генеральной . Поэтому так важно, чтобы часть не искажала представления о целом, т.е. была репрезентативной.

Социологов, особенно проводящих эмпирические исследования, часто волнует вопрос о том, какое количество человек следует опросить для получения достоверной информации. Институт Гэллапа в США проводит регулярные опросы по национальной выборке объемом в 1500 ч еловек и достигает поразительной точности (ошибка выборки составляет от 1 до 1,5%)1. Центр <Социо-Экспресс> Института социологии РАН проводит исследования на выборке объемом в 2000 человек, при этом ошибка выборки не превышает 3%.

7. Репрезентативность – свойство выборочной совокупности представлять основные параметры генеральной совокупности.

Если совпадения нет, говорят об ошибке репрезентативности –мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности.

Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной - 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями – генеральной и выборочной. Последняя выступает и как объект обследования и как средство получения информации о генеральной совокупности.

8. Ошибка выборки – отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике она определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними величинами. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов.

В опросах института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по

· полу,

· возрасту,

· образованию,

· доходу,

· профессии,

· расовой принадлежности,

· месту проживания,

· величине населенного пункта.

Всероссийский центр изучения общественного мнения (ВЦИОМ ) использует для подобных целей такие показатели, как



· пол,

· возраст,

· образование,

· тип поселения,

· семейное положение,

· сфера занятости,

· должностной статус респондента ,

которые заимствуют в Государственном комитете по статистике РФ. В том и другом случае известна генеральная совокупность. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Ошибки выборки подразделяются на два типа – случайные и систематические.

Случайная ошибка – это статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Систематические ошибки результат деятельности самого исследователя; вызваны неконтролируемыми перекосами в распределении выборочных наблюдений; предумышленным смещением выборки.

Например, если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка .

Систематические ошибки возникают, когда:

1) выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);

2) незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, неработающих оказалось только 10%);

3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры). Для исследователя оценить последствия систематической ошибки – задача непростая.

Чтобы избежать ошибки репрезентативности :

1) каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

2) отбор желательно производить из однородных совокупностей;

3) надо знать характеристики генеральной совокупности;

4) при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, характеризующие всю генеральную совокупность. Если неправильно, то возникшая на этапе составления выборки ошибка возрастает на каждом следующем этапе проведения социологического исследования и достигает в конечном счете такой величины, которая обесценивает проведенное исследование.

Социометрический опрос существенно отличается от других видов социологического опроса по характеру исходных данных, способам их представления, процедуре опроса и методам анализа собранной информации. В данном виде опроса результатом измерения здесь является не характеристика респондента, а отношение между респондентами. Метод социометрии исследует межличностные отношения в малых группах. Социометрия, по определению Морено, является одной из трех составных частей социономии - науки о социальных законах и представляет собой науку об измерении межличностных отношений. В узком смысле под социометрическими методами понимаются методы исследования структуры межличностных отношений в малой группе путем изучения выборов, сделанных членами группы по тому или иному критерию.

Метод опроса изобретен не социологами, его активно используют медики, юристы, журналисты, педагоги и др. Он имеет в социологии давние традиции. Специфика опроса состоит прежде всего в том, что при его использовании источником первичной социологической информации является человек (респондент) – непосредственный участник исследуемых социальных явлений. Преимущества опроса заключаются: а) в максимально коротких сроках сбора информации; б) в возможности получения разнообразной информации; в) в возможности охвата больших совокупностей людей; г) в широте охвата различных областей социальной практики. А несовершенство - в возможности искажения информации в силу субъективного восприятия и оценки социального факта респондентами.

Чтобы полученная первичная социологическая информация начала активно служить, ее необходимо обработать, обобщить, проанализировать и научно проинтерпретировать. Только после этих процедур появится реальная возможность сформулировать выводы и практические рекомендации, которые и откроют социологической информации выход на практику.

Обработка информации осуществляется вручную или с помощью ЭВМ, ее результат – социологические данные, т.е. показатели ответов на вопросы в числовом и процентном выражении. Обобщение информации идет путем группировки ответивших на вопросы и через ряды распределений (в том числе с помощью таблиц). Анализ и интерпретация данных проводятся в рамках теоретической обработки полученной информации и впрямую зависят от профессионализма социологов, их гипотез, проверка которых и производится прежде всего.

Итоги работы выливаются в служебные документы: отчет, приложение к отчету и аналитическая справка, содержащая выводы и рекомендации.

Использование результатов социологического исследования зависит от актуальности изучаемой социальной проблемы, анализа достоверности собранной информации и заинтересованности в ней общества.

НАБЛЮДЕНИЕ–