Определение необходимого объема выборки

Last modified date

Comments: 0

Как понять какой объем выборки будет достаточным для того, чтобы делать выводы о всей генеральной совокупности.

Возьмем формулу предельной ошибки выборки и выведем из нее формулу объема выборки.

Пример с расчетом среднего чека во всех заведениях Москвы.

Мы хотим узнать сколько в среднем стоит поесть в Москве.

N = 5802 заведения. Размер генеральной совокупности
s2= 549093,84. Несмещенная дисперсия. Выборочная дисперсия – это оценка теоретической дисперсии распределения, рассчитанная на основе данных выборки относительно среднего значения в выборки. Дисперсия – мера отклонения случайной величины от ее математического ожидания. Математическое ожидание – среднее значение, которое принимает случайная величина (функция случайной величины).
\Delta_{\overline{X}} = 100 рублей. Предельная ошибка.
Мы знаем, что \overline{X} = 956 рублей. Средний чек для заведений из выборки.
Подсчитаем вероятности для
p1 = 95%
p2 = 99%
p3 = 99,9%

Работа с пропущенными наблюдениями

Каковы причины?

  1. Вопрос задан не корректно
  2. Фальсификация опросных данных.
  3. Иногда люди отказываются отвечать на наши вопросы.

Что делать с пропущенными данными?

1. Исключить пропущенные наблюдения. Но это приведет к потере информации.
2. Заменить пропущенные наблюдения.
Пример как можно заменить пропущенные наблюдения на примере данных социологического опроса о возрасте и доходе населения.
Всего опросили 636 человек и 359 отказались отвечать.
\overline{X} = 32 594 рубля, среднее значение
t0,5 = 30 000 рублей, медиана.
Регион Возраст Доход
142 69 20 000
142 32 46 000
142 67 18 000
142 39 8 000
142 69 19 000
142 65 19 000
  1. Построим гистограмму и дальше будем замещать пропущенные значения по очереди средним, медианой и т.д., чтобы поспосмотреть, что будет происходить с графиком.

  • Если заменять пропущенные значения среднем, то если пропущенных данных много, есть шанс все испортить, так как (если есть выбросы), то за счет такого замещения они усилятся и на гистограмме будет ничего не понятно.
  • Замещение медианой тоже дает фигню.
  • Правильно заменять любыми случайными числами, как то связанными с выборкой. Например, находя пропущенные данные брать ближайших соседей, совершать какую то функцию над ними (например, среднее арифметическое) и заполнять пропущенное значение.
  • Если данные позволяют, то можно исключить эти данные.

crincum

Leave a Reply

Your email address will not be published. Required fields are marked *

Post comment