Определение необходимого объема выборки
Как понять какой объем выборки будет достаточным для того, чтобы делать выводы о всей генеральной совокупности.
Возьмем формулу предельной ошибки выборки и выведем из нее формулу объема выборки.
Пример с расчетом среднего чека во всех заведениях Москвы.
Мы хотим узнать сколько в среднем стоит поесть в Москве.
N = 5802 заведения. Размер генеральной совокупности
s2= 549093,84. Несмещенная дисперсия. Выборочная дисперсия – это оценка теоретической дисперсии распределения, рассчитанная на основе данных выборки относительно среднего значения в выборки. Дисперсия – мера отклонения случайной величины от ее математического ожидания. Математическое ожидание – среднее значение, которое принимает случайная величина (функция случайной величины).
= 100 рублей. Предельная ошибка.
Мы знаем, что = 956 рублей. Средний чек для заведений из выборки.
Подсчитаем вероятности для
p1 = 95%
p2 = 99%
p3 = 99,9%
Работа с пропущенными наблюдениями
Каковы причины?
- Вопрос задан не корректно
- Фальсификация опросных данных.
- Иногда люди отказываются отвечать на наши вопросы.
Что делать с пропущенными данными?
1. Исключить пропущенные наблюдения. Но это приведет к потере информации.
2. Заменить пропущенные наблюдения.
Пример как можно заменить пропущенные наблюдения на примере данных социологического опроса о возрасте и доходе населения.
Всего опросили 636 человек и 359 отказались отвечать.
= 32 594 рубля, среднее значение
t0,5 = 30 000 рублей, медиана.
Регион | Возраст | Доход |
142 | 69 | 20 000 |
142 | 32 | 46 000 |
142 | 67 | 18 000 |
142 | 39 | 8 000 |
142 | 69 | 19 000 |
142 | 65 | 19 000 |
- Построим гистограмму и дальше будем замещать пропущенные значения по очереди средним, медианой и т.д., чтобы поспосмотреть, что будет происходить с графиком.
- Если заменять пропущенные значения среднем, то если пропущенных данных много, есть шанс все испортить, так как (если есть выбросы), то за счет такого замещения они усилятся и на гистограмме будет ничего не понятно.
- Замещение медианой тоже дает фигню.
- Правильно заменять любыми случайными числами, как то связанными с выборкой. Например, находя пропущенные данные брать ближайших соседей, совершать какую то функцию над ними (например, среднее арифметическое) и заполнять пропущенное значение.
- Если данные позволяют, то можно исключить эти данные.