Выборки в анализе данных
Зачем вообще нужна выборка?
- Иначе будет очень дорого опрашивать всех.
- Многие данные полностью просто не доступны.
Какие бывают выборки?
- Простая случайная. Обычный рэндом.
- Механическая. Выбираем один случайный элемент и с определенным шагом начинаем выбирать элементы.
- Стратифицированная. Мы знаем что то про генеральную совокупность. Мы делим ее на страты и случайным образом выбираем из каждой страты. Например, мужчины и женщины.
- Гнездовая (кластерная). Например, группируем районы города на кластеры по важным нам свойствам и случайно опрашиваем не все районы, а представителей каждого кластера.
Неслучайные выборки
Все неслучайный выборки не репрезентативны, но иногда других способов получить данные нет.
- Метод “снежного кома”. Незаменимы для исследования экспертов или для исследования труднодоступных групп. Мы находим одного и он дает нам контакты следующих людей и т.д. Часто запускают несколько таких комков.
- Квотная.
Ошибки выборки
N – объем генеральной совокупности
n – объем выборки
Далее мы считаем среднее по выборке () и среднее по генеральной совокупности (μ).
Разница между среднем значением показателя в выборочной и генеральной совокупности и будет называться Ошибкой выборки.
Предельная ошибка выборки – это максимально возможное расхождение средних значений выборки и генеральной совокупности с заданной вероятностью.
Коэффициент доверия Стьюдента (t).
Он зависит от вероятности, с которой определяется предельная ошибка выборки.
Для вероятности p = 95%, t = 1,96
Пример, все кафе Москвы
Мы знаем средний чек в этих заведениях и хотим на основе выборки в 294 заведения из 5802 заведений подсчитать средний чек в генеральной совокупности.
N = 5802 заведения. Размер генеральной совокупности
n = 294 заведений. Размер выборки.
= 989 рублей. Средний чек для заведений из выборки.
s2= 461504.5432. Несмещенная дисперсия. Выборочная дисперсия – это оценка теоретической дисперсии распределения, рассчитанная на основе данных выборки относительно среднего значения в выборки. Дисперсия – мера отклонения случайной величины от ее математического ожидания. Математическое ожидание – среднее значение, которое принимает случайная величина (функция случайной величины).
p = 95%. Вероятность с которой мы хотим подсчитать средний чек в заведении на основе выборки.
t = 1.96. Коэффициент доверия Стьюдента для 95% вероятности.
= 75.66 рублей. Предельная ошибка, рассчитанная по формуле выше.
Доверительный интервал
Доверительный интервал – это интервал, в который попадает неизвестный параметр (например, средний чек для заведений Москвы) с заданной вероятностью. Вероятность можно определять с помощью коэффициента доверия Стьюдента.
Левая граница – это среднее по выборки минус предельная ошибка. А для правой границы доверительного интервала – среднее по выборке плюс предельная ошибка.
Пример доверительного интервала для среднего чека по всей генеральной совокупности получился 913.34 < μ < 1064.66 рублей. А для всей генеральной совокупности истинный средний чек равен μN = 956 рублей. Он попадает в наш 95% доверительный интервал.