Выборки в анализе данных

Last modified date

Comments: 0

Зачем вообще нужна выборка?

  1. Иначе будет очень дорого опрашивать всех.
  2. Многие данные полностью просто не доступны.

Какие бывают выборки?

  1. Простая случайная. Обычный рэндом.
  2. Механическая. Выбираем один случайный элемент и с определенным шагом начинаем выбирать элементы.
  3. Стратифицированная. Мы знаем что то про генеральную совокупность. Мы делим ее на страты и случайным образом выбираем из каждой страты. Например, мужчины и женщины.
  4. Гнездовая (кластерная). Например, группируем районы города на кластеры по важным нам свойствам и случайно опрашиваем не все районы, а представителей каждого кластера.

Неслучайные выборки

Все неслучайный выборки не репрезентативны, но иногда других способов получить данные нет.

  1. Метод “снежного кома”. Незаменимы для исследования экспертов или для исследования труднодоступных групп. Мы находим одного и он дает нам контакты следующих людей и т.д. Часто запускают несколько таких комков.
  2. Квотная.

Ошибки выборки

N – объем генеральной совокупности
n – объем выборки
Далее мы считаем среднее по выборке (\overline{X}) и среднее по генеральной совокупности (μ).
Разница между среднем значением показателя в выборочной и генеральной совокупности и будет называться Ошибкой выборки.
Предельная ошибка выборки – это максимально возможное расхождение средних значений выборки и генеральной совокупности с заданной вероятностью.

Коэффициент доверия Стьюдента (t).

Он зависит от вероятности, с которой определяется предельная ошибка выборки.
Для вероятности p = 95%, t = 1,96

Пример, все кафе Москвы

Мы знаем средний чек в этих заведениях и хотим на основе выборки в 294 заведения из 5802 заведений подсчитать средний чек в генеральной совокупности.
N = 5802 заведения. Размер генеральной совокупности
n = 294 заведений. Размер выборки.
\overline{X} = 989 рублей. Средний чек для заведений из выборки.
s2= 461504.5432. Несмещенная дисперсия. Выборочная дисперсия – это оценка теоретической дисперсии распределения, рассчитанная на основе данных выборки относительно среднего значения в выборки. Дисперсия – мера отклонения случайной величины от ее математического ожидания. Математическое ожидание – среднее значение, которое принимает случайная величина (функция случайной величины).
p = 95%. Вероятность с которой мы хотим подсчитать средний чек в заведении на основе выборки.
t = 1.96. Коэффициент доверия Стьюдента для 95% вероятности.
\Delta_{\overline{X}} = 75.66 рублей. Предельная ошибка, рассчитанная по формуле выше.

Доверительный интервал

Доверительный интервал – это интервал, в который попадает неизвестный параметр (например, средний чек для заведений Москвы) с заданной вероятностью. Вероятность можно определять с помощью коэффициента доверия Стьюдента.

Левая граница – это среднее по выборки минус предельная ошибка. А для правой границы доверительного интервала – среднее по выборке плюс предельная ошибка.

\overline{X} - \Delta_{\overline{X}} < \mu < \overline{X} + \Delta_{\overline{X}}

Пример доверительного интервала для среднего чека по всей генеральной совокупности получился 913.34 < μ < 1064.66 рублей. А для всей генеральной совокупности истинный средний чек равен μN = 956 рублей. Он попадает в наш 95% доверительный интервал.

crincum

Leave a Reply

Your email address will not be published. Required fields are marked *

Post comment