Как оценить по выборке генеральную совокупность? (Меры центральной тенденции)

Last modified date

Comments: 0

Чтобы оценить по выборочным данным генеральную совокупность,

нам нужно знать следующие вещи, чтобы описать распределение характеристики в генеральной совокупности объектов:
1. Где находятся типичные значения характеристики. => Меры среднего
2. То, насколько эти значения разрознены, насколько они не одинаковые => Меры разброса (вариативности)

Как подсчитать меры среднего?

1. Среднее арифметическое

Подходит для нормальных распределений, где нет выдающихся значений.

2. Рассчитать усечённые статистики

Пример: есть компания, где зарплаты распределены с 15 000 до 50 000 руб. Среднее арифметическое = 23 000 руб. И тут появляется работник, которому начинают платить 150 000 руб. Среднее арифметическое станет в районе = 33 000 руб, со стороны это может дать сигнал, что в компании люди стали получать больше, но на самом деле это не так.

Если есть выбросы и распределение “Паранормальное”, то мы можем рассчитать усеченные статистики. Тоже арифметическое среднее, но мы отбросим самый маленький и самый большой результаты. Так делают в спорте, когда судьи оценивают, две крайние оценки отбрасывают при расчете.

3. Робастные статистики

Тоже вариант расчета для паранормальных распределений с выбросами. Это статистики, которые сами по себе не чувствительны к выбросам.

3.1 Моду – это самое распространенное значение

Мода незаменима для номинальных распределений, на непрерывных, дискретных и порядковых она дает не самые лучшие результаты. Если посмотреть на выборку зарплат, то единственное значение, которое встречается 2 раза – это 15 000 руб. Это и есть Мода.

Мода подходит для бимодальных распределений. Например, когда есть данные по расходу бензина в городе (для пробок) и на трассе (тогда распределение будет выглядеть именно так). Или когда есть средний бал ЕГЭ в российских школах и есть 2 типа школ: обычные и специальные и в подготовке детей в обоих школах большой разрыв.

Такое распределение говорит о том, что есть какие то группы, которые возможно есть смысл рассматривать отдельно.

3.2 Медиана (подкласс робастных статистик)

Если мы возьмем вариационный ряд, то в нем легко найти медиану.

Пример на зарплатах в компании:

Для значений с выбросом: 12000 15000 15000 16000 20000 25000 27000 28000 30000 50000 150000

  • Мода = 15000
  • Медиана = 25000
  • Среднее = 35272

Итого, если есть выбросы, то лучше использовать Усеченные или робастные статистики.

crincum

Leave a Reply

Your email address will not be published. Required fields are marked *

Post comment