Типы данных в анализе данных и вычисление выборочной квантили

Номинальные – содержат меньше всего информации, принадлежность объектов к определенной группе. Мужчины, женщины; совы, жаворонки;

Порядковые – тоже содержит принадлежность к группе, но кроме того определено и отношение порядка между значениями. Насколько вы счастливы по шкале от 1 до 9.

Дискретные (интервальные) – и отношение к группе и порядок, но еще цифры означают сами себя и кроме порядка у нас определено расстояние между значениями. Не просто 2 < 5, но еще и 2 меньше 5 ровно на 3. И 4 меньше 7 ровно на те же 3.

Непрерывные – дни, часы, секунды, рубли, копейки миллионы.

Выборка

Допустим у нас есть случайная величина ξ (кси) и у нее есть некоторый закон распределения ξ = F_ξ(x). Мы работаем не со случайной величиной, а с некоторым набором реализации данной случайной величины.

Наблюдения X₁,…,X_n должны удовлетворять следующим правилам, чтобы предотвратить смесь выборки (типа смесь выборки очень плохо).

1. Независимы друг от друга

2. Одинаково распределены

Смесь выборки – это ситуация, когда в выборке есть набор реализаций двух или более случайных величин с разными распределениями.

Выборка – это некоторый конечный набор реализации случайной величины, которой мы извлекаем из некоторой генеральной совокупности.

Порядковая статистика (больше одинаковых терминов богу терминов) –

Используется для получения выборочных квантилей – значение, которая имеющая у нас случайная величина не превосходит с заданной вероятностью α.

Если у нас есть случайная величина и мы знает ее закон распределения, то через функцию распределения мы можем подсчитать квантиль для любой нужной нам вероятности.

Если закона распределения у нас нет, есть только выборка, набор реализаций случайной величины и мы хотим подсчитать квантиль. В этом случае мы считаем выборочную квантиль:

1. Упорядочиваем нашу выборку X₍₁₎< X₍₂₎< X₍₃₎< … < X_(n). Строим вариационный ряд.

2. Берем выборочную квантиль, как порядковую статистику, где номер порядковой статистики определяется как целая часть от произведения нужной нам вероятности на объем выборки. t_α = X_([α*n]), где α – заданная вероятность, n – объем выборки.

Пример

Есть некая выборка кликов по фирме в день и мы хотим подсчитать больше какого количества кликов получит данная фирма с вероятностью 90%?

1. Мы упорядочиваем выборку, т.е. строим вариационный ряд.

2. В этом случае нам нужна 10% выборочная квантиль. α = 0,9 => 1- α = 0,1

3. Так как объем выборки у нас равен n = 22 и нам нужны 10%, то мы получаем, что нам нужна вторая порядковая статистика [(1 – α)*n] = [0,1*22] = [2,2] = 2

4. Вторая порядковая статистика t_0,1 = X₍₂₎ = 214

5. По имеющейся у нас выборке, данная фирма получит больше 214 в день с вероятностью 90%

Categories:Анализ данных (лекции)

crincum

Crincum's Blog

Типы данных в анализе данных и вычисление выборочной квантили

Выборка

Пример

Leave a Reply Cancel reply

Выборка

Пример

Related Posts

Как оценить по выборке генеральную совокупность? (Меры центральной тенденции)

Распределения случайных величин

Меры и типы переменных: что и где применимо?

Основы теории вероятностей (терминология)

Выборки в анализе данных

Leave a Reply Cancel reply