Статистика — это наука об изучении данных. Знания в этой области позволяют использовать подходящие методы сбора и анализа данных, а также эффективно представлять результаты такого анализа. Статистика играет ключевую роль в научных открытиях, принятии решений и составлении прогнозов, основанных на данных. Она позволяет гораздо глубже разобраться в объекте исследования.
Чтобы стать успешным специалистом по теории и методам анализа данных, необходимо знать основы статистики. Математика и статистика — “строительные блоки” алгоритмов машинного обучения. Чтобы понимать, как и когда следует использовать различные алгоритмы, нужно знать, какие методы за ними стоят. Тут встаёт вопрос — что именно собой представляет статистика?
Статистика — это математическая наука о сборе, анализе, интерпретации и представлении данных.
Статистический анализОдин из основных принципов науки о данных — получение выводов из их анализа. Статистика отлично для этого подходит. Она является разновидностью математики и использует формулы, но она отнюдь не обязательно покажется пугающей, даже если вам не приходилось сталкиваться с ней раньше.
Машинное обучение зародилось из статистики. Основой используемых в нём алгоритмов и моделей является так называемое статистическое обучение. Знание основ статистики крайне полезно вне зависимости от того, изучаете вы глубоко алгоритмы МО или просто хотите быть в курсе новейших исследований в этой сфере.
Хорошее понимание разных типов данных (шкал измерений) — основное условие для проведения разведочного анализа данных (EDA), ведь для определённых типов данных можно использовать только ограниченный набор статистических измерений.
Чтобы решить, какой метод визуализации выбрать, также необходимо понимать, с какими данными вы имеете дело. Думайте о типах данных как о способе категоризации разновидностей переменных. Далее мы обсудим основные типы данных и рассмотрим примеры для каждого из них.
Разделение данных на качественные и количественные — основополагающий принцип разделения данных на типы. Чтобы определить тип, нужно выяснить, можно ли объективно измерить исследуемую характеристику с помощью чисел.
1) Качественные данныеВ информации представлены характеристики, которые не измеряются числами, в то время как сами наблюдения можно разделить на измеряемое количество групп. Информацию, хранящуюся в таком типе переменной, трудно измерить, а измерения могут быть субъективными. Вкус, цвет автомобиля, архитектурный стиль, семейное положение — всё это типы качественных данных. Аналитики также называют такие данные категориальными.
1.1) Номинальные данные
Номинальные значения выражают дискретные единицы и служат для обозначения переменных, которые не имеют количественного выражения. Номинальные данные не имеют порядка, поэтому при изменении порядка значений итоговый результат не меняется. Ниже представлено два примера номинальных признаков:
Примеры номинальных данных Вы женаты/замужем?- Да- Нет Какими языками вы владеете?- Английским- Французским- Немецким- ИспанскимМетоды визуализации: для визуализации номинальных данных можно использовать круговую или столбчатую диаграмму.
Круговая и столбчатая диаграммы для визуализации номинальных данныхВ науке о данных можно использовать прямое кодирование, чтобы преобразовать номинальные данные в числовое свойство.
1.2) Порядковые данные
Порядковые данные — это смесь числовых и категориальных данных. Данные можно разбить на категории, но числа, ассоциируемые с каждой категорией, имеют значение. К примеру, рейтинг ресторана от 0 (самый низкий) до 4 (самый высокий) звёзд — это пример порядковых данных. Порядковые данные часто обрабатываются как категориальные, когда при построении диаграмм и графиков данные разделяются на упорядоченные группы. Однако, в отличие от категориальных, числа в порядковых данных имеют математическое значение. Таким образом, порядковые данные — это почти то же самое, что и номинальные, с тем лишь отличием, что в номинальных порядок не имеет значения. Взгляните на пример ниже:
Proportion - ПропорцияVery Poor - Очень плохоPoor - ПлохоNeutral Rating - СреднеGood - ХорошоVery Good - Очень хорошоПорядковые шкалы обычно используются для измерения нечисловых свойств, таких как счастье, уровень удовлетворённости клиентов, успеваемость студентов в классе, уровень квалификации и т. д.
Такие данные можно обобщать с помощью частотности, пропорций, процентных долей, а визуализировать — с помощью круговых и столбчатых диаграмм. Кроме того, можно использовать процентиль, медиану, моду, межквартильный размах.
В дополнение к порядковым и номинальным есть особый тип категориальных данных — бинарные (двоичные).
Бинарные данные принимают только два значения — “да” или “нет”, что можно представить разными способами: “истина” и “ложь” или 1 и 0. Бинарные данные широко применяются в классификационных моделях машинного обучения. В качестве примеров бинарных переменных можно привести следующие ситуации: отменил человек подписку или нет, купил машину или нет.
Типы бинарных данныхИнформация записывается в виде чисел и представляет объективное измерение или подсчёт. Температура, вес, количество транзакций — вот примеры количественных данных. Аналитики также называют такие данные числовыми.
2.1) Дискретные данные
Дискретные количественные данные — это подсчёт случаев наличия характеристики, результата, предмета, деятельности. Эти измерения невозможно поделить на более мелкие части без потери смысла. Например, у семьи может быть 1 или 2 машины, но их не может быть 1,6. Таким образом, существует конечное число возможных значений, которые можно зарегистрировать в процессе наблюдений.
У дискретных переменных можно подсчитать и оценить интенсивность потока событий или сводное количество (медиана, мода, среднеквадратичное отклонение). К примеру, в 2014 году у каждой американской семьи было, в среднем, по 2,11 транспортных средства.
Обычный способ графического представления дискретных переменных — столбчатые диаграммы, где каждый отдельный столбик представляет отдельное значение, а высота столбика означает его пропорцию к целому.
2.2) Непрерывные данные
Непрерывные данные могут принимать практически любое числовое значение и могут быть разделены на меньшие части, включая дробные и десятичные значения. Непрерывные переменные часто измеряют по шкале. Когда вы измеряете высоту, вес, температуру, вы имеете дело с непрерывными данными.
Например, средний рост в Индии составляет 5 футов 9 дюймов (~ 175 см.) для мужчин и 5 футов 4 дюйма (~ 162 см.) для женщин.
Непрерывные данные подразделяются на 2 типа:
а) Интервальные данные
Интервальные значения представлены упорядоченными единицами, которые имеют одинаковое отличие друг от друга. Таким образом, мы говорим об интервальных данных, когда есть переменная, которая содержит упорядоченные числовые значения, и нам известны точные отличия этих значений. Примером может служить температура в заданном месте:
Положительные и отрицательные интервалы температурыПроблема со значениями интервальных данных в том, что у них нет “абсолютного нуля”.
б) Данные соотношения
Данные соотношения также представляют собой упорядоченные единицы с одинаковыми отличиями друг от друга. Это практически то же самое, что и интервальные данные, однако данные соотношения имеют “абсолютный ноль”. Подходящие примеры — высота, вес, длина и т. д.
Длина стола в дюймахПри работе с непрерывными данными можно использовать практически все методы: процентиль, медиану, межквартильный размах, среднее арифметическое, моду, среднеквадратичное отклонение, амплитуду.
Методы визуализации:
Для визуализации непрерывных данных можно воспользоваться гистограммой или диаграммой размаха. С помощью гистограммы можно определить среднее значение и крутость распределения, изменчивость и модальность. Имейте в виду, что гистограмма не показывает выбросы — для этого нужно использовать диаграмму размаха.
Диаграмма размаха и гистограмма для анализа непрерывных данныхИз этой статьи вы узнали о различных типах данных, используемых в статистике, о разнице между дискретными и непрерывными данными, а также о том, что собой представляют номинальные, порядковые, бинарные, интервальные данные и данные соотношения. Кроме того, теперь вы знаете, какие статистические измерения и методы визуализации можно применять для разных типов данных и как преобразовать категориальные переменные в числовые. Это позволит вам провести большую часть разведочного анализа на представленном наборе данных.
Перевод статьи Jagadish Bolla: Data Types in Statistics Used for Machine Learning
Комментарии