Программы для электронных таблиц, такие как Microsoft Excel и Google Sheets, превосходны. Они вне конкуренции, когда дело касается выполнения простых вычислений или построения финансовых моделей.
Однако наступает момент, когда вы должны отказаться от электронных таблиц и найти другое решение. Вы не представляете, сколько разных отвратительных отчетов по электронным таблицам попадалось мне в свое время! Как только вы начинаете использовать таблицу в качестве отчета, базы данных и инструмента для их преобразования, это сигнал — надо остановиться! Вы зашли слишком далеко. Такие электронные таблицы не что иное, как страшный сон для обслуживания и отладки.
А есть ли альтернатива? Конечно — научиться писать код для анализа данных. Нет никаких причин бояться кода. Если вы уже в курсе, как использовать программу для таблицы, то не составит труда провести аналогии и понять суть этого процесса. Я уже курировал нескольких аналитиков на начальных этапах их разработок и убедился, что подход из этой статьи работает стабильно. Начнем!
Если вы еще не знаете, как использовать программу для электронных таблиц, то это надо исправить. Именно на данном этапе вы познакомитесь с понятиями, связанными с данными, и безболезненно вольетесь в процесс написания кода.
Если у вас нулевой опыт в этой области, то советую пройти бесплатный курс по электронным таблицам в YouTube. Учитывая их разнообразие, просто выберите один и посмотрите полностью.
Если у вас есть какой-либо опыт, тогда нужно практиковаться до тех пор, пока не обретете уверенность в работе с электронными таблицами. В интернете доступно множество наборов данных с открытым исходным кодом. Придумайте 5 действий с данными и выполните их, используя эти наборы. Примеры возможных действий:
“Какое среднее значение в столбце X?”
“Сколько пустых клеток/содержат пропущенные значения в столбце X?”
“Отсортируйте информацию в столбце X в порядке убывания”.
“Создайте линейную диаграмму столбца X”.
“Какое значение столбца X для каждого значения в столбце Y?”
Независимо от имеющегося опыта, ваши приключения в стране электронных таблиц будут сопровождаться важными понятиями, относящимися к процессу написания кода для данных.
Как только вы “набили руку” в работе с программами для электронных таблиц, значит пришла пора переместиться в страну кода.
Пользователи Microsoft Office могут подумать:
“Я активно пользуюсь Excel, к тому же слышал про ‘VBA’. Говорят, его код можно использовать для автоматизированных отчетов Excel.
Ни в коем случае! Забудьте про VBA. Поверьте на слово тому, кто когда-то написал на нем тонны строк кода. Лучше освоить “передаваемый навык”, т.е. навык, которым вы сможете заинтересовать следующего работодателя, независимо от того, пользовался ли он Microsoft Office или нет.
Учитывая, что у вас нет опыта программирования, предлагаю сосредоточиться на SQL и R.
Для изучения SQL не надо большого ума. Это широко распространенный язык реляционной базы данных. Вот его вы и должны выучить.
А почему R? Почему не Python? Потому что он разработан для анализа данных! Так как этот язык проектировался с определенной целью, он позволяет больше времени уделять именно анализу данных, а не борьбе с абстрактными аспектами языков программирования. Например, R поставляется со встроенными наборами данных, которые сразу можно анализировать. CSV-файлы могут быть импортированы в одной строке при помощи ‘read.csv()’. Вы можете создавать (неприглядные) гистограммы, используя ‘hist()’, а также диаграммы рассеяния и многое другое при помощи ‘plot()’. Дело в том, что все эти встроенные возможности R позволяют приступить к анализу данных сразу же после его установки.
Хочу, чтобы вы меня правильно поняли. Я не утверждаю, что вы не должны учитьPython. Сам я его обожаю и когда-то сделал выбор в его пользу. И вам обязательно надо его выучить, только не сейчас. Я руководствуюсь тем, что, освоив сначала R, вы сразу же получите успешный опыт работы с кодом. А эти маленькие достижения будут поддерживать в вас решимость, мои “юные падаваны”, овладеть светлой стороной силы под названием написание кода для данных.
Пойдем на поводу нашего прагматизма и сосредоточимся на изучении тех аспектов, которые пригодятся в работе аналитика. А чтобы их обозначить, будем следовать простой логике:
1. Составьте список всех отчетов на основе электронных таблиц, которые вы регулярно обновляете. Добавьте к нему специальные фрагменты анализа, выполненного на основе таблиц за последние полгода.
2. Отдохните 5 минут после такой утомительной работы!
3. Откройте одну из таблиц в вашем списке.
4. Установите таймер на 10 минут.
5. Во втором списке сначала отметьте формулы, которые вы использовали в отчете, затем созданные вами визуализации, а также числа, полученные на основе сводных таблиц. Мыслите как можно шире! Не нужно конкретизировать, как вы выполняли ‘VLOOKUP’, используя точные соответствия в столбце B и возвращая значения в столбец F. Просто отметьте факт выполнения этой функции. Рядом с каждой формулой напишите, сколько раз она встречалась в таблицах. Продолжайте работу до истечения установленного времени или переходите к следующей таблице, если 10 минут истекли.
6.Возьмите пятиминутный перерыв и переходите к следующей таблице в списке.
Анализируйте таким способом все таблицы в списке до тех пор, пока не закончите подсчеты. Отсортируйте ваш список в порядке убывания в зависимости от того количества раз, которое каждая формула/визуализация/значение сводной таблицы появлялись в отчетах и анализах. Этот порядок обозначит главные направления, которыми вы будете руководствоваться при организации своего дальнейшего обучения!
Давайте разделим процесс обучения на два двадцатиминутных занятия (две “помидорки” согласно терминологии практикующих метод “помидора”). Закончите эти два занятия перед работой! Ведь все мы устаем после тяжелого рабочего дня. Если постоянно переносить занятия на более позднее время в течение дня, то вероятность их выполнения будет стремиться к нулю.
Первые 25 минут мы сосредотачиваемся на изучении R:
Следующие 25 минут посвятим изучению SQL:
Достигнув свободного владения R и SQL, подумайте, как вы можете применить эти знания в своей работе. Чувствуете мощь той силы, которую вы обрели над данными, научившись писать код?
Продолжайте обучение и овладевайте новыми навыками! Развивайтесь! Жизнь не ограничивается лишь выталкиванием списков данных и выполнением отчетов!
Откройте для себя более удивительные знания. Например, прочитайте книгу “Язык R в задачах науки о данных” Гаррета Гролемунда и Хадли Уикмена, легенды R. Узнайте, что такое Kaggle. Подпишитесь на R-bloggers и учитесь у своих коллег-пользователей R.
Изучайте R ежедневно на протяжении 6 месяцев. По мере освоения R переходите к изучению Python. Знание двух языков программирования станет хорошей стартовой площадкой для погружения в него.
Нет лучшей награды для преподавателя, чем видеть, как его ученики прошли путь развития от аналитиков, работающих с данными электронных таблиц, до аналитиков с навыком написания кода. К сожалению, я не могу лично сопровождать вас в процессе вашей профессиональной трансформации! Но надеюсь, что материал статьи вдохновит вас на повышение уровня своих навыков, и вы станете более мощным аналитиком данных.
У вас всё получится!
Перевод статьи Justin: Learn to code for data: a pragmatist’s guide
Комментарии