Возможно, самые короткие по срокам проекты визуализации данных! Ниже приведены три интересных набора данных, с помощью которых вы сможете пополнить свои портфолио, создав несколько интересных визуализаций.
Уровень сложности: легкий
Ссылка на набор данных здесь.
Визуализация представлена здесь.
Научившись создавать такие визуализации, как показано выше, с помощью Plotly, вы сможете показать, как коронавирус распространился по всему миру с течением времени! Plotly — удивительная библиотека, которая придает визуализации данных динамичность, привлекательность и простоту.
Уровень сложности: легкий
Ссылка на набор данных здесь.
Источник: взято из VoxЧереда лесных пожаров 2019–2020 годов, также известная как «Черное лето», включала последовательность из экстремальных лесных пожаров, первый из которых произошел в июне 2019 года. По данным Википедии, пожары уничтожили приблизительно 18,6 млн га и более 5900 зданий.
Это послужит источником информации для интересного проекта! Используйте свои навыки визуализации данных в Plotly или Matplotlib, чтобы показать масштабы и географический охват лесных пожаров.
Уровень сложности: легкий — средний
Ссылка на набор данных здесь.
Источник: William Bossen на UnsplashВсе еще встречаете людей, которые отрицают изменение климата? Создайте несколько визуализаций данных, чтобы показать, как температура поверхности Земли менялась с течением времени. Сделать это можно с помощью линейного графика или очередной анимированной фоновой картограммы.
Бонус: вы можете создать модель прогнозирования, которая покажет, какая температура Земли ожидается через пятьдесят лет.
Разведочный анализ данных (Exploratory Data Analysis (EDA), или Data Exploration) — это ступень в процессе анализа данных, на которой используется ряд методов, обеспечивающих лучшее понимание используемого набора данных.
Уровень сложности: средний
Ссылка на набор данных здесь.
Источник: Oliver Niblett на UnsplashС 2008 года постояльцы и владельцы жилья используют Airbnb (онлайн-площадка для размещения, поиска и краткосрочной аренды частного жилья), чтобы расширить возможности путешествий и предоставить персонализированные способы знакомства с миром. Этот набор данных содержит информацию об объявлениях в Нью-Йорке на 2019 год, местонахождение жилья, цены, отзывы и многое другое.
Вот некоторые вопросы, на которые вы можете попробовать ответить:
Уровень сложности: легкий
Ссылка на набор данных здесь
Источник: Campaign Creators на UnsplashIBM создала синтетический набор данных, который вы можете использовать, чтобы понять, как различные факторы влияют на нехватку кадров и удовлетворение сотрудников своей работой. Некоторые из переменных включают образование, вовлеченность в работу, рейтинг эффективности и баланс между работой и личной жизнью.
Изучите этот набор данных чтобы посмотреть, есть ли существенные переменные, которые действительно влияют на удовлетворенность сотрудников. Далее посмотрите, сможете ли вы ранжировать переменные от наиболее важных до наименее важных.
Уровень сложности: легкий
Ссылка на набор данных здесь.
Источник: Vasily Koloda на UnsplashКак думаете, входит ли какой-нибудь университет в вашей стране в список лучших ВУЗов по всему миру? Для начала, что значит быть «лучшим» университетом? Этот набор данных содержит три глобальных рейтинга. Используя эти данные, попытайтесь ответить на следующие вопросы:
Уровень сложности: легкий
Ссылка на набор данных здесь.
Влияет ли алкоголь на оценки учащихся? Если нет, то что тогда влияет? Эти данные были получены в ходе опроса учащихся старшей школы в США на курсах математики и португальского языка. Набор содержит несколько переменных: потребление алкоголя, размер семьи, участие во внеклассных программах.
Этот набор поможет определить взаимосвязь между успеваемостью в школе и различными факторами. В качестве бонуса посмотрите, сможете ли вы предсказать итоговую оценку учащегося на основе других переменных!
Уровень сложности: легкий
Ссылка на набор данных здесь.
Источник Pokemon.comСпециально для геймеров! Набор данных, который содержит информацию обо всех 802 покемонах всех семи поколений. Вот несколько вопросов для исследования.
Уровень сложности: легкий
Ссылка на набор данных здесь
ВОЗ создала набор данных о состоянии здоровья жителей всех стран на протяжении определенного времени, который включает в себя статистические данные об ожидаемой продолжительности жизни, смертности взрослого населения и многое другое. Изучив взаимосвязи между различными переменными, определите: какой фактор оказывает наибольшее влияние на продолжительность жизни?
Набор данных был подготовлен с целью ответа на следующие вопросы:
Уровень сложности: средний — продвинутый
Ссылка на набор данных здесь.
Источник: Matthew Henry на UnsplashЭтот набор данных состоит из данных о потребляемом электричестве c сайта PJM (региональная электропередающая организация в США). Используя этот набор данных, попробуйте построить модель временного ряда для прогнозирования потребления энергии. В дополнение к этому посмотрите, сможете ли вы вывести статистику потребления энергии по часам, дням, в период каникул и отпуска, а также выявить тенденции!
Уровень сложности: легкий
Ссылка на набор данных здесь.
Источник: Dmitry Demidko на UnsplashНабор данных Analytics Vidhya состоит из 615 строк и 13 столбцов по прошлым кредитам, которые были и не были утверждены. Попробуйте создать модель, предсказывающую, будет ли одобрен кредит или нет.
Уровень сложности: средний
Ссылка на набор данных здесь.
Источник: Parker Gibbs на UnsplashCraigslist — крупнейшая в мире платформа продажи подержанных автомобилей для продажи. Набор данных состоит из очищенных данных Craigslist и обновляется каждые несколько месяцев. Попробуйте создать набор данных, который поможет предсказать, будет ли автомобиль переоценен или недооценен.
Уровень сложности: средний — продвинутый
Ссылка на набор данных здесь.
Источник: rupixen.com на UnsplashДанные о 492 мошенничествах из 284 807 транзакций, произошедших за два дня. Набор данных крайне не сбалансирован, на положительный класс (мошенничество) приходится 0,172% всех транзакций. Научитесь работать с несбалансированными наборами данных и создайте модель обнаружения мошенничества с банковскими картами.
Уровень сложности: продвинутый Ссылка на набор данных здесь.
Источник: Allie Smith на UnsplashПосмотрите, сможете ли вы построить нейронную сеть для обнаружения рака кожи с помощью более чем 10000 изображений. Это определенно самый сложный проект, который требует обширных знаний в области нейронных сетей и распознавания изображений.
Перевод статьи Terence Shin: 14 Data Science Projects to do During Your 14 Day Quarantine
Комментарии