Этот проект демонстрирует навыки визуализации данных с использованием Python-библиотек numpy, pandas, matplotlib и seaborn. Датасет Iris, загружаемый из sklearn, содержит информацию о характеристиках трех видов ирисов (длина и ширина чашелистика и лепестка). Проект включает базовый анализ данных и создание разнообразных визуализаций для изучения распределений, связей и различий между видами.
- Numpy: Расчет статистик и работа с массивами.
- Pandas: Создание и обработка DataFrame, группировка.
- Matplotlib/Seaborn: Построение гистограмм, scatter plots, боксплотов, pairplots и тепловых карт.
- Загрузка данных: Использование датасета Iris из
sklearn. - Анализ: Расчет описательных статистик, средних по видам, корреляций.
- Визуализация:
- Гистограммы распределения характеристик по видам.
- Scatter plot для длины и ширины лепестка.
- Боксплоты для длины чашелистика.
- Pairplot для парного анализа всех характеристик.
- Тепловая карта корреляций.
- Построены графики, показывающие четкое разделение видов ирисов по длине и ширине лепестка.
- Выявлены корреляции между характеристиками (например, высокая корреляция между длиной и шириной лепестка).
- Боксплоты подтверждают различия в длине чашелистика между видами.
- Установите библиотеки:
pip install numpy pandas matplotlib seaborn scikit-learn
- Запустите main.py:
python3 main.py