PROИТ: октября 2021

[Data Science] Пример анализа данных с использованием моделей KNN, SVM и SVM с гиперпараметрами (для прогноза покупок)

Анализируемый датасет содержит размеченные сведения о том, купил ли товар определенный пользователь или нет. О пользователе известны такие данные как: возраст, пол и ориентировочная зарплата. О покупках данные представлены в виде: 1 - покупка совершена, 0 - нет. В данной статье попробуем обучить модель, прогнозирующую вероятность соверешения покупки, если нам известны данные о пользователе. Будут применены методы: метод ближайшего соседа (KNN, K nearest neighbor), метод опорных векторов (SVM, support vector machines) и ядра SVM (Kernal SVM) с подбором оптимальных гиперпараметров для модели.

JupyterLab Как изменить стартовую директорию в Windows 10

Задача: необходимо, чтобы при запуске JupyterLab открывалась определенная директория (в которой например располагаются ваши рабочие нотбуки).

Jupyter Notebook Как изменить стартовую директорию в Windows 10

Задача: необходимо, чтобы при запуске Jupyter Notebook открывалась определенная директория (в которой например располагаются ваши рабочие нотбуки).

Оптимизация размера памяти dataframe (python, pandas) путем преобразования числовых типов

Обычно данные для анализа довольно большого объема сами по себе и при загрузке занимают от сотен мегабайт до гигабайт. Помимо этого при загрузке данных в dataframe (pandas) числовые значения не всегда получают наиболее подходящие типы, например вместо int8 назначается тип int64 из-за чего объем используемой под dataframe памяти существенно возрастает.

Приведенная в статье функция позволит быстро переопределить указанные типы в случае такой возможности и в некоторых случаях существенно сократить размер памяти под dataframe.