Предварительная обработка данных

Точка входа для предварительной обработки данных находится в файле preprocessing.py:

import os

import pandas as pd

from config.paths import FILE_PREPROCESSED_PATH
from config.paths import FILE_RAW_PATH
from utils.data import prepare
from utils.explorer import explorer


def main():
    """
    Тока входа предварительной обработки данных;

    :return: None.
    """

    names = explorer(FILE_RAW_PATH, '*.csv')
    os.system('cls')
    print('Список необработанных файлов:', names, sep='\n', flush=True)

    if name := input('Выберите файл: '):
        name = name.split('.')[0]
        data = pd.read_csv(f'{FILE_RAW_PATH}/{name}.csv')

        # Подготовка к предварительно обработке данных.
        data = prepare(data)

        # Сохранение предобработанных данных.
        data.to_csv(
            path_or_buf=fr'{FILE_PREPROCESSED_PATH}\{name}.csv',
            sep=',',
            index=False
        )


if __name__ == '__main__':
    main()

На данном этапе:

удаляются явные дубликаты;
удаляются записи, которые в поле platform имеют значения "All" или "Series";
заменяются значение Unknown в поле "developer" и "publisher" на NaN;

Чтобы начать процесс предварительной обработки данных, необходимо запустить данный файл. Программа отобразит содержимое директории raw, где хранятся файлы, сформированные на этапе сбора данных (см. сбор данных).

После предварительной обработки данных, в директории processed появится файл с данными в формате .csv. Название файла будет совпадать с названием файла в каталоге raw.

Обратите внимание, файлы из директории raw не удаляются.

К описанию проекта

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Предварительная обработка данных

FilesExpand file tree

preprocessing.md

Latest commit

History

preprocessing.md

File metadata and controls

Предварительная обработка данных