Хакатон по поиску и анализу данных от Северстали и McKinsey 2022
Задача состоит из нескольких блоков:
- разработка алгоритма для парсинга товаров;
- исследование возможных данных во внешних источниках;
- разработка программы подготовки информации в требуемом разрезе (товар vs поставщик vs рейтинг поставщика);
На выходе – воспроизводимый код и презентация сервиса.
- Google Chrome 99.0.4844.74
- Python 3.10
- pip 22.0.4
- Библиотеки:
- requests
- bs4
- lxml
- time
- openpyxl
- re
- datetime
- string
- pymorphy3
- selenium
Подготовить входные данные в формате Excel source/poiskpostav_v1.xlsx
При необходимости, внести изменения в конфигурационный файл modules/config.py
Запустить файл run.bat
в папке проекта
Перейти в папку проекта, например:
cd Documents\GitHub\hackathon-serverchallenge
Установить необходимые библиотеки
pip install -r requirements.txt
Запустить main.py
python main.py
Автоматизация процесса поиска, первичной проверки и базового ранжирования поставщиков в разрезе каждой товарной группы – задел в сторону дополнительной прозрачности в принятии решений по закупкам и упрощения бизнес-процесса.
Несмотря на то, что площадок со списком поставщиков достаточно, есть сложность в оперативной алгоритмической верификации поставщика: нужно понять, что он продает требуемый товар, что его организация вообще является действующей и т.д. Также надо учитывать широту поиска: придумать эвристики для выбора релевантных источников данных.
Задача состоит из нескольких блоков: разработка алгоритма для парсинга товаров, исследование возможных данных во внешних источниках, разработка программы подготовки информации в требуемом разрезе (товар vs поставщик vs рейтинг поставщика).
Ключевые вопросы, на которые должны ответить участники при проведении анализа и разработке решения:
- Опишите ваше решение в таком разрезе: список найденных факторов, алгоритм поиска этих факторов во внешней среде, критерии ранжирования по ним контрагентов в связке с товаром (возможно, не все факторы релевантны всем товарам).
- Ранжирование должно быть в рамках каждой номенклатуры.
- В рамках вашего решения должна быть дополнена информация о контрагенте, принадлежащем к номенклатуре, в частности это может быть: ИНН/КПП, юр.адрес, статус, фин.показатели, отзывы о компании и др.
- Какие инсайты по поиску информации о поставщиках и подходы для проведения ранжирования вы нашли?
- Как будет выглядеть процесс использования инструмента для менеджера по закупкам? Опишите бизнес-процесс с иллюстрациями.
- Разработанный инструмент должен позволять визуализировать данные по поставщикам с привязкой (с учетом ранжирования) к товарам. Продемонстрируйте варианты информативной визуализации и подготовьте код для формирования отчета, а также пример отчета.
- Разработанный инструмент должен позволять визуализировать данные по поставщикам с привязкой (с учетом ранжирования) к товарам. Продемонстрируйте варианты информативной визуализации и подготовьте код для формирования отчета, а также пример отчета
- Результат работы в виде воспроизводимого кода и презентации