Skip to content
This repository has been archived by the owner on Mar 21, 2022. It is now read-only.

Хакатон по поиску и анализу данных от Северстали и McKinsey 2022

Notifications You must be signed in to change notification settings

nparamonov/hackathon-serverchallenge

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

74 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

hackathon-serverchallenge

Хакатон по поиску и анализу данных от Северстали и McKinsey 2022

Задача

Задача состоит из нескольких блоков:

  1. разработка алгоритма для парсинга товаров;
  2. исследование возможных данных во внешних источниках;
  3. разработка программы подготовки информации в требуемом разрезе (товар vs поставщик vs рейтинг поставщика);

На выходе – воспроизводимый код и презентация сервиса.

Требования

  • Google Chrome 99.0.4844.74
  • Python 3.10
  • pip 22.0.4
  • Библиотеки:
    • requests
    • bs4
    • lxml
    • time
    • openpyxl
    • re
    • datetime
    • string
    • pymorphy3
    • selenium

Запуск

Подготовить входные данные в формате Excel source/poiskpostav_v1.xlsx
При необходимости, внести изменения в конфигурационный файл modules/config.py

Автоматический запуск

Запустить файл run.bat в папке проекта

Ручной запуск через консоль

Перейти в папку проекта, например:

cd Documents\GitHub\hackathon-serverchallenge

Установить необходимые библиотеки

pip install -r requirements.txt

Запустить main.py

python main.py

Подробно

Описание бизнес-процесса

Автоматизация процесса поиска, первичной проверки и базового ранжирования поставщиков в разрезе каждой товарной группы – задел в сторону дополнительной прозрачности в принятии решений по закупкам и упрощения бизнес-процесса.
Несмотря на то, что площадок со списком поставщиков достаточно, есть сложность в оперативной алгоритмической верификации поставщика: нужно понять, что он продает требуемый товар, что его организация вообще является действующей и т.д. Также надо учитывать широту поиска: придумать эвристики для выбора релевантных источников данных.
Задача состоит из нескольких блоков: разработка алгоритма для парсинга товаров, исследование возможных данных во внешних источниках, разработка программы подготовки информации в требуемом разрезе (товар vs поставщик vs рейтинг поставщика).

Ключевые вопросы

Ключевые вопросы, на которые должны ответить участники при проведении анализа и разработке решения:

  • Опишите ваше решение в таком разрезе: список найденных факторов, алгоритм поиска этих факторов во внешней среде, критерии ранжирования по ним контрагентов в связке с товаром (возможно, не все факторы релевантны всем товарам).
  • Ранжирование должно быть в рамках каждой номенклатуры.
  • В рамках вашего решения должна быть дополнена информация о контрагенте, принадлежащем к номенклатуре, в частности это может быть: ИНН/КПП, юр.адрес, статус, фин.показатели, отзывы о компании и др.
  • Какие инсайты по поиску информации о поставщиках и подходы для проведения ранжирования вы нашли?
  • Как будет выглядеть процесс использования инструмента для менеджера по закупкам? Опишите бизнес-процесс с иллюстрациями.
  • Разработанный инструмент должен позволять визуализировать данные по поставщикам с привязкой (с учетом ранжирования) к товарам. Продемонстрируйте варианты информативной визуализации и подготовьте код для формирования отчета, а также пример отчета.

Описание итогового продукта

  • Разработанный инструмент должен позволять визуализировать данные по поставщикам с привязкой (с учетом ранжирования) к товарам. Продемонстрируйте варианты информативной визуализации и подготовьте код для формирования отчета, а также пример отчета
  • Результат работы в виде воспроизводимого кода и презентации

About

Хакатон по поиску и анализу данных от Северстали и McKinsey 2022

Resources

Stars

Watchers

Forks

Packages

No packages published