Skip to content

Latest commit

 

History

History
61 lines (46 loc) · 5.42 KB

README.md

File metadata and controls

61 lines (46 loc) · 5.42 KB

1. Бизнес-анализ (Business Understanding)

Организационная структура

Основные заинтересованные стороны: HR-отделы компаний и пользователи-соискатели.

Бизнес-цель проекта

  1. Помощь компаниям в составлении вакансий и оценке их соответствия рынку по уровню компенсации.
  2. Помощь соискателям в создании резюме и оценке предлагаемой им компенсации.

Существующие решения

  • hh.ru - крупнейший сервис для подбора персонала в России.
  • getmatch - бот для подбора персонала, преимущественно в сфере IT.
  • career.habr.com - сервис для рекрутмента, ориентированный на IT.
  • applicantai.com - сервис для рекрутмента.
  • superjob - сервис для рекрутмента.

Также существует множество других похожих по функционалу сервисов

Недостатки существующих решений

  • Ни один из сервисов не позволяет сделать оценку (эстимейт) зарплаты на основе резюме.
  • Только applicantai.com/ помогает в создании резюме, но он не ориентирован на рынок СНГ.
  • Superjob теоретически должен помогать в создании резюме, но, вероятно, бот не функционирует должным образом.

1.1 Текущая ситуация (Assessing Current Solutions)

Для реализации проекта потребуются:

  1. Доступ к LLM (Language Model):

    • API провайдера: Низкая стоимость, но повышенные требования к обработке персональных данных. Не все провайдеры предоставляют необходимые гарантии.
    • Локальная модель: Сложно достичь качества, сравнимого с API провайдеров вроде OpenAI, Anthropic и Google. Высокие стартовые затраты (примерно 1000$ в месяц для Llama 3.1 70b на арендованном сервере). Однако, при большом количестве запросов, стоимость может быть ниже, чем при использовании API.
  2. Модель предсказания компенсации: Достаточно использовать линейную регрессию.

  3. Модель для построения эмбеддингов: Можно использовать одну из готовых моделей из пакета SentenceTransformers с возможным последующим дообучением под конкретную задачу.

Хранение данных

Данные будут храниться в базе сервиса.

  • Компании будут получать доступ ко всем резюме соискателей через веб-приложение или API.
  • Соискатели будут получать доступ ко всем вакансиям через бота.

Даже при самых оптимистичных прогнозах, стоимость хранения данных останется минимальной.

Вероятные риски

  1. Возможность не уложиться в сроки.
  2. Недостаток качественных данных по зарплатам. Планируется использовать данные из Telegram-каналов и собственные данные, но компании часто не предоставляют точных данных, что может привести к ошибкам в оценке зарплат (до 20-30%).
  3. Низкая точность матчинга вакансий и резюме на основе эмбеддингов.
  4. Высокая стоимость использования LLM может привести к низкой окупаемости проекта.

1.2 Решаемые задачи с точки зрения аналитики (Data Mining Goals)

Для каждой модели сервиса предлагаются следующие метрики:

  • Для модели построения эмбеддингов: Precision, так как показ несоответствующих вакансий хуже, чем отсутствие предложений. Ожидаемое значение >0.8.
  • Для модели линейной регрессии: RMSE.

1.3 План проекта (Project Plan)

Примерная оценка времени на каждый этап разработки:

  1. Бизнес-анализ: 2 дня.
  2. Анализ данных: 2-3 дня.
  3. Подготовка данных: 1-2 дня.
  4. Моделирование: 2-3 дня.
  5. Оценка результата: 2-3 дня.
  6. Внедрение: 7-10 дней.