Основные заинтересованные стороны: HR-отделы компаний и пользователи-соискатели.
- Помощь компаниям в составлении вакансий и оценке их соответствия рынку по уровню компенсации.
- Помощь соискателям в создании резюме и оценке предлагаемой им компенсации.
- hh.ru - крупнейший сервис для подбора персонала в России.
- getmatch - бот для подбора персонала, преимущественно в сфере IT.
- career.habr.com - сервис для рекрутмента, ориентированный на IT.
- applicantai.com - сервис для рекрутмента.
- superjob - сервис для рекрутмента.
Также существует множество других похожих по функционалу сервисов
- Ни один из сервисов не позволяет сделать оценку (эстимейт) зарплаты на основе резюме.
- Только applicantai.com/ помогает в создании резюме, но он не ориентирован на рынок СНГ.
- Superjob теоретически должен помогать в создании резюме, но, вероятно, бот не функционирует должным образом.
Для реализации проекта потребуются:
-
Доступ к LLM (Language Model):
- API провайдера: Низкая стоимость, но повышенные требования к обработке персональных данных. Не все провайдеры предоставляют необходимые гарантии.
- Локальная модель: Сложно достичь качества, сравнимого с API провайдеров вроде OpenAI, Anthropic и Google. Высокие стартовые затраты (примерно 1000$ в месяц для Llama 3.1 70b на арендованном сервере). Однако, при большом количестве запросов, стоимость может быть ниже, чем при использовании API.
-
Модель предсказания компенсации: Достаточно использовать линейную регрессию.
-
Модель для построения эмбеддингов: Можно использовать одну из готовых моделей из пакета SentenceTransformers с возможным последующим дообучением под конкретную задачу.
Данные будут храниться в базе сервиса.
- Компании будут получать доступ ко всем резюме соискателей через веб-приложение или API.
- Соискатели будут получать доступ ко всем вакансиям через бота.
Даже при самых оптимистичных прогнозах, стоимость хранения данных останется минимальной.
- Возможность не уложиться в сроки.
- Недостаток качественных данных по зарплатам. Планируется использовать данные из Telegram-каналов и собственные данные, но компании часто не предоставляют точных данных, что может привести к ошибкам в оценке зарплат (до 20-30%).
- Низкая точность матчинга вакансий и резюме на основе эмбеддингов.
- Высокая стоимость использования LLM может привести к низкой окупаемости проекта.
Для каждой модели сервиса предлагаются следующие метрики:
- Для модели построения эмбеддингов: Precision, так как показ несоответствующих вакансий хуже, чем отсутствие предложений. Ожидаемое значение >0.8.
- Для модели линейной регрессии: RMSE.
Примерная оценка времени на каждый этап разработки:
- Бизнес-анализ: 2 дня.
- Анализ данных: 2-3 дня.
- Подготовка данных: 1-2 дня.
- Моделирование: 2-3 дня.
- Оценка результата: 2-3 дня.
- Внедрение: 7-10 дней.