PDF Title Extractor - это инструмент, который позволяет извлекать заголовки из PDF документов. Проект использует технологии NVIDIA для ускоренной обработки данных с помощью GPU.
Эти инструкции помогут вам запустить проект на вашем локальном компьютере.
Перед тем, как начать, убедитесь, что у вас установлены следующие компоненты:
- Docker
- GPU от NVIDIA
-
Добавьте GPG ключ и репозиторий NVIDIA контейнеров:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
-
Активируйте экспериментальные репозитории:
sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list
-
Обновите список пакетов:
sudo apt-get update
-
Установите NVIDIA Container Toolkit:
sudo apt-get install -y nvidia-container-toolkit
-
Постройте Docker образ:
docker build -t project .
-
Запустите контейнер с использованием GPU:
docker run --gpus all -p 8000:8000 project
После запуска контейнера, сервис будет доступен по адресу http://localhost:8000
. Вы можете отправить PDF файл на этот адрес, чтобы получить заголовок документа.
Для тестирования API вы можете использовать следующую команду curl:
curl -X POST http://ip:8000/parse -H 'Content-Type: multipart/form-data' -F '[email protected]'
Эта команда отправляет PDF файл sa.pdf на сервер для извлечения заголовка.
Проект был протестирован на следующей конфигурации оборудования:
Видеокарта: Tesla A100 с 80 гигабайтами видеопамяти Оперативная память: 64 гигабайта Процессор: 16 ядер Для работы модели необходимо:
Более 50 гигабайт видеопамяти Архитектура GPU: Ampere