Время, необходимое нашему, примерно такое же, но если мы добавим графические процессоры, то сможем ускорить OCR и создание PDF-файлов, возможно, в 10 раз, что очень поможет, поскольку мы обрабатываем миллионы страниц в день.
Генерация PDF - это баланс между малым размером файла и быстрой отрисовкой в реализациях браузера, наличием данные номера телефона функциональности (поиск текста, номера страниц, вырезание и вставка текста), а также соответствием архивным (PDF/A) и стандартам доступности (PDF/UA). В основе нового поколения PDF лежит библиотека Python «archive-pdf-tools» , которая выполняет сжатие смешанного растрового содержимого (MRC) , создает скрытый текстовый слой с использованием модифицированного рендерера Tesseract PDF , который может читать файлы hOCR в качестве входных данных, и обеспечивает совместимость PDF-файлов с архивными стандартами ( VeraPDF используется для проверки каждого генерируемого нами PDF-файла на соответствие архивным стандартам PDF). Сжатие MRC разбивает каждое изображение на маску фона, переднего плана и переднего плана, сильно сжимая (а иногда и уменьшая масштаб) каждый слой отдельно. Маска сжимается без потерь, гарантируя, что текст и линии на изображении не страдают от артефактов сжатия и выглядят четкими. Используя этот метод, мы наблюдаем 10-кратный коэффициент сжатия для большинства наших книг.
Сами PDF-файлы созданы с использованием высокопроизводительной библиотеки Python mupdf и pymupdf : оба проекта оказали нам поддержку и оперативно исправили различные ошибки , что продвинуло наши усилия вперед.
кластеру для вычислений
-
- Posts: 862
- Joined: Mon Dec 23, 2024 3:32 am