Нужна помошь по PDF Box - экстракция текста из пдф: проект в категории Прикладное программирование, 20.12.2017 в 22:31

Подключите нашего Telegram-бота для уведомлений о новых проектах

K

Заказчик

Отзывы фрилансеров: + 14 - 0

Зарегистрирована на сайте 11 лет и 9 месяцев

Бюджет: по договоренности

Пожалуйста отвечайте только если вы уже работали ранее с PDF Box или iText или чем-то похожим и знаете как решать проблему описанную ниже.

Что нам надо: Utility/jar/класс который мы можем вызывать с нашего java аппликейшн на Linux сервере на Tomcat с Java 8.

Проблема: нужно выдать текст из пдф файлов (что называется native pdf или searcheable pdf – не сканы) с сохраненными позициями текста – то есть нужно чтобы каждый тоукен/слово выдавало с x/y начало/конец позиции и координаты начало / конца вертикальных и горизонтальных линий. Нам нужно получить только текст который конечный пользователь может видеть, и не выдавать скрытый текст который человек видеть не может, и если выдает полный текст то нужен флаг какая часть текста видима и какая скрыта для конечного пользователя. Прилагаю примеры файлов где есть скрытый текст который нужно убирать.

Мы используем Apache PDFBox – но их PDFTextStripper выдает весь текст (видимый и не видимый). Чтобы понять какой текст является не видимым нужно самим читать процессить пдф инструкции и считать является ли текст покрытым каким либо другим элементом (является ли текст скрытым) или нет. Нам нужен только видимый текст.

Есть еще другие библиотеки iText, Tika, Acrobat SDK – можно использовать и их если есть опыт.

Сообщите есть ли опыт решения такой задачи и в какой библиотеке, ваша оценка по времени и стоимости решения.

Разделы:

Программирование / Прикладное программирование

Опубликован:

20.12.2017 | 22:31 [последние изменения: 20.12.2017 | 22:44]

Ответить на проект Опубликовать аналогичный заказ Посмотреть другие заказы

Подключите нашего Telegram-бота для уведомлений о новых проектах

Нужна помошь по PDF Box – экстракция текста из пдф

Теги: написать программу, создать программу, разработать программу, разработчики программ, прикладной программист