Подключите нашего Telegram-бота для уведомлений о новых проектах
Нужна помошь по PDF Box экстракция текста из пдф
Заказчик
Отзывы фрилансеров:
+ 14
- 0
Зарегистрирована на сайте 11 лет и 9 месяцев
Бюджет:
по договоренности
Пожалуйста отвечайте только если вы уже работали ранее с PDF Box или iText или чем-то похожим и знаете как решать проблему описанную ниже.
Что нам надо: Utility/jar/класс который мы можем вызывать с нашего java аппликейшн на Linux сервере на Tomcat с Java 8.
Проблема: нужно выдать текст из пдф файлов (что называется native pdf или searcheable pdf не сканы) с сохраненными позициями текста то есть нужно чтобы каждый тоукен/слово выдавало с x/y начало/конец позиции и координаты начало / конца вертикальных и горизонтальных линий. Нам нужно получить только текст который конечный пользователь может видеть, и не выдавать скрытый текст который человек видеть не может, и если выдает полный текст то нужен флаг какая часть текста видима и какая скрыта для конечного пользователя. Прилагаю примеры файлов где есть скрытый текст который нужно убирать.
Мы используем Apache PDFBox но их PDFTextStripper выдает весь текст (видимый и не видимый). Чтобы понять какой текст является не видимым нужно самим читать процессить пдф инструкции и считать является ли текст покрытым каким либо другим элементом (является ли текст скрытым) или нет. Нам нужен только видимый текст.
Есть еще другие библиотеки iText, Tika, Acrobat SDK можно использовать и их если есть опыт.
Сообщите есть ли опыт решения такой задачи и в какой библиотеке, ваша оценка по времени и стоимости решения.
Разделы:
Опубликован:
20.12.2017 | 22:31 [последние изменения: 20.12.2017 | 22:44]
Теги: написать программу, создать программу, разработать программу, разработчики программ, прикладной программист