Подключите нашего Telegram-бота для уведомлений о новых проектах

Разработка парсера для извлечения данных из PDF, Word и Excel в Google Диск / Excel

Разместить заказ
n
Заказчик
Отзывы фрилансеров: + 0 - 0
Зарегистрирован на сайте 2 месяца
Бюджет: по договоренности
Нужно разработать скрипт (парсер), который будет автоматически извлекать данные из различных типов документов (PDF, Word, Excel) и вносить их в Google Диск (Google Sheets) или Excel в нужном формате.

Функциональные требования:
✅ Парсинг данных из документов следующих форматов:

PDF (сканированные и текстовые)
Word (.doc, .docx)
Excel (.xls, .xlsx)
✅ Извлечение данных согласно заданной структуре:

ФИО
Должность
Дата рождения
Контактные данные
Опыт работы (суда, даты, должность, DWT, мощность двигателя и др.)
Сертификаты (название, дата выдачи, дата истечения, номер)
✅ Запись обработанных данных в:

Google Sheets (API-интеграция)
Excel (сохранение в CSV / xlsx)
✅ Поддержка разных шаблонов анкет (может быть разный порядок данных в документах).

✅ Автоматическая обработка нескольких файлов сразу (bulk processing).

✅ Логирование ошибок (если файл не удалось обработать).

Технические требования:
📌 Язык программирования: Python
📌 Используемые библиотеки:

PyMuPDF / pdfminer (для PDF)
python-docx (для Word)
openpyxl / pandas (для Excel)
Tesseract OCR (если потребуется распознавание текста из изображений)
📌 Интеграция с Google Sheets API (если выбираем хранение в Google Диск).
Дополнительные пожелания:
Гибкость к будущим доработкам (например, интеграция с email / мессенджерами).
Возможность запускать скрипт вручную или автоматизированно (например, по расписанию).
Сроки:
📅 Нужен готовый работающий продукт в течение 10-14 дней
Разделы:
Заказ
Опубликован:
12.03.2025 | 12:35 [поднят: 12.03.2025 | 12:35]
Откликнуться Посмотреть другие заказы Разместить заказ

Теги: Специалисты по парсингу, недорого, FL.ru

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».