Подключите нашего Telegram-бота для уведомлений о новых проектах
Парсинг текстового инфо с изображений
Разместить заказ

s
Заказчик
Отзывы фрилансеров:
+ 1
- 0
Зарегистрирован на сайте 9 лет и 3 месяца
Бюджет:
6000 руб
73.95 $ — 65.06 €
Разработать модуль, который по ссылкам из базы данных:
• автоматически делает скриншот страницы в браузере,
• посредством анализа изображения (OCR и алгоритмов распознавания) определяет цены на 92, 95 и дизельное топливо,
• формирует итоговый отчёт по заданному шаблону, сопоставляя ссылку и полученные данные.
2. Функциональные требования
2.1. Получение ссылок
• Модуль подключается к базе данных (поддержка SQL/NoSQL) для выборки актуальных URL.
2.2. Скриншотинг веб-страниц
• Автоматический запуск браузера (опция headless-режима).
• Захват полного скриншота динамически генерируемой страницы (учёт JavaScript-рендеринга).
• Обработка ошибок (недоступная страница, тайм-ауты).
2.3. Анализ изображения
• Применение OCR (например, Tesseract) для извлечения текстовых данных со скриншота.
• Разработка алгоритма, способного находить и выделять цены для 92, 95 и дизельного топлива независимо от их положения на странице.
• Возможность настройки параметров распознавания (область поиска, фильтрация по форматам чисел).
2.4. Формирование отчёта
• Формирование результата в виде шаблона, включающего:
• исходную ссылку,
• найденные значения цен для каждого вида топлива,
• метку времени обработки.
• Экспорт данных в форматы CSV/JSON либо вывод через REST API/веб-интерфейс.
• автоматически делает скриншот страницы в браузере,
• посредством анализа изображения (OCR и алгоритмов распознавания) определяет цены на 92, 95 и дизельное топливо,
• формирует итоговый отчёт по заданному шаблону, сопоставляя ссылку и полученные данные.
2. Функциональные требования
2.1. Получение ссылок
• Модуль подключается к базе данных (поддержка SQL/NoSQL) для выборки актуальных URL.
2.2. Скриншотинг веб-страниц
• Автоматический запуск браузера (опция headless-режима).
• Захват полного скриншота динамически генерируемой страницы (учёт JavaScript-рендеринга).
• Обработка ошибок (недоступная страница, тайм-ауты).
2.3. Анализ изображения
• Применение OCR (например, Tesseract) для извлечения текстовых данных со скриншота.
• Разработка алгоритма, способного находить и выделять цены для 92, 95 и дизельного топлива независимо от их положения на странице.
• Возможность настройки параметров распознавания (область поиска, фильтрация по форматам чисел).
2.4. Формирование отчёта
• Формирование результата в виде шаблона, включающего:
• исходную ссылку,
• найденные значения цен для каждого вида топлива,
• метку времени обработки.
• Экспорт данных в форматы CSV/JSON либо вывод через REST API/веб-интерфейс.
Разделы:
Опубликован:
20.02.2025 | 15:24 [последние изменения: 21.02.2025 | 08:58]