Подключите нашего Telegram-бота для уведомлений о новых проектах
Оптимизировать работу
Разместить заказ

x
Заказчик
Отзывы фрилансеров:
+ 0
- 0
Зарегистрирован на сайте 2 года и 9 месяцев
Бюджет:
1500 ₽/час
Логика работы программы
1. Мониторинг сайта Росздравнадзора:
Проверка появления новых PDF-файлов.
Сравнение новых файлов с уже обработанными.
2. Скачивание PDF и извлечение текста:
Скачивание найденных файлов.
Извлечение текста из PDF для анализа.
3. Анализ текста:
Выделение ключевых данных (например, название препарата, МНН, изменения).
Формирование структуры данных для таблицы.
4. Создание Excel-таблицы:
Сохранение выделенной информации в Excel.
Формирование сводной таблицы.
5. Поиск дополнительных данных:
Автоматический поиск стандартов медицинской помощи и клинических рекомендаций в базе КонсультантПлюс.
6. Автоматизация и уведомления:
Запуск программы по расписанию.
Отправка готовых таблиц на почту или сохранение в облако.
---
2. Используемые программы и инструменты
1. Язык программирования:
Python (главный инструмент для автоматизации).
2. Библиотеки Python:
requests: Загрузка страниц и PDF-файлов с сайта.
beautifulsoup4: Парсинг HTML для поиска ссылок.
pdfplumber: Извлечение текста из PDF.
openpyxl или pandas: Работа с Excel-таблицами.
selenium: Автоматизация браузера для поиска данных на сайтах.
schedule или apscheduler: Настройка регулярного запуска программы.
3. Внешние сервисы:
ChatGPT (через OpenAI API): Анализ текста и выделение ключевых данных.
4. Дополнительные программы:
Google Chrome и ChromeDriver: Для работы selenium.
Task Scheduler (Планировщик задач Windows): Для автоматического запуска скрипта.
5. Хранилище данных:
Excel-файлы (локально или в облачных сервисах, например, Google Drive, Dropbox).
6. Уведомления:
Отправка готовых файлов через e-mail (с помощью библиотеки smtplib).
1. Мониторинг сайта Росздравнадзора:
Проверка появления новых PDF-файлов.
Сравнение новых файлов с уже обработанными.
2. Скачивание PDF и извлечение текста:
Скачивание найденных файлов.
Извлечение текста из PDF для анализа.
3. Анализ текста:
Выделение ключевых данных (например, название препарата, МНН, изменения).
Формирование структуры данных для таблицы.
4. Создание Excel-таблицы:
Сохранение выделенной информации в Excel.
Формирование сводной таблицы.
5. Поиск дополнительных данных:
Автоматический поиск стандартов медицинской помощи и клинических рекомендаций в базе КонсультантПлюс.
6. Автоматизация и уведомления:
Запуск программы по расписанию.
Отправка готовых таблиц на почту или сохранение в облако.
---
2. Используемые программы и инструменты
1. Язык программирования:
Python (главный инструмент для автоматизации).
2. Библиотеки Python:
requests: Загрузка страниц и PDF-файлов с сайта.
beautifulsoup4: Парсинг HTML для поиска ссылок.
pdfplumber: Извлечение текста из PDF.
openpyxl или pandas: Работа с Excel-таблицами.
selenium: Автоматизация браузера для поиска данных на сайтах.
schedule или apscheduler: Настройка регулярного запуска программы.
3. Внешние сервисы:
ChatGPT (через OpenAI API): Анализ текста и выделение ключевых данных.
4. Дополнительные программы:
Google Chrome и ChromeDriver: Для работы selenium.
Task Scheduler (Планировщик задач Windows): Для автоматического запуска скрипта.
5. Хранилище данных:
Excel-файлы (локально или в облачных сервисах, например, Google Drive, Dropbox).
6. Уведомления:
Отправка готовых файлов через e-mail (с помощью библиотеки smtplib).
Разделы:
Опубликован:
29.01.2025 | 19:34 [поднят: 29.01.2025 | 19:34]