Техническое задание на разработку скрипта для автоматической проверки фактов (Fact-Checking)
Общие положения
Название проекта: Скрипт автоматической проверки фактов (Fact-Checking) с использованием локальных и онлайн-источников.
Цель проекта: Создать скрипт, который извлекает утверждения из пользовательского текста, проверяет их достоверность с использованием интернет-источников и загруженных локальных файлов.
Базовый функционал: Опирается на функционал скрипта Libr-AI/OpenFactVerification с доработками.
Основные задачи
1. Добавление поддержки локальных источников:
· Возможность загружать локальные файлы (например, .pdf, .docx, .txt .ppt) в систему.
· Индексирование содержимого локальных файлов для проверки утверждений.
· Хранение и управление загруженными документами.
2. Проверка утверждений:
· Извлечение утверждений из пользовательского текста (клеймов).
· Проверка утверждений на валидность:
· Поиск информации в интернете (включая использование Google Search API для анализа результатов, Answer Box).
· Сравнение с локальными файлами.
3. Интеграция технологий:
· Использовать LlamaIndex и LlamaParse для загрузки, обработки и индексирования локальных документов.
· Реализовать хранение данных через Pinecone для эффективного управления чанками и быстрого доступа.
4. Реализация интерфейса (Опирается на функционал скрипта Libr-AI/OpenFactVerification):
· Нужно добавить пользовательский интерфейс (по возможности на Django), который позволяет дополнительно к тому, что уже реализовано в скрипте Libr-AI/OpenFactVerification:
· Загружать локальные файлы в базу знаний и удалять их.
· Создавать и удалять папки из групп файлов по разным базам знаний.
· Просматривать результаты проверки клеймов с указанием источника из базы знаний.
· Включать / выключать направление проверки (только по источникам в интернете, только по локальной базе знаний, по обоим путям).
Технические требования
1. Основной стек технологий:
· Язык программирования: Python.
· Фреймворк: Django.
· Библиотеки и инструменты:
· LlamaIndex и LlamaParse для индексирования документов.
· Pinecone для хранения и поиска по чанкам.
· Google Search API для получения данных из интернета.
· PyPDF2, python-docx python-pptx для работы с файлами.
2. Форматы загружаемых файлов:
· Текстовые файлы: .txt, .csv.
· Документы: .pdf, .docx .pptx
· Возможность масштабирования для работы с другими форматами.
Порядок разработки
1. Этап 1: Исследование и проектирование
· Ознакомление и установка скрипта локально у вас [Libr-AI/OpenFactVerification]. (API openAI мы предоставим)
2. Этап 2: Реализация базового функционала
· Интеграция LlamaIndex и LlamaParse для работы с локальными файлами.
· Настройка Pinecone для хранения чанков и быстрого поиска (у нас есть API).
3. Этап 4: Разработка интерфейса
· Пользовательский интерфейс (на Django загрузка файлов и распределение по папкам, добавление и удаление файлов и папок).
4. Этап 5: Тестирование
Критерии завершенности
1. Скрипт корректно извлекает утверждения из текста и проверяет их достоверность
1. по интернет-источникам
2. по локальным файлам.
3. по интернет-источникам и локальным файлам.
2. Интерфейс удобен для загрузки файлов и анализа результатов.
3. Система стабильно работает.
Разделы:
Опубликован:
20.12.2024 | 13:07 [поднят: 20.12.2024 | 13:07]