Подключите нашего Telegram-бота для уведомлений о новых проектах

Заказ закрыт
Софт для расшифровки и обработки новостных выпусков с помощью ИИ-решений (Whisper/GPT-3/NLP)

Разместить заказ
d
Заказчик
Отзывы фрилансеров: + 0 - 0
Зарегистрирован на сайте 2 года
Бюджет: по договоренности
Ищу разработчика с опытом работы с нейросетями и API, примерами подобных проектов. 

Клиент 

Информационное агентство, предлоставляющее аналитические услуги региональным и городским органам власти. Ключевая задача — обработка и сбор в отчёты новостных сюжетов региона 

Проблема 

Работники агентства тратят много времени на следующие задачи: 

1. Расшифровку новостных выпусков из тв- и радио-выпусков в текстовой формат (набирая вручную) 
2. Нарезку видео- и аудио-файлов на более мелкие файлы (выпуск новостей на отдельные сюжеты) 
3. Чистку текстов от “шума” (ненужных действующих лиц, “воды”) 
3. Создание заголовков к новостным выпускам 

При внедрении решения трудозатраты сотрудников сократятся на 50-80% 

Решение 

Решено автоматизировать эти процессы с помощью ИИ. На этом этапе будет необходим простой интерфейс для работников агентства, куда они смогут загружать исходные файлы (видео, аудио, тексты), получая на выходе обработанный текст в виде “заголовок, текст, название нарезанного файла”. 

Этот сервис обработки данных будет являться частью будущей архитектуры, поэтому важно на этапе создания сделать API для дальнейшей интеграции с другими микросервисами. Сейчас это тул для работников, но в будущем планируется минимизировать ручную обработку сообщений, соединив микросервис с базой данных и другими сервисами. 

План / ТЗ 

1. Расшифровка: 
- Протестировать и выбрать наиболее подходящее решение транскрибации видео и аудио в текст (Whisper, Yandex Speech Kit, Speech Api Google, …). 
- Понять, нужна ли будет дополнительная обработка нейросетью по работе с пунктуацией и ошибками, и если да, то выбрать решение 

2. Обработка текста: 
- Протестировать и выбрать наиболее подходящее решение для “чистки” текстового сообщения и выделения заголовка (GPT-3, NLP) 

3. Нарезка видео- и аудио-файлов: 
- Найти решение для маркировки новостных тв-выпусков на сюжеты (avi, mp3) 

4. Разработка: 
- Разработать скрипт, который будет маркировать, нарезать, присваивать уникальное имя видео-файлу и отправлять нарезанные файлы в базу данных 
- Разработать скрипт, который будет с помощью внешнего ИИ-решения транкрибировать видео/аудио в текст 
- Обучить выбранную нейросеть обрабатывать текстовые сообщения на примерах необработанных и обработанных текстов (также есть формализованные написанные правила обработки текста) 
- Разработать примитивный веб-интерфейс для взаимодействия с программой (ввод данных, вывод данных) 
- Собрать все блоки в единый процесс 
- Продумать и внедрить API для дальнейшего взаимодействия с другими микросервисами системы 

Пример текста до и после обработки, а также основные юзкейсы здесь: attntn.notion.site/023371...
Разделы:
Опубликован:
01.05.2023 | 12:54 [поднят: 01.05.2023 | 12:54]
Заказ находится в архиве
Откликнуться Посмотреть другие заказы

Теги:

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».