Подключите нашего Telegram-бота для уведомлений о новых проектах

Заказ закрыт
Необходимо написать модели для определения спикера и обработки текста и генерации (суммаризации)

Разместить заказ
f
Заказчик
Отзывы фрилансеров: + 0 - 0
Зарегистрирован на сайте 1 год
Бюджет: 1500 ₽/час
1. Определение спикера аудиозаписи 
 
Требования: 
Использовать HMM-based audio keyword generation для определения голоса спикеров по тембру, разбивки аудио на фрагменты и сформирования транскрипций через whisper 
 
github.com/openai/whisper
 
Выходом должен быть список спикеров (спикер 1, спикер 2 и тд) с соответствующими тайм-кодами и обозначениями в тексте, чтобы каждый фрагмент речи был связан с конкретным спикером. 

2. Обработка текста (пунктуация, грамматика) 
Обеспечить автоматическую корректировку текста, улучшив его качество за счет исправления пунктуационных и грамматических ошибок после транскрибации.
github.com/orgail/ml_punc...
huggingface.co/ai-forever...
huggingface.co/ai-forever...
 
Требования: 
Разработать или подключить стороннюю модель для обработки текста , которая будет работать с уже транскрибированным текстом. 
Коррекция должна охватывать исправление пунктуации, орфографии, грамматических ошибок и других мелких стилистических ошибок. 
Обработка текста должна быть реализована в формате API, принимая на вход текст с тайм-кодами и возвращая исправленный текст с сохранением исходной структуры. 
Возможность адаптации модели под разные языки (при необходимости).
 

3. Генерация (суммаризация) текста 
Цель: Добавить возможность автоматически генерировать краткое содержание транскрибированного текста. 
 
Требования: 
Использовать модель для суммаризации текста (www.kaggle.com/code/singh... 
Функция должна принимать на вход текст (с тайм-кодами) и возвращать краткую суть в виде текста. 
Суммаризация должна учитывать контекст и быть способной работать с текстами разного объема и сложности. 
Реализовать гибкие настройки, позволяющие пользователю задавать длину итогового текста. 
 
Whisper возвращает тайм-коды для транскрибации, и все вышеуказанные функции должны работать с учетом этих тайм-кодов, не нарушая хронологической структуры текста. 
Функционал должен быть интегрирован в общую систему обработки аудиозаписей, чтобы после транскрибации автоматически выполнялись: корректировка текста, определение спикеров и генерация суммаризации. 

API: Все функции должны быть реализованы через API с возможностью простого расширения и подключения других модулей в будущем. 
 
Тестирование: Необходимо провести тестирование всех функций на различных типах данных (разные по качеству и длине аудиозаписи) для проверки их корректной работы. 
 
Дополнительные требования: 
Документация к каждому компоненту (как на уровне кода, так и для конечных пользователей). 
Логи успешных/ошибочных операций. 
Возможность расширения функционала в будущем.
Разделы:
Опубликован:
10.12.2024 | 10:32 [поднят: 10.12.2024 | 10:32]
Заказ находится в архиве
Откликнуться Посмотреть другие заказы

Теги:

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».