Голосовой чат-бот c whisper, llama-3, xtts v2, tensorRT и triton: Портфолио фрилансера Антон Борисенко 24.06.2024, работа №3 - FL.RU
Антон Борисенко
Фрилансер готов решать задачи повышенной сложности и работать с крупными проектами.
Стоимость указана, чтобы вам было проще оценить примерные расходы на решение вашей задачи. Окончательную цену фрилансер сможет сообщить в личной беседе после уточнения деталей.
Похожая работа будет стоить
195 000 rub

Примерный срок выполнения

45 дней

Инструменты и навыки
tensorrt tensor processor ai voice voice recognition voice bot Синтез нейронные сети cuda nvidia cuda nvidia ассистент ИИ Искусственный интеллект Чат боты чат бот
К списку работ
Антон Борисенко
Антон Борисенко

Голосовой чат-бот c whisper, llama-3, xtts v2, tensorRT и triton

imageimage
Голосовой чат-бот - это ассистент, обученных на ваших данных, который может общаться с пользователем голосом. Он может как обмениваться голосовыми сообщениями, так и общаться в реальном времени. Я сделал реализацию как на API-сервисах, так и полностью на своём железе. Если запускать на своих видеокартах, то использует самый быстрый способ ускорения нейронных сетей на CUDA - tensorRT и tensorRT-LLM, а для развертывания triton-сервер. Так, для транскрибации разворачивается whisper, а для ассистента используется llama-3 или mistral. Для того чтобы использовать данные пользователя, делается дообучение модели или ассистент строится на RAG-системе. Для синтеза использует лучший open source вариант - XTTS v2. Таким образом, имеется возможность создавать быстрых и качественных голосовых ботов на своих локальных мощностях, то есть не оплачивая какие-либо сторонние сервисы.