Стоимость указана, чтобы вам было проще оценить примерные расходы на решение вашей задачи. Окончательную цену фрилансер сможет сообщить в личной беседе после уточнения деталей.
Похожая работа будет стоить
195 000
rub
Примерный срок выполнения
45 дней
Инструменты и навыки
tensorrt
tensor processor
ai
voice
voice recognition
voice bot
Синтез
нейронные сети
cuda
nvidia cuda
nvidia
ассистент
ИИ
Искусственный интеллект
Чат боты
чат бот
К списку работ
Антон Борисенко
Голосовой чат-бот c whisper, llama-3, xtts v2, tensorRT и triton
Голосовой чат-бот - это ассистент, обученных на ваших данных, который может общаться с пользователем голосом. Он может как обмениваться голосовыми сообщениями, так и общаться в реальном времени.
Я сделал реализацию как на API-сервисах, так и полностью на своём железе.
Если запускать на своих видеокартах, то использует самый быстрый способ ускорения нейронных сетей на CUDA - tensorRT и tensorRT-LLM, а для развертывания triton-сервер. Так, для транскрибации разворачивается whisper, а для ассистента используется llama-3 или mistral. Для того чтобы использовать данные пользователя, делается дообучение модели или ассистент строится на RAG-системе. Для синтеза использует лучший open source вариант - XTTS v2.
Таким образом, имеется возможность создавать быстрых и качественных голосовых ботов на своих локальных мощностях, то есть не оплачивая какие-либо сторонние сервисы.
Другие работы фрилансера
Фрилансер готов решать задачи повышенной сложности и работать с крупными проектами.