Кыргызский стартап представил AI-модель синтеза речи на мировой выставке

20 января 2026 ~ 2 мин. чтения
Мужчина с микрофоном
Изображение: Tamyr Platform

Кыргызский стартап представил AI-модель синтеза речи на мировой выставке 

Стартап NineNineSix из Кыргызстана продемонстрировал на международной выставке Consumer Electronic Show (CES) 2026 в Лас-Вегасе собственную модель искусственного интеллекта для синтеза речи — KaniTTS. Новая система может преобразовывать тексты на разных языках в естественную речь, сохраняя интонацию, акцент и выразительность. 

Система распознает речь, превращая услышанные слова в текст в реальном времени. KaniTTS умеет учитывать интонацию, акценты и особенности произношения, что делает расшифровку точной и удобной. Технология работает в несколько раз быстрее аналогов, а ее использование обходится значительно дешевле по сравнению с продуктами от OpenAI и Google.

AI-модель разработана для применения в приложениях, где голосовое взаимодействие важно — от образовательных платформ до сервисов поддержки клиентов и устройств «умного дома». Базовая версия модели работает на восьми языках, среди которых кыргызский, английский, немецкий, корейский, арабский, китайский, испанский и японский.

Специалисты проекта отмечают, что технология способна работать с большим объемом данных и адаптироваться под разные языковые особенности. Модель KaniTTS опубликована в свободном доступе по лицензии Apache 2.0 — это позволяет разработчикам и исследователям по всему миру бесплатно использовать технологию и участвовать в дальнейшем развитии.

Второе представленное решение от команды NineNineSix — Kyrgyz Whisper. Эта система автоматического распознавания речи создана на базе модели Whisper от OpenAI и адаптирована под кыргызский язык. Модель обучена на 2 000 часах аудиозаписей, что снижает количество ошибок распознавания до 0,2%. 

В ближайших обновлениях разработчики планируют добавить в AI-модель функцию клонирования голоса — технологию, которая позволяет по короткому аудиофрагменту воспроизвести тембр, интонации и манеру речи человека и использовать этот голос для озвучивания любого текста.