Ozon AI Team
← Все статьи
AI для МП 24 мая 2026·9 мин чтения

Голосовое управление магазином: как работать с Ozon и WB через голос в Telegram

У селлера руки заняты чаще, чем хотелось бы — то за рулём, то с ребёнком, то на складе, то в зале. Голос вместо текста меняет рабочий день кардинально: задачи ставятся за десять секунд, на ходу, между делом. Но не всё одинаково хорошо распознаётся и не всё стоит говорить.

Зачем вообще голос

Самый честный аргумент — скорость. Средний человек печатает в Telegram около ста знаков в минуту с телефона. Говорит — около ста сорока слов, то есть в семь-восемь раз быстрее. Когда ты диктуешь длинную задачу подрядчику или хочешь зафиксировать пять мыслей подряд, разница чувствуется.

Второй аргумент — руки. У селлера с активным магазином они заняты постоянно. За рулём ездишь по поставщикам и в фотостудию. На складе считаешь и упаковываешь. Дома с ребёнком или собакой. Везде, где печатать тяжело, голос работает. И это не про комфорт, это про то, что задача доходит до выполнения, а не остаётся в голове до вечера, когда ты уже забыл.

Третий — естественность мысли. Печатая, человек неосознанно сокращает, чтобы сэкономить движения. Говоря — формулирует полнее и контекстнее. Парадокс: голосовое сообщение в три предложения часто несёт больше смысла, чем текстовое в одно. Для ИИ это плюс — больше контекста, точнее ответ.

Что говорить и как

Главное правило — говорить как с человеком. Не нужно «синтаксиса команд», ключевых слов, точного порядка. Современные модели распознавания и языковые модели работают с естественной русской речью. «Слушай, посмотри по моей карточке термокружек, какие там сейчас отзывы за последнюю неделю, нет ли там жалоб на крышку» — это нормальный, рабочий запрос. Не нужно превращать его в «команда отзывы артикул такой-то период семь дней».

Второе — не стесняйся пауз и переформулировок. Если ты в середине фразы поправился, агент это поймёт: модель работает с целостным смыслом, а не с пословным разбором. «Посчитай юнитку для… нет, подожди, сначала посмотри остатки на складе, и потом уже юнитку». Нормальная человеческая речь.

Третье — не нужно отдельно говорить «привет, пожалуйста, спасибо». Не потому что грубо, а потому что время. Сразу к делу.

Где у голоса пределы

Распознавание русской речи в 2026 году уже очень хорошее, но не идеальное. Несколько мест, где оно стабильно ошибается, и про них надо знать.

Бренды и иностранные слова — больная тема. Названия товаров на латинице, артикулы, аббревиатуры распознаются нестабильно. Если ты диктуешь «посмотри по карточке Philips HD 3200» — есть шанс получить «филипс эйчди три двести» или вообще что-то странное. На практике это решается двумя способами: либо ты после распознавания смотришь, что получилось, и поправляешь, либо называешь товар по внутреннему артикулу или по русскому описанию — «моя кофемашина», «синие кроссовки».

Цифры и числа — второе слабое место. Особенно длинные. «Цена тысяча двести девяносто» обычно распознаётся, а «артикул семьсот восемьдесят три миллиона четыреста двадцать одна тысяча» — нет. Длинные числа лучше всё-таки печатать или копировать.

Шумная среда — машина с открытым окном, метро, рынок — может уронить качество распознавания почти до нуля. На стоянке с закрытыми окнами, в спокойной обстановке — работает почти идеально. На скорости в потоке — хуже.

Эмоциональная речь — крик, шёпот, сильный акцент — тоже снижают точность. Спокойная диктовка нормальным голосом — оптимум.

Реальный сценарий: утро в машине

Чтобы стало понятно, как это вписывается в день, опишу типичное утро селлера. Семь сорок пять, выехал из дома, едешь к поставщику упаковки. Час времени, печатать нельзя, но и тратить час впустую жалко.

Первое голосовое — менеджеру по продажам: «слушай, посмотри что у нас вчера продалось, есть ли позиции которые ушли в красную зону по остаткам». Через минуту приходит ответ: три артикула, по каждому остаток и сколько дней до OOS. Дальше — следующее голосовое: «по тем двум, что закончатся через четыре дня, посчитай сколько нужно произвести с запасом на десять дней оборачиваемости и сделай заявку поставщику в черновики». Готово, заявка появится в твоём списке к моменту, когда ты сядешь за компьютер.

Дальше — аналитику: «глянь по нашей нише термокружек, что нового в топ-50 за последнюю неделю, есть ли новые игроки, на каких ценах». Ответ приходит через пару минут, ты слушаешь голосом озвучку или читаешь на светофоре.

За дорогу в час ты успеваешь сделать столько, сколько обычно занимало бы половину рабочего дня в офисе. Это и есть главная польза голоса — не «новая фича», а реальное расширение рабочего времени.

Какие задачи лучше голосом

Голос блестяще работает для всего, что относится к запросам и постановке задач. Спросить статус, попросить отчёт, поставить задачу агенту, надиктовать описание новой карточки, сформулировать ответ покупателю — всё это естественно произносится и легко распознаётся.

Сюда же — мозговой штурм и обсуждение. Когда ты не знаешь, как поступить, и хочешь поговорить с агентом-экспертом — голос гораздо органичнее текста. «Слушай, у меня товар плохо идёт уже месяц, цена средняя по нише, отзывы нормальные, фото неплохие, в чём может быть дело» — естественный вопрос, на который агент отвечает естественным анализом.

Какие задачи лучше текстом

Всё, что связано с точными данными. Длинные числа, артикулы, цены до копейки, URL, ключевые слова для SEO. Голос их искажает, ты тратишь время на перепроверку — проще набрать.

Подтверждение операций с деньгами — отправка заявки поставщику с конкретной суммой, изменение цены, запуск рекламной кампании с бюджетом. Здесь нужна точность и осознанность; голосом легко проскочить «ну да, давай», а потом обнаружить, что сумма была не та. Лучше прочитать черновик глазами и нажать кнопку подтверждения.

Письменные формулировки, которые пойдут в карточку или в ответ клиенту. Тут важна редактура, а у голоса нет паузы между мыслью и публикацией. Лучше надиктовать черновик, прочитать глазами, поправить — и только потом отправлять.

Подводный камень — приватность

Голосовое идёт через сеть, проходит распознавание, попадает в логи. Если ассистент чужой, неконтролируемый — твои разговоры о маркетинге и финансах оказываются на чужих серверах. У self-hosted решений голосовое распознавание обычно тоже идёт через внешний сервис (он дорогой, делать свой не каждый может), но текст после распознавания остаётся у тебя. Это уже неплохо, но имеет смысл понимать схему и не диктовать в голосовое то, что не должно никуда уехать.

Итог

Голос — не игрушка и не маркетинговая фишка, а реальный способ удвоить полезное рабочее время селлера, который много передвигается. Говори естественно, не команду, не «протокол». Имей в виду, что числа и латиница распознаются хуже — для них есть текст. Подтверждение денежных операций оставляй на пальцы. И помни, что голосовая речь почти всегда богаче контекстом, чем текстовая — для ИИ-ассистента это плюс.

В нашей AI-команде голосовой ввод работает в Telegram с первого дня. Каждый из семи агентов принимает голосовые на равных с текстом, и ответ приходит обычно в течение десяти-пятнадцати секунд.

Голосом из машины — команда работает в Telegram

Семь агентов принимают голосовые наравне с текстом. Ставь задачи на ходу, отчёты собираются автоматически.

Установить команду за 14 990 ₽