Что умеют AI-driven системы расшифровки встреч, и как их внедрять в компанию
Расшифровка аудио рабочих встреч (автоматическое создание стенограмм совещаний) — это относительно старая технология. Однако в последние годы основанные на ней системы-транскрибаторы совершили большой рывок, связанный с качеством расшифровки, юзабилити и новыми AI-функциями. Благодаря этому расшифровка встреч в 2024 году может стать действительно полезной для сотрудников и руководителей, а в итоге принести множество преимуществ на уровне компании.
Однако это не случится само собой: нужен анализ и немало усилий от менеджмента.
Эта статья поможет вам сориентироваться в этой непростой теме и принять решение о том, погружаться ли в нее глубже, а также поможет сформировать «дорожную карту» выбора и внедрения системы расшифровки созвонов в своей команде или компании. Мы в ScrumTrek прошли этот путь сами, собрали несколько граблей, а также пообщались с более крупными компаниями на эту тему. Теперь делимся выжимкой из этого опыта, чтобы вам не пришлось наступать на те же грабли.
Если же ваши встречи с коллегами уже расшифровываются, у вас могут возникать довольно серьезные проблемы с утечками чувствительной информации и с отношением коллег к присутствию транскрибатора на встречах (вплоть до саботажа). Как избавляться от этих проблем и как правильно строить свое корпоративное AI-решение — читайте во второй статье этой серии.
Содержание статьи
Введение
У тех, кто пока лишь задумывается об автоматической расшифровке (транскрибации) встреч, сначала возникает вопрос — зачем это вообще нужно? На этот вопрос есть очень много ответов, многие из них выходят за рамки этой статьи, поэтому даю 3 ссылки про назначение транскриптов:
- Топ-11 причин использовать автоматическую расшифровку для совещаний (перевод статьи) – немного идеалистичный взгляд на традиционное применение транскриптов как таковых. Эти причины вполне актуальны, но только есть проблема: мало кто читает сырые расшифровки!
- Отрывок про полученные выгоды (и про возникающие проблемы) в видео Транскрибация встреч: цели, инструменты и трудности (YouTube) – это реальный опыт использования транскриптов, взгляд со стороны скрам-мастера / ПМа.
- Отрывок про бесполезные встречи и другие причины внедрения MeetingOps в видео Автоматизация менеджмента с ИИ (RuTube) — взгляд со стороны компании / бизнеса: новые возможности на базе транскриптов.
Я также добавлю свой ответ на вопрос «зачем?», который пока мало кем применяется: создавая на базе транскриптов AI-протоколы, можно превратить «стерилизованную» информацию со встреч в самую актуальную и полную часть базы знаний компании. Т.е. это помогает отчасти решить самую типичную проблему корпоративных баз знаний: устаревание информации и отсутствие ресурсов на ее актуализацию.
Но начнем разбираться с самих транскриптов.
Предположим, вы и ваше руководство уже видите веские причины, зачем вашей команде / департаменту / компании нужны транскрипты встреч (автоматические «стенограммы» или «расшифровки»). Тогда возникает много новых вопросов:
Какие инструменты нужны, чтобы а) получать б) использовать расшифровки встреч? Как выбрать эти инструменты и как пропилотировать их с минимальными рисками? И причем тут искусственный интеллект (AI)? — он только делает транскрипты или что-то еще?
Ниже я опишу терминологию и типичные действия по подбору и пилотированию основного инструмента — транскрибатора. А про AI-инструменты, без которых расшифровка часто приводит к проблемам, — смотрите в следующей статье.
Разбираемся в запутанной терминологии
Предположим, у вас в компании почти все встречи происходят онлайн (или хотя бы включают нескольких онлайн-участников). Т.е. это созвоны, проходящие через систему видеоконференцсвязи (ВКС). Это может быть чисто корпоративная система типа Microsoft Teams либо доступным частным лицам сервис — такой как Zoom, Google Meet, МТС Линк, SaluteJazz, Яндекс.Телемост, Контур.Толк, TrueConf (последние пять — российские).
Тогда путь от самих встреч к извлечению новой пользы от этих встреч у вас будет примерно следующий.
Транскрипт
Расшифровку часто называют транскриптом (transcript), в английском иногда называют verbatim minutes, а в крупных российских компаниях могут называть стенограммой или даже авто-протоколом (хотя последнее не всегда корректно, см. ниже). Это первичное текстовое представление встречи.
- Транскрипт — это полный текст встречи, включающий все произнесенные слова, разделенные по репликам спикеров (участников встречи). Также транскрипт обычно включает отметки о моментах времени для каждой реплики (время полезно, например, чтобы потом можно было прослушать интересующий фрагмент встречи).
- Транскрипт создается особым искусственным интеллектом класса Speech-to-Text. Сейчас почти все инструменты распознавания речи используют ту или иную разновидность Whisper — открытой многоязычной модели Speech-to-Text от компании OpenAI.
- Транскрипт обычно содержит много лишних слов (устная речь полна «мусора»), а также ошибки распознавания речи, вот иллюстрация этого факта:
Наиболее популярный способ расшифровки созвонов — это когда к вам в ВКС приходит виртуальный участник — специальный агент транскрибатора, т.е. приложения, которое создает расшифровку. Обычно это приложение нужно покупать отдельно от ВКС, поскольку качество транскриптов от самих ВКС пока недостаточно хорошее.
Приведенный на скриншоте выше транскрипт от Fireflies достаточно качественный — намного лучше, чем даже у Zoom AI Companion (для русского языка). Кстати, качество Fireflies мало чем отличается от российских транскрибаторов MyMeet, FollowUP, Teamlogs и Timelist. Я протестировал 3 разнотипных встречи во всех этих системах; на одной и той же аудиозаписи недочеты у них возникают немного разные, но недочетов очень мало.
Протокол от AI
Далее, когда у вас есть готовый транскрипт приемлемого качества, извлечь из него пользу поможет уже другой искусственный интеллект — так называемая большая языковая модель (LLM, Large Language Model). LLM часто ассоциируют со словом GPT (хотя GPT — это более общий термин — название архитектуры разных моделей, не только современных LLM).
В идеале, из транскрипта LLM-модель должна сделать протокол.
Протокол — это текст четко сформулированных важных мыслей участников встречи, вычищенный от информации, которая а) незначима и б) не предназначена для третьих лиц.
- К такой информации относятся приветствия, прощания, разговоры о погоде, обсуждения качества связи и отсутствия участников, «размышления вслух», излишне эмоциональные высказывания (особенно в адрес третьих лиц), ненормативная лексика и так далее.
- Протокол обычно состоит из пунктов (bullets), по одному предложению в каждом. В моем нижеуказанном примере в протоколе имена участников (спикеров) оставлены как элементы структуры, объединяющие несколько пунктов:
В целом, понимание протокола в разных источниках сильно отличается по длине. Кое-где протоколы могут быть короче транскрипта раз в 10, и даже имен спикеров могут не содержать. С точки зрения англоязычного интернета, протокол, приведенный на моем скриншоте, ближе всего к понятию «discussion minutes».
Такой протокол в 2.5-4 раза короче транскрипта, и это хорошо для дальнейшего его использования вместо транскрипта. Например, на этом скриншоте кусок протокола (до момента 14:03) содержит всего 56 слов, тогда как он сделан из намного более длинного куска транскрипта, приведенного на предыдущем скриншоте (210 слов).
Резюме, заметки и другие артефакты от AI
Из того же транскрипта (или лучше из протокола, если таковой уже есть) LLM может делать более краткие и не менее полезные артефакты. Приведу три наиболее часто встречающихся артефакта встреч.
Резюме встречи (Summary, Overview, обзор) — обычно 1-3 абзаца о том, чему была посвящена встреча и каков ее главный итог.
«Обсужденные темы» или Заметки/Notes (в разных приложениях это называется совершенно по-разному) — это список всех обсужденных тем и микро-тем. Например, это двухуровневый список пунктов (буллетов). В любом случае, заметки длиннее, чем резюме, а темы там идут в хронологическом порядке.
Первые 3 строчки этих «заметок», состоящие из всего лишь 16 слов, соответствуют куску транскрипта на 210 слов, т.е. Notes на порядок короче.
«Следующие шаги» (Выделенные задачи, Follow-up, Action items, To-do list) — это полный список тех итогов встречи, которые влияют на дальнейшие действия. Кратко, но обязательно с указанием имен спикеров.
Пример следующих шагов — в нижней части этого скриншота:
Какие артефакты генерируются «из коробки»?
Я надеюсь, теперь вам понятна терминология и основные возможности транскрибаторов (систем расшифровки). Как видно из примеров, многие такие системы не только создают, но и обрабатывают свои транскрипты с помощью встроенных туда LLM (обычно эти LLM небольшого размера, поэтому дают не лучшее качество). Например:
- Fireflies генерирует и Overview, и Notes, и Action Items (но не протокол),
- MyMeet генерирует Overview (но длинное – близко к Notes) и Action Items,
- Timelist генерирует только Action Items и протокол (правда, протокол не такой конкретный, как приведен выше: буллеты в Timelist лишь описывают, какие мысли обсуждались, без деталей).
- FollowUP генерирует Notes, Action Items и еще один артефакт под заголовком «Доп. информация» (там кратко «Вопросы, требующие дальнейшего обсуждения», «Риски и проблемы», «Предложения и рекомендации»). Все это вместе похоже на типичные meeting minutes, которые до AI создавались вручную, поэтому имели небольшой размер и четкую структуру.
- Teamlogs ничего кроме транскрипта по умолчанию не генерирует, но 2 артефакта в нем можно в один клик создать с помощью внешней LLM-модели (находящейся зарубежом), и еще сколько угодно артефактов — после написания вами текстового промта (например, «Создай список задач»):
Создание разных артефактов на базе транскрипта — это далеко не все, чем отличаются разные транскрибаторы. Выбрать из них подходящий — не такая уж простая задача (а с учетом требований некоторых корпоративных служб безопасности она может быть вообще неразрешимой). Посмотрим на эту задачу чуть глубже.
Выбираем систему для расшифровки встреч
Допустим, у вашей компании нет требования обрабатывать все данные внутри корпоративной сети; или же такое требование есть, но на этапе пилотирования новых ИТ-инструментов его можно обойти. [Что если такой пилот невозможен, и требуется всегда обрабатывать данные строго в своем контуре — отдельная сложная тема.] Тогда вам стоит поэкспериментировать с SaaS-системами, которых на рынке много, но и недостатков у них тоже немало.
Как выбирать отдельную SaaS-систему для транскрибации?
Полноценный обзор систем для расшифровки встреч выходит за рамки этой статьи. Надеюсь, я сделаю такой обзор позже, поскольку имеющихся в интернете относительно свежие независимые обзоры (от Texterra, от Unite.ai и т.п.) смешивают требования к транскрибации встреч и простых аудио-видео-записей; они недостаточны для принятия даже предварительных решений о том, какие системы стоит пробовать внутри компании.
Здесь перечислю лишь важные критерии выбора систем транскрибации, а также знакомые мне не понаслышке системы, которые имеет смысл применять российским компаниям.
По-моему, основной критерий в случае средних и крупных компаний — наличие возможности в будущем — после пилотирования / многомесячной апробации в рамках одного подразделения — развернуть системы на серверах заказчика (on-premise). Для компаний из России это сужает выбор до российских систем.
С учетом этого критерия мой личный список пригодных систем на данный момент получился таким:
- MyMeet.ai — единственная из списка система, которая в SaaS-версии имеет подписочную модель (от 850 руб/мес/чел), а не оплату за минуты. Иногда это выгодно для клиента, иногда наоборот.
- Follow-up.tech — одна из двух систем списка, которая удобно интегрируется с календарем (на мой вкус, даже удобнее, чем MyMeet).
- Timelist.ru — единственная из списка система, которая делает протокол встречи (см. выше). Вместо интеграции с календарем и с ВКС, здесь — просто Windows-приложение, которым можно записать встречу и отправить ее сразу в Timelist.
По каким еще критериям вы можете отбирать системы в свой short list?
- Качество текстов — как самой расшифровки, так и получаемых на ее основе более кратких артефактов. Важной частью качества является не наличие запятых и точек в правильных местах, а отнесение реплик к правильным спикерам (ни одна система этого не достигает на 100%) плюс корректное распознавание специфических терминов. Также очень полезна возможность загрузить в систему свой «словарь», чтобы такое распознавание было более успешным.
- Юзабилити. Это важно, поскольку в большинстве случаев сами люди должны, так или иначе, участвовать в приглашении агента-транскрибатора на свои встречи. И если это неудобно, они этого делать не будут.
- В MyMeet и FollowUP (а также во всех популярных зарубежных системах) usability достаточно хорошее: человеку достаточно 1 раз настроить интеграцию с календарем. Благодаря этому число ручных действий, необходимых для транскрибирования, у них является минимальным среди всех российских систем (оно станет равно нулю, когда они реализуют фичу с автоматическим распознаванием имен участников, т.е. тогда вообще ничего не надо будет делать вручную).
- В Timelist это намного менее удобно, но все же удобнее, чем у многих других российских транскрибаторов, где нужно вручную загружать файлы записей, выгруженные из ВКС.
- Другой пример супер-важной для юзабилити фичи — автоматическое извлечение имен-фамилий участников из ВКС. И даже если этого нет (спикеры переименовываются вручную), все равно есть отличия между системами. Например, могут ли они переименовать спикеров в ключевых результатах встречи и в Action Items? или хотя бы отложить создание этих артефактов до нажатия специальной кнопки, чтобы они генерировались уже после переименования? Кстати, некоторые транскрибаторы вообще не умеют разделять аудио по спикерам, их нужно сразу исключать из рассмотрения.
- Автоматическое определение языка встречи было бы очень полезно для многих компаний, но даже мощный Fireflies этого делать не умеет. Без этого будут случаться крайне неприятные ситуации, когда язык встречи заранее не успели изменить, и весь транскрипт стал бесполезен. А еще бывают мультиязычные встречи, например, в странах Средней Азии (но я пока не видел системы, которые это хорошо поддерживают).
- API, которое позволяет выгрузить нужные данные в автоматическом режиме. API необходимо для бесшовной интеграции системы в рабочие процессы, и, как следствие, для успешного внедрения. У российских транскрибаторов с этим пока не очень (на любом тарифе API доступно только в MyMeet).
- Система разграничения доступа к транскриптам и итогам встречи. Полный транскрипт лучше хранить вне общего доступа, но вот главными результатами встречи нужно как-то делиться с коллегами (ведь не только создатель встречи является потребителем ее результатов). Системы расшифровки сильно отличаются подобными фичами и гибкостью их настройки (например, кому слать резюме встречи на email, возможен ли доступ по ссылке, возможно ли посмотреть транскрипт участнику встречи извне компании, и т.п.). Впрочем, во второй статье я покажу, что это на самом деле не стоит эти вопросы доверять системе транскрибации.
- Цена. Анализ этого фактора отнюдь не так прост, как кажется, даже если исследовать его исключительно для этапа пилотирования небольшой командой. С большой вероятностью даже грубо оценить стоимость для вашей компании вы сможете лишь после общения с представителем вендора, а также с учетом ответа на вопрос «Каким сотрудникам нужен будет доступ к системе вендора?». Но примерные соображения по типам тарификации и ценам я описываю в финальном разделе.
Еще позволю себе указать на излишнюю, с моей точки зрения, фичу. Редактирование транскрипта перед его отправкой людям — не нужно и формирует неправильную привычку к лишней работе (впрочем, редактирование резюме встречи и подобных артефактов — полезно). Дело в том, что даже вручную поправленные транскрипты отправлять небезопасно с точки зрения наличия в них чувствительной информации или излишне эмоциональных формулировок.
Но даже если не учитывать этот риск, я такой половинчатый подход к автоматизации подход считаю тупиковым: человека заставляют читать всю (!) стенограмму и вносить в нее отнюдь не интеллектуальные правки. Это тем более сложно, что стенограмма изобилует мелкими неточностями. Какими бы важными ни были встречи, при таком подходе многие люди сделают вывод о том, что «не стоит овчинка выделки» и даже «раньше было проще написать саммари встречи вручную».
Что если «две системы в одной»?
Наличие специализирующейся на расшифровке системы — хорошо с точки зрения гибкости и крутых фич. Но, теоретически, это не обязательно.
Функционал расшифровки и обработки постепенно появляется в ВКС. В частности, он есть в Zoom (чтобы не записывать видео встречи, нужен Zoom AI Companion), в МТС Линк (инструкция) и, например, в TrueConf (пока в бета-версии). Однако, по опыту коллег, качество расшифровки у ВКС даже в 2024м году недостаточное.
Впрочем, это не означает, что резюме и другие результаты AI-обработки некачественной расшифровки будут бесполезными. Причем большинству менеджеров нужны именно такие краткие результаты: им некогда читать длинные транскрипты, даже с учетом удобного функционала поиска по тексту. При этом искусственный интеллект вполне способен, несмотря на погрешности оригинального текста, корректно вытащить суть из нескольких абзацев или, тем более, из встречи в целом. Проблема будет лишь в неверно распознанных узких терминах, но тут уже надо экспериментально исследовать, будет ли заметна эта проблема на ваших типичных встречах.
Замечу, что экспериментировать придется независимо от того, какая это система расшифровки аудио — интегрированная в ВКС или отдельная от нее. Посмотрим на это подробнее.
Планируем внедрение системы расшифровки
Опишу здесь свое видение, которое родилось из общения с двумя российскими вендорами систем транскрибации. Мое мнение может быть вам полезно, поскольку я внедрял десятки различных систем в работу своих коллег — в роли руководителя отдела, а затем и ИТ-менеджера в другой компании. Но, конечно, в вашем конкретном случае подход и этапы внедрения могут быть иными.
Первый этап — эксперименты с доступным «из коробки» функционалом SaaS-системы. Минимальный вариант — без прихода агента-транскрибатора на созвоны: может быть достаточно просто расшифровать старые заведомо не конфиденциальные звонки, чтобы посмотреть и показать коллегам качество транскриптов и AI-итогов встреч.
Первый или хотя бы второй этап обязательно нужно делать с участием большого числа сотрудников, чтобы они поняли, что они на самом деле хотят от систем расшифровки (изначально могут хотеть совсем другого!). Это позволит вам собрать с них более-менее репрезентативную обратную связь. Она будет очень важна при окончательном внедрении одной из таких систем, поскольку многие фичи могут оказаться не нужными, а качество текстов может оказаться совершенно не соответствующим ожиданиям (даже если вы сами активно используете эти фичи, и качество вас лично устраивает).
Второй этап возможен не для всех вендоров. Вендор в облаке развертывает демо-стенд для пилота именно в вашей компании, это стоит не очень дорого, но зато позволяет без больших рисков поэкспериментировать со всем функционалом и оценить юзабилити (а не только качество текстов). На этом этапе возможны доработки под вашу компанию — например, интеграция с вашим календарем (который не в Google и не в Яндекс) или с какой-то не самой массовой ВКС, если таковой еще нет среди фич системы.
Третий этап — это уже серьезная закупка on-premise решения. Безопасно, дорого и долго, но если первые этапы показали эффективность выбранной системы не только руководству, но и сотрудникам, то оно того наверняка стоит.
Оцениваем стоимость транскрибации и выгоду
Предположим, вы нашли готовое решение для транскрибации, которое удовлетворяет потребностям вашей компании: совместимо с вашей ВКС, нравится вам по фичам и по юзабилити, приемлемо по безопасности и т.д.
Такое решение на масштабе компании стоит не очень дешево: даже в случае доступных российских сервисов типа MyMeet — минимум 850 руб/мес на каждого сотрудника, организующего встречи или заинтересованного в просмотре транскриптов. Если требуются фичи типа API, то нужный тариф Fireflies, например, стоит дороже — $19/мес (не менее 1700 руб/мес) на сотрудника. Тогда как без API невозможно построить решение, интегрирование с другими процессами вашей компании.
Кстати, при поминутной тарификации получается еще дороже: цены начинаются от 6 руб за минуту транскрипта, что соответствует 1 800 руб в месяц на сотрудника при очень небольшом числе встреч — всего 5 часов встреч, организованных каждым из этих сотрудников за месяц.
Какую выгоду компания может получить за эти деньги?
Если кратко, то выгода может быть сильно меньше изначальных ожиданий и даже прямых затрат на систему расшифровки. Это сильно зависит от многих факторов, например:
- Сколько людей реально будут использовать результаты расшифровки?
- На какой процент встреч будет добавляться транскрибатор и сколько людей поленятся настроить его автоматическое добавление? А если автоматически ваш транскрибатор добавлять на встречи невозможно, то какой процент людей будет реально делать ручные действия, необходимые для расшифровки?
- Какой процент людей начнет на встречах скрывать реальное положение вещей или даже саботировать применение новой системы в своих командах?
- Сколько возникнет случаев нежелательной утечки кусков транскрипта коллегам? (такие утечки покажут другим, что скрывающие и саботирующие якобы «правильно делали»)
- Насколько доступ в систему расшифровки повысит риски более критичных утечек конфиденциальной информации вовне компании?
Подробнее об этом читайте во второй статье, которая предназначена уже не только для новичков в транскрибации, но и для тех, кто уже набил шишки на этом деле. А третья статья презентует подход MeetingOps к автоматизации менеджемента на базе транскриптов.
Приглашаю в телеграм-канал ScrumTrek, где мы публикуем материалы про AI (и не только про AI) для менеджеров и лидеров изменений, а также анонсируем бесплатные мероприятия AIDEA.
Как уменьшить число встреч в вашем календаре? Чтобы держать руку на пульсе и даже принимать решения, вы как менеджер можете не приходить на многие командные встречи, но получать от AI краткие выжимки из транскриптов встреч, с фокусом на интересующие вас вопросы.
Эта статья поможет не только новичкам в теме транскрибации аудио созвонов (онлайн-встреч, совещаний). Будет не менее полезна тем, кто уже применяет системы расшифровки / протоколирования совещаний (например, зарубежные Fireflies, tldv.io, Read.ai, MeetGeek или российские MyMeet, FollowUP, Timelist, Teamlogs) либо применяет видеоконференции с подобным функционалом (например, Zoom или МТС Линк).
Это вторая статья из серии про использование искусственного интеллекта руководителями и другими людьми умственного труда, которые решают на работе весьма нетиповые задачи и активно коммуницируют с другими людьми. В первой статье были самые простые вопросы, рецепты и примеры применения ИИ. А здесь мы рассмотрим ChatGPT в роли подчиненного сотрудника, использование имеющихся «знаний» для повышения качества результатов ИИ, а также решение комплексной задачи, включающее некоторые приемы промпт-инжиниринга.