Перейти к основному содержимому

1.17. Аудио ввод и вывод

Всем

Аудио ввод и вывод

Аудио ввод и вывод — это функциональные компоненты информационной системы, отвечающие за взаимодействие с человеком и средой посредством звуковых сигналов. В отличие от видеопотока или тактильного ввода, звуковой сигнал — это физическое колебание давления в упругой среде (обычно в воздухе), которое должно быть преобразовано в электрический, а затем — в цифровой сигнал, обрабатываемый вычислительной машиной. Обратное преобразование (цифровой — электрический — акустический) обеспечивает воспроизведение звука. Этот цикл требует согласованной работы датчиков, аналоговых и цифровых цепей, протоколов передачи и программного обеспечения, управляющего потоком аудиоданных.

Общая архитектура аудиотракта

Любой процесс передачи звука в цифровой системе можно представить как цепочку преобразований, проходящую через три основных уровня: физический, электрический (аналоговый) и цифровой.

На этапе ввода звуковая волна воздействует на чувствительный элемент микрофона, вызывая механическое смещение (диафрагмы, мембраны). Это смещение преобразуется в переменный электрический сигнал с помощью различных физических принципов — электромагнитной индукции (динамические микрофоны), изменения ёмкости (конденсаторные микрофоны), пьезоэлектрического эффекта (в специализированных датчиках). Полученный аналоговый сигнал слаб по амплитуде и требует усиления, а также фильтрации паразитных компонент (включая электромагнитные наводки и фоновые шумы). Далее сигнал поступает на вход аналого-цифрового преобразователя (АЦП), где он дискретизируется по времени и квантуется по амплитуде. Результат — цифровой поток, представленный последовательностью отсчётов, каждый из которых кодирует мгновенное значение звукового давления в заданный момент времени.

На этапе вывода цифровой поток считывается из буфера памяти или принимается по каналу связи (например, через сетевой протокол), поступает на цифро-аналоговый преобразователь (ЦАП), который восстанавливает непрерывный аналоговый сигнал. Поскольку ЦАП выдаёт ступенчатую аппроксимацию, сигнал дополнительно проходит через аналоговый фильтр нижних частот (reconstruction filter), сглаживающий ступени и устраняющий высокочастотные артефакты. Усиленный аналоговый сигнал затем подаётся на излучатель — динамическую головку, электростатический излучатель или пьезоэлемент — где электрическая энергия преобразуется в механические колебания, формирующие звуковую волну.

Важно подчеркнуть: ни один из этих этапов не является изолированным. Характеристики одного звена влияют на требования к следующему. Например, нелинейность микрофонного преобразователя не может быть компенсирована программно на этапе цифровой обработки, если АЦП уже захватил искажённый сигнал. Аналогично, шумы усилителя, расположенного до АЦП, попадают в цифровой домен и становятся неотделимы от полезного сигнала.

Микрофоны

Микрофон — это первичный преобразователь звукового давления в электрическое напряжение. Его параметры определяют нижнюю границу качества всей аудиосистемы. Ключевые характеристики включают чувствительность (мВ/Па), частотную характеристику, направленность (кардиоида, всенаправленная, гиперкардиоида и др.), собственный шум и динамический диапазон.

Динамические микрофоны

Работают по принципу электромагнитной индукции: звуковая волна смещает диафрагму, соединённую с катушкой, находящейся в магнитном поле постоянного магнита. Движение катушки в поле индуцирует ЭДС, пропорциональную скорости смещения. Такие микрофоны обладают высокой прочностью, низкой чувствительностью к перегрузкам, не требуют внешнего питания и стабильно работают в широком температурном диапазоне. Они широко используются в сценической практике (вокальные микрофоны, например Shure SM58), но имеют ограниченную высокочастотную отдачу и меньшую детализацию по сравнению с конденсаторными аналогами.

Конденсаторные микрофоны

Основаны на изменении ёмкости между двумя пластинами — подвижной диафрагмой и неподвижным электродом. При колебаниях диафрагмы расстояние между пластинами меняется, что приводит к изменению ёмкости. Для формирования выходного напряжения на конденсатор подаётся постоянное смещение — поляризующее напряжение. В классических моделях это достигается внешним фантомным питанием (обычно +48 В по стандарту IEC 61938), подаваемым через те же проводники, что несут аудиосигнал (с использованием симметричной линии и согласующих резисторов). В электретных микрофонах поляризующий заряд встроен в материал диафрагмы или электрода, что позволяет отказаться от внешнего высоковольтного источника, хотя предусилитель по-прежнему требует питания (часто 3–5 В).

Конденсаторные микрофоны отличаются высокой чувствительностью, широким и ровным частотным откликом, низким собственным шумом. Это делает их предпочтительными для студийной записи, измерений акустического давления, а также в устройствах, где требуется высокая точность восприятия — от телефонных гарнитур до интеллектуальных ассистентов. Однако они более уязвимы к влажности, механическим перегрузкам и требуют качественного предусилителя.

Микрофоны с цифровым выходом

Современные интегральные микрофоны (например, MEMS-микрофоны с цифровым интерфейсом I²S или PDM) объединяют в одном корпусе мембрану, предусилитель, АЦП и интерфейсный контроллер. Такие устройства получают питание от шины и передают уже оцифрованный поток напрямую в процессор. Это исключает влияние аналоговых помех на линии, упрощает проектирование печатных плат, обеспечивает высокую воспроизводимость параметров в массовом производстве. Они доминируют в мобильных устройствах, ноутбуках, IoT-устройствах и системах голосового управления. Однако их гибкость ограничена — настройка усиления, фильтрации и других параметров возможна только программно, и часто в узких рамках, заданных производителем.

Аналого-цифровое преобразование

АЦП — это ядро системы ввода. Его задача — представить непрерывный аналоговый сигнал в виде дискретной последовательности чисел с минимальной потерей информации. Это достигается двумя операциями: дискретизацией по времени и квантованием по амплитуде.

Дискретизация подчиняется теореме Котельникова–Шеннона: чтобы однозначно восстановить сигнал с максимальной частотой Fmax, частота дискретизации должна превышать удвоенное значение Fmax. Для человеческого слуха верхняя граница слышимого диапазона обычно принимается равной 20 кГц, следовательно, минимальная частота дискретизации — 40 кГц. На практике используются стандарты 44,1 кГц (Compact Disc), 48 кГц (видео, VoIP), 96 кГц и 192 кГц (профессиональная аудиообработка), где избыточность служит для облегчения проектирования антиалиасинговых фильтров и снижения нелинейных искажений.

Квантование определяется разрядностью АЦП — числом бит, выделяемых на каждый отсчёт. При 16-битном квантовании доступно 65 536 уровней амплитуды, при 24-битном — свыше 16 миллионов. Чем выше разрядность, тем выше динамический диапазон и точность передачи тихих фрагментов сигнала. Однако необходимо учитывать, что эффективная разрядность (ENOB — Effective Number of Bits) реальных АЦП ниже номинальной из-за шумов и нелинейностей.

Антиалиасинговый фильтр — обязательный аналоговый фильтр нижних частот, размещаемый перед АЦП. Его задача — подавить частотные компоненты выше половины частоты дискретизации (частоты Найквиста), чтобы предотвратить наложение спектров (алиасинг). Чем ближе частота дискретизации к теоретическому минимуму, тем круче должна быть АЧХ фильтра, что неизбежно вносит фазовые искажения и задержки в полосе пропускания. Увеличение частоты дискретизации позволяет использовать более мягкие фильтры, сохраняя линейность фазы в слышимом диапазоне. В профессиональных аудиоинтерфейсах часто применяется супердискретизация (oversampling) — внутренняя обработка сигнала на повышенной частоте с последующей цифровой фильтрацией и децимацией.

Звуковые карты и аудиоинтерфейсы

Термин звуковая карта исторически относился к отдельному устройству расширения для персонального компьютера (ISA, PCI), но сегодня под ним понимают любую подсистему ввода-вывода звука — от интегрированного кодека на материнской плате до внешнего USB- или Thunderbolt-устройства.

Интегрированные аудиокодеки (например, Realtek ALC-серии) сочетают в одном чипе АЦП, ЦАП, предусилители, микшер, усилители для наушников и интерфейс связи с чипсетом (обычно через шину Intel HD Audio). Они экономичны и достаточны для повседневных задач, но страдают от электромагнитных наводок со стороны процессора и памяти, имеют ограниченную разрядность (часто 24 бита с ENOB ~18–20), узкий динамический диапазон (~90–100 дБ на входе), и фиксированные параметры предусиления. Для записи речи в офисных условиях этого хватает; для музыкальной или аналитической работы — нет.

Внешние аудиоинтерфейсы — это специализированные устройства, ориентированные на высокую точность и гибкость. Они содержат:

  • независимые, сбалансированные входы и выходы (XLR, TRS, TS);
  • предусилители с регулируемым коэффициентом усиления и низким уровнем шума;
  • АЦП и ЦАП с ENOB ≥ 22 бит и динамическим диапазоном > 115 дБ;
  • низколатентные драйверы (ASIO на Windows, Core Audio на macOS);
  • поддержку многоканальных потоков и синхронизации по Word Clock;
  • возможность подачи фантомного питания +48 В.

Архитектура интерфейса минимизирует петли земли и экранирует аналоговые тракты от цифровой части. Многие модели поддерживают direct monitoring — аналоговое или цифровое суммирование входного сигнала с воспроизводимым, позволяя исполнителю слышать себя без задержки, вносимой буферизацией ПО.

Устройства вывода

Воспроизведение звука требует решения двух задач: точного восстановления формы сигнала и эффективной передачи акустической энергии в среду.

Цифро-аналоговое преобразование симметрично АЦП: ЦАП формирует ступенчатый аналоговый сигнал по входным отсчётам, который затем сглаживается reconstruction-фильтром. Современные ЦАП часто используют дельта-сигма-модуляцию, при которой низкоразрядный сигма-дельта-модулятор работает на высокой частоте, а цифровой фильтр формирует шум-шэйпинг — переносит шум квантования в ультразвуковую область, где его легко подавить аналоговым фильтром. Это позволяет достигать высокого отношения сигнал/шум даже при низкой номинальной разрядности.

Усилители компенсируют потери на выходе ЦАП и приводят уровень сигнала в соответствие с требованиями излучателя. Классы усилителей (A, AB, D и др.) определяют компромисс между КПД, линейностью и тепловыделением. В портативных устройствах преобладают класс D (импульсные), в студийных мониторах — класс AB.

Излучатели — это актюаторы, преобразующие электрическую энергию в механическое движение диафрагмы. В динамических головках (наиболее распространённых) ток через звуковую катушку во взаимодействии с постоянным магнитом создаёт силу Лоренца, смещающую диффузор. Электростатические излучатели используют переменное электрическое поле между неподвижными сетками и подвижной мембраной с нанесённым зарядом. Они обладают исключительной линейностью и скоростью отклика, но требуют высокого поляризующего напряжения и имеют низкую чувствительность. Планарные и гибридные конструкции стремятся совместить достоинства обоих подходов.

Характеристики излучателей:

  • Частотный диапазон — область частот, в которой уровень звукового давления отклоняется от номинала не более чем на заданную величину (например, ±3 дБ). Человеческое ухо воспринимает от ~20 Гц до ~20 кГц, но для полного ощущения музыки важны и инфразвуковые компоненты (ритм, «давление»).
  • Импеданс — комплексное сопротивление переменному току. Номинальные значения 16, 32, 80, 250, 600 Ом. Несоответствие импеданса усилителя и наушников может привести к недостаточному уровню громкости, искажениям или повреждению выходного каскада.
  • Чувствительность — уровень звукового давления (дБ SPL) на расстоянии 1 м при подаче 1 В (или 1 мВт) сигнала. Высокая чувствительность позволяет использовать низкомощные усилители, но может снижать динамический запас.

Системы многоканального звука и пространственное восприятие

Стереофоническая запись (два канала) основана на принципе межушных различий: разнице во времени прихода и уровне сигнала между левым и правым ухом. Многоканальные форматы (5.1, 7.1, Dolby Atmos, MPEG-H) добавляют дискретные тыловые и верхние каналы, позволяя размещать источники звука не только по горизонтали, но и по высоте. В основе лежит концепция звукового поля: чем больше независимых каналов и чем точнее их размещение, тем выше достоверность пространственного образа.

Важно различать:

  • Канальное кодирование (discrete channel-based): каждый громкоговоритель управляет отдельным каналом (например, L, R, C, Ls, Rs, LFE). Требует фиксированной конфигурации воспроизведения.
  • Объектно-ориентированное кодирование (object-based): звуковые объекты (голос, выстрел, музыкальный инструмент) описываются отдельно, с указанием координат в трёхмерном пространстве. На этапе воспроизведения рендерер адаптирует их к конкретной конфигурации колонок или даже к индивидуальной анатомии слушателя (в наушниках с HRTF — Head-Related Transfer Function).
  • Амбиосоника (Ambisonics): кодирование звукового поля в сферических гармониках. Позволяет гибко рендерить звук под любую систему — от моно до сферического массива.

Эти технологии активно применяются в виртуальной и дополненной реальности, где звук играет ключевую роль в создании присутствия.


Протоколы и интерфейсы передачи аудиоданных

Цифровой аудиопоток, будучи сформированным в АЦП или полученным из памяти, должен быть передан по каналу связи — внутри устройства, между узлами одного компьютера или по сети. Выбор интерфейса определяет требования к синхронизации, устойчивость к помехам, количество каналов, латентность и совместимость.

Внутриплатные и межмикросхемные интерфейсы

На уровне печатной платы доминируют два стандарта: I²S (Inter-IC Sound) и PDM (Pulse Density Modulation).

I²S — синхронный последовательный протокол, разработанный Philips (ныне NXP) для связи между ЦАП, АЦП и аудиоконтроллерами. Он использует три линии:

  • SCK (Serial Clock) — тактовая частота, равная частоте дискретизации, умноженной на разрядность и количество каналов (например, 44,1 кГц × 24 бит × 2 = 2,1168 МГц);
  • WS (Word Select) — сигнал, указывающий, передаётся ли левый или правый канал (частота = частота дискретизации);
  • SD (Serial Data) — данные, передаваемые MSB-first, без встроенного тактирования.

Преимущество I²S — чёткое разделение такта, выборки и данных, что исключает ошибки синхронизации. Он не включает в себя механизм передачи метаданных (частота, разрядность), поэтому эти параметры должны быть согласованы вне протокола — через отдельные управляющие шины (например, I²C) или жёстко заданы в прошивке.

PDM применяется в цифровых MEMS-микрофонах. Вместо передачи многобитных отсчётов, PDM-микрофон выдаёт однобитный поток, в котором плотность импульсов пропорциональна амплитуде аналогового сигнала. Преимущество — устойчивость к помехам (однобитный сигнал легко регенерировать) и упрощённая трассировка (одна линия данных + такт). Демодуляция (фильтрация и децимация) выполняется цифровым фильтром на принимающей стороне. PDM не масштабируется на многоканальные конфигурации так же гибко, как I²S, но идеален для компактных устройств с 1–4 микрофонами (например, смартфоны с системами beamforming).

Интерфейсы «устройство — хост»

Для подключения внешних аудиоустройств к компьютеру или мобильной платформе применяются универсальные шины с аудиопрофилями.

USB Audio Class (UAC) — стандарт, описывающий устройство как классический USB-периферийный прибор без необходимости в кастомных драйверах. UAC 1.0 (1998) поддерживает до 2 каналов на 48 кГц/16 бит; UAC 2.0 (2009) — до 32 каналов на 384 кГц/32 бит, а также асинхронный режим передачи, при котором устройство управляет тактированием (USB-хост подстраивается под частоту АЦП/ЦАП), что минимизирует джиттер. UAC 3.0 (2016) добавляет поддержку низкого энергопотребления, опционального шифрования и метаданных (например, геопозиция микрофона). Благодаря кроссплатформенности и низкой стоимости реализации, UAC стал де-факто стандартом для USB-микрофонов, DAC-усилителей и портативных интерфейсов.

Thunderbolt Audio — использование шины Thunderbolt (на базе PCIe и DisplayPort) для передачи аудиоданных. Обеспечивает пропускную способность до 40 Гбит/с (Thunderbolt 4), крайне низкую латентность (порядка 1 мс «туда-обратно»), поддержку сотен каналов и синхронизацию по PTP (Precision Time Protocol). Используется в профессиональных студийных системах, где требуется объединить аудиоинтерфейс, видеокарту и хранилище в единую высокоскоростную топологию.

Профессиональные цифровые интерфейсы

В студийной и телевизионной среде применяются сбалансированные, изолированные интерфейсы с поддержкой метаданных и синхронизации.

AES3 (AES/EBU) — профессиональный стандарт передачи стереофонического аудио по коаксиальному кабелю (75 Ом) или витой паре (110 Ом). Использует дифференциальную передачу, кодирование по схеме biphase mark code (BMC), что обеспечивает самосинхронизацию и устойчивость к сдвигам постоянной составляющей. Каждый кадр состоит из двух подкадров (L и R), каждый — из 32 бит: 4 бита преамбулы (маркер канала, режима), 4 бита вспомогательных данных, 24 бита аудио (старшие 20 бит — полезный сигнал, младшие — расширение разрядности), флаги валидности, пользователя и чётности. AES3 поддерживает частоты дискретизации до 192 кГц и встраивает метаданные: номер канала, источник, предупреждение о перегрузке и т.д.

S/PDIF (Sony/Philips Digital Interface) — потребительская версия AES3. Использует те же принципы кодирования, но передаётся по несбалансированному коаксиальному кабелю (RCA) или оптическому волокну (TOSLINK). Отсутствует поддержка профессиональных метаданных, максимальная длина линии ограничена (особенно в оптическом варианте — до 10 м), однако достаточна для домашних ресиверов, ТВ и игровых консолей.

Сетевые аудиопротоколы

Для распределённых систем (вещание, live-концерты, конференц-системы) применяются IP-ориентированные протоколы, обеспечивающие синхронизацию и отказоустойчивость.

Dante (Digital Audio Networked Technology) — проприетарный, но широко распространённый протокол от Audinate. Использует стандартный Ethernet (1 Гбит/с), UDP/IP, а синхронизацию по IEEE 1588-2008 (PTPv2). Аудиопотоки упаковываются в RTP-пакеты с фиксированным размером (например, 64 отсчёта), что позволяет достигать латентности до 0,3 мс на 1 Гбит/с. Dante поддерживает маршрутизацию «любой-к-любому», резервирование каналов, шифрование и управление через веб-интерфейс. Устройства разных производителей (микшеры, интерфейсы, усилители) могут взаимодействовать без шлюзов.

AVB (Audio Video Bridging) / TSN (Time-Sensitive Networking) — набор стандартов IEEE (802.1AS, 802.1Qat, 802.1Qav), обеспечивающих гарантированную доставку данных с жёсткими ограничениями по задержке и джиттеру. В отличие от Dante, AVB не зависит от конкретного производителя и встроен в аппаратуру уровня коммутаторов (managed switches с поддержкой AVB). Резервирование полосы происходит на канальном уровне, что делает систему предсказуемой даже при высокой загрузке сети. TSN — его развитие, расширяющее применение на промышленную автоматизацию и автомобильную электронику.


Программные архитектуры аудиообработки

Операционная система выступает посредником между приложением, драйвером и аппаратным обеспечением. Эффективность этого посредничества определяет латентность, стабильность и гибкость.

Модель обработки в ОС

В типичной системе (Windows, macOS, Linux) аудиопоток проходит через несколько слоёв:

  1. Приложение — генерирует или потребляет аудиоданные (например, DAW, VoIP-клиент, медиаплеер).
  2. Аудиосервер / звуковая подсистема — централизованный менеджер смешивания, маршрутизации и эффектов:
    • Windows: Audio Session APIWindows Audio Engine (с поддержкой WASAPI);
    • macOS/iOS: Core Audio, включая Audio Units и AVAudioEngine;
    • Linux: PipeWire (современный, заменяет PulseAudio и JACK в большинстве дистрибутивов), JACK (низколатентный, для профессиональной работы).
  3. Драйвер устройства — обеспечивает прямой доступ к железу:
    • WDM/KS (Windows Driver Model / Kernel Streaming) — устаревший, средняя латентность (10–50 мс);
    • ASIO (Audio Stream Input/Output) — разработан Steinberg, обходит системный микшер, обеспечивает доступ «приложение — драйвер — устройство» с латентностью 1–10 мс;
    • ALSA (Advanced Linux Sound Architecture) — низкоуровневый интерфейс в Linux;
    • Core Audio HAL (Hardware Abstraction Layer) — на macOS.

Ключевой параметр — буферизация. Аудиоданные передаются блоками (буферами), размер которых задаёт компромисс:

  • Малый буфер → низкая латентность, но высокий риск underflow/overflow (обрывы, щелчки) при нехватке CPU-ресурсов;
  • Большой буфер → стабильность, но задержка (например, 512 отсчётов при 48 кГц = 10,7 мс в один конец).

В профессиональных системах используются циклические буферы с двойной или тройной буферизацией, позволяющие одновременно читать, писать и обрабатывать данные без блокировок.

Обработка в реальном времени

Для интерактивных приложений (музыкальные инструменты, телеконференции, VR) критична предсказуемость — система должна гарантировать обработку каждого фрейма за фиксированный интервал (1/частота дискретизации × размер фрейма).

Типичные задачи, решаемые в реальном времени:

  • Автоматическая регулировка усиления (AGC) — динамическое изменение коэффициента усиления на входе для поддержания уровня сигнала в заданном диапазоне. Важно избегать «дыхания» (pumping) — когда шум фонового уровня резко возрастает в паузах. Это достигается использованием компрессоров с медленным release-временем и шумозависимыми порогами.
  • Шумоподавление — разделение сигнала на речевой и шумовой компоненты. Современные методы включают спектральную маскировку (на основе оценки шума в паузах), Wiener-фильтрацию и, всё чаще, нейросетевые модели (например, RNNoise), работающие в частотной области или напрямую с waveform.
  • Эквализация — коррекция частотной характеристики. Параметрические эквалайзеры (PEQ) позволяют настраивать центральную частоту, добротность (Q) и усиление полосы; графические — фиксированные полосы. В системах ввода эквализация может компенсировать АЧХ микрофона или акустики помещения.
  • Beamforming — пространственная фильтрация с использованием массива микрофонов. Временные задержки между каналами компенсируются так, чтобы сигнал с заданного направления складывался когерентно, а с других — подавлялся. Требует точной калибровки геометрии массива и синхронизации АЦП. Применяется в смартфонах, умных колонках, системах конференц-связи.

Все эти алгоритмы должны быть реализованы с учётом:

  • Отсутствия блокирующих вызовов (I/O, malloc);
  • Минимизации кэш-промахов (предзагрузка данных, выравнивание буферов);
  • Использования SIMD-инструкций (SSE, AVX, NEON);
  • Тестирования на worst-case execution time (WCET).

Аудиотракт в мобильных и встраиваемых системах

В компактных устройствах (смартфоны, IoT-сенсоры, носимая электроника) аудиоподсистема оптимизирована под энергоэффективность, габариты и стоимость, что влечёт архитектурные компромиссы.

Типичная реализация включает:

  • MEMS-микрофоны — с цифровым (PDM/I²S) или аналоговым выходом; часто устанавливаются по 2–4 штуки для шумоподавления и beamforming;
  • Аудиокодек в SoC — интегрированный в систему на кристалле (например, Qualcomm Aqstic, Apple S5), сочетающий АЦП/ЦАП, усилители, DSP-ядра для обработки;
  • DSP-акселераторы — выделенные процессоры (например, Cadence Tensilica HiFi), выполняющие предварительную обработку (шумоподавление, эхо-компенсация) до передачи данных в основное CPU, что снижает энергопотребление на 40–70 %;
  • Always-on audio — режим, при котором микрофон и DSP остаются активными при выключенном основном процессоре, прослушивая ключевые слова (например, «ОК, Google»). Для этого используются ультранизкопотребляющие ядра и фильтры нижних частот на входе, ограничивающие полосу до 4–8 кГц.

Особое внимание уделяется электроакустической изоляции:

  • Микрофоны размещаются в отдельных полостях с акустическими демпферами;
  • Используются симметричные (дифференциальные) соединения внутри платы;
  • Питание аудиоблока фильтруется LC-цепями и стабилизируется отдельным LDO, не связанным с шинами процессора.

Питание фантомное (+48 В) в мобильных системах невыполнимо; вместо этого электретные микрофоны питаются от 1,8–3,3 В шины, что ограничивает их динамический диапазон, но достаточно для речевых приложений.


Аудиотракт в системах распознавания речи и голосовых интерфейсах

Голосовые помощники, call-центры, системы транскрибации требуют высокой разборчивости речи и устойчивости к шуму. Это меняет приоритеты при проектировании тракта.

Ключевые требования:

  • Диапазон частот 100 Гц — 8 кГц — достаточен для распознавания большинства фонем (ITU-T G.711, G.722);
  • Высокое отношение сигнал/шум (SNR > 20 дБ) — критично для точности распознавания;
  • Минимальная нелинейность и искажения — особенно интермодуляционные, которые создают «фантомные» частоты и вводят в заблуждение акустические модели;
  • Стабильная задержка и отсутствие артефактов потери пакетов — для потоковой обработки.

Этапы подготовки сигнала для ASR (Automatic Speech Recognition):

  1. Предварительное усиление — до уровня, близкого к насыщению АЦП, без clipping’а;
  2. Фильтрация ВЧ-шумов — подавление компонент выше 8 кГц (для 16 кГц дискретизации);
  3. Динамическая компрессия — сжатие динамического диапазона до 40–50 дБ (вместо 60–70 дБ у человека), чтобы тихие звуки (шипящие, взрывные) были слышны на фоне шума;
  4. Эхо-подавление (AEC) — критично, если на устройстве есть динамик (например, умная колонка). AEC оценивает импульсную характеристику пути «динамик → помещение → микрофон» и вычитает эхо из входного сигнала.
  5. Сегментация и VAD (Voice Activity Detection) — определение участков с речью для экономии ресурсов и снижения ложных срабатываний.

Важно: многие современные ASR-системы (например, на базе трансформеров) работают напрямую с raw waveform или лог-мел-спектрограммами, минуя традиционные признаки MFCC. Это повышает требования к точности АЦП и стабильности тактирования — джиттер > 100 пс может снижать точность распознавания на 5–10 %.


Метрология и тестирование аудиотрактов

Качество аудиосистемы определяется объективными измеримыми параметрами. Тестирование проводится на всех этапах жизненного цикла: при проектировании, производстве, сертификации и эксплуатации. Для этого используются специализированные анализаторы (например, Audio Precision APx, AP500), программные пакеты (REW, ARTA) и калиброванные источники/приёмники сигнала.

Основные метрики качества

Собственный шум (Self-noise / EIN — Equivalent Input Noise)

Выражается в дБ SPL (для микрофонов) или дБu (для линейных входов). Измеряется при закрытом входе (заглушке) и максимальном усилении. Для конденсаторных микрофонов типичные значения: 12–18 дБ SPL (студийные), 24–28 дБ SPL (мобильные). Важно: EIN зависит от полосы измерения — стандартно используется A-взвешивание (ITU-R 468), имитирующее чувствительность уха.

Динамический диапазон (Dynamic Range)

Разница между уровнем собственного шума и максимальным неискажённым сигналом (обычно определяемым по THD+N = 1 %). Не следует путать с разрядностью АЦП: 24-битный АЦП может иметь эффективный динамический диапазон 118 дБ, но в составе звуковой карты — всего 95 дБ из-за шумов предусилителя. Измеряется с помощью тонального сигнала 1 кГц при максимальном уровне без clipping’а.

THD+N (Total Harmonic Distortion + Noise)

Суммарный коэффициент гармонических искажений и шума, выраженный в процентах или дБ. Определяется как отношение мощности всех компонент, кроме основной частоты, к мощности основной. Измеряется на частотах 1 кГц, 10 кГц; для анализа нелинейности строят график THD+N vs. уровень входного сигнала. В профессиональных интерфейсах ожидаемые значения: < 0,002 % (−94 дБ) на номинальном уровне.

Кросстолк (Crosstalk)

Степень проникновения сигнала из одного канала в другой (например, из левого в правый). Критично для стереоизображения и многоканальных систем. Измеряется подачей тона в один канал и анализом его уровня в соседнем при отключённом входе. Требования: < −90 дБ на частотах до 20 кГц для студийных устройств.

Импульсная характеристика и групповая задержка

Для оценки линейности фазы и временных искажений. Импульсная характеристика получается свёрткой с дельта-функцией (в практике — коротким щелчком или MLS-сигналом). Её преобразование Фурье даёт АЧХ и ФЧХ. Групповая задержка — производная фазы по частоте — должна быть постоянной в полосе пропускания; отклонения приводят к «размазыванию» переходных процессов (атак инструментов, согласных в речи).

Джиттер (Jitter)

Колебания момента дискретизации во времени. Даже при идеальном АЦП джиттер вызывает модуляцию амплитуды и интермодуляционные искажения. Измеряется в пикосекундах (пс) с помощью анализатора фазового шума или косвенно — по росту THD при модуляции сигнала. Для 24-битной системы допустимый джиттер — < 50 пс; в USB-устройствах с асинхронным режимом — < 20 пс.

Автоматизированное тестирование в производстве

На конвейере применяются:

  • Тестовые последовательности — предварительно записанные сигналы (белый шум, swept sine, MLS), проигрываемые через референсный ЦАП и принимаемые тестируемым устройством;
  • Анализ отклонений — сравнение измеренных параметров с допусками (pass/fail);
  • Калибровка коэффициентов — для устройств с цифровой компенсацией (например, коррекция АЧХ микрофона по заводским измерениям), результаты записываются в EEPROM.

Нормативные требования и стандарты

Проектирование аудиосистем, особенно для телекоммуникаций, безопасности и медицины, регулируется международными и национальными стандартами.

Телекоммуникационные стандарты

ITU-T определяет требования к системам передачи речи:

  • G.712 — характеристики 4-проводных телефонных каналов (диапазон 300–3400 Гц, THD < 1 %);
  • G.722 — широкополосная передача (50–7000 Гц) для VoIP и видеоконференций;
  • P.800, P.862 (PESQ), P.863 (POLQA) — методы субъективной и объективной оценки качества речи. POLQA — современный полифонический алгоритм, коррелирующий с MOS (Mean Opinion Score) при различных типах кодеков и шумов.

ETSI (Европейский институт стандартов связи) устанавливает:

  • ES 202 021 — минимальные требования к аудиотерминалам (уровень шума, громкость, AEC);
  • TS 103 277 — тестирование устройств с функцией экстренного вызова (например, eCall в автомобилях), включая гарантированную запись 30 секунд перед инициацией вызова.

Акустические и эргономические стандарты

ISO 3382 — измерение параметров реверберации в помещениях;
ISO 9613 — расчёт затухания звука в атмосфере;
IEC 60268-16 — методы оценки разборчивости речи (STI — Speech Transmission Index);
ГОСТ Р 53082.1–2008 — требования к параметрам и методам измерений аналоговых и цифровых аудиоустройств;
ГОСТ Р 52837–2007 — совместимость микрофонов и входов по импедансу и уровню.

Для устройств, предназначенных для людей с ограниченными возможностями, применяются:

  • EN 301 549 — требования к ИКТ, включая аудиоописание, синхронизацию звука и видео, поддержку T-coil (индукционная петля для слуховых аппаратов);
  • ГОСТ Р 52518–2006 — информационная доступность, в том числе — уровень звукового сопровождения относительно речи.

Безопасность и электромагнитная совместимость

  • IEC 62368-1 — безопасность аудио- и ИТ-оборудования (ограничение энергии, изоляция, нагрев);
  • CISPR 32 / FCC Part 15 — предельные уровни радиопомех, генерируемых устройством;
  • IEC 61000-4-2, -3, -4 — устойчивость к разрядам статического электричества, ВЧ-полям, всплескам напряжения.

Сертификация по этим стандартам обязательна для выхода на рынки ЕАЭС, ЕС, США.


Вопросы безопасности и приватности

Аудиоустройства — потенциальные векторы утечки информации. Рост числа always-on микрофонов (умные колонки, ноутбуки, ТВ) требует аппаратных и программных мер защиты.

Аппаратные механизмы

  • Физические выключатели — механическое разъединение линии питания микрофона или сигнальной цепи. Пример: выдвижная крышка камеры и микрофона в MacBook Pro, кнопка отключения в Zoom Rooms. Преимущество — гарантия отключения на уровне проводников, не зависящая от ПО.
  • Изолированные аудиодомены — выделенный аудиопроцессор (например, Apple Secure Enclave Audio Coprocessor), выполняющий обработку до передачи в основную ОС; данные шифруются на шине.
  • Сигнальные детекторы — схемы, фиксирующие несанкционированную активность (например, включение АЦП при выключенном ПО), с подачей сигнала на хост.

Программные и архитектурные меры

  • Минимизация полномочий — микрофон доступен только при активном запросе разрешения (Android, iOS), с индикацией в статус-баре;
  • Изоляция потоков — аудиоданные не проходят через общий системный микшер, если не требуется (например, в VoIP — direct path от микрофона к кодеку);
  • Аудит и логирование — запись событий доступа к микрофону в защищённый журнал (например, Windows Capability Access Log);
  • End-to-end шифрование — для VoIP и видеоконференций (Signal, Zoom E2EE mode), когда аудиопоток шифруется на устройстве отправителя и расшифровывается только получателем.

Атаки и уязвимости

  • Акустические side-channel атаки — восстановление текста с экрана по вибрациям предметов (лампочки, растения), снятых микрофоном (Lamphone, 2020);
  • Ультразвуковые команды — модуляция голосовых команд на частотах > 20 кГц, невидимых человеку, но воспринимаемых MEMS-микрофонами (DolphinAttack, 2017);
  • Фальсификация голоса — deepfake-аудио, используемое для социальной инженерии (подделка голоса руководителя с просьбой перевести деньги).

Контрмеры включают фильтрацию ВЧ-компонент (> 18 кГц), анализ спектральных аномалий, многофакторную верификацию в критических сценариях.


Перспективные направления развития

Нейроинтерфейсы и синтез речи в реальном времени

Системы Speech-to-Text-to-Speech (STTS) с минимальной задержкой (< 200 мс) позволяют осуществлять мгновенный перевод разговорной речи (например, в международных переговорах). Ключевые компоненты:

  • Низколатентные акустические модели (Conformer, Whisper-tiny);
  • Нейросетевые вокодеры (WaveNet, HiFi-GAN), генерирующие естественную интонацию;
  • Адаптивные языковые модели, учитывающие контекст и тему беседы.

Моторная декодировка речи — интерфейсы, считывающие нейроны моторной коры, отвечающие за артикуляцию, и преобразующие их активность в текст или синтезированную речь (работы Chang Lab, UCSF, 2021–2024). Пока требует инвазивных имплантов, но демонстрирует скорости до 78 слов/мин — сопоставимо с естественной речью.

Acoustic Sensing

Микрофон становится датчиком состояния:

  • Диагностика оборудования — анализ звуков подшипников, насосов, двигателей для предиктивного обслуживания (например, IBM Maximo Assistant);
  • Биомедицинский мониторинг — выделение дыхания, сердцебиения, храпа из фоновых шумов (алгоритмы на основе ICA и deep clustering);
  • Контекстное распознавание — идентификация событий по звуку (стук двери, звон посуды, кашель) для «умного дома» без видеокамер.

Требования к таким системам: устойчивость к фоновым шумам, низкое энергопотребление, возможность on-device обработки (TensorFlow Lite for Microcontrollers).

Семантическое кодирование звука

Вместо передачи waveform или спектрограммы — передача смысла:

  • MPEG-DASH + Audio Object Coding — передача речевых объектов с метками («диктор», «фоновая музыка», «шум улицы»), позволяющая получателю динамически изменять баланс или отключать компоненты;
  • Neural Audio Codecs (например, Google Lyra, Meta EnCodec) — кодирование на основе латентных представлений в нейросети, достигающее битрейтов 3 кбит/с при приемлемом качестве речи;
  • Joint audio-visual models — системы, использующие одновременно видео (движения губ) и аудио для повышения устойчивости к шуму и улучшения разборчивости (AVSR — Audio-Visual Speech Recognition).