Анализ звука. Простые и сложные звуковые колебания Анализ и синтез звука
На практике чаще приходится решать обратную по отношению к рассмотренной выше задачу – разложение некоторого сигнала на составляющие его гармонические колебания. В курсе математического анализа подобная задача традиционно решается разложением заданной функции в ряд Фурье, т. е. в ряд вида:
где i =1,2,3….
Практическое разложение в ряд Фурье, называемое гармоническим анализом , состоит в нахождении величин a 1 ,a 2 ,…,a i , b 1 ,b 2 ,…,b i , называемых коэффициентами Фурье. По значению этих коэффициентов можно судить о доле в исследуемой функции гармонических колебаний соответствующей частоты, кратной ω . Частоту ω называют основной или несущей частотой, а частоты 2ω, 3ω,… i·ω – соответственно 2-й гармоникой, 3-й гармоникой, i -й гармоникой. Применение методов математического анализа позволяет разложить в ряд Фурье большинство функций, описывающих реальные физические процессы. Применение этого мощного математического аппарата возможно при условии аналитического описания исследуемой функции, что является самостоятельной и, часто, не простой задачей.
Задача гармонического анализа может формулироваться как поиск в реальном сигнале факта присутствия той или иной частоты. Например, существуют методы определения частоты вращения ротора турбокомпрессора, основанные на анализе звука, сопровождающего его работу. Характерный свист, слышимый при работе двигателя с турбонаддувом, вызван колебаниями воздуха из-за движения лопаток рабочего колеса компрессора. Частота этого звука и частота вращения рабочего колеса пропорциональны. При использовании аналоговой измерительной аппаратуры в этих случаях поступают примерно так: одновременно с воспроизведением записанного сигнала с помощью генератора создают колебания заведомо известной частоты, перебирая их в исследуемом диапазоне до возникновения резонанса. Частота генератора, соответствующая резонансу, будет равна частоте исследуемого сигнала.
Внедрение цифровой техники в практику измерений позволяет решать подобные задачи с применением расчетных методов. Прежде чем рассмотреть основные идеи, заложенные в этих расчетах, покажем отличительные особенности цифрового представления сигнала.
Дискретные методы гармонического анализа
Рис. 18. Квантование по амплитуде и времени
а – исходный сигнал; б – результат квантования;
в , г – сохраненные данные
При использовании цифровой аппаратуры реальный непрерывный сигнал (рис. 18, а ) представляется набором точек, точнее значениями их координат. Для этого исходный сигнал, идущий, например, с микрофона или акселерометра, квантуется по времени и по амплитуде (рис. 18, б ). Иначе говоря, измерение и запоминание величины сигнала происходит дискретно через некоторый интервал времени Δt , а само значение величины в момент измерения округляется до возможной ближайшей величины. Время Δt называют временем дискретизации , которое связано с частотой дискретизации обратной зависимостью.
Количество интервалов, на которое разбита двойная амплитуда максимально допустимого сигнала, определяется разрядностью аппаратуры. Очевидно, что для цифровой электроники, оперирующей в конечном итоге булевыми величинами («единица» или «ноль»), все возможные значения разрядности будут определяться как 2 n . Когда мы говорим, что звуковая карта нашего компьютера 16-разрядная, это означает, что весь допустимый интервал входной величины напряжения (ось ординат на рис. 11) будет разбит на 2 16 = 65536 равных интервалов.
Как видно из рисунка, при цифровом способе измерения и хранения данных, часть исходной информации будет потеряна. Для повышения точности измерений следует повышать разрядность и частоту дискретизации преобразующей техники.
Вернемся к поставленной задаче – определению в произвольном сигнале присутствия определенной частоты. Для большей наглядности используемых приемов, рассмотрим сигнал, являющийся суммой двух гармонических колебаний: q=sin 2t +sin 5t , заданных с дискретностью Δt=0,2 (рис. 19). В таблице рисунка приведены значения результирующей функции, которые будем далее рассматривать как пример некоторого произвольного сигнала.
Рис. 19. Исследуемый сигнал
Для проверки присутствия в исследуемом сигнале интересующей нас частоты умножим исходную функцию на зависимость изменения колебательной величины при проверяемой частоте. После чего сложим (численно проинтегрируем) полученную функцию. Умножать и суммировать сигналы будем на определенном интервале – периоде несущей (основной) частоты. При выборе значения основной частоты, надо учитывать, что проверить возможно только большую, по отношению к основной, в n раз частоту. Выберем в качестве основной частоты ω =1, которой соответствует период.
Начнем проверку сразу с «правильной» (присутствующей в сигнале) частотыy n =sin2x . На рис. 20 описанные выше действия представлены графически и численно. Следует обратить внимание, что результат умножения проходит преимущественно выше оси абсцисс, и поэтому сумма заметно больше нуля (15,704>0). Подобный результат был бы получен и при умножении исходного сигнала на q n =sin5t (пятая гармоника тоже присутствует в исследуемом сигнале). Причем результат подсчета суммы будет тем больше, чем больше амплитуда проверяемого сигнала в исследуемом.
Рис. 20. Проверка присутствия в исследуемом сигнале составляющей
q n = sin2t
Теперь
выполним те же действия для не
присутствующей в исследуемом сигнале
частоты, например, для третьей гармоники
(рис. 21).
Рис. 21. Проверка присутствия в исследуемом сигнале составляющей
q n =sin3t
В этом случае кривая результата умножения (рис. 21) проходит как в области положительных амплитуд, так и отрицательных. Численное интегрирование этой функции даст результат, близкий к нулю (∑ =-0,006), что указывает на отсутствие этой частоты в исследуемом сигнале или, говоря другими словами, амплитуда исследуемой гармоники близка к нулю. Теоретически мы должны были получить ноль. Погрешность вызвана ограничениями дискретных методов из-за конечной величины разрядности и частоты дискретизации. Повторяя описанные выше действия нужное количество раз, можно выяснить наличие и уровень сигнала любой частоты, кратной несущей.
Не углубляясь в подробности можно сказать, что примерно такие действия выполняют в случае так называемого дискретного преобразования Фурье .
В рассмотренном примере для большей наглядности и простоты все сигналы имели одинаковый (нулевой) начальный фазовый сдвиг. Для учета возможных различных начальных фазовых углов описанные выше действия выполняют с комплексными числами.
Известно множество алгоритмов дискретного преобразования Фурье. Результат преобразования – спектр – часто представляют не линейчатым, а сплошным. На рис. 22 показаны оба варианта спектров для исследуемого в рассмотренном примере сигнала
Рис. 22. Варианты спектров
Действительно, если бы мы в рассмотренном выше примере выполнили проверку не только для частот строго кратных основной, но и в окрестностях кратных частот, то обнаружили бы, что метод показывает наличие эти гармонических колебаний с амплитудой больше нуля. Применение сплошного спектра при исследовании сигналов обосновано еще и тем, что выбор основной частоты в исследованиях носит во многом случайный характер.
Артефакты спектрального анализа и принцип неопределённости Гейзенберга
На предыдущей лекции мы рассмотрели проблему разложения любого звукового сигнала на элементарные гармонические сигналы (составляющие), которые в дальнейшем мы будем называть атомарными информационными элементами звука. Повторим основные выводы и введём некоторые новые обозначения.
Будем обозначать исследуемый звуковой сигнал так же, как и на прошлой лекции, .
Комплексный спектр это сигнала находится с помощью преобразования Фурье так:
. (12.1)
Этот спектр позволяет нам определить, на какие элементарные гармонические сигналы разных частот раскладывается наш исследуемый звуковой сигнал . Иными словами, спектра описывает полный набор гармоник, на которые раскладывается исследуемый сигнал .
Для удобства описания, вместо формулы (12.1) часто используют более выразительную следующую запись:
, (12.2)
подчёркивая тем самым, что на вход преобразования Фурье подаётся временная функция , а на выходе получается функция, зависящая не от времени, а от частоты.
Чтобы подчеркнуть комплексность получаемого спектра, его обычно представляют в одном из следующих видов:
где - это амплитудный спектр гармоник, (12.4)
а - это фазовый спектр гармоник. (12.5)
Если правую часть уравнения (12.3) прологарифмировать, то мы получим следующее выражение:
Получается так, что реальная часть логарифма от комплексного спектра равна амплитудному спектру в логарифмической шкале (что совпадает с законом Вебера-Фехнера), а мнимая часть логарифма от комплексного спектра равна фазовому спектру гармоник, значения которых (фазовых значений) наше ухо не ощущает. Такое интересное совпадение поначалу может обескуражить, но мы на это не будем обращать внимание. Но подчеркнём принципиально важное для нас сейчас обстоятельство – преобразование Фурье переводит любой сигнал из временной физической сигнальной области в информационное частотное пространство, в котором инвариантны частоты гармоник, на которые раскладывается звуковой сигнал.
Обозначим атомарный информационный элемент звука (гармонику) следующим образом:
Воспользуемся графическим образом, отражающий область слышимости гармоник с разными частотами и амплитудами, взятый из замечательной книги E. Zwicker and H. Fastl “Psychoacoustics: facts and models” (Second Edition, Springer, 1999) на странице 17 (см. рис. 12.1).
Если некоторый звуковой сигнал будет состоять из двух гармоник:
то их положение на слуховом информационном пространстве может иметь, например, такой вид, какой показан на рис. 12.2.
Глядя на эти рисунки, легче можно понять, почему отдельные гармонические сигналы мы назвали атомарными информационными элементами звука. Всё слуховое информационное пространство (рис. 12.1) ограничено снизу кривой порога слышимости, а сверху – кривой болевого порога звучащих гармоник разных частот и амплитуд. Это пространство имеет несколько неправильные очертания, но оно несколько напоминает по форме другое информационное пространство, которое имеется в нашем глазу – сетчатку глаза. В сетчатке атомарными информационными объектами являются палочки и колбочки. Аналогом их в цифровой информационной технологии являются пискелы. Эта аналогия не вполне корректна, поскольку в изображении все пикселы (в двумерном пространстве) играют свою роль. В нашем же звуковом информационном пространство не могут две точки находиться на одной вертикале. И поэтому любой звук отражается в этом пространстве, в лучшем случае, лишь в виде некоторой кривой линии (амплитудного спектра), начинающейся слева на низких частотах (около 20 Гц), и заканчивающейся справа на высоких частотах (около 20 кГц).
Подобные рассуждения выглядят, довольно-таки, красиво и убедительно, если только не считаться с реальными законами природы. Дело в том, что, даже если исходный звуковой сигнал состоит всего лишь из одной единственной гармоники (некоторой частоты и амплитуды), то реально наша слуховая система «не увидит» её виде точки в информационном слуховом пространстве. В действительности эта точка несколько размоется. Почему? Да потому, что все эти рассуждения справедливы для спектров бесконечно долго звучащих гармонических сигналов. А реальная наша слуховая система анализирует звуки на относительно небольших временных интервалах. Длина этого интервала колеблется от 30 до 50 мс. Получается так, что наша слуховая система, которая как и весь нейронный механизм мозга, работает дискретно с частотой кадров 20-33 кадра в секунду. Поэтому спектральный анализ должен проводиться по кадрам. А это приводит к некоторым неприятным эффектам.
На первых этапах исследования и анализа звуковых сигналов с помощью цифровых информационных технологий, разработчики просто нарезали сигнал на отдельные кадры, как, например, показано на рис. 12.3.
Если один кусочек этого гармонического сигнала в кадре отправить на преобразование Фурье, то мы не получим одиночную спектральную линию, как показано для примера на рис. 12.1. А получится график амплитудного (логарифмического) спектра, показанного на рис. 12.4.
На рис. 12.4 красным цветом показано истинное значение частоты и амплитуды гармонического сигнала (12.7). Но тонкая спектральная (красная) линия существенно размылась. И, что хуже всего, – появилось множество артефактов, фактически сводящих полезность спектрального анализа на нет. Действительно, если каждая гармоническая компонента звукового сигнала будет вносить свои подобные артефакты, то отличить истинные следы звука от артефактов не удастся.
В этой связи в 60-е годы прошлого века многие ученые предприняли усиленные попытки улучшить качество получаемых спектров от отдельных кадров звукового сигнала. Оказалось, что если кадр вырезать не грубо («прямыми ножницами»), а умножать сам звуковой сигнал на некоторую гладкую функцию, то артефакты можно существенно подавить.
Например, на рис. 12.5 показан пример вырезания кусочка (кадра) сигнала с помощью одного периода функции косинуса (это окно иногда называют окном Хеннинга). Логарифмический спектр вырезанного таким образом одиночного гармонического сигнала показан на рис. 12.6. На рисунке хорошо видно, что артефакты спектрального анализа в значительной мере исчезли, но, всё равно, ещё остались.
В те же годы известный исследователь Хемминг предложил комбинацию из двух типов окон – прямоугольного и косинусного – и рассчитал их соотношение таким образом, чтобы величина артефактов была минимальной. Но и эта лучшая из лучших комбинаций простейших окон оказалась, на самом деле, не лучшей в принципе. Лучшим во всех отношения окон оказалось окно Гаусса.
Для сравнения вносимых артефактов всеми типами временных окон на рис. 12.7 показаны результаты применения этих окон на примере получения амплитудного спектра одиночного гармоничного сигнала (12.7). А на рис. 12.8 показан спектр гласного звука «о».
Из рисунков хорошо видно, что временное окно Гаусса не создаёт артефактов. Но что следует особо отметить, так это одно замечательное свойство получаемого амплитудного (не в логарифмическом, а в линейном масштабе) спектра всё того же одиночного гармонического сигнала. Оказывается, что график получаемого спектра сам имеет виду функции Гаусса (см. рис. 12.9). Причём, полуширина временного окна Гаусса связана с полушириной получаемого спектра следующим простым отношением:
Это соотношение отражает принцип неопределённости Гейзенберга. Рассказать о самом Гейзенберге. Привести примеры проявления принципа неопределённости Гейзенберга в ядерной физике, в спектральном анализе, в математической статистике (критерий Стьюдента), в психологии и в социальных явлениях.
Принцип неопределённости Гейзенберга позволяет получить ответы на многие вопросы, связанные с тем, почему следы некоторых гармонических составляющих сигнала не различаются на спектре. Общий ответ на этот вопрос можно сформулировать так. Если мы построим спектральный фильм с частотой кадров , то гармоники, различающиеся по частоте, менее, чем на , мы не различим – их следы на спектре сольются.
Рассмотрим это утверждение на следующем примере.
На рис. 12.10 показан сигнал, про который известно лишь то, что он состоит из нескольких гармоник разных частот.
Вырезая с помощью временного окна Гаусса маленькой ширины (т. е. относительно мало) один кадр этого сложного сигнала, мы получим амплитудный спектр, показанный на рис. 12.11. Из-за того, что очень мало, полуширина амплитудного спектра от каждой гармоники будет настолько велика, что спектральные лепестки от частот всех гармоник сольются и перекроют друг друга (см. рис. 12.11).
Увеличив немного ширину временного окна Гаусса, мы получим другой спектр, показанный на рис. 12.12. По этому спектру уже можно предположить, что в исследуемом сигнале имеются, по крайней мере, две гармонические составляющие.
Продолжая увеличивать ширину временного окна, мы получим спектр, показанный на рис. 12.13. Затем – спектры на рис. 12.14 и 12.15. Останавливаясь на последнем рисунке, можно с большой степенью уверенности утверждать, что сигнал на рис. 12.10 состоит из трёх отдельных составляющих. После столь больших по объёму иллюстраций, вернёмся к вопросу поиска гармонических компонент в реальных речевых сигналах.
Здесь следует подчеркнуть, что в чистом виде гармонических компонентов в реальном речевом сигнале не бывает. Иначе говоря, мы не продуцируем гармонические компоненты типа (12.7). Но, тем не менее, квазигармонические компоненты в речи, всё же, присутствуют.
Единственными квазигармоническими компонентами в речевом сигнале являются затухающие гармоники, возникающие в резонаторе (в речевом тракте) после хлопка голосовых связок. Взаимное расположение частот этих затухающих гармоник и определяет формантную структуру речевого сигнала. Синтезированный пример затухающего гармонического сигнала показан на рис. 12.16. Если вырезать из этого сигнала с помощью временного окна Гаусса маленький фрагмент, и отправить его на преобразование Фурье, то получится амплитудный спектр (в логарифмическом масштабе), показанный на рис. 12.17.
Если же вырезать из реального речевого сигнала один период между двумя хлопками голосовых связок (см. рис. 12.18), и где-то посреди этого фрагмента разместить временное окно спектрального оценивания, то мы получим амплитудный спектр, показанный на рис. 12.19. На этом рисунке красными линиями показаны значения проявившихся частот сложных резонансных колебаний речевого тракта. На этом рисунке хорошо видно, что с выбранной маленькой шириной временного окна спектрального оценивания далеко не все резонансные частоты речевого тракта проявились в спектре достаточно хорошо.
Но это неизбежно. В этой связи можно сформулировать следующие рекомендации по визуализации следов резонансных частот речевого тракта. Частота кадров спектрального фильма должна быть на порядок (раз в 10) больше частоты работы голосовых связок. Но увеличивать частоту кадров спектрального фильма до бесконечности нельзя, поскольку из принципа неопределенности Гейзенберга следы формант на сонограмме начнут сливаться.
А как бы выглядел спектр на предыдущем слайде, если бы прямоугольное окно вырезало бы ровно N периодов гармонического сигнала? Вспомнить о ряде Фурье.
Артефакт - [от лат. arte искусственно + factus сделанный] – биол. образования или процессы, возникающие иногда при исследовании биологического объекта вследствие воздействия на него самих условий исследования.
Эту функцию называют по-разному: весовой функцией, оконной функцией, взвешивающей функцией или взвешивающим окном.
Если у пианино нажать на педаль и сильно крикнуть на него, то от него можно будет услышать отзвук, который будет слышится некоторое время, с тоном (частотой) очень похожим на первоначальный звук.
Анализ и синтез звука.
При помощи наборов акустических резонаторов можно установить, какие тоны входят в состав данного звука и с какими амплитудами они присутствуют в данном звуке. Такое установление гармонического спектра сложного звука называется его гармоническим анализом. Раньше такой анализ действительно производился с помощью наборов резонаторов, в частности резонаторов Гельмгольца, представляющих собой полые шары разного размера, снабженные отростком, вставляющимся в ухо, и имеющие отверстие с противоположной стороны.
Для анализа звука существенно то, что всякий раз, когда в анализируемом звуке содержится тон с частотой резонатора, резонатор начинает громко звучать в этом тоне.
Такие способы анализа очень неточны и кропотливы. В настоящее время они вытеснены значительно более совершенными, точными и быстрыми электроакустическими способами. Суть их сводится к тому, что акустическое колебание сначала преобразуется в электрическое колебание с сохранением той же формы, а следовательно, имеющее такой же спектр; затем уже электрическое колебание анализируется электрическими методами.
Можно указать один существенный результат гармонического анализа, касающийся звуков нашей речи. По тембру мы можем узнать голос человека. Но чем различаются звуковые колебания, когда один и тот же человек поёт на одной и той же ноте различные гласные: а, и, о, у, э? Другими словами, чем различаются в этих случаях периодические колебания воздуха вызываемые голосовым аппаратом при разных положениях губ и языка и изменениях формы полостей рта и горла? Очевидно, в спектрах гласных должны быть какие-то особенности, характерные для каждого гласного звука, сверх тех особенностей, которые создают тембр голоса данного человека. Гармонический анализ гласных подтверждает это предположение, а именно, гласные звуки характеризуются наличием в их спектрах областей обертонов с большой амплитудой, причём эти области лежат для каждой гласной всегда на одних и тех же частотах, независимо от высоты пропетого гласного звука. Эти области сильных обертонов называют формантами. Каждая гласная имеет две характерные для неё форманты.
Очевидно, если искусственным путём воспроизвести спектр того или иного звука, в частности спектр гласной, то наше ухо получит впечатление этого звука, хотя его естественный источник отсутствовал бы. Особенно легко удаётся осуществлять такой синтез звуков (и синтез гласных) с помощью электроакустических устройств. Электрические музыкальные инструменты позволяют очень просто изменять спектр звука, т.е. менять его тембр. Простое переключение делает звук похожим на звуки то флейты, то скрипки, то человеческого голоса или же совсем своеобразным, непохожим на звук ни одного из обычных инструментов.
Эффект Доплера в акустике.
Частота звуковых колебаний, которые слышит неподвижный наблюдатель в случае, если источник звука приближается или удаляется от него, отлична от частоты звука, воспринимаемой наблюдателем, который движется вместе с этим источником звука, или и наблюдатель и источник звука стоят на месте. Изменение частоты звуковых колебаний (высоты звука), связанное с относительным движением источника и наблюдателя называется акустическим эффектом Доплера. Когда источник и приемник звука сближаются, то высота звука повышается, а если они удаляются. то высота звука понижается. Это связано с тем, что при движении источника звука относительно среды, в которой распространяются звуковые волны, скорость такого движения векторно складывается со скоростью распространения звука.
Например, если машина с включенной сиреной приближается, а затем, проехав мимо, удаляется, то сначала слышен звук высокого тона, а затем низкого.
Звуковые удары
Ударные волны возникают при выстреле, взрыве, электрическом разряде и т.п. Основной особенностью ударной волны является резкий скачок давления на фронте волны. В момент прохождения ударной волны максимум давления в данной точке возникает практически мгновенно за время порядка 10-10 с. При этом одновременно скачком изменяются плотность и температура среды. Затем давление медленно падает. Мощность ударной волны зависит от силы взрыва. Скорость распространения ударных волн может быть больше скорости звука в данной среде. Если, например, ударная волна увеличивает давление в полтора раза, то при этом температура повышается на 35 0С и скорость распространения фронта такой волны примерно равна 400 м/с. Стены средней толщины, которые встречаются на пути такой ударной волны будут разрушены.
Мощные взрывы будут сопровождаться ударными волнами, которые создают в максимальной фазе фронта волны давление, в 10 раз превышающее атмосферное. При этом плотность среды увеличивается в 4 раза, температура повышается на 500 0C, и скорость распространения такой волны близка к 1 км/с. Толщина фронта ударной волны имеет порядок длины свободного пробега молекул (10-7 - 10-8 м), поэтому при теоретическом рассмотрении можно считать, что фронт ударной волны представляет собой поверхность взрыва, при переходе через которую параметры газа изменяются скачком.
Ударные волны так же возникают, когда твёрдое тело движется со скоростью, превышающей скорость звука. Перед самолётом, который летит со сверхзвуковой скоростью, образуется ударная волна, которая является основным фактором, определяющим сопротивление движению самолёта. Чтобы это сопротивление ослабить, сверхзвуковым самолётам придают стреловидную форму.
Быстрое сжатие воздуха перед движущимся с большой скоростью предметом приводит к повышению температуры, которая с нарастанием скорости предмета - увеличивается. Когда скорость самолёта достигает скорость звука, температура воздуха достигает 60 0C. При скорости движения вдвое выше скорости звука, температура повышается на 240 0C, а при скорости, близкой к тройной скорости звука - становится 800 0С. Скорости близкие к 10 км/с приводят к плавлению и превращению движущегося тела в газообразное состояние. Падение метеоритов со скоростью в несколько десятков километров в секунду приводит к тому, что уже на высоте 150 - 200 километров, даже в разрежённой атмосфере метеоритные тела заметно нагреваются и светятся. Большинство из них на высотах 100 - 60 километров полностью распадаются.
Шумы.
Наложение большого количества колебаний беспорядочно смешанных одно относительно другого и произвольно изменяющих интенсивность во времени, приводят к сложной форме колебаний. Такие сложные колебания, состоящие из большого числа простых звуков различной тональности, называют шумами. Примерами могут служить шелест листьев в лесу, грохот водопада, шум на улице города. К шумам также можно отнести звуки, выражаемые согласными. Шумы могут отличатся распределением по силе звука, по частоте и продолжительности звучания во времени. Длительное время звучат шумы, создаваемые ветром, падающей воды, морским прибоем. Относительно кратковременны раскаты грома, рокот волн - это низкочастотные шумы. Механические шумы могут вызываться вибрацией твёрдых тел. Возникающие при лопании пузырьков и полостей в жидкости звуки, которые сопровождают процессы кавитации, приводят к кавитационным шумам.