Захват аудио с использованием формирования диаграммы направленности
Изобретение относится к акустике. Устройство захвата звука содержит формирователь диаграммы направленности, который выполнен с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности. Адаптер выполнен с возможностью адаптации параметров формирования диаграммы направленности первого формирователя диаграммы направленности, и детектор обнаруживает нарастание громкости речи в выходном аудиосигнале со сформированной диаграммой направленности. Контроллер выполнен с возможностью управления адаптацией параметров формирования диаграммы направленности в предварительно определенном временном интервале адаптации, определенном в ответ на обнаружение нарастания громкости речи. Формирователь диаграммы направленности может генерировать сигнал (сигналы) шума, и детектор выполнен с возможностью обнаруживать нарастание громкости речи в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума. Технический результат - улучшение механизма адаптации в формирователе диаграммы направленности. 2 н. и 13 з.п. ф-лы, 11 ил.
ОБЛАСТЬ ТЕХНИКИ
Изобретение относится к захвату аудио, в частности, с использованием формирования диаграммы направленности.
УРОВЕНЬ ТЕХНИКИ
Захват аудио и, в частности, речи приобретал все большую важность в прошлые десятилетия. Действительно, захват речи стал чрезвычайно важной задачей для множества приложений, включающих в себя телекоммуникацию, организацию телеконференций, игры, пользовательские аудиоинтерфейсы и т.д. Однако проблема во многих сценариях и приложениях состоит в том, что целевой источник речи обычно является не единственным источником звука в окружающей среде. Напротив, в типичных звуковых средах имеется много других источников звука/шума, которые захватываются микрофоном. Одна из критических проблем, стоящих перед приложениями для захвата речи, состоит в том, как наилучшим образом извлечь речь в шумной окружающей среде. Чтобы решить эту проблему, было предложено много разных подходов для шумоподавления.
Действительно, например, исследования в области систем речевой связи, оставляющих руки свободными, являются темой, которая привлекала большой интерес в течение многих десятилетий. Первые доступные коммерческие системы были сосредоточены на профессиональных системах организации (видео) конференций в средах с низким фоновым шумом и малым временем реверберации. Было обнаружено, что особенно эффективным подходом для идентификации и извлечения целевых источников звука, например, целевого говорящего, является использование формирования диаграммы направленности на основе сигналов от массива микрофонов. Первоначально часто использовались массивы микрофонов с фокусированным фиксированным лучом диаграммы направленности, но позже стало более популярным использование адаптивных лучей диаграммы направленности.
В конце 1990-х годов начали внедряться системы для мобильных телефонов, оставляющие руки свободными. Они были предназначены для использования во многих разных средах, в том числе в помещениях с реверберацией и с (более) высоким уровнем фонового шума. Такие звуковые среды представляют в значительной степени более трудные проблемы и, в частности, могут усложнить или ухудшить адаптацию сформированного луча диаграммы направленности.
Первоначально исследования по захвату аудио для таких окружающих сред были сосредоточены на эхо-компенсации и позже на шумоподавлении. Пример системы захвата аудио на основе формирования диаграммы направленности проиллюстрирован на фиг. 1. В примере массив из множества микрофонов 101 присоединен к формирователю 103 диаграммы направленности, который генерирует сигнал источника звука z(n) и один или несколько опорных сигналов шума x(n).
Массив 101 микрофонов 101 в некоторых вариантах осуществления может содержать только два микрофона, но обычно будет содержать большее количество.
Формирователь 103 диаграммы направленности, в частности, может представлять собой адаптивный формирователь диаграммы направленности, в котором луч диаграммы направленности может быть направлен к источнику речи с использованием подходящего алгоритма адаптации.
Например, документы US 7 146 012 и US 7 602 926 раскрывают примеры адаптивных формирователей диаграммы направленности, которые сосредотачиваются на речи, но также обеспечивают опорный сигнал, который (почти) не содержит речи.
Формирователь диаграммы направленности создает улучшенный выходной сигнал z(n) посредством когерентного добавления целевой части сигналов микрофона посредством фильтрации принятых сигналов в прямых согласующих фильтрах и добавления отфильтрованных выходов. Кроме того, выходной сигнал фильтруется в обратных адаптивных фильтрах, имеющих характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области соответствующие инвертированным по времени импульсным характеристикам во временной области). Сигналы ошибок генерируются как разность между входными сигналами и выходами обратных адаптивных фильтров, и коэффициенты фильтров адаптированы к минимизации сигналов ошибок, тем самым приводя к тому, что луч диаграммы направленности аудио направляется на доминирующий сигнал. Сгенерированные сигналы ошибок x(n) могут рассматриваться как опорные сигналы шума, которые особенно подходят для выполнения дополнительного шумоподавления на улучшенном выходном сигнале z(n).
Первичный сигнал z(n) и опорный сигнал x(n) обычно оба загрязнены шумом. В случае, если шум в обоих сигналах является когерентным (например, когда существует создающий помехи точечный источник шума), адаптивный фильтр 105 может использоваться для сокращения когерентного шума.
С этой целью опорный сигнал шума x(n) присоединяется ко входу адаптивного фильтра 105, и выход вычитается из сигнала звукового источника z(n), чтобы генерировать компенсированный сигнал r(n). Адаптивный фильтр 105 выполнен с возможностью минимизировать мощность компенсированного сигнала r(n), обычно когда целевой источник звука не активен (например, когда отсутствует речь), и это приводит к подавлению когерентного шума.
Компенсированный сигнал подается на постпроцессор 107, который выполняет шумоподавление на компенсированном сигнале r(n) на основе опорного сигнала шума x(n). В частности, постпроцессор 107 преобразовывает компенсированный сигнал r(n) и опорный сигнал шума x(n) в частотную область с использованием оконного преобразования Фурье. Затем для каждого элемента разрешения по частоте он модифицирует амплитуду R(ω), вычитая масштабированную версию амплитудного спектра X(ω). Полученный в результате комплексный спектр преобразовывается обратно во временную область, чтобы получить выходной сигнал q(n), в котором был подавлен шум. Эта методика спектрального вычитания была впервые описана в литературе S.F. Boll, ʺSuppression of Acoustic Noise in Speech using Spectral Subtraction,ʺ IEEE Trans. Acoustics, Speech and Signal Processing, vol. 27, pp. 113-120, Apr. 1979.
Конкретный пример шумоподавления на основе относительных энергий сигнала звукового источника и опорного сигнала шума в индивидуальных частотно-временных фрагментах описан в документе WO2015139938A.
Во многих системах захвата аудио может быть применено множество формирователей диаграммы направленности, которые независимо могут адаптироваться к источникам звука. Например, чтобы отслеживать двух разных говорящих в звуковой среде, устройство захвата аудио может включать в себя два независимых адаптивных формирователя диаграммы направленности.
Действительно, хотя система на фиг. 1 во многих сценариях обеспечивает очень эффективную работу и эффективные рабочие характеристики, она не является оптимальной во всех сценариях. Действительно, хотя многие традиционные системы, в том числе в примере на фиг. 1, обеспечивают очень хорошие рабочие характеристики, когда целевой источник звука/говорящий находится в радиусе реверберации массива микрофонов, т.е. для приложений, в которых энергия прямой волны целевого источника звука (предпочтительно значительно) сильнее, чем энергия отражений целевого источника звука, они, как правило, обеспечивают менее оптимальные результаты, когда дело обстоит иным образом. В типичных окружающих условиях было обнаружено, что говорящий обычно должен находиться в 1-1,5 метрах от массива микрофонов.
Однако имеется насущная потребность в решениях, приложениях и системах аудиосвязи, оставляющих руки свободными, когда пользователь может находиться на более дальних расстояниях от массива микрофонов. Например, это желательно для многих систем и приложения связи и голосового управления. Системы, обеспечивающие улучшение речи включающие в себя устранение реверберации и шумоподавление для таких ситуаций, находятся в области, называемой "супер-системы, оставляющие руки свободными".
Более конкретно, когда дело касается дополнительного рассеянного шума, и целевой говорящий находится вне радиуса реверберации, могут возникнуть следующие проблемы.
- Формирователь диаграммы направленности может часто иметь проблемы при различении эхо целевой речи и рассеянного фонового шума, что приводит к искажению речи.
- Адаптивный формирователь диаграммы направленности может медленнее выполнять схождение к целевому говорящему. В течение времени, когда адаптивный луч диаграммы направленности еще не сошелся, будет иметься утечка речи в опорном сигнале, что приводит к искажению речи в случае, если этот опорный сигнал используется для нестационарного шумоподавления и компенсации. Проблема увеличивается, когда имеются другие целевые источники, которые говорят друг за другом.
Решение для более медленно сходящихся адаптивных фильтров (вследствие фонового шума) состоит в том, чтобы добавить к ним несколько фиксированных лучей диаграммы направленности, нацеленных в разных направлениях, как проиллюстрировано на фиг. 2. Однако этот подход особенно развит для сценариев, в которых целевой источник звука присутствует в радиусе реверберации. Он может быть менее эффективным для источников звука вне радиуса реверберации и может часто приводить к ненадежным решениям в таких случаях, преимущественно если существует также акустический рассеянный фоновый шум.
Особенно критическим элементом захвата аудио с использованием формирователей диаграммы направленности является адаптация формирователей диаграммы направленности. Были предложены различные алгоритмы адаптации формирования диаграммы направленности. Например, для приложения захвата речи алгоритм адаптации может преследовать цель адаптировать фильтры диаграммы направленности на основе критерия увеличения уровня выходного сигнала в периоды речи.
Однако современные алгоритмы адаптации, как правило, основаны на предположении окружающих условий, в которых источник звука, к которому адаптируется формирователь диаграммы направленности, является доминирующим источником звука, обеспечивающим относительно высокое отношение сигнал-шум. Действительно, большинство алгоритмов, как правило, предполагают, что прямая волна (и, возможно, ранние отражения) доминирует и над более поздними отражениями, и над хвостом реверберации, и над шумом от других источников (в том числе, над рассеянным фоновым шумом).
Как следствие, такие подходы адаптации, как правило, являются не оптимальными в окружающих условиях, в которых эти предположения не действительны, и в большинстве случаев обеспечивают неоптимальные рабочие характеристики для многих реальных приложений.
Действительно, в общем случае захват аудио для источников вне радиуса реверберации, как правило, является трудным вследствие малой энергии прямой волны от источника до устройства по сравнению с энергией отраженной речи и акустического фонового шума. Хотя системы с несколькими лучами диаграммы направленности могут улучшить захват аудио в таких сценариях, захват будет ухудшен или часто просто не будет работать, если адаптация не будет надежной.
Современные алгоритмы адаптации, как правило, являются неоптимальными и обеспечивают относительно плохую адаптацию для сценариев, в которых над целевым источником звука доминируют поздние отражения, реверберации и/или шум, в том числе, в частности, рассеянный шум. Такие сценарии обычно могут иметь место, когда целевой источник звука находится далеко от массива микрофонов.
Таким образом, во многих практических приложениях рабочие характеристики систем захвата аудио с формированием диаграммы направленности могут быть ухудшены или ограничены рабочими характеристиками адаптации.
Следовательно, будет эффективен улучшенный подход захвата аудио с формированием диаграммы направленности и, в частности, будет эффективен подход, обеспечивающий улучшенную адаптацию. В частности, будет эффективен подход, обеспечивающий сокращенную сложность, увеличенную гибкость, облегченную реализацию, сокращенные затраты, улучшенный захват аудио, улучшенную пригодность для захвата аудио вне радиуса реверберации, сокращенную чувствительность к шуму, улучшенный захват речи, улучшенную адаптацию формирования диаграммы направленности, улучшенное управление и/или улучшенные рабочие характеристики.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В соответствии с этим изобретение преследует цель предпочтительно смягчить, облегчить или устранить один или более из вышеупомянутых недостатков отдельно или в любой комбинации.
В соответствии с аспектом изобретения обеспечено устройство захвата аудио, содержащее: первый формирователь диаграммы направленности, выполненный с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности; адаптер для адаптации параметров формирования диаграммы направленности первого формирователя диаграммы направленности; детектор для обнаружения нарастания громкости речи в выходном аудиосигнале со сформированной диаграммой направленности; и контроллер для управления возникновением адаптации параметров формирования диаграммы направленности в предварительно определенном временном интервале адаптации, определенном в ответ на обнаружение нарастания громкости речи.
Изобретение может обеспечить улучшенный захват аудио во многих вариантах осуществления. В частности, могут часто достигаться улучшенные рабочие характеристики в реверберирующих окружающих средах и/или для источников звука на больших расстояниях. Этот подход, в частности, может обеспечить улучшенный захват речи во многих сложных звуковых средах. Во многих вариантах осуществления подход может обеспечить надежное и точное формирование диаграммы направленности. Подход может обеспечить устройство захвата аудио, имеющее уменьшенную чувствительность, например, к шуму, реверберации и отражениям. В частности, может часто достигаться улучшенный захват источников речи вне радиуса реверберации.
Подход может обеспечить улучшенный захват речи для источников речи, подвергающихся воздействию характеристик помещения с доминирующими поздними отражениями или реверберацией. Подход может улучшить адаптацию и захват аудио для источников речи, которые подвергаются воздействию характеристик помещения, которые не могут быть полностью смоделированы импульсными характеристиками с ограниченной продолжительностью. В частности, улучшенные рабочие характеристики могут быть достигнуты во многих вариантах осуществления посредством адаптации, направляемой к прямой волне и составляющим раннего отражения, игнорируя поздние отражения (которые не моделируются фильтрами диаграммы направленности).
В частности, улучшенные рабочие характеристики могут часто обеспечиваться в сценариях, в которых прямая волна от источника звука, к которой адаптируются формирователи диаграммы направленности, не является доминирующей. Могут часто достигаться улучшенные рабочие характеристики для сценариев, содержащих высокую степень рассеянного шума, реверберирующих сигналов и/или поздних отражений. Могут часто достигаться улучшенные рабочие характеристики для точечных источников звука на далеких расстояниях, и в частности, вне радиуса реверберации.
Подход может автоматически управлять адаптером, чтобы адаптировать параметры формирования диаграммы направленности к временным интервалам адаптации, в которых существуют благоприятные характеристики для адаптации формирователя диаграммы направленности. В частности, он может автоматически управлять системой, чтобы адаптировать параметры формирования диаграммы направленности в течение времени, когда речевой сигнал приведет к таким благоприятным сценариям, и, в частности, адаптация может быть выполнена в течение временных интервалов адаптации, в которых целевые составляющие сигнала от источника речи доминируют над не целевыми/создающими помехи составляющими сигнала.
Действительно, подход может управлять адаптацией, чтобы она выполнялась в течение временных интервалов адаптации, в которых доминирующие составляющие сигнала (в частности, ранние отражения) являются преимущественно такими, которые фильтры диаграммы направленности формирователя диаграммы направленности могут смоделировать, и не выполнять адаптацию во течение временных интервалов, в которых доминируют не целевые составляющие сигнала (поздние отражения/реверберация/рассеянный шум, которые не могут быть смоделированы фильтрами диаграммы направленности) от источника речи. Действительно, часто, когда обнаружено нарастание громкости речи, над принятыми составляющими сигнала от источника речи будут доминировать сильные ранние отражения, в то время как составляющие сигнала от поздних отражений/ревербераций, принимаемых в настоящее время, произойдут из более ранних и более слабых речевых секций. Во многих вариантах осуществления и сценариях обнаружение нарастания громкости речи укажет сценарий, в котором принятые составляющие сигнала от данного источника речи составлены из ранних отражений от более сильного сигнала во время нарастания громкости и поздних отражений и реверберации от более слабого сигнала перед нарастанием громкости. Этот сценарий может существовать в течение данной продолжительности времени, пока поздние отражения также не произойдут из сильной речи во время или после нарастания громкости, и в этот момент временной интервал адаптации обычно завершается (или может уже быть завершен). Таким образом адаптация может автоматически быть выполнена в течение времени, когда ранние отражения (включающие в себя прямую волну) будут являться доминирующими, и, таким образом адаптация преследует цель приспособиться к ранним отражениям, а не к поздним отражениям, даже если акустическая характеристика помещения будет иметь намного более сильные составляющие для более поздних отражений.
Подход может соответственно обеспечить в значительной степени улучшенные рабочие характеристики в сценариях, в которых поздние отражения и реверберация являются значительными для данного источника речи. В частности, улучшенные рабочие характеристики достигаются для источников речи вне радиуса реверберации. В то же время подход может позволить эффективную адаптацию, поскольку она может быть выполнена во всем речевом сегменте каждый раз, когда возникают благоприятные ситуации. Таким образом, адаптация не ограничена началом речи, но может быть выполнена всюду в речи каждый раз, когда возникает нарастание громкости.
Нарастанием громкости речи, в частности, может являться вступление речи после периода тишины. Однако во многих вариантах осуществления и сценариях нарастание громкости речи может возникать в течение периода речи.
Нарастание громкости речи может представлять собой увеличение уровня источника речи по сравнению со средним речевым уровнем предыдущего периода. Предыдущий период обычно может находиться в диапазоне 60-100 мс. Увеличение исходного речевого уровня обычно может представлять собой резкое увеличение и часто может представлять собой существенное увеличение.
В некоторых вариантах осуществления может считаться, что нарастание громкости речи возникло, когда уровень сигнала ранних отражений доминирует над уровнем сигнала поздних ревербераций и/или реверберирующего рассеянного шума.
Устройства захвата аудио во многих вариантах осуществления могут содержать блок вывода для генерирования выходного аудиосигнала в ответ на выходной аудиосигнал со сформированной диаграммой направленности.
Формирователь диаграммы направленности может представлять собой формирователь диаграммы направленности с фильтрацией и комбинированием. Формирователь диаграммы направленности с фильтрацией и комбинированием может содержать фильтр диаграммы направленности для каждого микрофона и блок комбинации для комбинирования выходов фильтров диаграммы направленности, чтобы сгенерировать выходной аудиосигнал со сформированной диаграммой направленности. Формирователь диаграммы направленности с фильтрацией и комбинированием, в частности, может содержать фильтры диаграммы направленности в форме фильтров с короткой импульсной характеристикой (КИХ-фильтры; FIR)? имеющие множество коэффициентов.
В большинстве вариантов осуществления каждый из фильтров диаграммы направленности имеет импульсную характеристику во временной области, которая не является простым импульсом Дирака (соответствующим простой задержке и, таким образом, усилению и смещению фазы в частотной области), а имеет импульсную характеристику, которая обычно простирается по временному интервалу не менее чем на 2, 5, 10 или даже 30 мс.
Предварительно определенный временной интервал адаптации может иметь предварительно определенную продолжительность, и во многих вариантах осуществления может иметь предварительно определенную максимальную продолжительность. Предварительно определенная (максимальная) продолжительности во многих вариантах осуществления может составлять не менее 5 мс, 10 мс, 20 мс, 50 мс или 100 мс. Предварительно определенная (максимальная) продолжительность во многих вариантах осуществления может не превышать 50 мс, 100 мс, 200 мс, 500 мс или 1 с.
В соответствии с опциональным признаком изобретения детектор выполнен с возможностью обнаруживать нарастание громкости речи в ответ на уровень сигнала принятых ранних отражений относительно уровня сигнала принятых поздних отражений.
Это может обеспечить особенно эффективный подход для обнаружения нарастания громкости речи, подходящий для управления адаптацией. В частности, это может обеспечить особенно эффективную адаптацию посредством направления на прямую волну и ранние отражения, которые могут быть успешно смоделированы фильтрами диаграммы направленности формирователя диаграммы направленности. Ранние отражения могут включать в себя первое отражение (которое обычно считают нулевым отражением).
Нарастание громкости речи, в частности, может быть обнаружено и считаться возникшим, когда составляющие сигнала, принятые от источника речи посредством ранних отражений (в том числе прямой волны), доминируют над составляющими сигнала, принятыми в поздних отражениях и/или реверберирующем/рассеянном шуме. Составляющие сигнала от ранних отражений (в том числе от прямой волны) могут рассматриваться как доминирующие, когда энергия их сигнала выше (или в некоторых случаях на 3 дБ, 6 дБ или даже на 10 дБ выше), чем энергия составляющих сигнала, принятых в поздних отражениях и/или реверберирующем/рассеянном шуме. В некоторых вариантах осуществления ранние отражения могут считаться отражениями, принятыми с задержкой от прямой волны, которая не превышает продолжительность импульсных характеристик фильтров диаграммы направленности. Поздние отражения (в том числе реверберация и рассеянный шум) от источника речи могут быть приняты с более долгой задержкой, чем продолжительность импульсных характеристик. В некоторых вариантах осуществления ранние отражения, например, могут рассматриваться как отражения, которые приняты с задержкой относительно прямой волны ниже заданного (возможно, предварительно определенного) порога. Остальные составляющие сигнала могут считаться поздними отражениями или реверберацией. В разных вариантах осуществления разные подходы или соображения могут использоваться для дифференциации между ранними (включающими в себя прямую волну) и поздними отражениями (включающими в себя реверберацию/рассеянный шум).
В соответствии с опциональным признаком изобретения первый формирователь диаграммы направленности выполнен с возможностью генерировать по меньшей мере один опорный сигнал шума; и детектор выполнен с возможностью обнаруживать нарастание громкости речи в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума.
Это может обеспечить особенно эффективный подход для обнаружения нарастания громкости речи, подходящий для управления адаптацией. В частности, это может обеспечить особенно эффективную адаптацию посредством направления на прямую волну и ранние отражения, которые могут быть успешно смоделированы фильтрами диаграммы направленности формирователя диаграммы направленности. Ранние отражения могут включать в себя первое отражение (которое обычно считают нулевым отражением).
Этот подход, в частности, может позволить генерировать оценку нарастания громкости речи в ответ на уровень сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала опорного сигнала шума. Например, она может быть определена как отношение между ними.
Такая мера может автоматически обеспечить верный признак того, когда принятая речь в массиве микрофонов преимущественно характеризуется составляющими сигнала, которые могут быть смоделированы фильтрами диаграммы направленности (ранние отражения), и когда она преимущественно характеризуется составляющими сигнала, которые не могут быть смоделированы фильтрами диаграммы направленности. Адаптация соответственно может быть сосредоточена на сценариях, в которых адаптация будет фокусироваться на составляющих сигнала, которые могут быть смоделированы. Это может обеспечить в значительной степени улучшенный захват речи для источников речи, например, находящихся вне радиуса реверберации.
Оценка нарастания громкости речи на основе сравнения выходного аудиосигнала со сформированной диаграммой направленности и опорного шума может обеспечить хороший показатель и начала нарастания громкости речи, и конца нарастания громкости речи. Это, в частности, может очень подходить для идентификации сценариев во время нарастания громкости речи, когда над принятым сигналом доминируют ранние отражения, и может указать, когда этот сценарий заменяется на сценарий, в котором доминируют поздние отражения.
В некоторых вариантах осуществления контроллер может быть выполнен с возможностью определять время начала предварительно определенного временного интервала адаптации в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации. Это может обеспечить желательное обнаружение начала ситуации, в которой над принятыми сигналами доминируют ранние отражения (в пределах продолжительности импульсной характеристики фильтров диаграммы направленности).
Время начала, в частности, может быть определено в ответ на увеличение выше порога меры различия между уровнем сигнала выходного аудиосигнала со сформированной диаграммой направленности и уровнем опорного сигнала шума.
В соответствии с опциональным признаком изобретения контроллер выполнен с возможностью завершать предварительно определенный временной интервал адаптации в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации. Это может обеспечить желательное обнаружение конца ситуации, в которой над принятым сигналом доминируют ранние отражения (в пределах продолжительности импульсной характеристики фильтров диаграммы направленности).
Контроллер может быть выполнен с возможностью завершать временной интервал адаптации до предварительно определенного времени окончания в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума. В некоторых вариантах осуществления временной интервал адаптации может иметь временной интервал адаптации с предварительно определенной максимальной продолжительностью. Однако, если сравнение указывает, что ранние отражения могут не являться доминирующими, контроллер может завершать временной интервал адаптации (и, таким образом, адаптацию) до истечения срока предварительно определенной максимальной продолжительности.
Время для завершения предварительно определенного адаптивного временного интервала, в частности, может быть определено в ответ на понижение ниже порога меры различия между уровнем сигнала выходного аудиосигнала со сформированной диаграммой направленности и уровнем опорного сигнала шума.
Контроллер может быть выполнен с возможностью завершать временной интервал адаптации до окончания срока с предварительно определенной продолжительностью в ответ на сравнение.
В соответствии с опциональным признаком изобретения первый формирователь диаграммы направленности выполнен с возможностью генерировать по меньшей мере один опорный сигнал шума, и детектор содержит: первый преобразователь для генерирования первого сигнала в частотной области из частотного преобразования выходного аудиосигнала со сформированной диаграммой направленности, первый сигнал в частотной области представлен значениями частотно-временных фрагментов; второй преобразователь для генерирования второго сигнала в частотной области из частотного преобразования по меньшей мере одного опорного сигнала шума, второй сигнал в частотной области представлен значениями частотно-временных фрагментов; процессор разности, выполненный с возможностью генерировать меру различия частотно-временного фрагмента, указывающую разность между первой монотонной функцией нормы значения частотно-временного фрагмента первого сигнала в частотной области и второй монотонной функцией нормы значения частотно-временного фрагмента второго сигнала в частотной области; и блок оценки нарастания громкости речи для генерирования оценки нарастания громкости речи в ответ на комбинированное значение разности для мер различия частотно-временных фрагментов для частот, которые выше порога частоты.
Это во многих сценариях и приложениях может обеспечить особенно эффективный захват речи. Было обнаружено, что оценка нарастания громкости речи, определенная, таким образом, обеспечивает очень предпочтительный и высокоэффективный показатель подходящего времени для адаптации формирователя диаграммы направленности. В частности, могут быть достигнуты улучшенные рабочие характеристики для сценариев, содержащих высокую степень рассеянного шума, реверберирующие сигналы и/или поздние отражения. Может часто достигаться улучшенный захват речи для источников на далеких расстояниях, и в частности, вне радиуса реверберации.
Оценка нарастания громкости речи может автоматически обеспечить верный признак того, когда принятая речь в массиве микрофонов преимущественно характеризуется составляющими сигнала, которые могут быть смоделированы фильтрами диаграммы направленности (ранние отражения), и когда она преимущественно характеризуется составляющими сигнала, которые не могут быть смоделированы фильтрами диаграммы направленности. Адаптация соответственно может быть сосредоточена на сценариях, в которых адаптация будет фокусироваться на составляющих сигнала, которые могут быть смоделированы. Это может обеспечить в значительной степени улучшенный захват речи для источников речи, например, находящихся вне радиуса реверберации.
Первая и вторая монотонные функции обычно обе могут являться монотонно возрастающими функциями, но в некоторых вариантах осуществления обе могут являться монотонно убывающими функциями.
Нормы обычно могут представлять собой нормы L1 или L2, т.е., в частности, нормы могут соответствовать мере магнитуды или мощности для значений частотно-временных фрагментов.
Частотно-временной фрагмент, в частности, может соответствовать одному элементу дискретизации частотного преобразования в одном временном сегменте/кадре. В частности, первый и второй преобразователи могут использовать обработку блока, чтобы преобразовать последовательные сегменты первого и второго сигналов. Частотно-временной фрагмент может соответствовать набору элементов дискретизации преобразования (обычно одному) в одном сегменте/кадре.
Во многих вариантах осуществления порог частоты составляет не ниже 500 Гц. Это может дополнительно улучшить рабочие характеристики и, например, во многих вариантах осуществления и сценариях может гарантировать, что между значениями выходного аудиосигнала со сформированной диаграммой направленности и значениями опорного сигнала шума, используемыми при определении оценки точечного источника звука, достигнута достаточная или улучшенная декорреляция. В некоторых вариантах осуществления порог частоты преимущественно составляет не ниже 1 кГц, 1,5 кГц, 2 кГц, 3 кГц или даже 4 кГц.
В соответствии с опциональным признаком изобретения детектор выполнен с возможностью определять время начала для предварительно определенного временного интервала адаптации в ответ на увеличение комбинированного значения разности выше порога.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации. Это может обеспечить желательное обнаружение и конца, и начала ситуации, в которой над принятым сигналом доминируют ранние отражения (в пределах продолжительности импульсной характеристики фильтров диаграммы направленности).
В соответствии с опциональным признаком изобретения детектор выполнен с возможностью определять завершение временного интервала адаптации в ответ на падение комбинированного значения разности ниже порога.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации. Это может обеспечить желательное обнаружение конца ситуации, в которой над принятым сигналом доминируют ранние отражения (в пределах продолжительности импульсной характеристики фильтров диаграммы направленности).
В соответствии с опциональным признаком изобретения детектор выполнен с возможностью генерировать оценку когерентности шума, указывающую корреляцию между амплитудой выходного аудиосигнала со сформированной диаграммой направленности и амплитудой по меньшей мере одного опорного сигнала шума; и по меньшей мере одна из первой монотонной функции и второй монотонной функции зависит от оценки когерентности шума.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики для массивов микрофонов с меньшими расстояниями между микрофонами.
Оценка когерентности шума, в частности, может представлять собой оценку корреляции между амплитудами выходного аудиосигнала со сформированной диаграммой направленности и амплитудами опорного сигнала шума, когда нет активного точечного источника звука (например, в течение периодов времени без речи, т.е. когда источник речи не активен). Оценка когерентности шума в некоторых вариантах осуществления может быть определена на основе выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала шума и/или первого и второго сигналов в частотной области. В некоторых вариантах осуществления оценка когерентности шума может быть сгенерирована на основе отдельного процесса калибровки или измерения.
В соответствии с опциональным признаком изобретения, адаптер выполнен с возможностью модифицировать скорость адаптации для параметров формирования диаграммы направленности для первого частотно-временного фрагмента в ответ на меру различия для первого частотно-временного фрагмента.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации.
В соответствии с опциональным признаком изобретения детектор выполнен с возможностью фильтровать по меньшей мере одну из нормы значений частотно-временных фрагментов первого сигнала в частотной области и нормы значений частотно-временных фрагментов второго сигнала в частотной области; фильтрация включает в себя различение частотно-временных фрагментов и по времени, и по частоте.
Это может обеспечить улучшенную оценку нарастания громкости речи во многих вариантах осуществления. Фильтрация может представлять собой низкочастотную фильтрацию, такую как, например, усреднение.
В соответствии с опциональным признаком изобретения продолжительность от нарастания громкости речи до конца предварительно определенного временного интервала адаптации не превышает 100 мс.
Это может обеспечить эффективные рабочие характеристики во многих вариантах осуществления. В некоторых вариантах осуществления предварительно определенный временной интервал адаптации не превышает 10, 15, 20, 30, 50, 150, 250 или 500 мс.
В соответствии с опциональным признаком изобретения устройство захвата аудио дополнительно содержит множество формирователей диаграммы направленности, включающее в себя первый формирователь диаграммы направленности; и детектор выполнен с возможностью генерировать оценку нарастания громкости речи для каждого формирователя диаграммы направленности из множества формирователей диаграммы направленности; и устройство захвата аудио дополнительно содержит адаптер для адаптации по меньшей мере одного из множества формирователей диаграммы направленности в ответ на оценки нарастания громкости речи.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации для систем, использующих множество формирователей диаграммы направленности. В частности, это может позволить рабочим характеристикам системы в целом обеспечивать и точную, и надежную адаптацию к текущему аудиосценарию, в то же время обеспечивая быструю адаптацию к изменениям в нем (например, когда появляется новый источник звука).
В соответствии с опциональным признаком изобретения множество формирователей диаграммы направленности содержит первый формирователь диаграммы направленности, выполненный с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности и по меньшей мере один опорный сигнал шума; и множество ограниченных формирователей диаграммы направленности, присоединенных к массиву микрофонов, и каждый из них выполнен с возможностью генерировать ограниченный выходной аудиосигнал со сформированной диаграммой направленности и по меньшей мере один ограниченный опорный сигнал шума; и в котором адаптер выполнен с возможностью адаптировать ограниченные параметры формирования диаграммы направленности для первого ограниченного формирователя диаграммы направленности для соответствия критериям, содержащим по меньшей мере одно ограничение из группы: оценка нарастания громкости речи для первого ограниченного формирователя диаграммы направленности указывает нарастание громкости речи, обнаруживаемое для первого ограниченного формирователя диаграммы направленности; и оценка нарастания громкости речи для первого ограниченного формирователя диаграммы направленности указывает более высокую вероятность нарастания громкости речи, чем оценка нарастания громкости речи для любого другого ограниченного формирователя диаграммы направленности из множества ограниченных формирователей диаграммы направленности.
Изобретение может обеспечить улучшенный захват аудио во многих вариантах осуществления. В частности, могут часто достигаться улучшенные рабочие характеристики в реверберирующих окружающих средах и/или для источников звука. Этот подход, в частности, может обеспечить улучшенный захват речи во многих сложных звуковых средах. Во многих вариантах осуществления подход может обеспечить надежное и точное формирование луча диаграммы направленности, в то же время обеспечивая быструю адаптацию к новым целевым источникам звука. Подход может обеспечить устройство захвата аудио, имеющее уменьшенную чувствительность, например, к шуму, реверберации и отражениям. В частности, может часто достигаться улучшенный захват источников звука, находящихся вне радиуса реверберации.
В некоторых вариантах осуществления выходной аудиосигнал от устройства захвата аудио может быть сгенерирован в ответ на первый выходной аудиосигнал со сформированной диаграммой направленности и/или ограниченный выходной аудиосигнал со сформированной диаграммой направленности. В некоторых вариантах осуществления выходной аудиосигнал может быть сгенерирован как комбинация ограниченного выходного аудиосигнала со сформированной диаграммой направленности, и, в частности, может использоваться выборочное комбинирование, например, выбирающее единственный ограниченный выходной аудиосигнал со сформированной диаграммой направленности.
Адаптация формирователей диаграммы направленности может выполняться посредством адаптации параметров фильтров диаграммы направленности формирователей диаграммы направленности, например, в частности, посредством адаптации коэффициентов фильтра. Адаптация может преследовать цель оптимизировать (максимизировать или минимизировать) заданный параметр адаптации, например, максимизация уровня выходного сигнала, когда обнаружен источник звука, или его минимизация, когда обнаружен только шум. Адаптация может преследовать цель модифицировать фильтры диаграммы направленности, чтобы оптимизировать измеренный параметр.
В соответствии с опциональным признаком изобретения устройство захвата аудио дополнительно содержит: процессор разности лучей диаграмм направленности для определения меры различия по меньшей мере для одного из множества ограниченных формирователей диаграммы направленности, мера различия указывает различие между лучами диаграммы направленности, сформированными первым формирователем диаграммы направленности и по меньшей мере одним из множества ограниченных формирователей диаграммы направленности; и причем адаптер выполнен с возможностью адаптировать ограниченные параметры формирования диаграммы направленности с тем ограничением, что ограниченные параметры формирования диаграммы направленности адаптируются только для ограниченных формирователей диаграммы направленности из множества ограниченных формирователей диаграммы направленности, для которых было определено, что мера различия соответствует критерию сходства.
Это может обеспечить улучшенные рабочие характеристики во многих вариантах осуществления.
Мера различия может отражать разность между сформированными лучами диаграмм направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности, для которого мера различия сгенерирована, например, измерена как разность между направлениями лучей диаграммы направленности. Во многих вариантах осуществления мера различия может указывать различия между выходными аудиосигналами со сформированной диаграммой направленности от первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности. В некоторых вариантах осуществления мера различия может указывать различия между фильтрами диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности. Мера различия может представлять собой меру расстояния, например, меру, определенную как расстояние между векторами коэффициентов фильтров диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности.
Очевидно, что мера сходства может быть эквивалентна мере различия в том, что мера сходства, предоставляющая информацию, относящуюся к сходству между двумя признаками, по своей природе также предоставляет информацию, относящуюся к различию между ними, и наоборот.
Критерий сходства, например, может содержать требование, чтобы мера различия указывала различие ниже заданной меры, например, может требоваться, чтобы мера различия, имеющая увеличивающиеся значения для растущего различия, была ниже порога.
В соответствии с аспектом изобретения обеспечен способ захвата аудио, содержащий этапы, на которых: посредством формирователя диаграммы направленности генерируют выходной аудиосигнал со сформированной диаграммой направленности; адаптируют параметры формирования диаграммы направленности формирователя диаграммы направленности; обнаруживают нарастание громкости речи в выходном аудиосигнале со сформированной диаграммой направленности; управляют возникновением адаптации параметров формирования диаграммы направленности во временном интервале адаптации, определенном в ответ на обнаружение нарастания громкости речи.
Эти и другие аспекты, признаки и преимущества изобретения станут понятны и разъяснены со ссылкой на описанный далее вариант (варианты) осуществления.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Варианты осуществления изобретения будут описаны только в качестве примера со ссылкой на чертежи.
Фиг. 1 иллюстрирует пример элементов системы захвата аудио с формированием диаграммы направленности;
Фиг. 2 иллюстрирует пример множества лучей диаграммы направленности, сформированных системой захвата аудио;
Фиг. 3 иллюстрирует пример элементов устройства захвата аудио в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 4 иллюстрирует пример элементов формирователя диаграммы направленности с фильтрацией и суммированием;
Фиг. 5-7 иллюстрируют примеры принятых акустических отражений от источника речи;
Фиг. 8 иллюстрирует пример элементов блока оценки нарастания громкости речи для устройства захвата аудио в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 9 иллюстрирует пример элементов преобразователя частотной области для блока оценки нарастания громкости речи для устройства захвата аудио в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 10 иллюстрирует пример элементов блока оценки нарастания громкости речи для устройства захвата аудио в соответствии с некоторыми вариантами осуществления изобретения; и
Фиг. 11 иллюстрирует пример элементов устройства захвата аудио в соответствии с некоторыми вариантами осуществления изобретения.
ПОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Следующее описание сосредоточено на вариантах осуществления изобретения, применимого к аудиосистеме для захвата речи на основе формирования диаграммы направленности, но очевидно, что подход применим ко многим другим системам и сценариям для захвата аудио.
Фиг. 3 иллюстрирует пример некоторых элементов устройства захвата аудио в соответствии с некоторыми вариантами осуществления изобретения.
Устройство захвата аудио содержит массив 301 микрофонов, который содержит множество микрофонов, размещенных для захвата аудио в окружающей среде.
Массив 301 микрофонов присоединен к формирователю 303 диаграммы направленности (обычно либо непосредственно, либо через эхо-компенсатор, усилители, цифро-аналоговые преобразователи и т.д., как будет известно специалисту в области техники).
Формирователь 303 диаграммы направленности выполнен с возможностью комбинировать сигналы от массива 301 микрофонов, в результате чего генерируется эффективная направленная звуковая чувствительность массива 301 микрофонов. Формирователь 303 диаграммы направленности, таким образом, генерирует выходной сигнал, называемый выходным аудиосигналом со сформированной диаграммой направленности или выходным аудиосигналом со сформированной диаграммой направленности, который соответствует выборочному захвату аудио в окружающей среде. Формирователь 303 диаграммы направленности является адаптивным формирователем диаграммы направленности, и направленностью можно управлять посредством установки параметров операции настройки диаграммы направленности, называемых параметрами формирования диаграммы направленности, формирователя 303 диаграммы направленности и, в частности, посредством установки параметров фильтра (как правило, коэффициентов) фильтров диаграммы направленности.
Формирователь 303 диаграммы направленности соответственно является адаптивным формирователем диаграммы направленности, причем направленностью можно управлять посредством адаптации параметров операции настройки диаграммы направленности.
Формирователь 303 диаграммы направленности является, в частности, формирователем диаграммы направленности с фильтрацией и комбинированием (или, в частности, в большинстве вариантов осуществления с фильтрацией и суммированием). Фильтр диаграммы направленности может быть применен к каждому из сигналов микрофонов, и фильтрованные выходы могут быть объединены обычно посредством простого сложения вместе.
Фиг. 4 иллюстрирует упрощенный пример формирователя диаграммы направленности с фильтрацией и суммированием на основе массива микрофонов, содержащего только два микрофона 401. В примере каждый микрофон присоединен к фильтру 403, 405 диаграммы направленности, выходы которого суммируются в сумматоре 407, чтобы сгенерировать выходной аудиосигнал со сформированной диаграммой направленности. Фильтры 403, 405 диаграммы направленности имеют импульсные характеристики f1 и f2, которые выполнены с возможностью формировать луч диаграммы направленности в заданном направлении. Очевидно, что обычно массив микрофонов будет содержать более двух микрофонов, и что принцип, показанный на фиг. 4, легко распространяется на большее количество микрофонов посредством добавления фильтра диаграммы направленности для каждого микрофона.
Формирователь 303 диаграммы направленности может включать в себя такую архитектуру с фильтрацией и суммированием для формирования диаграммы направленности (как, например, в формирователях диаграммы направленности в документах US 7 146 012 и US 7 602 926). Очевидно, что во многих вариантах осуществления массив 301 микрофонов может, однако, содержать более двух микрофонов. Кроме того, очевидно, что формирователь 303 диаграммы направленности включает в себя функциональность для адаптации фильтров диаграммы направленности, как описано ранее. Кроме того, в конкретном примере формирователь 303 диаграммы направленности генерирует не только выходной аудиосигнал со сформированной диаграммой направленности, но также и опорный сигнал шума.
В большинстве вариантов осуществления каждый из фильтров диаграммы направленности имеет импульсную характеристику во временной области, которая не является простым импульсом Дирака (соответствующим простой задержке и, таким образом, усилению и смещению фазы в частотной области), а имеет импульсную характеристику, которая обычно простирается по временному интервалу не менее чем на 2, 5, 10 или даже 30 мс.
Импульсная характеристика часто может быть реализована фильтрами диаграммы направленности, представляющими собой КИХ-фильтры (FIR; фильтры с конечной импульсной характеристикой) с множеством коэффициентов. Формирователь 303 диаграммы направленности в таких вариантах осуществления может адаптировать формирование диаграммы направленности посредством адаптации коэффициентов фильтра. Во многих вариантах осуществления КИХ-фильтры могут иметь коэффициенты, соответствующие фиксированным временным смещениям (обычно временным смещениям отсчетов) с адаптацией, достигаемой посредством адаптации значений коэффициентов. В других вариантах осуществления фильтры диаграммы направленности, как правило, могут иметь в значительной степени меньше коэффициентов (например, только два или три), но синхронизация которых (также) является адаптируемой.
Особое преимущество фильтров диаграммы направленности, имеющих расширенные импульсные характеристики, в отличие от простой переменной задержки (или простой регулировки усиления/фазы в частотной области), состоит в том, что они позволяют адаптировать формирователь 303 диаграммы направленности не только к наиболее сильной составляющей сигнала, обычно относящейся к прямой волне. Они также позволяют адаптировать формирователь 303 диаграммы направленности к включению дополнительных путей прохождения сигнала, обычно соответствующих отражениям. В соответствии с этим подход допускает улучшение рабочих характеристик в большинстве реальных окружающих сред и, в частности, допускает улучшение рабочих характеристик в отражающих и/или реверберирующих окружающих средах и/или для источников звука, находящихся дальше от массива 301 микрофонов.
Очень критическим элементом рабочих характеристик адаптивного формирователя диаграммы направленности является адаптация направленности (вообще называемой лучом диаграммы направленности, хотя очевидно, что расширенные импульсные характеристики приводят к тому, что эта направленность имеет не только пространственный компонент, но также и временной компонент, т.е. луч диаграммы направленности, сформированный как временная вариация для отражений и т.д.).
В системе на фиг. 3 формирователь 303 диаграммы направленности содержит адаптер 305, который выполнен с возможностью адаптировать параметры формирования диаграммы направленности первого формирователя диаграммы направленности. В частности, он выполнен с возможностью адаптировать коэффициенты фильтров диаграммы направленности, чтобы обеспечить заданный (пространственный и временной) луч диаграммы направленности.
Очевидно, что в разных вариантах осуществления могут использоваться разные алгоритмы адаптации, и что специалисту будут известны разные параметры оптимизации. Например, адаптер 305 может адаптировать параметры формирования диаграммы направленности, чтобы максимизировать значение выходного сигнала формирователя 303 диаграммы направленности. В качестве конкретного примера рассмотрим формирователь диаграммы направленности, в котором принятые сигналы микрофона фильтруются с помощью прямых согласующих фильтров, и в котором отфильтрованные выходы складываются. Выходной сигнал фильтруется обратными адаптивными фильтрами, имеющими характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области соответствующие инвертированным по времени импульсным характеристикам во временной области). Сигналы ошибок генерируются как разность между входными сигналами и выходами обратных адаптивных фильтров, и коэффициенты фильтров адаптируются для минимизации сигналов ошибок, тем самым давая в результате максимальную выходную мощность. Это может дополнительно по своему существу сгенерировать опорный сигнал шума из сигнала ошибки. Более подробная информация такого подхода может быть найдена в документах US 7 146 012 и US 7 602 926.
Следует отметить, что такие подходы, как в документах US 7 146 012 и US 7 602 926, основаны на адаптации, базирующейся и на сигнале источника звука z(n), и на сигнале (сигналах) шума x(n) от формирователей диаграммы направленности, и очевидно, что такой же подход может использоваться для формирователя диаграммы направленности на фиг. 3.
Действительно, формирователь 303 диаграммы направленности может, в частности, представлять собой формирователь диаграммы направленности, соответствующий тому, который проиллюстрирован на фиг. 1 и раскрыт в документах US 7 146 012 и US 7 602 926.
Формирователь 303 диаграммы направленности выполнен с возможностью генерировать и выходной аудиосигнал со сформированной диаграммой направленности, и опорный сигнал шума.
Формирователь 303 диаграммы направленности может быть выполнен с возможностью адаптировать формирование диаграммы направленности для захвата целевого источника звука и его представления в выходном аудиосигнале со сформированной диаграммой направленности. Он также может генерировать опорный сигнал шума, чтобы обеспечить оценку оставшегося захваченного аудио, т.е., он указывает на шум, который был бы захвачен в отсутствие целевого источника звука.
В примере в вариантах осуществления, когда формирователь 303 диаграммы направленности является формирователем диаграммы направленности, раскрытым в документах US 7 146 012 и US 7 602 926, опорный шум может быть сгенерирован, как описано ранее, например, непосредственно с использованием сигнала ошибки. Однако очевидно, что в других вариантах осуществления могут использоваться другие подходы. Например, в некоторых вариантах осуществления опорный шум может быть сгенерирован как сигнал микрофона от (например, всенаправленного) микрофона минус сгенерированный выходной аудиосигнал со сформированной диаграммой направленности, или даже сам сигнал микрофона в случае, если этот микрофон опорного шума находится далеко от других микрофонов и не содержит целевой речи. В качестве другого примера формирователь 303 диаграммы направленности может быть выполнен с возможностью генерировать второй луч диаграммы направленности, имеющий нулевое значение в направлении максимума луча диаграммы направленности, генерирующего выходной аудиосигнал со сформированной диаграммой направленности, и опорный шум может быть сгенерирован как аудио, захваченное этим дополняющим лучом диаграммы направленности.
В некоторых вариантах осуществления поcт-обработка, такая как шумоподавление на фиг. 1, может быть применена выходным процессором 305 к выходу устройства захвата аудио. Это может улучшить рабочие характеристики, например, для голосовой связи. В такую пост-обработку могут быть включены нелинейные операции, хотя, например, для некоторых устройств распознавания речи может быть более полезно ограничить обработку включением только линейной обработки.
Рабочие характеристики адаптации являются критическими для рабочих характеристик системы захвата аудио с формированием диаграммы направленности. Однако, хотя типичные традиционные подходы хорошо выполняются в теоретических и идеальных звуковых средах, они, как правило, гораздо менее эффективны и точны во многих практических сценариях.
Действительно, адаптация, как правило, ухудшается при увеличении шума, и особенно если адаптация выполняется, когда активный источник отсутствует, адаптация в течение этого временного интервала будет производиться к шуму, а не к целевому источнику звука. Чтобы решить эту проблему, были разработаны системы, в которых адаптация выполняется только тогда, когда присутствует источник звука. В частности, для системы захвата речи были разработаны системы, которые обнаруживают наличие речи и адаптируется только в периоды речи.
Однако, хотя этот подход может решить проблему адаптации, когда целевой источник звука не является активным, он не решает ни одной из потенциальных проблем в течение промежутков времени, в которых целевой источник звука является активным.
Действительно, как установлено авторами изобретения, характеристики акустической окружающей среды могут значительно повлиять на адаптацию и рабочие характеристики в целом, преимущественно, когда используются фильтры с расширенной импульсной характеристикой, которые преследуют цель оценить большие интервалы импульсной характеристики помещения. В частности, авторы изобретения установили, что в сценариях, в которых прямая волна не является доминирующей, адаптация часто может являться неоптимальной. Действительно, в сценариях, в которых источник звука находится вне радиуса реверберации, над принятым сигналом, как правило, доминируют поздние отражения и реверберациями. Это усложняет и ухудшает адаптацию, и действительно во многих сценариях даже может препятствовать адаптации к корректному источнику звука, даже когда он активен.
Система на фиг. 3 включает в себя управление адаптацией, которая может во многих сценариях обеспечивать улучшенные рабочие характеристики адаптации, приводящие к улучшению захвата речи.
Устройство захвата аудио, в частности, включает в себя детектор 307, который выполнен с возможностью обнаруживать нарастание громкости речи в выходном аудиосигнале со сформированной диаграммой направленности.
Нарастание громкости речи может представлять собой резкое увеличение речевого уровня по сравнению со средним речевым уровнем предыдущего периода. Речевое предложение состоит из последовательности фонем, в которой каждая фонема имеет некоторую силу или звуковое давление и имеет среднюю длину между 60 и 100 мс. Разности силы фонем могут быть довольно большими. Гласные и, в частности, протяжные гласные могут иметь относительно сильные уровни. Взрывной согласный может быть на 20-30 дБ ниже, чем предыдущий гласный.
Начало такого гласного можно рассматривать как нарастание громкости речи, когда, например, уровень на 4 дБ, 10 дБ или даже 20 дБ сильнее, чем уровень предыдущей фонемы.
Таким образом, увеличение уровня речи (из источника речи, т.е., увеличение уровня источника речи) относительно среднего речевого уровня предыдущего периода известно как нарастание громкости речи. Предыдущий период обычно может находиться в диапазоне 60-100 мс. Увеличение исходного речевого уровня обычно может представлять собой резкое увеличение и часто может представлять собой существенное увеличение. Например, увеличение речевого уровня по меньшей мере на 3 дБ, 4 дБ, 10 дБ или более в течение периода не более чем, например, 5 мс, 10 мс или 20 мс может считаться нарастанием громкости речи.
В некоторых вариантах осуществления может считаться, что нарастание громкости речи возникло, когда уровень сигнала ранних отражений доминирует над уровнем сигнала поздних ревербераций и/или реверберирующего рассеянного шума.
Детектор 307, в частности, в некоторых сценариях может обнаруживать вступление речи, т.е., конкретный пример нарастания громкости речи может представлять собой вступление речи. Детектор 307 может соответствующим образом выполнен с возможностью обнаруживать, когда начинается период речи после периода тишины (в котором в выходном аудиосигнале со сформированной диаграммой направленности не обнаружен речевой контент).
Детектор 307 присоединен к контроллеру 309, который присоединен к адаптеру 305 и детектору 307, и который выполнен с возможностью управлять адаптацией параметров формирования диаграммы направленности таким образом, что адаптация возникает во временном интервале адаптации, который определен на основе обнаружения нарастания громкости речи. Таким образом, временной интервал адаптации определяется в ответ на обнаружение начала речевого сегмента. Временной интервал адаптации, в частности, может начаться, когда обнаружено нарастание громкости речи (далее также называется обнаружением нарастания громкости речи) и, например, имеет предварительно определенную продолжительность.
Таким образом, контроллер 309 выполнен с возможностью начинать адаптацию формирователя 303 диаграммы направленности, и важно отметить, что он также выполнен с возможностью остановить адаптацию. Таким образом контроллер 309 выполнен с возможностью остановить адаптацию формирователя 303 диаграммы направленности, даже если речевой сегмент простирается вне продолжительности временного интервала адаптации. Таким образом, контроллер 309 выполнен с возможностью закончить временной интервал адаптации во время речевого сегмента. Контроллер 309, таким образом, выполнен с возможностью управлять возникновением адаптации в обычно относительно коротком временном интервале в начале нового речевого сегмента. Во многих вариантах осуществления адаптация может возникать только во время таких временных интервалов адаптации.
В описанных примерах временной интервал адаптации является предварительно определенным временным интервалом адаптации, который имеет предварительно определенную продолжительность или предварительно определенную максимальную продолжительность. В соответствии с этим временной интервал адаптации будет иметь предварительно определенную максимальную продолжительность, и адаптация будет соответствующим образом закончена по окончании срока с этой предварительно определенной максимальной продолжительностью. В некоторых вариантах осуществления контроллер дополнительно может быть выполнен с возможностью завершать временной интервал адаптации до окончания срока с предварительно определенной максимальной продолжительностью, например, если обнаружены условия, которые не подходят для адаптации (в частности, если обнаружено, что ранние отражения не являются доминирующими).
В отличие от традиционных подходов, в которых адаптация выполняется постоянно (или постоянно, когда целевой источник речи является активным), контроллер 309 ограничивает выполнение адаптации начальным интервалом речевого сегмента. Этот подход, в частности, может управлять адаптацией таким образом, что она выполняется в течение периода времени, в котором заданные характеристики нарастания громкости речи могут быть использованы при адаптации формирователя 303 диаграммы направленности. Это, в частности, может сосредоточить адаптацию на начальном интервале, в котором прямая волна или ранние отражения являются более значительными относительно поздних отражений и реверберации, чем это будет в течение более поздних временных интервалов речевого сегмента. Авторы изобретения не только установили этот эффект, но также обнаружили, что он обеспечивает в значительной степени улучшенную адаптацию для системы захвата речи с формированием диаграммы направленности и, в частности, для системы, в которой акустические характеристики помещения смоделированы посредством импульсных характеристик, имеющих существенную продолжительность, которая, однако, не достаточна, чтобы включить в себя все возможные отражения.
Далее будет разъяснен подход, и сначала описывается эффект, установленный авторами изобретения для сценария, в котором формирователь диаграммы направленности постоянно адаптируется всякий раз, когда речь является активной.
Фильтры диаграммы направленности формирователя диаграммы направленности будут выполнены с возможностью пытаться эмулировать акустическую характеристику помещения от источника звука до соответствующего микрофона. Если целевой источник находится вне радиуса реверберации, энергия в звуковом поле, вызванная прямой волной и первыми отражениями, является относительно низкой по сравнению с энергией, вызванной остальной частью отражений (включая реверберацию). В соответствии с этим, когда формирователь диаграммы направленности постоянно адаптируется во время речевого сегмента, адаптация обычно может применяться к поздним отражениям, поскольку это приводит к большей полной захваченной речевой энергии. Таким образом, вместо того, чтобы адаптироваться к прямой волне и первым отражениям, адаптация обычно может применяться к поздним отражениям.
Это может быть проиллюстрировано посредством рассмотрения двух упрощенных характеристик помещения от говорящего до двух разных микрофонов, как проиллюстрировано на фиг. 5.
В примере характеристики помещения содержат вклад прямых волн, которые поступают в микрофоны в одно и то же время td. Кроме того, первые отражения поступают в микрофоны (tr1) в одно и то же время. Кроме того, очень сильные отражения поступают в микрофоны в разные моменты времени tr2 и tr3. Если в таком сценарии предусматривается, что фильтры диаграммы направленности имеют длину адаптивного фильтра, равную TN, то желательно, чтобы адаптивный фильтр моделировал время вокруг первого отражения, т.е., желательно, чтобы импульсная характеристика отражала время между τs и τs, где τs=td - Δ, и значение Δ выбрано достаточно большим, чтобы иметь дело со вкладами прямых волн, которые не поступают в микрофоны в одно и то же время.
Однако в таком сценарии адаптация будет обычно применяться к импульсным характеристикам фильтров диаграммы направленности, которые будут определены большей частью сильными отражениями, и, таким образом, они будут адаптированы для моделирования задержки (tr3 - tr2).
Это может быть понятно на основе рассмотрения примера с двумя микрофонами, показанного на фиг. 4, в котором выходной сигнал со сформированной диаграммой направленности z получается посредством фильтрации сигналов микрофона в прямых согласующих фильтрах и сложения отфильтрованных выходов. Прямые согласующие фильтры получены в процессе адаптации, в котором при ограничении мощности на коэффициенты фильтра максимизируется выходная мощность z. Это приведет к тому, что импульсные характеристики фильтров диаграммы направленности станут похожими на проиллюстрированные на фиг. 6, тогда как желаемым результатом были бы импульсные характеристики на фиг. 7. Таким образом, вместо желаемого результата, в котором одновременные отклики приведут к когерентному сложению прямой волны и первых отражений после фильтрации, адаптированные фильтры на фиг. 6 приведут к ослаблению.
В подходе системы на фиг. 3, однако, обнаруживается нарастание громкости речи, и, в частности, может быть обнаружено поступление первых сигналов из прямой волны. При этом временной интервал адаптации может быть инициализирован, т.е. формирователь 303 диаграммы направленности может начать адаптироваться. Таким образом, контроллер 309 может управлять адаптером 305 для начала адаптации в момент времени на фиг. 5. Затем адаптер 305 может продолжить обновлять формирователь диаграммы направленности (в частности, максимизируя выходную мощность) в течение временного интервала адаптации, который может иметь продолжительность , где может быть предварительно определено или иметь предварительно определенное максимальное значение, и, таким образом, адаптация будет выполняться только на основе сигналов, принятых в течение срока этой продолжительности. Если эта продолжительность будет поддерживаться достаточно короткой, адаптация не будет включать в себя время, в которое поступают большие поздние отражения, и, таким образом адаптация может быть основана на более слабых ранних отражениях (и на прямой волне). В конкретном примере это позволит фильтрам диаграммы направленности иметь целевые импульсные характеристики, показанные на фиг. 7.
В соответствии с этим подход основан на понимании, что улучшенная адаптация достигается, когда адаптация формирователя диаграммы направленности происходит во время нарастания громкости речи, а не во время затуханий, поскольку это позволяет системе моделировать слабую прямую волну и первые отражения.
Эквивалентно, для нарастания громкости речи уровень сигнала увеличивается обычно очень быстро и на большую величину. Это дает в результате время, в которое прямая волна и (другие) ранние отражения, принятые в массиве микрофонов, произошли из речевого сигнала высокого уровня, тогда как составляющие сигнала, принимаемые в настоящее время через поздние отражения или как реверберация/рассеянный шум, произошли до нарастания громкости речи, и, таким образом, соответствуют низким уровням сигнала. Это может привести к доминированию ранних отражений над принятым сигналом, даже если характеристика помещения проявляет более сильные поздние отражения/реверберацию, чем ранние отражения. Таким образом, система может обнаружить эту ситуацию и, в частности, адаптировать формирователь диаграммы направленности при ее возникновении.
В соответствии с этим, подход расширяет соображение или желание отделить целевой источник звука от шума и от других источников звука при адаптации и дополнительно может внедрить дифференциацию между разными составляющими сигнала, принятыми от целевого источника звука, и, в частности, между более ранними составляющими сигнала и более поздними составляющими сигнала. Таким образом, в подходе рассеянная звуковая часть действительно может также происходить из целевого источника, и, таким образом, даже в ситуации без фонового шума или других источников звука подход обеспечивает улучшенную адаптацию по сравнению с типичной традиционной системой, которая просто адаптируется каждый раз, когда присутствует речь. Подход допускает улучшенную адаптацию, даже когда составляющие прямой волны и ранних отражений намного слабее, чем поздние отражения, и система действительно выполнена с возможностью ограничивать адаптацию нарастанием громкости речи, когда прямая волна/ранние отражения пока еще могут доминировать вследствие того, что поздние отражения не имеют достаточного времени, чтобы достигнуть массива микрофонов.
Очевидно, что в разных вариантах осуществления могут использоваться разные подходы для обнаружения нарастания громкости речи. Действительно, в некоторых вариантах осуществления, когда речевой сигнал является доминирующим относительно других источников звука, в том числе рассеянного фонового шума, детектор 307 может представлять собой просто детектором уровня, который обнаруживает, когда уровень сигнала увеличивается выше порога (например, установленного достаточно низко, чтобы обнаруживать поступление первой прямой волны).
Однако в большинстве вариантов осуществления могут иметься значительные поздние отражения и/или шум, и предпочтительно может применяться более сложное обнаружение.
Например, в некоторых вариантах осуществления детектор 307 может быть выполнен с возможностью непосредственно обнаруживать нарастание громкости речи в ответ на уровень сигнала принятых ранних отражений относительно уровня сигнала принятых поздних отражений. Действительно, во время начальной части нарастания громкости речи ранние отражения могут доминировать над поздними отражениями, тогда как во время самого речевого сегмента поздние отражения могут быть доминирующими.
Этот эффект может не только использоваться при адаптации, фокусирующейся на времени, когда доминируют ранние отражения, но также может в некоторых вариантах осуществления непосредственно использоваться для обнаружения нарастания громкости речи.
В качестве примера детектор 307, может определить огибающую аудиосигнала со сформированной диаграммой направленности с последующей высокочастотной фильтрацией этого сигнала огибающей. Нарастание громкости речи заставляет огибающую резко повышаться, тогда как поздняя реверберация заставляет огибающую медленно затухать в соответствии с экспонентой, которая определена временем реверберации. Высокочастотная фильтрация удаляет части затухания сигнала огибающей, и остаются нарастания громкости речи. Если высокочастотный фильтрованный сигнал огибающей превышает порог и превышает позднюю реверберацию, то считается, что это соответствует обнаружению нарастания громкости речи.
В качестве другого примера два низкочастотных фильтра могут отфильтровать принятый (речевой) сигнал, один из которых имеет более низкую частоту среза, чем другой (и, таким образом, "усредняющие" по более длительной продолжительности). Если возникает нарастание громкости речи, уровень сигнала речи может резко и в значительной степени увеличиться. Это увеличение приведет к более быстрому увеличению уровня на выходе для фильтра с более высокой частотой среза, чем для фильтра с более низкой частотой среза. Фактически фильтр с более высокой частотой среза в этом случае может представить сигнал после нарастания громкости речи, и, таким образом, ранние отражения для нарастания громкости речи, тогда как фильтр с более низкой частотой среза может по-прежнему отражать общий сигнал перед нарастанием громкости, над которым могут доминировать поздние отражения.
В соответствии с этим нарастание громкости речи может быть обнаружено посредством сравнения выходов фильтров и указания на нарастание громкости речи, когда выход фильтра с более высокой частотой среза превышает выход фильтра с более низкой частотой среза на заданную величину.
Таким образом, посредством оценки сигналов, которые представляют ранние и поздние отражения (или комбинацию ранних и поздних отражений, т.е. полный сигнал), могут быть обнаружены особенно благоприятные ситуации для адаптации. Они могут быть обнаружены не только во вступлении речи после периода тишины, но также могут быть определены во время обычной слитной речи. Действительно, они могут быть обнаружены таким образом, что возможно выполнять адаптацию каждый раз, когда прямая волна и ранние отражения доминируют над принятым речевым сигналом. Когда новые части речевого сигнала намного громче, чем предыдущие части, прямая волна и ранние отражения могут доминировать над более слабыми частями поздних отражений из предыдущих частей. Это обнаруживается, и тогда выполняется адаптация, и это приводит к улучшенной адаптации к целевым секциям характеристики помещения, а именно, к раннему отклику.
В примере на фиг. 3 формирователь 303 диаграммы направленности выполнен с возможностью генерировать и выходной аудиосигнал со сформированной диаграммой направленности, и один или более опорных сигналов шума. В таких вариантах осуществления детектор 307 может быть выполнен с возможностью обнаруживать нарастание громкости речи в ответ на сравнение показателя уровня сигнала (и, в частности, мощности) для выходного аудиосигнала со сформированной диаграммой направленности относительно показателя уровня сигнала (и, в частности, мощности) по меньшей мере для одного опорного сигнала шума. Таким образом, уровень сигнала выходного аудиосигнала со сформированной диаграммой направленности можно сравнить с уровнем опорного сигнала шума, и обнаружение нарастания громкости речи может быть основано на этом сравнении. Например, если уровень сигнала выходного аудиосигнала со сформированной диаграммой направленности превышает уровень опорного сигнала шума на заданный допуск, это можно считать соответствием обнаружению нарастания громкости речи.
Действительно, после периода тишины (или постоянного речевого уровня, если доминируют поздние отражения/реверберация), аудио, захваченное в направлении луча диаграммы направленности, и аудио, захваченное в других направлениях, обычно будут довольно сходными (возможно, после компенсации ширины луча диаграммы направленности). Например, если рассеянный шум распределен в пространстве однородно, разность уровней сигнала произойдет только вследствие узкого луча диаграммы направленности, и это может быть соответствующим образом компенсировано.
Однако, если луч диаграммы направленности уже сфокусирован на целевом источнике речи (т.е. уже была выполнена некоторая адаптация), нарастание громкости речи приведет к соответствующему увеличенному уровню сигнала, захватываемого формирователем 303 диаграммы направленности, и уровень сигнала выходного аудиосигнала со сформированной диаграммой направленности увеличится. Кроме того, поскольку фильтры диаграммы направленности адаптированы к прямой волне и ранним отражениям, и во время начального нарастания громкости это все, что принято от нарастания громкости, будет захвачена большая часть энергии, принятой от источника речи, и, таким образом, уровень выходного аудиосигнала со сформированной диаграммой направленности увеличится, в то время как уровень сигнала опорного сигнала шума останется постоянным. Таким образом, уровень выходного аудиосигнала со сформированной диаграммой направленности относительно уровня опорного сигнала шума значительно увеличится, и это может быть обнаружено как нарастание громкости речи.
Кроме того, после некоторой задержки поздние отражения от нарастания громкости поступят в массив микрофонов. Однако, если они поступят с задержкой, которая дольше, чем продолжительность импульсных характеристик фильтров диаграммы направленности (т.е. они представляют собой отражения характеристики помещения с задержкой, которая превышает продолжительность импульсных характеристик фильтров диаграммы направленности), они не будут когерентно объединены в выходной аудиосигнал со сформированной диаграммой направленности, но как следствие также будут вносить вклад в опорный сигнал шума. Таким образом, уровень выходного аудиосигнала со сформированной диаграммой направленности больше не будет выше уровня опорного сигнала шума (в предположении, что поздние отражения являются более сильными), и в результате детектор 307 больше не будет обнаруживать нарастание громкости речи.
Таким образом, такой детектор 307 может, в частности, обнаружить нарастание громкости речи в отличие от простого присутствия речи. Кроме того, это может выполняться постоянно во время речевого сегмента, и действительно подход может дать возможность автоматизированного обнаружения любого нарастания громкости речи, приводящего к доминированию ранних отражений над поздними отражениями. Это может обеспечить очень эффективный подход.
Действительно, в некоторых вариантах осуществления и начало, и окончание временного интервала адаптации могут быть определены в ответ на выходную информацию детектора 307. В частности, временной интервал адаптации может быть инициирован, когда детектор 307 указывает, что было обнаружено нарастание громкости речи (например, разность уровней сигнала превышает порог), и длиться до тех пор, пока детектор 307 не перестанет обнаруживать нарастание громкости речи (например, разность уровней сигнала больше не превышает порог). В некоторых вариантах осуществления может быть определено, что окончание временного интервала адаптации возникает по окончании срока предварительно определенной продолжительности. В других вариантах осуществления время окончания может быть определено по окончании срока с предварительно определенной максимальной продолжительностью, или может быть определено, что временной интервал адаптации заканчивается до этого, если обнаружены особые условия.
Далее будет описан конкретный и особенно эффективный подход для обнаружения нарастания громкости речи. Подход основан на подходе сравнения выходного аудиосигнала со сформированной диаграммой направленности с опорным сигналом шума, но будет основан на сравнениях в индивидуальных частотно-временных фрагментах. Было обнаружено, что подход обеспечивает обнаружение, которое является очень надежным, и обеспечивает очень эффективные рабочие характеристики во многих практических сценариях, в том числе, в частности, сценарии, в которых источник звука находится вне радиуса реверберации, и когда присутствует существенный шум.
В подходе детектор 307 на фиг. 3 содержит элементы, показанные на фиг. 8. В частности, детектор 307 содержит детектор 307, который выполнен с возможностью генерировать оценку нарастания громкости речи, указывающую, возникает ли нарастание громкости речи или нет. Детектор 307 определяет эту оценку на основе выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала шума, сгенерированного формирователем 303 диаграммы направленности.
Детектор 307 содержит первый преобразователь 801, выполненный с возможностью генерировать первый сигнал в частотной области посредством применения частотного преобразования к выходному аудиосигналу со сформированной диаграммой направленности. В частности, выходной аудиосигнал со сформированной диаграммой направленности разделяется на временные сегменты/интервалы. Каждый временной сегмент/интервал содержит группу отсчетов, которые преобразовываются, например, посредством преобразования FFT в группу отсчетов в частотной области. Таким образом, первый сигнал в частотной области представлен отсчетами в частотной области, где каждый отсчет в частотной области соответствует заданному временному интервалу (соответствующему кадру обработки) и заданному частотному интервалу. Каждый такой частотный интервал и временной интервал обычно находятся в области, известной как частотно-временной фрагмент. Таким образом, первый сигнал в частотной области представлен значением для каждого из множества частотно-временных фрагментов, т.е., значениями частотно-временных фрагментов.
Детектор 307 дополнительно содержит второй преобразователь 803, который принимает опорный сигнал шума. Второй преобразователь 803 выполнен с возможностью генерировать второй сигнал в частотной области посредством применения частотного преобразования к опорному сигналу шума. В частности, опорный сигнал шума разделяется на временные сегменты/интервалы. Каждый временной сегмент/интервал содержит группу отсчетов, которые преобразовываются, например, посредством преобразования FFT в группу отсчетов в частотной области. Таким образом, второй сигнал в частотной области представлен значением для каждого из множества частотно-временных фрагментов, т.е., значениями частотно-временных фрагментов.
Фиг. 9 иллюстрирует конкретный пример функциональных элементов возможных реализаций первого и второго блоков 801, 803 преобразования. В примере последовательно-параллельный конвертер генерирует накладывающиеся блоки (кадры) из 2B отсчетов, которые затем обрабатываются с помощью оконной функции Хеннинга и преобразовываются в частотную область посредством быстрого преобразования Фурье (FFT).
Выходной аудиосигнал со сформированной диаграммой направленности и опорный сигнал шума далее обозначаются как z(n) и x(n) соответственно, и первый и второй сигналы в частотной области обозначаются как векторы и (каждый вектор содержит все М значений частотных фрагментов для заданного временного сегмента/кадра обработки/преобразования).
Во многих вариантах осуществления формирователь 303 диаграммы направленности, как и в примере фиг. 1, может содержать адаптивный фильтр, который ослабляет или удаляет шум в выходном аудиосигнале со сформированной диаграммой направленности, который коррелируется с опорным сигналом шума.
После преобразования в частотную область действительные и мнимые составляющие частотно-временных значений, как предполагается, подчинены Гауссовскому распределению. Это предположение обычно является точным, например, для сценариев с шумом, происходящим из рассеянных звуковых полей, для шума датчика и для многих других источников шума, испытываемого во многих практических сценариях.
Первый преобразователь 801 и второй преобразователь 803 присоединены к процессору 805 разности, который выполнен с возможностью генерировать меру различия частотно-временного фрагмента для индивидуальных частотных фрагментов. В частности, он генерируют меру различия для текущего кадра для каждого элемента разрешения по частоте, полученного в результате преобразований FFT. Мера различия генерируется из соответствующих значений частотно-временных фрагментов выходного аудиосигнала со сформированной диаграммой направленности и опорных сигналов шума, т.е., первого и второго сигналов в частотной области.
В частности мера различия для данного частотно-временного фрагмента генерируется, чтобы отразить разность между первой монотонной функцией нормы значения частотно-временного фрагмента первого сигнала в частотной области (т.е. выходного аудиосигнала со сформированной диаграммой направленности) и второй монотонной функцией нормы значения частотно-временного фрагмента второго сигнала в частотной области (опорный сигнал шума). Первые и вторые монотонные функции могут быть тем же самым или могут отличаться.
Нормы обычно могут представлять собой норму L1 или норму L2. В большинстве вариантов осуществления, эта мера различия частотно-временного фрагмента может быть определена как мера различия, отражающая разность между монотонной функцией магнитуды или мощности значения первого сигнала в частотной области и монотонной функцией магнитуды или мощности значения второго сигнала в частотной области.
Монотонные функции обычно могут обе являться монотонно возрастающими, но в некоторых вариантах осуществления могут обе являться монотонно убывающими.
Очевидно, что в разных вариантах осуществления могут использоваться разные меры различия. Например, в некоторых вариантах осуществления мера различия может быть определена просто посредством вычитания результатов первой и второй функций друг из друга. В других вариантах осуществления они могут быть разделены друг на друга, чтобы сгенерировать отношение, указывающее различие, и т.д.
Процессор 805 разности соответствующим образом генерирует меру различия частотно-временного фрагмента для каждого частотно-временного фрагмента, и мера различия указывает относительный уровень соответственно выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала шума на этой частоте.
Процессор 805 разности присоединен к блоку 807 оценки нарастания громкости речи 807, который генерирует оценку нарастания громкости речи в ответ на комбинированное значение разности для мер различия частотно-временного фрагмента для частот, находящихся выше порога частоты. Таким образом, блок 807 оценки нарастания громкости речи генерирует оценку нарастания громкости речи, комбинируя меры различия частотного фрагмента для частот выше заданной частоты. Комбинация, в частности, может представлять собой суммирование или, например, взвешенную комбинацию, которая включает в себя частотно зависимое взвешивание всех мер различия частотно-временных фрагментов выше заданной пороговой частоты.
Оценка нарастания громкости речи, таким образом, генерируется для отражения относительной специфической для частоты разности между уровнями выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала шума на данной частоте. Пороговая частота обычно может составлять более 500 Гц.
Авторы изобретения установили, что такая мера обеспечивает верный признак того, возникает ли нарастание громкости речи или нет. Действительно, они установили, что специфическое для частоты сравнение вместе с ограничением на более высокие частоты на практике обеспечивает улучшенный показатель присутствия нарастания громкости речи. Кроме того, они установили, что оценка подходит для применения в акустических средах и сценариях, в которых традиционные подходы не обеспечивают точные результаты. В частности, описанный подход может обеспечить эффективное и точное обнаружение нарастания громкости речи даже для не доминирующих источников речи, которые находятся далеко от массива 301 микрофонов (и вне радиуса реверберации), и в присутствии сильного рассеянного шума.
Во многих вариантах осуществления блок 807 оценки нарастания громкости речи может быть выполнен с возможностью генерировать оценку нарастания громкости речи, чтобы просто указать, было ли обнаружено нарастание громкости речи или нет. В частности, блок оценки 807 нарастания громкости речи может быть выполнен с возможностью указывать, что нарастание громкости речи было обнаружено, поскольку комбинированное значение разности превышает порог. Таким образом, если сгенерированное комбинированное значение разности указывает, что разность выше заданного порога, тогда считается, что в выходном аудиосигнале со сформированной диаграммой направленности было обнаружено нарастание громкости речи. Если комбинированное значение разности ниже порога, то считается, что в выходном аудиосигнале со сформированной диаграммой направленности не было обнаружено нарастание громкости речи.
Описанный подход, таким образом, может обеспечить обнаружение нарастания громкости речи или нарастание громкости с низкой сложностью. В частности, следует отметить, что оценка нарастания громкости речи может проявлять ранее описанные характеристики, а именно, что в течение тихих периодов или периодов с постоянным уровнем сигнала оценка будет низкой; во времена нарастания громкости, когда принимаются ранние отражения, но не поздние отражения нарастания громкости, оценка будет высокой; и после нарастания громкости, когда принимаются сильные поздние отражения нарастания громкости (которые находятся вне интервала импульсной характеристики), оценка будет низкой. Таким образом, подход позволяет, чтобы оценка нарастания громкости речи непосредственно указывала, что возникает нарастание громкости речи, вместо того чтобы просто обнаруживать присутствие речи. Также было обнаружено, что данный подход обеспечивает очень эффективные рабочие характеристики на практике, и действительно, обеспечивает эффективное обнаружение для источников речи, находящихся вне интервала реверберации, и при наличии сильного шума в результате поздних отражений и ревербераций.
Далее будет описан конкретный пример очень эффективного определения оценки нарастания громкости речи.
В примере формирователь 303 диаграммы направленности, как ранее описано, может адаптироваться, чтобы сфокусироваться на целевом источнике речи. Это может обеспечить выходной аудиосигнал со сформированной диаграммой направленности, который сфокусирован на источнике, а также опорный сигнал шума, который указывает поздние реверберации и, возможно, аудио от других источников. Выходной аудиосигнал со сформированной диаграммой направленности обозначен как z(n), и опорный сигнал шума как x(n). И z(n), и x (n) обычно могут быть загрязнены поздней реверберацией и, возможно, шумом, которые оба могут быть смоделированы как рассеянный шум.
Пусть Z(tk, ωl) - (комплексный) первый сигнал в частотной области, соответствующий выходному аудиосигналу со сформированной диаграммой направленности. Этот сигнал состоит из целевого (прямая волна плюс первые отражения) речевого сигнала Zs(tk, ωl) и реверберированного речевого сигнала Zr(tk, ωl) (который включает в себя реверберацию и поздние отражения, которые не могут быть смоделированы фильтрами диаграммы направленности формирователя диаграммы направленности):
Если бы амплитуда была известна, было бы возможно вывести переменную d следующим образом:
которая показательна для речевой амплитуды .
Второй сигнал в частотной области, т.е., представление в частотной области опорного сигнала шума x(n), может быть обозначен .
Можно предположить, что zr(n) и x(n) имеют равные дисперсии, поскольку они оба представляют рассеянный шум и получены посредством сложения (zr) или вычитания (x) сигналов с равными дисперсиями, из этого следует, что действительные и мнимые части и также имеют равные дисперсии. Таким образом, в приведенном выше уравнении можно заменить на .
В случае, когда речь отсутствует (и, таким образом, ), это приводит к:
где и будут иметь распределение Рэлея, поскольку действительные и мнимые части имеют Гауссовские распределения и независимы.
Математическое ожидание разности двух стохастических переменных равно разности математических ожиданий, и, таким образом, значение математического ожидания приведенной выше меры различия частотно-временного фрагмента будет равно нулю:
Дисперсия разности двух стохастических сигналов равна сумме отдельных дисперсий, и таким образом:
Теперь дисперсия может быть сокращена посредством усреднения и по L независимым значениям в плоскости , что дает
Сглаживание (низкочастотная фильтрация) не изменяет математическое ожидание, таким образом, мы имеем:
Дисперсия разности двух стохастических сигналов равна сумме отдельных дисперсий:
Таким образом, усреднение сокращает дисперсию шума.
Таким образом, среднее значение разности частотно-временных фрагментов, измеренное при отсутствии речи, равно нулю. Однако в присутствии речи (прямая волна плюс первые отражения), среднее значение увеличится. В частности, усреднение по L значениям речевой составляющей будет иметь намного меньший эффект, поскольку все элементы будут положительными и
Таким образом, когда речь присутствует, среднее значение приведенной выше меры различия частотно-временного фрагмента будет больше нуля:
Мера различия частотно-временного фрагмента может быть модифицирована посредством применения конструктивного параметра в форме коэффициента повторного вычитания , который больше 1:
В этом случае значение математического ожидания будет меньше нуля, когда речь (прямая волна плюс первые отражения) отсутствует, и когда речь присутствует, но доминирующие поздние отражения поступают с задержкой, находящейся вне длины/продолжительность импульсных характеристик фильтров диаграммы направленности. Однако коэффициент повторного вычитания может быть выбран таким образом, что значение математического ожидания в присутствии нарастания громкости речи будет, как правило, больше нуля.
Чтобы сгенерировать оценку нарастания громкости речи, меры различия частотно-временных фрагментов для множества частотно-временных фрагментов могут быть комбинированы, например, посредством простого суммирования. Кроме того, комбинация может быть выполнена с возможностью включать в себя только частотно-временные фрагменты для частот, которые выше первого порога, и, возможно, только для частотно-временных фрагментов, которые ниже второго порога.
В частности, оценка нарастания громкости речи может быть сгенерирована как:
Эта оценка нарастания громкости речи может указывать количество энергии в выходном аудиосигнале со сформированной диаграммой направленности от целевого источника речи, принятом в окне импульсных характеристик фильтра диаграммы направленности, относительно количества энергии в опорном сигнале шума. Таким образом, это может обеспечить особенно эффективную меру для различения нарастания громкости речи. В частности, нарастание громкости речи может считаться присутствующим, если является положительным. Если является отрицательным, считается, что целевой источник речи не найден, или что доминируют поздние отражения, находящиеся вне окна импульсной характеристики. Очевидно, что в других вариантах осуществления могут использоваться другие, отличные от нуля пороги.
Очевидно, что хотя приведенное выше описание иллюстрирует предпосылки и преимущества этого подхода системы на фиг. 3, много вариаций и модификаций может быть применено без отступления от подхода.
Очевидно, в других вариантах осуществления могут использоваться другие функции и подходы для определения меры различия, отражающей, например, разность между магнитудами выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала шума. Действительно, использование других норм или применение других функций к нормам могут обеспечить другим оценкам другие свойства, но могут по-прежнему давать в результате меры различия, которые указывают лежащие в основе различия между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом шума в заданном частотно-временном фрагменте.
Таким образом, хотя описанные ранее конкретные подходы могут обеспечить эффективные рабочие характеристики во многих вариантах осуществления, в других вариантах осуществления может использоваться много других функций и подходов в зависимости от конкретных характеристик приложения.
В более общем случае мера различия может быть вычислена как:
где f1(x) и f2(x) могут быть выбраны как любые монотонные функции, удовлетворяющие конкретным предпочтениям и требованиям индивидуального варианта осуществления. Обычно функции f1(x) и f2(x) f1 (x) будут монотонно возрастающими или убывающими функциями. Также очевидно, что вместо простого использования магнитуды могут использоваться другие нормы (например, норма L2).
Мера различия частотно-временного фрагмента в приведенном выше примере указывает разность между первой монотонной функцией f1(x) магнитуды (или другой нормы) значения частотно-временного фрагмента первого сигнала в частотной области и второй монотонной функцией f2(x) магнитуды (или другой нормы) значения частотно-временного фрагмента второго сигнала в частотной области. В некоторых вариантах осуществления первая и вторая монотонные функции могут быть разными функциями. Однако в большинстве вариантов осуществления обе функции будут равны.
Кроме того, одна или обе из функций f1(x) и f2(x) могут зависеть от различных других параметров и мер, таких как, например, общий усредненный уровень мощности сигналов микрофонов, частота и т.д.
Во многих вариантах осуществления одна или обе из функций f1(x) и f2(x) могут зависеть от значений сигналов для других частотных фрагментов, например, посредством усреднения одного или более из , , , , или по другим фрагментам в частотном и/или временном измерении (т.е., усреднения значений для переменных индексов k и/или l). Во многих вариантах осуществления может быть выполнено усреднение по соседнему окружению, простирающемуся и во временном, и в частотном измерениях. Конкретные примеры, основанные на приведенных ранее конкретных уравнениях меры различия, будут описаны позже, но очевидно, что соответствующие подходы также могут быть применены к другим алгоритмам или функциям, определяющим меру различия.
Примеры возможных функций для определения меры различия включают в себя, например:
где α и β - конструктивные параметры, и обычно α=β, как, например, в:
;
где - подходящая функцией взвешивания, используемая для обеспечения желаемых спектральных характеристик меры различия и оценки нарастания громкости речи.
Очевидно, что эти функции являются лишь иллюстративными, и что может быть предусмотрено много других уравнений и алгоритмов для вычисления меры расстояния.
В приведенных выше уравнениях коэффициент представляет коэффициент, который введен, чтобы сместить меру различия к отрицательным значениям. Очевидно, что хотя конкретные примеры вводят это смещение посредством простого масштабного коэффициента, применяемого к частотно-временному фрагменту опорного сигнала шума, возможны многие другие подходы.
Действительно, может использоваться любой подходящий способ разместить первую и вторую функции f1(x) и f2(x), чтобы обеспечить смещение к отрицательным значениям. Смещение представляет собой, в частности, как в предыдущих примерах, уклон, который генерирует ожидаемые значения меры различия, которые являются отрицательными, если речь отсутствует, или если речь принята посредством главным образом (слишком) поздних отражений. Действительно, если и выходной аудиосигнал со сформированной диаграммой направленности, и опорный сигнал шума будут содержать только случайный шум (например, значения отсчетов могут быть симметрично и беспорядочно распределены вокруг значения математического ожидания), ожидаемое значение меры различия будет отрицательным, а не нулевым. В предыдущем конкретном примере это было достигнуто посредством коэффициента повторного вычитания , который привел к отрицательным значениям, когда нет нарастания громкости речи.
Пример детектора 307 на основе описанных соображений обеспечен на фиг. 10. В примере выходной аудиосигнал со сформированной диаграммой направленности и опорный сигнал шума обеспечиваются первому преобразователю 801 и второму преобразователю 803, которые генерируют соответствующие первый и второй сигналы в частотной области.
Сигналы в частотной области генерируются, например, посредством вычисления оконного преобразования Фурье (STFT), например, накладывающихся обработанных с помощью оконной функции Хеннинга блоков сигнала во временной области. Преобразование STFT является в целом функцией и времени, и частоты и выражается двумя аргументами tk и ωl, где tk=kB является дискретным временем, и где k - индекс кадра, B - смещение кадра, и ωl=l ω0 является (дискретной) частотой, где l - индекс частоты, и ω0 обозначает элементарный шаг по частоте.
После этого преобразования в частотной области тем самым обеспечиваются сигналы в частотной области, представленные векторами и соответственно длины.
Преобразование в частотной области в конкретном примере подается блокам 1001, 1003 магнитуды, которые определяют и выдают магнитуды двух сигналов, т.е., они генерируют значения
и .
В других вариантах осуществления могут использоваться другие нормы, и обработка может включать в себя применение монотонных функций.
Блоки 1001, 1003 магнитуды присоединены к низкочастотному фильтру 1005, который может сглаживать значения магнитуды. Фильтрация/сглаживание может выполняться во временной области, в частотной области, или часто предпочтительно в обеих из них, т.е. фильтрация может простираться и во временном, и в частотном измерениях.
Сигналы/векторы , и с отфильтрованной магнитудой будет также упоминаться как и .
Фильтр 1005 присоединен к процессору 805 разности, который выполнен с возможностью определять меру различия частотно-временного фрагмента. В качестве конкретного примера процессор 805 разности может генерировать меры различия частотно-временного фрагмента как:
Конструктивный параметр обычно может находиться в диапазоне 1...2.
Процессор 805 разности присоединен к блоку 807 оценки нарастания громкости речи, которому подаются меры различия частотно-временных фрагментов, и который в ответ продолжает определять оценку нарастания громкости речи посредством их комбинирования.
В частности, сумма мер различия частотно-временных фрагментов для значений частоты между и может быть определена как:
В некоторых вариантах осуществления это значение может являться выходом из детектора 307. В других вариантах осуществления определенное значение может быть сравнено с порогом и использоваться, чтобы генерировать, например, двоичное значение, указывающее, считается ли нарастание громкости речи обнаруженным или нет. В частности, значение e(tk) может быть сравнено с нулевым порогом, т.е., если значение отрицательное, то считается, что нарастание громкости речи не было обнаружено, и если положительное, то считается, что нарастание громкости речи было обнаружено в выходном аудиосигнале со сформированной диаграммой направленности.
В примере детектор 307 включает в себя низкочастотную фильтрацию/усреднение для значений частотно-временных фрагментов магнитуды выходного аудиосигнала со сформированной диаграммой направленности и для значений частотно-временных фрагментов магнитуды опорного сигнала шума.
Сглаживание, в частности, может быть выполнено посредством выполнения усреднения по соседним значениям. Например, следующая низкочастотная фильтрация может быть применена к первому сигналу в частотной области:
*W(m,n),
где (при N=1) W - матрица размером 3*3 с весовыми коэффициентами 1/9. Очевидно, что в других вариантах осуществления безусловно могут использоваться другие значения N, и, аналогичным образом, могут использоваться разные временные интервалы. Действительно, размер, по которому выполняется фильтрация/сглаживание, может изменяться, например, в зависимости от частоты (например, большее ядро применяется для более высоких частот, чем для более низких частот).
Действительно, очевидно, что фильтрация может быть достигнута посредством применения ядра, имеющего подходящее расширение и в направлении времени (количество рассматриваемых соседних временных кадров), и в направлении частоты (количество рассматриваемых соседних элементов разрешения по частоте), и действительно, что размер ядра, таким образом, может быть различным, например, для разных частот или для разных свойств сигнала.
Кроме того, разные ядра, представленные как W(m,n) в приведенном выше уравнении, могут быть различными, и это аналогичным образом могут быть динамические вариации, например, для разных частот или в ответ на свойства сигнала.
Фильтрация не только сокращает позднюю реверберацию и шум и, таким образом, обеспечивает более точную оценку, но, в частности, увеличивает дифференциацию между речью (прямая волна плюс первые отражения) и поздними реверберациями и шумом. Действительно, фильтрация окажет в значительной степени более высокое влияние на позднюю реверберацию и шум, чем на прямую волну и первые отражения точечного источника звука, и это приводит к большей разности, генерируемой для мер различия частотно-временных фрагментов.
Корреляция между выходным аудиосигналом со сформированной диаграммой направленности и сигналом (сигналами) шума для формирователей диаграммы направленности, таких как формирователь диаграммы направленности на фиг. 1, как было обнаружено, сокращается при увеличении частот. В соответствии с этим оценка нарастания громкости речи генерируется в ответ только на меры различия частотно-временных фрагментов для частот, которые выше порога. Это приводит к увеличенной декорреляции и, соответственно, к большей разности между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом шума, когда присутствует речь. Это приводит к более точному обнаружению точечных источников звука в выходном аудиосигнале со сформированной диаграммой направленности.
Во многих вариантах осуществления были обнаружены эффективные рабочие характеристики посредством ограничения оценки нарастания громкости речи, чтобы она была основана на мере различия частотно-временного фрагмента только для частот не ниже 500 Гц, или в некоторых вариантах осуществления преимущественно не ниже 1 кГц или даже 2 кГц.
Однако в некоторых приложениях или сценариях значительная корреляция между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом шума может оставаться даже для относительно высоких звуковых частот, и в некоторых сценариях для всего диапазона звуковых частот.
Действительно, в идеальном сферически изотропном рассеянном звуковом поле выходной аудиосигнал со сформированной диаграммой направленности и опорный сигнал шума будут частично коррелированы с тем последствием, что ожидаемые значения и не будут равны, и, таким образом, не может без затруднений быть заменено на .
Это может быть понятно при рассмотрении характеристик идеального сферически изотропного рассеянного звукового поля. Когда два микрофона помещены в такое поле на расстоянии d друг от друга и имеют сигналы микрофонов и соответственно, мы имеем:
и
с волновым числом (c - скорость звука), и дисперсия действительной и мнимой частей и , которые имеют Гауссовские распределения.
Предположим, что формирователь диаграммы направленности является простым формирователем диаграммы направленности с задержкой и суммированием с 2 микрофонами и формирует поперечный луч диаграммы направленности (т.е., задержки являются нулевыми).
Мы можем написать:
и для опорного сигнала шума:
Для ожидаемых значений мы получаем в предположении, что присутствуют только поздние реверберации, и, возможно, шум:
= 4 +4
= 4 (1+).
Аналогичным образом, мы получаем для :
Таким образом, для низких частот и не будет равны.
В некоторых вариантах осуществления детектор 307 может быть выполнен с возможностью компенсировать такую корреляцию. В частности, детектор 307 может быть выполнен с возможностью определять оценки когерентности шума , которая указывает корреляцию между амплитудой опорного сигнала шума и амплитудой шумовой составляющей выходного аудиосигнала со сформированной диаграммой направленности. Определение мер различия частотно-временных фрагментов тогда может являться функцией этой оценки когерентности.
Действительно, во многих вариантах осуществления детектор 307 может быть выполнен с возможностью определять когерентность для выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала шума из формирователя диаграммы направленности на основе отношения между ожидаемыми амплитудами:
где - оператор математического ожидания. Термин когерентности является показателем средней корреляции между амплитудами шумовой составляющей в выходном аудиосигнале со сформированной диаграммой направленности и амплитудами опорного сигнала шума.
Поскольку не зависит от мгновенного аудио в микрофонах, но вместо этого зависит от пространственных характеристик шумового звукового поля, изменение как функция времени намного меньше, чем изменения во времени Zr и Xn.
В результате может быть оценено относительно точно посредством усреднения и по времени в периоды, когда не присутствует речь прямой волны и первые отражения. Подход для выполнения этого раскрыт в документе US 7 602 926, который конкретно описывает способ, в котором обнаружение речи не является необходимым для определения .
Очевидно, что для определения оценки когерентности шума может использоваться любой подходящий подход. Например, для каждого частотно-временного фрагмента, где не превышает определенный порог, указывающего, что речь прямой волны и ранние отражения не являются доступными/доминирующими, можно сравнить первый и второй сигналы в частотной области, и оценка корреляции шума может быть определена просто как среднее отношение значений частотно-временных фрагментов первого сигнала в частотной области и второго сигнала в частотной области.
Для идеального сферически изотропного поля рассеянного шума функция когерентности также может быть аналитически определена в соответствии с описанным выше подходом.
На основе этой оценки может быть заменено на , а не просто на . Это может привести к мерам различия частотно-временных фрагментов, заданным как:
Таким образом, предыдущую меру различия частотно-временного фрагмента можно считать конкретным примером упомянутой выше меры различия с функцией когерентности, установленной равной постоянному значению 1.
Использование функции когерентности может позволить использовать подход на более низких частотах, в том числе на частотах, на которых существует относительно сильная корреляция между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом шума.
Очевидно, что подход во многих вариантах осуществления может еще более предпочтительно дополнительно включать в себя адаптивный компенсатор, который выполнен с возможностью устранять составляющую сигнала выходного аудиосигнала со сформированной диаграммой направленности, которая коррелирована по меньшей мере с одним опорным сигналом шума. Например, аналогично примеру на фиг. 1 адаптивный фильтр может иметь опорный сигнал шума в качестве входа и с выходом, вычитаемым из выходного аудиосигнала со сформированной диаграммой направленности. Адаптивный фильтр, например, может быть выполнен с возможностью минимизировать уровень полученного в результате сигнала в течение временных интервалов, в которых не присутствует речь.
Таким образом, понимание того, что во время нарастания громкости речи выходной аудиосигнал со сформированной диаграммой направленности от формирователя диаграммы направленности будет большим по сравнению с опорными шумами, и что опорные шумы будут увеличиваться (относительно выходного сигнала), когда поздние и потенциально доминирующие отражения будут приняты (и что даже более поздние отражения могут быть смоделированы как прибывающие из рассеянного звукового поля), привело к разработке заданной оценки нарастания громкости речи. Действительно, сгенерированная мера e(tk) обеспечивает отличный показатель относительно того, доминируют ли прямая волна и первые отражения над сигналами микрофона (e(tk) положительный), или доминируют оставшиеся поздние отражения и/или рассеянное эхо над сигналами микрофона (e(tk) отрицательный). Это также позволяет формирователю диаграммы направленности адаптироваться во время частых интервалов в течение типичного речевого сегмента. Действительно, это не ограничено адаптацией только в самом начале речевого сегмента после паузы, но позволяет адаптации возникать каждый раз, когда во время речевого сегмента возникает нарастание громкости.
Очевидно, что известно много разных подходов для адаптации формирователя диаграммы направленности и для определения подходящих значений обновления для фильтров диаграммы направленности, и что любой подходящий подход может использоваться адаптером на фиг. 3 (или 11).
Также очевидно, что могут использоваться разные размеры шага адаптации, и, таким образом, разные скорости адаптации или ширина частотной полосы. Действительно, во многих вариантах осуществления размер шага адаптации может быть предпочтительно сделан адаптивным и может динамически изменяться.
Действительно, было обнаружено, что во многих вариантах осуществления для скорости адаптации (которая для постоянной частоты обновлений может соответствовать размеру, магнитуде или масштабированию изменений параметров формирования диаграммы направленности) может иметь преимущество индивидуально адаптироваться для отдельных частотно-временных фрагментов. Действительно, авторы изобретения установили, что имеет особое преимущество адаптировать скорость адаптации к заданному частотно-временному фрагменту в ответ на разность частотно-временного фрагмента для того фрагмента. В частности, скорость адаптации или размер могут масштабироваться посредством коэффициента, который зависит от меры различия для этого частотно-временного фрагмента. Эффект такого подхода состоит в том, что он будет обычно делать адаптацию зависимой от частоты.
В качестве конкретного примера размер шага адаптации может быть умножен на зависимую от частоты функцию усиления, которая варьируется между 0 и 1, и которая зависит от меры различия для индивидуального частотно-временного фрагмента. Возможная функция усиления, в частности:
Этот коэффициент усиления имеет такой признак, что для ситуации, когда является малым по сравнению с , будет приблизительно равно 1. Для ситуации, когда больше, чем , будет равно 0. Таким образом, адаптация является адаптированной с зависимостью от частоты, чтобы отразить показатель нарастания громкости речи в результате сравнения энергетического уровня выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала шума.
Очевидно, что продолжительность временного интервала адаптации может отличаться в разных вариантах осуществления. Например, в некоторых вариантах осуществления временной интервал адаптации может начинаться, когда обнаружено нарастание громкости речи, и может продолжаться в течение установленного периода времени. В таких случаях может быть желательно, чтобы продолжительность адаптации была достаточно длинной, чтобы включать в себя все наращивание речи, и все же предпочтительно не включать в себя адаптацию, когда сильные поздние отражения становятся доминирующими.
Во многих вариантах осуществления желательно, чтобы временной интервал адаптации не был слишком длинным, и действительно было обнаружено, что улучшенные рабочие характеристики часто обнаруживаются для продолжительности менее 100 мс.
Подход может быть дополнительно проиллюстрирован (искусственным) примером. Сначала, если считается, что речевой сигнал состоит из единственного импульса Дирака, тогда сигналы, принятые в микрофонах, представляют собой импульсную характеристику помещения. Если предполагается, что фильтр диаграммы направленности может смоделировать, например, первые 16 мс (т.е. длина импульсной характеристики фильтра диаграммы направленности составляет 16 мс), то после того, как первый звук достигает микрофонов, только первые 16 мс звука являются полезными, поскольку только они могут быть смоделированы фильтром. Таким образом, было бы желательно остановить адаптацию после 16 мс.
Однако, если вместо этого предполагается, что речевой сигнал состоит из 3 последующих импульсов Дирака, каждый из которых отделен от следующего на 16 мс, но с амплитудами, например, 1, 1000, 1000000 (т.е., с увеличением на большую величину), тогда в течение первых 16 мс после поступления первого звука (обычно соответствующего прямой волне первого импульса Дирака) весь принятый звук является полезным, и к нему целесообразно адаптироваться. После 16 мс принимается нежелательный звук от первого импульса, т.е., принимаются поздние отражения от первого импульса Дирака, которые не могут быть смоделированы. Однако, кроме того, полезный и релевантный звук принимается от второго импульса Дирака (который может быть смоделирован фильтрами диаграммы направленности, как и в первые 16 мс характеристики помещения, которая может быть смоделирована). Кроме того, этот звук от второго импульса Дирака намного сильнее и, таким образом, является более полезным, чем оставшийся звук от первого импульса Дирака. Таким образом все еще желательно адаптировать формирователь 303 диаграммы направленности. Это повторяется для третьего импульса Дирака, т.е., спустя 32 мс после приема поздних отражений от первого и второго импульсов Дирака, которые не могут быть смоделированы, но в то же время от третьего пульса Дирака принимаются сильные сигналы, которые могут быть смоделированы. Таким образом, в этом сценарии будет желательно остановить адаптацию после 48 мс.
Таким образом, в этой ситуации, в которой фактически возникают три разных нарастания громкости речи (проиллюстрированные искусственным импульсом Дирака), временной интервал адаптации может быть начат при каждом обнаружении нарастания громкости речи. Действительно, прежде чем каждый временной интервал адаптации завершается, обнаруживается новое нарастание громкости речи, и временной интервал адаптации расширяется, чтобы отразить, что над поздними отражениями из предыдущей речи доминируют ранние отражения для нового нарастания громкости (вследствие более высокого уровня сигнала в результате следующего нарастания громкости).
В некоторых вариантах осуществления временной интервал адаптации может быть выполнен с продолжительностью между 50% и 200% от продолжительности импульсных характеристик. Во многих вариантах осуществления временной интервал адаптации может быть с продолжительностью, не превышающей продолжительность импульсных характеристик. В частности, в некоторых вариантах осуществления такие продолжительности могут быть установлены предварительно определенными. Например, в приведенных выше конкретных сценариях импульсные характеристики могут иметь продолжительность 16 мс, и продолжительность временного интервала адаптации может быть установлена равной 16 мс. В примере это приведет к трем последовательным временным интервалам адаптации длиной 16 мс и к общей целевой продолжительности адаптации 48 мс.
Во многих вариантах осуществления контроллер 309 может быть выполнен с возможностью определять время окончания временного интервала адаптации в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума. Например, если отношение или разность мощности сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно мощности опорного сигнала шума падают ниже заданного уровня, это может, как было описано ранее, указывать, что поздние отражения, которые не могут быть смоделированы, становятся доминирующими. В соответствии с этим контроллер может завершить адаптацию. Таким образом, в некоторых вариантах осуществления контроллер 309 может быть выполнен с возможностью завершать временной интервал адаптации до истечения срока предварительно определенной максимальной продолжительности, если обнаружено, что возникает особое условие. Это условие, в частности, может быть определено посредством сравнения уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума.
В качестве конкретного примера контроллер 309 может постоянно отслеживать значение e(tk), выведенное выше, и если оно падает ниже заданного порога (обычно нуля), адаптация может быть завершена.
Таким образом, может быть обеспечена система, в которой контроллер постоянно отслеживает изменение оценки нарастания громкости речи, например, в частности, e(tk), вследствие нестабильности речи. Если оценка нарастания громкости речи увеличивается выше порога, контроллер 309 может начать адаптацию, и когда она падает ниже порога, он может остановить адаптацию. Таким образом, система может автоматически управлять адаптацией формирователя 303 диаграммы направленности, чтобы она возникала только в течение того времени, когда прямая волна и ранние отражения, которые могут быть смоделированы, доминируют над поздними отражениями и реверберацией, которые не могут быть смоделированы.
Далее будет описано устройство захвата аудио, в котором детектор 307 нарастания громкости речи взаимодействует с другими описанными элементами, чтобы обеспечить эффективную систему захвата аудио. В частности, подход очень подходит для захвата источников звука в шумных и реверберирующих окружающих средах. Это обеспечивает эффективные рабочие характеристики для приложений, в которых целевой источник звука может находиться вне радиуса реверберации, и над аудио, захваченным микрофонами, могут доминировать рассеянный шум и поздние отражения или реверберации.
Фиг. 11 иллюстрирует пример элементов такого устройства захвата аудио в соответствии с некоторыми вариантами осуществления изобретения. Элементы и подход системы на фиг. 3 могут соответствовать системе фиг. 11, как изложено далее.
Устройство захвата аудио содержит массив 1101 микрофонов, который может непосредственно соответствовать массиву 301 микрофонов на фиг. 3. В примере массив 1101 микрофонов присоединен к опциональному эхо-компенсатору 1103, который может компенсировать эхо, происходящее из акустических источников (для которых доступен опорный сигнал), которые линейно соотносятся с эхом в сигнале (сигналах) микрофона. Этим источником, например, может являться громкоговоритель. Может быть применен адаптивный фильтр с опорным сигналом в качестве входной информации и с выходом, вычитаемым из сигнала микрофона, чтобы создать сигнал с эхо-компенсацией. Это может быть повторено для каждого отдельного микрофона.
Очевидно, что эхо-компенсатор 1103 является опциональным и просто может быть опущен во многих вариантах осуществления.
Массив микрофонов присоединен к первому формирователю 1105 диаграммы направленности, обычно либо непосредственно, либо через эхо-компенсатор 1103 (а также, возможно, через усилители, цифро-аналоговые преобразователи и т.д., как будет известно специалисту в области техники). Первый формирователь 1105 диаграммы направленности может непосредственно соответствовать формирователю 303 диаграммы направленности на фиг. 3.
Первый формирователь 1105 диаграммы направленности выполнен с возможностью комбинировать сигналы от массива 1101 микрофонов, в результате чего генерируется эффективная направленная звуковая чувствительность массива 1101 микрофонов. Первый формирователь 1105 диаграммы направленности, таким образом, генерирует выходной сигнал, называемый первым выходным аудиосигналом со сформированной диаграммой направленности, который соответствует выборочному захвату аудио в окружающей среде. Первый формирователь 1105 диаграммы направленности является адаптивным формирователем диаграммы направленности, и направленностью можно управлять, устанавливая параметры операции настройки диаграммы направленности, называемые первыми параметрами формирования диаграммы направленности, первого формирователя 1105 диаграммы направленности.
Первый формирователь 1105 диаграммы направленности присоединен к первому адаптеру 1107, который выполнен с возможностью адаптировать первые параметры формирования диаграммы направленности. Таким образом, первый адаптер 1107 выполнен с возможностью адаптировать параметры первого формирователя 1105 диаграммы направленности в результате чего можно управлять лучом диаграммы направленности.
Кроме того, устройство захвата аудио содержит множество ограниченных формирователей 1109, 1111 диаграммы направленности, каждый из которых выполнен с возможностью комбинировать сигналы от массива 1101 микрофонов, в результате чего генерируется эффективная направленная звуковая чувствительность массива 1101 микрофонов. Каждый из ограниченных формирователей 1109, 1111 диаграммы направленности, таким образом, выполнен с возможностью генерировать выходной аудиосигнал, называемый ограниченным выходным аудиосигналом со сформированной диаграммой направленности, который соответствует выборочному захвату аудио в окружающей среде. Аналогично первому формирователю 1105 диаграммы направленности ограниченные формирователи 1109, 1111 диаграммы направленности являются адаптивными формирователями диаграммы направленности, причем направленностью каждого ограниченного формирователя 1109, 1111 диаграммы направленности можно управлять, устанавливая параметры, называемые ограниченными параметрами формирования диаграммы направленности, ограниченных формирователей 1109, 1111 диаграммы направленности.
Устройство захвата аудио соответственно содержит второй адаптер 1113, который выполнен с возможностью адаптировать ограниченные параметры формирования диаграммы направленности множества ограниченных формирователей диаграммы направленности, тем самым выполняя адаптацию лучей диаграмм направленности, сформированных ими.
Формирователь 303 диаграммы направленности на фиг. 3 может непосредственно соответствовать первому ограниченному формирователю 1109 диаграммы направленности на фиг. 11. Также очевидно, что остальные ограниченные формирователи 1111 диаграммы направленности могут соответствовать первому формирователю 1109 диаграммы направленности и могут считаться его экземплярами.
И первый формирователь 1105 диаграммы направленности, и ограниченные формирователи 1109, 1111 диаграммы направленности соответственно являются адаптивными формирователями диаграммы направленности, для которых фактический сформированный луч диаграммы направленности может быть динамически адаптирован. В частности, формирователи 1105, 1109, 1111 диаграммы направленности представляют собой формирователи диаграммы направленности с фильтрацией и комбинированием (или, в частности, в большинстве вариантов осуществления, с фильтрацией и суммированием). Фильтр диаграммы направленности может быть применен к каждому из сигналов микрофонов, и фильтрованные выходы могут быть объединены, как правило, посредством простого сложения вместе.
Очевидно, что формирователь 303 диаграммы направленности на фиг. 3 может соответствовать любому из формирователей 1105, 1109, 1111 диаграммы направленности, и что действительно комментарии, представленные относительно формирователя 303 диаграммы направленности на фиг. 3, равным образом применяются к любому из первого формирователя 1105 диаграммы направленности и ограниченных формирователей 1109, 1111 диаграммы направленности на фиг. 11.
Аналогичным образом, второй адаптер 513 может непосредственно соответствовать адаптеру 305 на фиг. 3.
Во многих вариантах осуществления структура и реализации первого формирователя 1105 диаграммы направленности и ограниченных формирователей 1109, 1111 диаграммы направленности могут быть одинаковыми, например, фильтры диаграммы направленности могут иметь идентичные структуры КИХ-фильтра с одинаковым количеством коэффициентов и т.д.
Однако функциональность и параметры первого формирователя 1105 диаграммы направленности и ограниченных формирователей 1109, 1111 диаграммы направленности будут отличаться, и, в частности, ограниченные формирователи 1109, 1111 диаграммы направленности некоторым образом ограничены, а первый формирователь 1105 диаграммы направленности не ограничен. В частности, адаптация ограниченных формирователей 1109, 1111 диаграммы направленности будет отличаться от адаптации первого формирователя 1105 диаграммы направленности и, в частности, подвергнется некоторым ограничениям.
В частности, ограниченные формирователи 1109, 1111 диаграммы направленности подвергаются ограничению в том, что адаптация (обновление параметров фильтра диаграммы направленности) ограничена ситуациями с соответствием критерию, тогда как первому формирователю 1105 диаграммы направленности будет разрешено адаптироваться, даже когда нет соответствия такому критерию. Действительно, во многих вариантах осуществления первому адаптеру 1107 может быть всегда разрешено адаптировать фильтр диаграммы направленности без ограничения какими-либо свойствами аудио, захваченного первым формирователем 1105 диаграммы направленности (или любым из ограниченных формирователей 1109, 1111 диаграммы направленности). Кроме того, второй адаптер 1113 выполнен с возможностью выполнять адаптацию только в течение временных интервалов адаптации, определенных в ответ на обнаружения нарастания громкости речи.
Критерий адаптации ограниченных формирователей 1109, 1111 диаграммы направленности будет более подробно описан позже.
Во многих вариантах осуществления скорость адаптации для первого формирователя 1105 диаграммы направленности выше, чем для ограниченных формирователей 1109, 1111 диаграммы направленности. Таким образом, во многих вариантах осуществления первый адаптер 1107 может быть выполнен с возможностью выполнять адаптацию к изменениям быстрее, чем второй адаптер 1113, и, таким образом, первый формирователь 1105 диаграммы направленности может быть обновлен быстрее, чем ограниченные формирователи 1109, 1111 диаграммы направленности. Например, это может, быть достигнуто посредством низкочастотной фильтрации с максимизированным или минимизированным значением (например, уровня сигнала выходного сигнала или магнитуды сигнала ошибки) с более высокой частотой среза для первого формирователя 1105 диаграммы направленности, чем для ограниченных формирователей 1109, 1111 диаграммы направленности. В качестве другого примера максимальное изменение для обновления параметров формирования диаграммы направленности (в частности, коэффициентов фильтра диаграммы направленности) может быть выше для первого формирователя 1105 диаграммы направленности, чем для ограниченных формирователей 1109, 1111 диаграммы направленности.
В соответствии с этим в системе множество сфокусированных (с ограниченной адаптацией) формирователей диаграммы направленности, которые адаптируются медленно, и только когда имеется соответствие заданному критерию, дополнено автономным быстрее адаптирующимся формирователем диаграммы направленности, который не подвергается этому ограничению. Более медленные и сфокусированные формирователи диаграммы направленности обычно будут обеспечивать более медленную, но более точную и надежную адаптацию к заданной звуковой среде, чем автономный формирователь диаграммы направленности, который, однако, обычно будет способен быстро адаптироваться по большему интервалу параметров.
В системе на фиг. 11 эти формирователи диаграммы направленности используются совместно с синергетическим эффектом, чтобы обеспечить улучшенные рабочие характеристики, как будет описано более подробно позже.
Первый формирователь 1105 диаграммы направленности и ограниченные формирователи 1109, 1111 диаграммы направленности присоединены к выходному процессору 1115, который принимает выходные аудиосигналы со сформированной диаграммой направленности от формирователей 1105, 1109, 1111 диаграммы направленности. Конкретная выходная информация, сгенерированная устройством захвата аудио, будет зависеть от конкретных предпочтений и требований индивидуального варианта осуществления. Действительно, в некоторых вариантах осуществления выходная информация устройства захвата аудио может просто состоять из выходных аудиосигналов из формирователей 1105, 1109, 1111 диаграммы направленности.
Во многих вариантах осуществления выходной сигнал выходного процессора 1115 генерируется как комбинация выходных аудиосигналов от формирователей 1105, 1109, 1111 диаграммы направленности. Действительно, в некоторых вариантах осуществления может быть выполнено простое выборочное комбинирование, например, выбор выходных аудиосигналов, для которых отношение сигнал-шум или просто уровень сигнала являются наиболее высокими.
Таким образом, выбор выходной информации и пост-обработка выходного процессора 1115 могут быть специализированными и/или разными в разных реализациях/вариантах осуществления. Например, может быть обеспечена выходная информация всех возможных сфокусированных лучей диаграммы направленности, выбор может быть сделан на основе критерия, определенного пользователем (например, выбирается наиболее громкий говорящий) и т.д.
Для приложения голосового управления, например, все выходы могут быть переадресованы устройству распознавания голосового инициирования, которое выполнено с возможностью обнаруживать конкретное слово или фразу, чтобы инициализировать голосовое управление. В таком примере выходной аудиосигнал, в котором обнаружены инициирующее слово или фраза, может быть использован вслед за инициирующей фразой устройством голосового распознавания, чтобы обнаружить конкретные команды.
Для приложений связи, например, может быть выгодно выбирать выходной аудиосигнал, который является наиболее сильным, и, например, для которого было обнаружено присутствие конкретного точечного источника звука.
В некоторых вариантах осуществления пост-обработка, такая как шумоподавление на фиг. 1, может быть применена к выходу устройства захвата аудио (например, посредством выходного процессора 1115). Это может улучшить рабочие характеристики, например, для голосовой связи. В такую пост-обработку могут быть включены нелинейные операции, хотя, например, для некоторых устройств распознавания речи может быть более выгодно ограничить обработку включением только линейной обработки.
В системе на фиг. 11 использован эффективный подход для захвата аудио на основе синергетического взаимодействия и взаимосвязи между первым формирователем 1105 диаграммы направленности и ограниченными формирователями 1109, 1111 диаграммы направленности.
С этой целью устройство захвата аудио содержит процессор 1117 разности диаграмм направленности, который выполнен с возможностью определять меру различия между одним или более ограниченными формирователями 1109, 1111 диаграммы направленности и первым формирователем 1105 диаграммы направленности. Мера различия указывает различие между лучами диаграмм направленности, сформированными соответственно первым формирователем 1105 диаграммы направленности и ограниченным формирователем 1109, 1111 диаграммы направленности. Таким образом, мера различия для первого ограниченного формирователя 1109 диаграммы направленности может указывать различие между лучами диаграммы направленности, которые сформированы первым формирователем 1105 диаграммы направленности и первым ограниченным формирователем 1109 диаграммы направленности. Таким образом, мера различия может указывать, насколько близко эти два формирователя 1105, 1109 диаграммы направленности адаптированы к одному и тому же источнику звука.
В разных вариантах осуществления и приложениях могут использоваться разные меры различия.
В некоторых вариантах осуществления мера различия может быть определена на основе сгенерированного выходного аудиосигнала со сформированной диаграммой направленности от разных формирователей 1105, 1109, 1111 диаграммы направленности. В качестве примера простая мера различия может быть сгенерирована просто посредством измерения уровней сигнала выхода первого формирователя 1105 диаграммы направленности и первого ограниченного формирователя 1109 диаграммы направленности и сравнения их друг с другом. Чем ближе уровни сигналов друг к другу, тем ниже мера различия (обычно, мера различия также увеличивается как функция фактического уровня сигнала, например, первого формирователя 1105 диаграммы направленности).
Более подходящая мера различия во многих вариантах осуществления может быть сгенерирована посредством определения корреляции между выходным аудиосигналом со сформированной диаграммой направленности от первого формирователя 1105 диаграммы направленности и первого ограниченного формирователя 1109 диаграммы направленности. Чем выше значение корреляции, тем ниже мера различия.
В качестве альтернативы или дополнительно мера различия может быть определена на основе сравнения параметров формирования диаграммы направленности первого формирователя 1105 диаграммы направленности и первого ограниченного формирователя 1109 диаграммы направленности. Например, коэффициенты фильтра диаграммы направленности первого формирователя 1105 диаграммы направленности и фильтра диаграммы направленности первого ограниченного формирователя 1109 диаграммы направленности для заданного микрофона могут быть представлены двумя векторами. Затем может быть вычислена магнитуда вектора разности этих двух векторов. Процесс может быть повторен для всех микрофонов, и комбинированная или средняя магнитуда может быть определена и использоваться в качестве меры расстояния. Таким образом, сгенерированная мера различия отражает, насколько отличаются коэффициенты фильтров диаграммы направленности для первого формирователя 1105 диаграммы направленности и первого ограниченного формирователя 1109 диаграммы направленности, и это используется в качестве меры различия для лучей диаграмм направленности.
Таким образом, в системе на фиг. 11 генерируется мера различия, отражающая различие между параметрами формирования диаграммы направленности первого формирователя 1105 диаграммы направленности и первого ограниченного формирователя 1109 диаграммы направленности и/или различия между их выходными аудиосигналами со сформированной диаграммой направленности.
Очевидно, что генерирование, определение и/или использование меры различия непосредственно эквивалентно генерированию, определению и/или использованию меры сходства. Действительно, одна мера обычно может считаться монотонно убывающей функцией другой, и, таким образом, мера различия является также мерой сходства (и наоборот), и обычно одна мера просто указывает увеличение различий посредством увеличения значений, и другая делает это посредством уменьшения значений.
Процессор 1117 разности диаграмм направленности присоединен ко второму адаптеру 1113 и обеспечивает ему меру различия. Второй адаптер 1113 выполнен с возможностью адаптировать ограниченные формирователи 1109, 1111 диаграммы направленности в ответ на меру различия. В частности, второй адаптер 1113 выполнен с возможностью адаптировать ограниченные параметры формирования диаграммы направленности только для ограниченных формирователей диаграммы направленности, для которых было определено, что мера различия соответствует критерию сходства. Таким образом, если мера различия не была определена для заданных ограниченных формирователей 1109, 1111 диаграммы направленности, или если определенная мера различия для заданного ограниченного формирователя 1109, 1111 диаграммы направленности указывает, что лучи диаграммы направленности первого формирователя 1105 диаграммы направленности и заданного ограниченного формирователя 1109, 1111 диаграммы направленности не являются достаточно сходными, тогда адаптация не выполняется.
Таким образом, в устройстве захвата аудио на фиг. 11 ограниченные формирователи 1109, 1111 диаграммы направленности ограничены при адаптации лучей диаграммы направленности. В частности, они ограничены выполнением адаптации, только если текущий луч диаграммы направленности, сформированный ограниченным формирователем 1109, 1111 диаграммы направленности, является близким к лучу диаграммы направленности, который формирует автономный первый формирователь 1105 диаграммы направленности, т.е., индивидуальный ограниченный формирователь 1109, 1111 диаграммы направленности адаптируется, только если первый формирователь 1105 диаграммы направленности в настоящее время адаптируется достаточно близко к индивидуальному ограниченному формирователю 1109, 1111 диаграммы направленности.
В результате этого адаптацией ограниченных формирователей 1109, 1111 диаграммы направленности управляет функциональность первого формирователя 1105 диаграммы направленности, и фактически луч диаграммы направленности, сформированный первым формирователем 1105 диаграммы направленности, управляет тем, какой из ограниченных формирователей 1109, 1111 диаграммы направленности оптимизируется/адаптируется. Этот подход, в частности, может привести к тому, что ограниченные формирователи 1109, 1111 диаграммы направленности, как правило, адаптируются только тогда, когда целевой источник звука близок к текущей адаптации ограниченного формирователя 1109, 1111 диаграммы направленности.
Было обнаружено, что подход требования сходства между лучами диаграммы направленности, чтобы разрешить адаптацию, на практике приводит к значительному улучшению рабочих характеристик, когда целевой источник звука, в данном случае целевой говорящий, находится вне радиуса реверберации. Действительно, было обнаружено, что это обеспечивает очень желательные рабочие характеристики, в частности, для слабых источников звука в реверберирующих окружающих средах с не доминирующей составляющей аудио прямой волны.
Во многих вариантах осуществления ограничение адаптации может подвергнуться дополнительным требованиям.
Например, во многих вариантах осуществления адаптация может требовать, чтобы отношение сигнал-шум для выходного аудиосигнала со сформированной диаграммой направленности превышало порог. Таким образом, адаптация для индивидуального ограниченного формирователя 1109, 1111 диаграммы направленности может быть ограничена сценариями, в которых они достаточным образом адаптированы, и сигнал, на котором основана адаптация, отражает целевой аудиосигнал.
Очевидно, что в различных вариантах осуществления могут использоваться разные подходы для определения отношения сигнал-шум. Например, минимальный уровень шумов сигналов микрофонов может быть определен посредством отслеживания минимума сглаженной оценки мощности, и для каждого кадра или временного интервала мгновенная мощность сравнивается с этим минимумом. В качестве другого примера минимальный уровень шумов выхода формирователя диаграммы направленности может быть определен и сравнен с мгновенной выходной мощностью выхода со сформированной диаграммой направленности.
В некоторых вариантах осуществления адаптация ограниченного формирователя 1109, 1111 диаграммы направленности ограничена тем, когда речевая составляющая была обнаружена на выходе ограниченного формирователя 1109, 1111 диаграммы направленности. Это обеспечит улучшенные рабочие характеристики для приложений захвата речи. Очевидно, что может использоваться любой подходящий алгоритм или подход для обнаружения речи в аудиосигнале. В частности, может быть применен описанный ранее подход детектора 307.
Очевидно, что системы на фиг. 3 и 11 обычно функционируют с использованием обработки кадров или блоков. Таким образом, определены последовательные временные интервалы или кадры, и описанная обработка может быть выполнена в каждом временном интервале. Например, сигналы микрофона могут быть разделены на интервалы времени обработки, и для каждого интервала времени обработки формирователи 1105, 1109, 1111 диаграммы направленности могут генерировать выходной аудиосигнал со сформированной диаграммой направленности для временного интервала, определять меру различия, выбирать ограниченные формирователи 1109, 1111 диаграммы направленности и обновлять/адаптировать этот ограниченный формирователь 1109, 1111 диаграммы направленности и т.д. Интервалы времени обработки во многих вариантах осуществления преимущественно имеют продолжительность между 11 мс и 110 мс.
Очевидно, что в некоторых вариантах осуществления разные интервалы времени обработки могут использоваться для разных аспектов и функций устройства захвата аудио. Например, мера различия и выбор ограниченного формирователя 1109, 1111 диаграммы направленности для адаптации могут выполняться на более низкой частоте, чем, например, интервал времени обработки для формирования диаграммы направленности.
В системе адаптация дополнительно находится в зависимости от обнаружения нарастания громкости речи в выходных аудиосигналах со сформированной диаграммой направленности. В соответствии с этим устройство захвата аудио может дополнительно содержать детектор 307, уже описанный относительно фиг. 3
Детектор 307, в частности, во многих вариантах осуществления может быть выполнен с возможностью обнаруживать нарастание громкости речи в каждом из ограниченных формирователей 1109, 1111 диаграммы направленности, и в соответствии с этим детектор 307 присоединен к ним и принимает выходные аудиосигналы со сформированной диаграммой направленности. Кроме того, он принимает опорные сигналы шума от ограниченных формирователей 1109, 1111 диаграммы направленности (для ясности фиг. 11 иллюстрирует выходной аудиосигнал со сформированной диаграммой направленности и опорный сигнал шума одними линиями, т.е., линии на фиг. 11 могут рассматриваться как представляющие шину, содержащую и выходной аудиосигнал со сформированной диаграммой направленности, и сигнал (сигналы) шума, а также например, параметры формирования диаграммы направленности).
Таким образом, функциональность системы на фиг. 11 зависит от оценки нарастания громкости речи, выполняемой детектором 307 в соответствии с ранее описанными принципами. Детектор 307, в частности, может быть выполнен с возможностью генерировать оценку нарастания громкости речи для всех формирователей 1105, 1109, 1111 диаграммы направленности.
Результат обнаружения передается от детектора 307 второму адаптеру 1113, который выполнен с возможностью выполнять адаптацию в ответ на это. В частности, второй адаптер, 1113 может быть выполнен с возможностью адаптировать только те ограниченные формирователи 1109, 1111 диаграммы направленности, для которых детектор 307 указывает, что было обнаружено нарастание громкости речи. В частности, контроллер 309 на фиг. 3 может быть включен во второй адаптер 1113, который соответственно может быть выполнен с возможностью ограничивать возникновение адаптации ограниченных формирователей 1109, 1111 диаграммы направленности только в (коротких) временных интервалах адаптации после обнаружения нарастания громкости речи.
Таким образом устройство захвата аудио выполнено с возможностью ограничивать адаптацию ограниченных формирователей 1109, 1111 диаграммы направленности таким образом, что адаптируются только те ограниченные формирователи 1109, 1111 диаграммы направленности, в которых возникает нарастание громкости речи, и сформированный луч диаграммы направленности находится близко к сформированному первым формирователем 1105 диаграммы направленности. Таким образом, адаптация обычно ограничивается теми ограниченными формирователями 1109, 1111 диаграммы направленности, которые уже находятся близко к (целевому) точечному источнику звука. Подход допускает очень надежное и точное формирование диаграммы направленности, которое выполняется чрезвычайно хорошо в окружающих средах, в которых целевой источник звука может находиться вне радиуса реверберации. Кроме того, посредством функционирования и выборочного обновления множества ограниченных формирователей 1109, 1111 диаграммы направленности эта надежность и точность могут быть дополнены относительно быстрым временем реакции, позволяющим быструю адаптацию системы в целом к быстро перемещающимся или недавно появившимся источникам звука.
Во многих вариантах осуществления устройство захвата аудио может быть выполнено с возможностью адаптировать только один ограниченный формирователь 1109, 1111 диаграммы направленности за один раз. Таким образом, второй адаптер 1113 в каждом временном интервале адаптации может выбирать один из ограниченных формирователей 1109, 1111 диаграммы направленности и адаптировать только его, обновляя параметры формирования диаграммы направленности. В сценариях, в которых нарастание громкости речи было обнаружено для множества ограниченных формирователей 1109, 1111 диаграммы направленности, может быть выбран ограниченный формирователь 1109, 1111 диаграммы направленности, имеющий наиболее низкую меру различия.
В некоторых вариантах осуществления адаптация может не зависеть от меры различия луча диаграммы направленности, и действительно может случиться так, что такой показатель не определен. Действительно, в некоторых вариантах осуществления адаптация может быть основана только на оценке нарастания громкости речи.
Например, в некоторых вариантах осуществления второй адаптер 1113 может быть выполнен с возможностью позволять адаптацию всем ограниченным формирователям 1109, 1111 диаграммы направленности, для которых было обнаружено нарастание громкости речи. В некоторых вариантах осуществления второй адаптер 1113 может быть выполнен с возможностью позволять адаптацию только тем ограниченным формирователям 1109, 1111 диаграммы направленности, для которых был обнаружен самый сильный показатель относительно нарастания громкости речи.
В других вариантах осуществления второй адаптер 1113 может быть выполнен с возможностью просто выбирать ограниченный формирователь 1109, 1111 диаграммы направленности, обеспечивающий самый сильный показатель относительно нарастания громкости речи, даже если он не указывает текущего нарастания громкости речи.
В качестве конкретного примера второй адаптер 1113 может исполнить следующую операцию, выраженную на псевдокоде:
определить формирователь диаграммы направленности l, для которого является самым большим
если
> 0
то "разрешить адаптацию"=истина
иначе
если > среднее от
то "разрешить адаптацию"=истина
иначе "разрешить адаптацию"=ложь
конец
если "разрешить адаптацию" == истина
тогда адаптировать ограниченный формирователь диаграммы направленности k
конец
Таким образом, в некоторых вариантах осуществления устройство захвата аудио может быть выполнено с возможностью адаптировать заданный ограниченный формирователь диаграммы направленности, если оценка нарастания громкости речи указывает текущее нарастание громкости речи, или если оценка нарастания громкости речи сильнее для этого формирователя диаграммы направленности, чем для какого-либо другого ограниченного формирователя 1109, 1111 диаграммы направленности с подходящим допуском, Если это последнее условие соблюдается, это указывает, что речь прямой волны присутствует в формирователе диаграммы направленности l, но формирователь диаграммы направленности еще точно не сфокусирован.
Очевидно, что приведенное выше описание для ясности описало варианты осуществления изобретения в отношении различных функциональных схем, блоков и процессоров. Однако очевидно, что любое подходящее распределение функциональности между различными функциональными схемами, блоками или процессорами может использоваться без отступления от изобретения. Например, функциональность, иллюстрированная как выполняемая отдельными процессорами или контроллерами, может быть выполнена одним и тем же процессором или контроллерами. Следовательно, ссылки на конкретные функциональные блоки или схемы предназначены только для того, чтобы они рассматривались как ссылки на подходящие средства для обеспечения описанной функциональности, а не являлись показателем строгой логической или физической структуры или организации.
Изобретение может быть реализовано в любой подходящей форме, в том числе в виде аппаратных средств, программного обеспечения, программируемого оборудования или любой их комбинации. Изобретение опционально может быть реализовано по меньшей мере частично как программное обеспечение, работающее на одном или более процессорах и/или процессорах цифровых сигналов. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально и логически реализованы любым подходящим способом. Действительно, функциональность может быть реализована в единственном блоке, во множестве блоков или как часть других функциональных блоков. Таким образом, изобретение может быть реализовано в единственном блоке или может быть физически и функционально распределено между различными блоками, схемами и процессорами.
Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, не предусматривается, чтобы оно было ограничено конкретной изложенной здесь формой. Объем настоящего изобретения ограничен только сопровождающей формулой изобретения. Дополнительно, хотя может показаться, что отличительные признаки описаны в связи с конкретными вариантами осуществления, специалист в области техники поймет, что различные отличительные признаки описанных вариантов осуществления могут сочетаться в соответствии с изобретением. В формуле изобретения термин "содержит" не исключает присутствие других элементов или этапов.
Кроме того, хотя множество средств, элементов, схем или этапов способов перечисляются индивидуально, они могут быть реализованы, например, посредством единственной схемы, блока или процессора. Дополнительно, хотя отдельные отличительные признаки могут быть включены в разные пункты формулы изобретения, они могут быть успешно объединены, и включение в разные пункты формулы изобретения не подразумевает, что комбинация отличительных признаков не выполнима и/или не успешна. Кроме того, включение отличительного признака в одну категорию пунктов формулы изобретения не подразумевает ограничение для этой категории, а скорее указывает, что отличительный признак при необходимости одинаково применим к другим категориям пунктов формулы изобретения. Кроме того, порядок отличительных признаков в пунктах формулы изобретения не подразумевает какого-либо заданного порядка, в котором должны разрабатываться отличительные признаки, и, в частности, порядок отдельных этапов в пункте формулы изобретения, описывающем способ, не подразумевает, что этапы должны быть выполнены в этом порядке. Вместо этого этапы могут быть выполнены в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множество. Таким образом, единственное число, "первый", "второй" и т.д. не предотвращают множество. Знаки для ссылок в пунктах формулы изобретения обеспечены просто в качестве разъяснительного примера, который не должен рассматриваться как какое-либо ограничение объема формулы изобретения.
1. Устройство захвата аудио, содержащее:
первый формирователь (303) диаграммы направленности, выполненный с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности;
адаптер (305) для адаптации параметров формирования диаграммы направленности первого формирователя (303) диаграммы направленности;
детектор (307) для обнаружения нарастания громкости речи в выходном аудиосигнале со сформированной диаграммой направленности; и
контроллер (309) для управления возникновением адаптации параметров формирования диаграммы направленности в предварительно определенном временном интервале адаптации, определенном в ответ на обнаружение нарастания громкости речи.
2. Устройство захвата аудио по п. 1, в котором детектор (307) выполнен с возможностью обнаруживать нарастание громкости речи в ответ на уровень сигнала принятых ранних отражений относительно уровня сигнала принятых поздних отражений.
3. Устройство захвата аудио по п. 1 или 2, в котором первый формирователь (303) диаграммы направленности выполнен с возможностью генерировать по меньшей мере один опорный сигнал шума; и детектор (307) выполнен с возможностью обнаруживать нарастание громкости речи в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума.
4. Устройство захвата аудио по п. 3, в котором контроллер (309) выполнен с возможностью завершать предварительно определенный временной интервал адаптации в ответ на сравнение уровня сигнала выходного аудиосигнала со сформированной диаграммой направленности относительно уровня сигнала упомянутого по меньшей мере одного опорного сигнала шума.
5. Устройство захвата аудио по любому предыдущему пункту, в котором первый формирователь диаграммы направленности выполнен с возможностью генерировать по меньшей мере один опорный сигнал шума; и детектор (307) содержит:
первый преобразователь (801) для генерирования первого сигнала в частотной области из частотного преобразования выходного аудиосигнала со сформированной диаграммой направленности, причем первый сигнал в частотной области представлен значениями частотно-временных фрагментов;
второй преобразователь (803) для генерирования второго сигнала в частотной области из частотного преобразования упомянутого по меньшей мере одного опорного сигнала шума, причем второй сигнал в частотной области представлен значениями частотно-временных фрагментов;
процессор (805) разности, выполненный с возможностью генерировать меру различия частотно-временного фрагмента, указывающую разность между первой монотонной функцией нормы значения частотно-временного фрагмента первого сигнала в частотной области и второй монотонной функцией нормы значения частотно-временного фрагмента второго сигнала в частотной области;
блок (807) оценки нарастания громкости речи для генерирования оценки нарастания громкости речи в ответ на комбинированное значение разности для мер различия частотно-временных фрагментов для частот, которые выше порога частоты.
6. Устройство захвата аудио по п. 5, в котором детектор (307) выполнен с возможностью определять время начала для предварительно определенного временного интервала адаптации в ответ на увеличение комбинированного значения разности выше порога.
7. Устройство захвата аудио по п. 5 или 6, в котором детектор (309) выполнен с возможностью завершать предварительно определенный временной интервал адаптации в ответ на падение комбинированного значения разности ниже порога.
8. Устройство захвата аудио по любому из пп. 5-7, в котором детектор (307) выполнен с возможностью генерировать оценку когерентности шума, указывающую корреляцию между амплитудой выходного аудиосигнала со сформированной диаграммой направленности и амплитудой упомянутого по меньшей мере одного опорного сигнала шума; и по меньшей мере одна из первой монотонной функции и второй монотонной функции зависит от оценки когерентности шума.
9. Устройство захвата аудио по любому из пп. 5-8, в котором адаптер (305) выполнен с возможностью модифицировать скорость адаптации для параметров формирования диаграммы направленности для первого частотно-временного фрагмента в ответ на меру различия частотно-временного фрагмента для первого частотно-временного фрагмента.
10. Устройство захвата аудио по любому из пп. 5-9, в котором детектор (307) выполнен с возможностью фильтровать по меньшей мере одну из норм значений частотно-временных фрагментов первого сигнала в частотной области и нормы значений частотно-временных фрагментов второго сигнала в частотной области; причем фильтрация включает в себя различение частотно-временных фрагментов и по времени, и по частоте.
11. Устройство захвата аудио по любому из предыдущих пунктов, в котором продолжительность от нарастания громкости речи до конца предварительно определенного временного интервала адаптации не превышает 100 мс.
12. Устройство захвата аудио по п. 1, содержащее множество формирователей (1105, 1109, 1111) диаграммы направленности, включающих в себя первый формирователь (1105) диаграммы направленности; и детектор (309) выполнен с возможностью генерировать оценку нарастания громкости речи для каждого формирователя диаграммы направленности из множества формирователей (1105, 1109, 1111) диаграммы направленности; и дополнительно содержащее адаптер (1113) для адаптации по меньшей мере одного из множества формирователей (1105, 1109, 1111) диаграммы направленности в ответ на оценки нарастания громкости речи.
13. Устройство захвата аудио по п. 12, в котором множество формирователей (1105, 1109, 1111) диаграммы направленности содержит первый формирователь (1105) диаграммы направленности, выполненный с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности и по меньшей мере один опорный сигнал шума; и множество ограниченных формирователей (1109, 1111) диаграммы направленности, присоединенных к массиву (1101) микрофонов, и каждый из них выполнен с возможностью генерировать ограниченный выходной аудиосигнал со сформированной диаграммой направленности и по меньшей мере один ограниченный опорный сигнал шума; и в котором адаптер (1113) выполнен с возможностью адаптировать ограниченные параметры формирования диаграммы направленности для первого ограниченного формирователя диаграммы направленности для соответствия критериям, содержащим по меньшей мере одно ограничение из следующей группы:
оценка нарастания громкости речи для первого ограниченного формирователя диаграммы направленности указывает нарастание громкости речи, обнаруживаемое для первого ограниченного формирователя диаграммы направленности; и
оценка нарастания громкости речи для первого ограниченного формирователя диаграммы направленности указывает более высокую вероятность нарастания громкости речи, чем оценка нарастания громкости речи для любого другого ограниченного формирователя диаграммы направленности из множества ограниченных формирователей (1109, 1111) диаграммы направленности.
14. Устройство захвата аудио по п. 13, дополнительно содержащее:
процессор (1117) разности диаграмм направленности для определения меры различия по меньшей мере для одного из множества ограниченных формирователей (1109, 1111) диаграммы направленности, причем мера различия указывает разность между лучами диаграммы направленности, сформированными первым формирователем диаграммы направленности (1105) и упомянутым по меньшей мере одним из множества ограниченных формирователей (1109, 1111) диаграммы направленности; и
в котором адаптер (1113) выполнен с возможностью адаптировать ограниченные параметры формирования диаграммы направленности с тем ограничением, что ограниченные параметры формирования диаграммы направленности адаптируются только для ограниченных формирователей диаграммы направленности из множества ограниченных формирователей (1109, 1111) диаграммы направленности, для которых было определено, что мера различия соответствует критерию сходства.
15. Способ захвата аудио, содержащий этапы, на которых:
посредством формирователя (303) диаграммы направленности генерируют выходной аудиосигнал со сформированной диаграммой направленности;
адаптируют параметры формирования диаграммы направленности формирователя (303) диаграммы направленности;
обнаруживают нарастание громкости речи в выходном аудиосигнале со сформированной диаграммой направленности; и
управляют возникновением адаптации параметров формирования диаграммы направленности в предварительно определенном временном интервале адаптации, определенном в ответ на обнаружение нарастания громкости речи.