webrtc/modules/audio_processing/audio_processing_impl.cc - Issue 1234463003: Integrate Intelligibility with APM

Unified Diff: webrtc/modules/audio_processing/audio_processing_impl.cc

Issue 1234463003: Integrate Intelligibility with APM (Closed) Base URL: https://chromium.googlesource.com/external/webrtc.git@master

Patch Set: Addressed comments from Patch Set 7 Created 5 years, 5 months ago

Use n/p to move between diff chunks; N/P to move between comments. Draft comments are only viewable by you.

Jump to:

View side-by-side diff with in-line comments

Download patch

« no previous file with comments | « webrtc/modules/audio_processing/audio_processing_impl.h ('k') | webrtc/modules/audio_processing/include/audio_processing.h » ('j') | webrtc/modules/audio_processing/include/audio_processing.h » ('J')
Expand Comments ('e') | Collapse Comments ('c') | Hide Comments ('s')

Index: webrtc/modules/audio_processing/audio_processing_impl.cc

diff --git a/webrtc/modules/audio_processing/audio_processing_impl.cc b/webrtc/modules/audio_processing/audio_processing_impl.cc

index bbfb771182cc7196f0e8e0ca9fb63860617d6b8f..dbfa336a6a9a5f24735e8d7298a6cc73d43730e8 100644

--- a/webrtc/modules/audio_processing/audio_processing_impl.cc

+++ b/webrtc/modules/audio_processing/audio_processing_impl.cc

@@ -29,6 +29,7 @@ extern "C" {

#include "webrtc/modules/audio_processing/echo_control_mobile_impl.h"

#include "webrtc/modules/audio_processing/gain_control_impl.h"

#include "webrtc/modules/audio_processing/high_pass_filter_impl.h"

+#include "webrtc/modules/audio_processing/intelligibility/intelligibility_enhancer.h"

#include "webrtc/modules/audio_processing/level_estimator_impl.h"

#include "webrtc/modules/audio_processing/noise_suppression_impl.h"

#include "webrtc/modules/audio_processing/processing_component.h"

@@ -210,7 +211,8 @@ AudioProcessingImpl::AudioProcessingImpl(const Config& config,

#endif

beamformer_enabled_(config.Get<Beamforming>().enabled),

beamformer_(beamformer),

- array_geometry_(config.Get<Beamforming>().array_geometry) {

+ array_geometry_(config.Get<Beamforming>().array_geometry),

+ intelligibility_enabled_(config.Get<Intelligibility>().enabled) {

echo_cancellation_ = new EchoCancellationImpl(this, crit_);

component_list_.push_back(echo_cancellation_);

@@ -329,6 +331,8 @@ int AudioProcessingImpl::InitializeLocked() {

InitializeBeamformer();

+ InitializeIntelligibility();

#ifdef WEBRTC_AUDIOPROC_DEBUG_DUMP

if (debug_file_->Open()) {

int err = WriteInitMessage();

@@ -623,6 +627,7 @@ int AudioProcessingImpl::ProcessStreamLocked() {

MaybeUpdateHistograms();

AudioBuffer* ca = capture_audio_.get(); // For brevity.

if (use_new_agc_ && gain_control_->is_enabled()) {

agc_manager_->AnalyzePreProcess(ca->channels()[0], ca->num_channels(),

fwd_proc_format_.num_frames());

@@ -633,6 +638,11 @@ int AudioProcessingImpl::ProcessStreamLocked() {

ca->SplitIntoFrequencyBands();

}

+ if (intelligibility_enabled_) {

+ intelligibility_enhancer_->AnalyzeCaptureAudio(

+ ca->split_channels_f(kBand0To8kHz), split_rate_, ca->num_channels());

+ }

if (beamformer_enabled_) {

beamformer_->ProcessChunk(*ca->split_data_f(), ca->split_data_f());

ca->set_num_channels(1);

@@ -681,12 +691,25 @@ int AudioProcessingImpl::ProcessStreamLocked() {

return kNoError;

}

+int AudioProcessingImpl::ProcessReverseStream(float* const* data,

+ int samples_per_channel,

+ int rev_sample_rate_hz,

+ ChannelLayout layout) {

+ RETURN_ON_ERR(AnalyzeReverseStream(data, samples_per_channel,

+ rev_sample_rate_hz, layout));

+ if (is_rev_processed()) {

+ render_audio_->CopyTo(api_format_.reverse_stream(), data);

+ }

+ return kNoError;

int AudioProcessingImpl::AnalyzeReverseStream(const float* const* data,

int samples_per_channel,

- int sample_rate_hz,

+ int rev_sample_rate_hz,

ChannelLayout layout) {

const StreamConfig reverse_config = {

- sample_rate_hz, ChannelsFromLayout(layout), LayoutHasKeyboard(layout),

+ rev_sample_rate_hz, ChannelsFromLayout(layout), LayoutHasKeyboard(layout),

};

if (samples_per_channel != reverse_config.num_frames()) {

return kBadDataLengthError;

@@ -694,6 +717,17 @@ int AudioProcessingImpl::AnalyzeReverseStream(const float* const* data,

return AnalyzeReverseStream(data, reverse_config);

}

+int AudioProcessingImpl::ProcessReverseStream(

+ float* const* data,

+ const StreamConfig& reverse_config) {

+ RETURN_ON_ERR(AnalyzeReverseStream(data, reverse_config));

+ if (is_rev_processed()) {

+ render_audio_->CopyTo(api_format_.reverse_stream(), data);

+ }

+ return kNoError;

int AudioProcessingImpl::AnalyzeReverseStream(

const float* const* data,

const StreamConfig& reverse_config) {

@@ -726,7 +760,16 @@ int AudioProcessingImpl::AnalyzeReverseStream(

#endif

render_audio_->CopyFrom(data, api_format_.reverse_stream());

- return AnalyzeReverseStreamLocked();

+ return ProcessReverseStreamLocked();

+int AudioProcessingImpl::ProcessReverseStream(AudioFrame* frame) {

+ RETURN_ON_ERR(AnalyzeReverseStream(frame));

+ if (is_rev_processed()) {

+ render_audio_->InterleaveTo(frame, true);

+ }

+ return kNoError;

}

int AudioProcessingImpl::AnalyzeReverseStream(AudioFrame* frame) {

@@ -770,23 +813,32 @@ int AudioProcessingImpl::AnalyzeReverseStream(AudioFrame* frame) {

RETURN_ON_ERR(WriteMessageToDebugFile());

}

#endif

render_audio_->DeinterleaveFrom(frame);

- return AnalyzeReverseStreamLocked();

+ return ProcessReverseStreamLocked();

}

-int AudioProcessingImpl::AnalyzeReverseStreamLocked() {

+int AudioProcessingImpl::ProcessReverseStreamLocked() {

AudioBuffer* ra = render_audio_.get(); // For brevity.

if (rev_proc_format_.sample_rate_hz() == kSampleRate32kHz) {

ra->SplitIntoFrequencyBands();

}

+ if (intelligibility_enabled_) {

+ intelligibility_enhancer_->ProcessRenderAudio(

+ ra->split_channels_f(kBand0To8kHz), split_rate_, ra->num_channels());

+ }

RETURN_ON_ERR(echo_cancellation_->ProcessRenderAudio(ra));

RETURN_ON_ERR(echo_control_mobile_->ProcessRenderAudio(ra));

if (!use_new_agc_) {

RETURN_ON_ERR(gain_control_->ProcessRenderAudio(ra));

}

+ if (rev_proc_format_.sample_rate_hz() == kSampleRate32kHz &&

+ is_rev_processed()) {

+ ra->MergeFrequencyBands();

+ }

return kNoError;

}

@@ -1003,6 +1055,10 @@ bool AudioProcessingImpl::analysis_needed(bool is_data_processed) const {

return false;

}

+bool AudioProcessingImpl::is_rev_processed() const {

+ return intelligibility_enabled_ && intelligibility_enhancer_->active();

void AudioProcessingImpl::InitializeExperimentalAgc() {

if (use_new_agc_) {

if (!agc_manager_.get()) {

@@ -1035,6 +1091,16 @@ void AudioProcessingImpl::InitializeBeamformer() {

}

+void AudioProcessingImpl::InitializeIntelligibility() {

+ if (intelligibility_enabled_) {

+ IntelligibilityEnhancer::Config config;

+ config.sample_rate_hz = split_rate_;

+ config.num_capture_channels = capture_audio_->num_channels();

+ config.num_render_channels = render_audio_->num_channels();

+ intelligibility_enhancer_.reset(new IntelligibilityEnhancer(config));

+ }

void AudioProcessingImpl::MaybeUpdateHistograms() {

static const int kMinDiffDelayMs = 60;