Искусственный интеллект научился отделять человеческую речь от шума

Сегодня сложно кого-нибудь удивить технологией распознавания голоса: ассистенты Cortana и Siri способны достаточно быстро и точно распознать голосовую команду и выполнить её. Правда, это наблюдается только в том случае, если голосовая команда не сопровождается посторонними шумами, если же таковые присутствуют, то распознавание речи заметно усложняется.

Решить проблему выделения человеческого голоса из общего шума можно при помощи технологии Deep Clustering, которая была разработана компанией Mitsubishi Electric. Это технология построена на принципах нейросети: сначала она научилась отделять голос одного человека от общего фона, для этого нейросеть разделяет входящие аудиоданные на фрагменты, анализируя каждый из них. После этого нейросеть может отделять человеческую речь от шумового фона, причем технология позволяет таким способом распознавать речь не только одного, но и нескольких собеседников.

Подтверждением эффективности данной технологии стали успешные демонстрационные испытания, когда два человека одновременно говорили в микрофон одну и ту же фразу, только на разных языках. Данная технология может иметь широкое практическое применение: её можно использовать в системах управления автомобилями, бытовыми приборами и другими электронными устройствами.