polishchuk 0 146 14.08.2023
Алгоритм научился распознавать напечатанный юзером текст по записи с микрофона
![Алгоритм научился распознавать напечатанный юзером текст по записи с микрофона](https://joprblob.azureedge.net/site/news/8b4e55a7-6195-4b99-8903-894fab6121b4/636eaed3-f8de-430a-91a6-bdc20cebb8b2.png)
Deep learning алгоритм смог с точностью 90+ процентов распознать напечатанный текст по звукам нажатия клавиатуры. При этом он справился со звуками, которые записали как на микрофоне телефона, так и через запись с Zoom'a или скайпа. Пока алгоритм тестили только на клавиатуре MacBook pro, но разработчики считают, что и с другими клавиатурами можно провернуть аналогичное.
Команда исследователей из британских университетов обучила модель, которая может похищать данные из записи звуков нажатия на клаву, записанных с помощью микрофона, с точностью 95%. Когда для обучения алгоритма юзался Zoom, точность прогнозирования снизилась до 93%. Такая атака серьезно влияет на безопасность данных жертвы, так как может привести к утечке паролей, переписки или другой конфиденциальной информации.
Давайте рассмотрим детали
Первый шаг атаки заключается в записи нажатий клавиш на клавиатуре цели, так как эти данные необходимы для обучения алгоритма.
В качестве альтернативы, нажатия клавиш могут быть записаны через звонок в Zoom, где участник встречи устанавливает связь между сообщениями, набранными целью, и их звуковой записью.
Исследователи собрали обучающие данные, нажимая 36 клавиш на новом MacBook Pro 25 раз каждую и записывая звук, производимый каждым нажатием.
![Алгоритм научился распознавать, что печатает юзер на компе по звуку с микрофона](https://joprblob.azureedge.net/site/news/8b4e55a7-6195-4b99-8903-894fab6121b4/da6d4456-766e-4cf7-902f-36aee162108b.png)
Затем они создали волновые формы и спектрограммы из записей, которые визуализировали различия, идентифицируемые для каждой клавиши, и выполнили конкретные шаги по обработке данных для усиления сигналов, которые можно использовать для идентификации нажатий клавиш.
![Полученные спектрограммы](https://joprblob.azureedge.net/site/news/8b4e55a7-6195-4b99-8903-894fab6121b4/142ce9f8-371d-4a3d-915b-865e3ab1e9cd.png)
Спектрограммы использовались для обучения "CoAtNet" - классификатора изображений. В процессе потребовалось экспериментировать с параметрами, скорости обучения и разделения данных, пока не были достигнуты лучшие результаты точности прогнозирования.
![Параметры, выбранные для обучения CoAtNet](https://joprblob.azureedge.net/site/news/8b4e55a7-6195-4b99-8903-894fab6121b4/781e6c12-7165-4b13-85b8-3cf1dba53cef.png)
В своих экспериментах исследователи использовали один и тот же ноутбук, клавиатура которого используется во всех ноутбуках Apple в течение последних двух лет, iPhone 13, размещенный на расстоянии 17 см от цели, и Zoom.
![тест сетап](https://joprblob.azureedge.net/site/news/8b4e55a7-6195-4b99-8903-894fab6121b4/46d90bc4-b302-4e78-b20f-4725a8398a8c.png)
Классификатор CoANet достиг 95 % точности на записях, сделанных со смартфона, и 93 % на записях, сделанных через Zoom. Skype показал более низкую, но все же приемлемую точность - 91,7%.
![Confusion matrix](https://joprblob.azureedge.net/site/news/8b4e55a7-6195-4b99-8903-894fab6121b4/f5babd56-4e40-402c-8401-c8bcb3e53193.png)
Полное исследование доступно по ссылке.