TRAINING DATA

Надежда Глебко, NtechLab

Какие типы данных обычно используются в биометрических системах для идентификации личности?
Обычно биометрия используется для задач идентификации (распознавание пользователя) и аутентификации (проверка подлинности заявленного пользователя). Для решения таких задач используются изображения с фотографией лица человека.

Тип данных для обучения зависит от того, в каких условиях будет работать нейросеть и какая это биометрическая система. Если задача состоит в сопоставлении по изображению, то достаточно нескольких фотографий из социальных сетей и немного “магии” программиста для того, чтобы корректно осуществить обучение нейронной сети. В идеале, конечно, использовать комбинацию фотографий из разных доменов, например, социальная сеть и паспорт. Фотографии с документов сильно отличаются от фото на телефон или от картинки с камеры в аэропорту, именно поэтому для максимально качественной нейросети требуются самые разнообразные данные.

Кроме того, идентификация может осуществляться и на улице - в этом случае надо учитывать характеристики конкретной камеры, освещение и ракурс съемки. Тогда данных может понадобиться чуть больше для того, чтобы система распознавания корректно работала в специфических условиях. Например, это может быть лицо одного и того же человека, но при разном уровне освещённости, при разных ракурсах и так далее.

Лицо, голос или даже сетчатка глаза — все эти уникальные данные все активнее используются для идентификации личности, чтобы обеспечить высокий уровень защиты доступа к информации. Но как работают такие биометрические системы и какие опасности они несут?

Чтобы узнать, как биометрия меняет разметку данных и какие перспективы она открывает перед индустрией, мы встретились с Надеждой Глебко, руководителем группы по разметке данных в NtechLab, одним из мировых лидеров в области биометрических технологий.

Какие техники обработки данных применяются, чтобы улучшить точность и надежность системы?

Основная деятельность нашей компании - это видеоаналитика, в частности, задача распознавания лиц. Для улучшения работы данной технологии мы часто занимаемся сбором биометрических данных. Обычно это не стандартный классический сбор для обучения, а, скорее, сбор данных для проверки работы нейросети в нетривиальных условиях. То есть это то, что невозможно легко найти в Интернете или воссоздать на компьютере, и поэтому приходится снимать самостоятельно.

Конечно, основное волшебство с обработкой данных творят data scientists. Однако и в ходе самого сбора можно кое-что сделать. Например, для улучшения точности системы можно экспериментировать с настройками камеры. Так, одно лицо можно обработать с разной резкостью и насыщенностью кадра. С помощью технологий, в частности, white dynamic range, получается высокое качество изображения при любом уровне освещенности. Изменяя различные настройки, мы можем создавать различные изображения или видео одного и того же предмета или человека, чтобы проработать максимальное количество возможных кейсов. Также можно использовать перевернутые фотографии лиц, чтобы научиться опознавать их с разных сторон.

Когда происходит сопоставление лица, фотография человека, которую он загрузил в систему, сравнивается со снимаемым изображением. Из параметров загруженной картинки строится определённый вектор признаков, у каждого человека он будет свой. После построения вектора он сравнивается со всей базой, и система выдает наиболее подходящие варианты.

Важно использовать одно и то же лицо в максимальном количестве возможных вариантов, потому что вектор, в идеале, должен быть максимально одинаковым для одного человека. Еще он должен выстраиваться при любом освещении, так как распознавание лица в случае, когда человек хорошо освещен или стоит против света, различается. Поэтому при обучении биометрической нейросети важно учитывать не только лицо и качество картинки, но и разные условия съемки.

Еще важно работать и с разным инвентарем: очки, маски или головные уборы. Так, во время пандемии стал популярен запрос распознавания лица в маске. Тогда это помогало следить за соблюдением правил безопасности.

Однако само по себе распознавание лица в некоторых случаях может быть бесполезным, к примеру, если на камеру показать фотографию лица с телефона. Тогда любой человек, владеющей нужной фотографией, сможет попасть куда угодно. Также это может быть человек в маске или гриме. Так что тема, которая тесно связана с биометрией - это liveness (часто используется термин antispoffing), то есть способность нейросети отличать живое лицо от его подделки. Без этой технологии фотографию хорошего качества с правильной яркостью нельзя отличить от человека, что может взломать системы среднего уровня защиты.

Какие сложности появляются при сборе биометрических данных?
Чтобы научить нейросеть распознавать лицо, нужен очень большой объем данных, это миллионы лиц. Без дополнительного поиска и покупки датасетов полноценное обучение невозможно. Хоть и для создания простой нейронной сети для задачи распознавания достаточно простых опенсорсных данных, для конкретных случаев все равно приходится собирать гигантское количество данных.

Например, с распознаванием лиц разных национальностей у нейросети могут возникнуть трудности. В связи с этим нужны люди разных рас, чтобы нейросеть дообучилась и хорошо срабатывала на всех лицах. Так что биометрическая сеть должна быть универсальной с этой точки зрения, если она хочет выйти на всё более и более высокий уровень использования.

Сейчас популярным запросом является сбор максимального количества данных с одной фотографии, чтобы получить больше информации. Важно тщательно записывать информацию о данных и о том, откуда они взяты.

Также при сборе данных важно учитывать разнообразие пола и возраста. И если фотографии людей 20-30 лет достать нетрудно, то детей или пожилых на сбор данных найти и пригласить не так легко. 

Другое важное условие - как должны выглядеть статисты на фотографии. Для максимально корректного обучения можно и нужно использовать изображения с макияжем и аксессуарами, а также варьировать свет и ракурс. Иногда требуется сделать несколько видео с каждым человеком, чтобы собрать как можно больше визуальной информации.

Разные приёмы можно комбинировать. К примеру, во время работы над одним из наших проектов мы снимали людей под разными камерами, а потом фотографировали их с разных ракурсов и на разной дистанции. После эти фотографии сопоставлялись с действием, которое происходит на видео, чтобы идентифицировать человека. Такие технологии могут быть полезны для работы видео пропускной системы.

Какие тенденции есть в области использования биометрии?

Основные тенденции — это аутентификация и идентификация по лицу. Так, сейчас появилась оплата по лицу, как в магазинах или метро, так и в различных приложениях. Это экономит время и помогает обезопасить себя от мошенников. Такая биометрическая защита считается более надежной, чем простой пинкод. Также биометрия используется в аэропортах для более быстрого прохождения паспортного контроля без участия персонала.

Однако не стоит забывать, что для полной безопасности таким системам необходим liveness, чтобы, например, мошенники не могли обходить защиту, создав силиконовую маску. Благодаря этим технологиям в будущем именно нейросети по распознаванию лица помогут создать самую надежную биометрическую защиту.

А есть ли какие-то этические вопросы, связанные с биометрией?

Конечно, мы видим тенденцию, что в последнее время повысился интерес к биометрическим данным и их эксплуатации. Сейчас активно обсуждается вопрос этики.

Чаще всего обсуждаются детали, связанные с хранением, обработкой и передачей данных. Исходя из этических соображений люди часто не хотят принимать участие в сборе из-за подписания договора об использовании данных, хотя это стандартная процедура. У нас было несколько кейсов, когда мы объясняли статистам, что не будет никаких рисков и что их данные будут в безопасности. Но только мы предлагали подписать соглашение, и они отказывались. Часто это мотивируется страхом, что эти данные потом куда-то незаконно передадут.

Еще в России недавно ввели новый закон о единой системе биометрических данных. Теперь все данные должны храниться в единой государственной базе, и все процедуры идентификации и аутентификации должны быть связаны с этой базой. Это нужно для того, чтобы персональные данные не подвергались риску.

С одной стороны, это оправданно, учитывая, сколько данных в последнее время взламывается и попадает сеть. Но также появилось много требований для того, чтобы войти в реестр и пользоваться биометрическими данными. К примеру, иметь внутреннюю базу, по которой сотрудники попадают в офис, может стать незаконным. Но лучше оценить ситуацию и изменения можно будет с осени, когда этот закон начнет полноценно реализовываться.