Список работ

Функции потерь в задаче обучения нейронной сети

Апарнев А. Н., А-13м-16

Содержание

Введение

Определение функции потерь является одной из ключевых компонент решения задачи с использованием искусственной нейронной сети (ИНС). Функция представляет математическую формулировку критерия качества обучения ИНС и значительно влияет на время обучения и достижимую точность решения поставленной задачи. Функции потерь ИНС в задаче распознавания многопараметрических объектов по изображению можно разделить на два вида: функции обучения классификатора и функции метрического обучения.
Далее выполняется обзор известных функций потерь и приводятся оценки эффективности ИНС, обученных с применением этих функций на изображениях, хранимых базами данных LFW, SLLFW, BLUFR [1, 2, 3]. Эти базы обеспечивает доступ к изображениям лиц.

Обучение классификаторов

1. При обучении ИНС как классификатора после слоя извлечения признаков добавляется полносвязный слой, активации нейронов которого нормируются функцией активации Softmax и представляют собой оценки вероятности принадлежности изображения соответствующим классам (каждому классу соответствует один нейрон). Функция потерь Softmax Loss для обучения таких классификаторов определяется как перекрёстная энтропия предсказанных и истинных вероятностей (1).
Softmax Loss
где fk = F(xk) – выделенные из изображения xk признаки, A – матрица весов классифицирующего слоя, b – вектор смещений классифицирующего слоя, yi – индекс истинного класса изображения xi, m – количество обучающих примеров. Перекрёстная энтропия может усредняется по обучающим примерам.
Если ИНС необходимо использовать для извлечения признаков, то последний (классифицирующий) слой удаляется. Если решается задача идентификации или верификации на закрытом множестве, то классифицирующий слой может быть оставлен. В этом случае он направляет в базу данных вероятности принадлежности распознаваемого образа каждому классу.
Замечание. Во избежание переобучения ИНС за счёт чрезмерного роста весов, часто вводятся добавочные потери регуляризации, пропорциональные L1)- L2)-норме вектора весов ИНС.
Классификаторам присуща относительно высокая скорость обучения, но они обладают следующими недостатками:
  1. Неэффективное использование памяти. При обучении на большом количестве классов (порядка 10000 и более) матрица A занимает значительный объём памяти.
  2. Чувствительность к сбалансированности обучающих данных. Если в обучающей выборке имеется небольшое количество классов, количество изображений для которых значительно больше среднего количества изображений на класс, то итоговая обобщающая способность ИНС сильно снижается [4].
  3. Метод не гарантирует, что извлекаемые признаки fi будут достаточно эффективны для решения задач идентификации или верификации на множестве персон, не встречавшихся в обучающей выборке, то есть на открытом множестве [5].
Для устранения этих недостатков разработано множество модификаций функции потерь Softmax Loss (1):
  1. DeepID2 (2014). Предлагается обновлять веса ИНС путём комбинирования градиентов двух функций потерь: верификации (2) и идентификации (3).
    DeepID2
    где fi, fj, f – извлечённые из изображений признаки, yij = 1, если fi и fj извлечены из изображений одного класса, и -1 – в противном случае, t – идентификатор класса изображения, из которого извлечены признаки f. Достигнутая точность верификации на LFW составляет 99.15% [6].
  2. Center Loss (2016). К функции потерь (1) добавляется оценка разброса признаков от центров соответствующих классов (4).
    Center Loss
    Достигнутая точность на LFW составляет 99.28% [7].
  3. Range Loss (2016). Если обучающая выборка содержит классы со значительно большим количеством изображений, чем в остальных, качество извлекаемых ИНС признаков снижается. В этом случае предлагается добавить (с весовыми коэффициентами) к функции (1) потери, вызванные внутриклассовой вариативностью, (5) и потери по причине межклассовой вариативности (6).
    Range Loss
    где Dijj-е по убыванию максимальное расстояние внутри класса i. Достигнутый результат на LFW 99.52% [4].
  4. Large-Margin Softmax Loss (2016). Предлагается новое определение функции потерь Softmax, описываемое формулами (7-8).
    Large-Margin Softmax Loss
    где k ∈ [0, m - 1].
    Такое определение позволяет ввести большую границу между классами и явно представить строки матрицы A как шаблонные признаки того или иного класса. Достигнутый результат на LFW 98.71% [8].
  5. Center Invariant Loss (2017). К функции потерь Softmax Loss (1) предлагается добавить функцию, минимизация которой приводит к тому, что центры тяжести классов равноудалены от центра, а для снижения вариативности внутри классов добавляется функция потерь Center Loss. Полная функция потерь имеет вид, представленный формулой (9).
    Center Invariant Loss
    Этот подход позволил достигнуть на LFW точность 99.12% [9].
  6. Marginal Loss (2017). Для улучшения различительной способности обучаемой сети предлагается к функции потерь Softmax Loss (1) добавить (с весовым коэффициентом) такую функцию потерь, которая при её минимизации будет уменьшать вариативность внутри классов и увеличивать расстояния между классами за счёт воздействия на граничные примеры. Эта функция потерь представлена равенством (10).
    Marginal Loss
    где m – количество обучающих примеров, yij = 1, если i и j принадлежат одному классу, и -1 – в противном случае. Достигнутая точность верификации на LFW составляет 99.48% [10].
  7. L2-constrained Softmax Loss (2017). Показана эффективность нормализации векторов признаков по формуле (11).
    L2- constrained Softmax Loss
    где p – требуемая точность, C – количество классов, α – параметр, удовлетворяющий неравенству (12).
    L2- constrained Softmax Loss
    Полученная ИНС показала на LFW точность верификации 99.78% [5].
  8. NormFace (2017). Предлагается применять нормализацию как к векторам признаков, так и к векторам шаблонов классов, а также не использовать вектор смещения b. Полученная функция потерь представлена равенством (13).
    NormFace
    где
    NormFace
    s > 0 – заданный или обучаемый параметр, аналогичный параметру α (12). Достигнутая точность на LFW составляет 99.22% [11].
  9. SphereFace (2017). Для усиления различительной способности ИНС предлагается добавить границу вокруг центров классов, попадание в пределы которой является определяющим при принятии решения о классификации образа. Полученная функция потерь (14) позволила достичь точность на LFW 99.42% [12].
    SphereFace
    где
    SphereFace
    θyij – угол между векторами признаков i-го примера и шаблона его истинного класса, k – параметр.
  10. Contrastive Center Loss (2017) – модификация (15) функции потерь Center Loss (4), также является добавочной к функции потерь Softmax Loss (1). Недостатком Center Loss является то, что она позволяет добиться малых расстояний между векторами признаков в пределах одного класса, но не обеспечивает хорошей различимости между классами.
    Contrastive Center Loss
    Достигнутая точность верификации на LFW составляет 98.68% [13].
  11. COCO (2017). Предлагается максимально снизить вариативность векторов признаков в пределах класса и увеличить расстояния между классами. Для этого вводится функция потерь, представленная равенством (16):
    COCO
    где
    COCO
    На LFW достигнута точность 99.86% [14].
  12. Additive Margin Softmax (2018) – Модификация функции потерь Large Margin Softmax Loss (7) с более наглядным (с геометрической точки зрения) способом введения отступа m между классами. Функция потерь представлена формулой (17).
    Additive Margin Softmax
    Авторы достигли результата 99.12% точности верификации на LFW и 97.96% на BLUFR [15].
  13. Centralized Coordinate Learning (2018). Для того, чтобы извлекаемые признаки имели наибольшую различительную способность, вектор признаков преобразуется по формуле (18), после чего математическое ожидание и стандартное отклонение каждого признака равны 0 и 1 соответственно.
    Centralized Coordinate Learning
    где μk – математическое ожидание k-го признака, а σk – стандартное отклонение. Значения μk и σk вычисляются как экспоненциальные скользящие средние. Для большей компактности распределений векторов признаков в пределах классов, функция потерь Softmax Loss (1) комбинируется с функцией потерь LAAM (19) по формуле (20):
    Centralized Coordinate Learning
    где θj,i – угол между векторами Φ(fi) и Aj / ||Aj||. Точность верификации на LFW составила 99.58% (99.47% без добавления LAAM) и 96.43% на SLLFW [16].
  14. ArcFace (2018). Предлагается новый способ введения границы между классами (21), при котором граница принятия решения о принадлежности объекта классу является окружностью фиксированного радиуса на поверхности гиперсферы единичного радиуса в пространстве признаков.
    ArcFace
    Авторами была достигнута точность верификации на LFW 99.71% [17].
Анализируя приведенные функции потерь, можно выделить две основные цели, которых придерживались авторы:
  1. Снижение вариативности выделенных признаков в пределах класса.
  2. Увеличение расстояний между классами.

Метрическое обучение

В результате метрического обучения ИНС приобретает способность отображать подаваемые на вход данные в пространство признаков. Применительно к задаче идентификации и верификации по лицу это означает, что разница между признаками, извлечёнными из разных изображений лица одного человека, должна быть меньше некоторого порогового значения, а между признаками изображений лиц разных людей – больше этого порога. Метрическое обучение может комбинироваться с обучением ИНС как классификатора разными способами, например, использоваться после основного обучения ИНС как классификатора для улучшения различительной способности ИНС [17]. Так же оба вида обучения могут употребляться одновременно [6]. Преимуществом метрического обучения является большая различающая способность получаемой сети.
Примеры функций потерь метрического обучения:
  1. Contrastive Loss. Для обучения ИНС используются пары обучающих примеров с пометкой, относятся они к одному классу или к разным. Функция потерь описывается формулой (22).
    Contrastive Loss
    где li = ||fi1 - fi2||22, если пара содержит примеры из одного класса и li = max(0, m – ||fi1 – fi2||2)2 – в противном случае [18]. С использованием этой функции потерь была достигнута точность верификации на LFW 99.47% [19].
  2. Triplet Loss (2015). Функция потерь (23), предложенная в [20], показала высокие результаты при обучении ИНС в задаче верификации (99.63%) [21]. ИНС обучается на тройках (триплетах) примеров, содержащих 2 изображения одного человека – якорь (anchor) и позитивный пример, и одно – другого (отрицательный пример).
    Contrastive Loss
    где α – параметр.
    Обучение триплетами также может использоваться для улучшения ИНС, уже обученных как классификаторы [17]. Главный недостаток этого метода – сложная процедура отбора обучающих примеров (триплетов).
Недостатком описанных функций потерь метрического обучения является медленная скорость обучения ИНС.

Заключение

Правильный выбор функции потерь является одним из ключевых факторов, определяющих качество обученной ИНС. Выполненный анализ функций потерь показал, что многие из них имеют определенные недостатки, не позволяющие поднять точность распознавания. Пространство для поиск более совершенной функции потерь имеется, и эта задача является актуальной.

Литература

  1. Labeled Faces in the Wild Home. [Электронный ресурс] URL: http://vis-www.cs.umass.edu/lfw/ (Дата обращения: 27.05.2018).
  2. Similar-looking LFW (SLLFW) Database/ [Электронный ресурс] URL: http://www.whdeng.cn/SLLFW/index.html (Дата обращения: 27.05.2018).
  3. Benchmark of Large-scale Unconstrained Face Recognition. [Электронный ресурс] URL: http://www.cbsr.ia.ac.cn/users/scliao/projects/blufr/ (Дата обращения: 27.05.2018).
  4. Zhang X. et al. Range loss for deep face recognition with long-tailed training data [Текст] / X. Zhang, Z. Fang, Y. Wen, Z. Li, Y. Qiao // IEEE International Conference on Computer Vision (ICCV). – Venice, 2017. – P. 5409-5418.
  5. Ranjan R., Castillo C. D., Chellappa R. L2-constrained softmax loss for discriminative face verification [Электронный ресурс] / R. Ranjan, C. D. Castillo, R. Chellappa // arXiv: 1703.09507. – Дата обновления: 28.03.2017. – 10 p. – (Prepr. / URL: https://arxiv.org/abs/1703.09507 (Дата обращения: 27.05.2018)).
  6. Sun Y. et al. Deep learning face representation by joint identification-verification [Текст] / Y. Sun, Y. Chen, X. Wang, X. Tang // Neural Information Processing Systems (NIPS) Conference. – Montreal, 2014. – P. 1988-1996.
  7. Wen Y. et al. A discriminative feature learning approach for deep face recognition [Текст] / Y. Wen, K. Zhang, Z. Li, Y. Qiao // European Conference on Computer Vision (ECCV),. – Amsterdam, 2016. – P. 499-515.
  8. Liu W. et al. Large-Margin Softmax Loss for Convolutional Neural Networks [Текст] / W. Liu, Y. Wen, Z. Yu, M. Yang // 33rd International Conference on Machine Learning (ICML-2016). – New York, 2016. – Vol. 48. – P. 507-516.
  9. Wu Y. et al. Deep Face Recognition with Center Invariant Loss [Текст] / Y. Wu, H. Liu, J. Li, Y. Fu // Thematic Workshops of ACM Multimedia. – Mountain View, 2017. – P. 408-414.
  10. Deng J., Zhou Y., Zafeiriou S. Marginal Loss for Deep Face Recognition [Текст] / J. Deng, Y. Zhou, S. Zafeiriou // IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). – Honolulu, 2017. – P. 2006-2014.
  11. Wang F. et al. NormFace: L2 Hypersphere Embedding for Face Verification [Текст] / F. Wang, X. Xiang, J. Cheng, A. L. Yuille // ACM on Multimedia Conference. – Mountain View, 2017. – P. 1041-1049.
  12. Kakadiaris I. A. et al. 3D-2D face recognition with pose and illumination normalization [Текст] / I. A. Kakadiaris, G. Toderici, G. Evangelopoulos, G. Passalis, D. Chu, X. Zhao, S. K. Shah, T. Theoharis // Computer Vision and Image Understanding. – 2017. – Vol. 154. – P. 137-151.
  13. Qi C., Su F. Contrastive-center loss for deep neural networks [Текст] / C. Qi, F. Su // IEEE International Conference on Image Processing (ICIP). – Beijing, 2017. – P. 2851-2855.
  14. Liu Y., Li H., Wang X. Rethinking feature discrimination and polymerization for large-scale recognition [Электронный ресурс] / Y. Liu, H. Li, X. Wang // arXiv:1710.00870. – Дата обновления: 02.10.2017. – 13 p. – (Prepr. / URL: https://arxiv.org/abs/1710.00870 (Дата обращения: 27.05.2018)).
  15. Wang F. et al. Additive Margin Softmax for Face Verification [Электронный ресурс] / F. Wang, W. Liu, H. Liu, J. Cheng // arXiv:1801.05599. – Дата обновления: 17.01.2018. – 7 p. – (Prepr. / URL: https://arxiv.org/abs/1801.05599 (Дата обращения: 27.05.2018)).
  16. Qi X., Zhang L. Face Recognition via Centralized Coordinate Learning [Электронный ресурс] / X. Qi, L. Zhang // arXiv:1801.05678. – Дата обновления: 17.01.2018. – 14 p. – (Prepr. / URL: https://arxiv.org/abs/1801.05678 (Дата обращения: 27.05.2018)).
  17. Deng J., Guo J., Zafeiriou S. Arcface: Additive angular margin loss for deep face recognition [Электронный ресурс] / J. Deng, J. Guo, S. Zafeiriou // arXiv:1801.07698. – Дата обновления: 23.01.2018. – 13 p. – (Prepr. / URL: https://arxiv.org/abs/1801.07698 (Дата обращения: 27.05.2018)).
  18. Hadsell R., Chopra S., LeCun Y. Dimensionality reduction by learning an invariant mapping [Текст] / R. Hadsell, S. Chopra, Y. LeCun // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – New York, 2006. – Vol. 2. – P. 1735-1742.
  19. Sun Y., Wang X., Tang X. Deeply learned face representations are sparse, selective, and robust [Текст] / Y. Sun, X. Wang, X. Tang // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – Boston, 2015. – P. 2892-2900.
  20. Weinberger K. Q., Saul L. K. Distance metric learning for large margin nearest neighbor classification [Текст] / K. Q. Weinberger, L. K. Saul // Journal of Machine Learning Research. – 2009. – № 10. – P. 207-244.
  21. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering [Текст] / F. Schroff, D. Kalenichenko, J. Philbin // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – Boston, 2015. – P. 815-823.
  22. Апарнев А. Н., Бартеньев О. В. Разработка метода обучения искусственной нейронной сети для идентификации человека по фотографии лица / А. Н. Апарнев, О. В. Бартеньев // «РАДИОЭЛЕКТРОНИКА, ЭЛЕКТРОТЕХНИКА И ЭНЕРГЕТИКА: Двадцать четвертая Междунар. науч.-техн. конф. студентов и аспирантов»: Тез. докл. конф., Москва, 15–16 марта 2018 г. – М.: ООО «Центр полиграфических услуг „Радуга“», 2018. – С. 554. – ISBN 978-5-905486-08-1.

Список работ

Рейтинг@Mail.ru