Funkcja softmax
Funkcja softmax, softargmax, znormalizowana funkcja wykładnicza (ang. softmax function, softmax activation function) – funkcja matematyczna odwzorowująca wektor liczb w wektor prawdopodobieństw, w taki sposób, żeby prawdopodobieństwa były proporcjonalne do kolejnych liczb przekształconych za pomocą funkcji wykładniczej[1].
Funkcja softmax jest uogólnieniem funkcji logistycznej na wiele wymiarów i jest stosowana w wielomianowej regresji logistycznej. Funkcja softmax jest również często używana jako funkcja aktywacji w ostatniej warstwie sztucznej sieci neuronowej w celu normalizacji wyników sieci do rozkładu prawdopodobieństwa przewidywanych klas wyjściowych[2].
Definicja
[edytuj | edytuj kod]Argumentem funkcji softmax jest wektor liczb rzeczywistych () . Standardowa (jednostkowa) funkcja softmax odwzorowuje ten wektor w wektor wynikowy, który można potraktować jak rozkład prawdopodobieństwa składający się z prawdopodobieństw. Prawdopodobieństwa wynikowe , gdzie , są proporcjonalne do liczb w wektorze wejściowym przekształconych za pomocą funkcji wykładniczej i sumują się do 1:
Oznacza to, że przed zastosowaniem funkcji softmax niektóre składowe wektora mogą być ujemne lub większe od 1, nie muszą się też sumować do jedności, ale po przekształceniu każdy element wektora będzie w przedziale i ich suma będzie wynosić 1.
Uogólnieniem standardowej funkcji softmax jest funkcja z parametrem [3]:
Nazwa
[edytuj | edytuj kod]Nazwa „softmax” wywodzi się ze wzmacniającego wpływu przekształcenia wykładniczego: większym elementom odpowiadać będzie większe prawdopodobieństwo; jednocześnie wszystkie elementy pozostaną niezerowe. Na przykład wektor wejściowy po odwzorowaniu za pomocą standardowej funkcji softmax zwróci, co sprowadza się do tego, że niemal cała masa skupi się na pozycji odpowiadającej maksimum wektora wejściowego (6). Zastosowanie funkcji softmax z parametrem =1,4 jeszcze bardziej wzmocni ten efekt – wektor wynikowy wyniesie .
Przypisy
[edytuj | edytuj kod]- ↑ Softmax Function in ScienceDirect [1]
- ↑ Sumiran Mehra i inni, An Empirical Evaluation of Enhanced Performance Softmax Function in Deep Learning, „IEEE Access”, 11, 2023, s. 34912–34924, DOI: 10.1109/ACCESS.2023.3265327, ISSN 2169-3536 [dostęp 2024-07-27] .
- ↑ M. Franke and J. Degen, The softmax function: Properties motivation and interpretation, September 2023, [online] Available: https://doi.org/10.31234/osf.io/vsw47.