Radial basis Functions, RBF Kernels, & RBF Networks Explained Simply

inny paradygmat nauki

Andre Ye

Obserwuj

Wrz 26, 2020 · 7 min czytać

oto zestaw jednowymiarowych danych: Twoim zadaniem jest znalezienie sposobu na idealne rozdzielenie danych na dwie klasy za pomocą jednej linii.

na pierwszy rzut oka może się to wydawać zadaniem niemożliwym, ale jest tak tylko wtedy, gdy ograniczymy się do jednego wymiaru.

wprowadzmy funkcję falistą f (x) i odwzorujmy każdą wartość X na odpowiadającym jej wyjściu. To sprawia, że wszystkie niebieskie punkty są wyższe, a czerwone niższe w odpowiednich miejscach. Następnie możemy narysować poziomą linię, która czysto dzieli klasy na dwie części.

rozwiązanie to wydaje się bardzo podstępne, ale możemy je uogólnić za pomocą radialnych funkcji bazowych (rbfs). Chociaż mają wiele wyspecjalizowanych przypadków użycia, RBF z natury jest po prostu funkcją, której punkty są zdefiniowane jako odległości od środka. Metody wykorzystujące RBFs zasadniczo dzielą paradygmat uczenia się odmienny od standardowej taryfy uczenia maszynowego, co czyni je tak potężnymi.

na przykład Krzywa dzwonkowa jest przykładem RBF, ponieważ punkty są reprezentowane jako liczba odchyleń standardowych od średniej. Formalnie możemy zdefiniować RBF jako funkcję, która może być zapisana jako:

zauważ, że podwójne rury (nieformalnie, w tym przypadku użycia) reprezentują ideę „odległości”, niezależnie od wymiaru x. na przykład

jest to aspekt „promienia „”radialnej funkcji bazowej”. Można powiedzieć, że promieniowe funkcje bazowe są symetryczne wokół początku.

wspomniane powyżej zadanie-magiczne oddzielanie punktów jedną linią-jest znane jako jądro funkcji promieniowej podstawy, z aplikacjami w potężnym algorytmie Maszyny wektorów wsparcia (SVM). Celem „sztuczki jądra” jest rzutowanie oryginalnych punktów w jakąś nową wymiarowość, tak aby łatwiej było je rozdzielić za pomocą prostych metod liniowych.

weź prostszy przykład zadania z trzema punktami.

narysujmy rozkład normalny (lub inną dowolną funkcję RBF) wyśrodkowany w każdym z punktów.

następnie możemy odwrócić wszystkie radialne funkcje bazowe dla punktów danych jednej klasy.

jeśli dodamy wszystkie wartości radialnych funkcji bazowych w każdym punkcie x, będziemy pośrednią „globalną” funkcją, która wygląda mniej więcej tak:

osiągnęliśmy naszą falistą funkcję globalną (nazwijmy ją g(x))! Współpracuje z różnego rodzaju układami danych, ze względu na charakter funkcji RBF.

nasza wybrana funkcja RBF-rozkład normalny – jest gęsta w jednym obszarze centralnym, a mniej we wszystkich innych miejscach. W związku z tym ma duży wpływ na ustalanie wartości g(x), gdy wartości x znajdują się w pobliżu jego położenia, z malejącą mocą w miarę zwiększania odległości. Ta właściwość sprawia, że funkcje RBF są potężne.

kiedy mapujemy każdy pierwotny punkt w miejscu x do punktu (x, g(x)) w przestrzeni dwuwymiarowej, dane zawsze mogą być niezawodnie oddzielone, pod warunkiem, że nie są zbyt głośne. Zawsze będzie mapowany zgodnie z odpowiednią gęstością danych z powodu nakładania się funkcji RBF.

w rzeczywistości liniowe kombinacje-dodawanie i mnożenie-promieniowe funkcje bazowe mogą być użyte do przybliżenia prawie każdej funkcji.

funkcja (czarna) używana do modelowania punktów danych (fioletowa) składająca się z kilku funkcji RBF (stałych kolorowych linii). Źródło. Obraz Wolny do udostępnienia

radialne sieci bazowe biorą ten pomysł do serca, włączając „radialne neurony bazowe” w prostą dwuwarstwową sieć.

wektor wejściowy to wektor n-wymiarowy, w którym wykonuje się zadanie klasyfikacji lub regresji (tylko jeden neuron wyjściowy). Kopia wektora wejściowego jest wysyłana do każdego z następujących radialnych neuronów bazowych.

każdy neuron RBF przechowuje 'centralny’ wektor — jest to po prostu jeden unikalny wektor z zestawu treningowego. Wektor wejściowy jest porównywany do wektora centralnego, a różnica jest podłączona do funkcji RBF. Na przykład, gdyby wektory centralne i wejściowe były takie same, różnica byłaby zerowa. Rozkład normalny W x = 0 wynosi 1, więc wyjście neuronu będzie równe 1.

stąd wektor „centralny” jest wektorem w Centrum funkcji RBF, ponieważ jest to wektor wejściowy, który daje szczytowe wyjście.

Podobnie, jeśli wektory centralne i wejściowe są różne, wyjście neuronu rozpada się wykładniczo w kierunku zera. Neuron RBF można zatem traktować jako nieliniową miarę podobieństwa między wektorami wejściowymi i centralnymi. Ponieważ neuron jest oparty na promieniu — liczy się wielkość wektora różnicy, a nie kierunek.

wreszcie, wnioski z węzłów RBF są ważone i sumowane poprzez proste połączenie z warstwą wyjściową. Węzły wyjściowe dają duże wartości wagowe neuronom RBF, które mają szczególne znaczenie dla danej kategorii, a mniejsze wagi dla neuronów, których wyjścia mają mniejsze znaczenie.

dlaczego sieć radialna bazuje na podejściu „podobieństwa” do modelowania? Weźmy poniższy przykład dwuwymiarowy zbiór danych, gdzie Centralne wektory dwudziestu węzłów RBF są reprezentowane przez”+”.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.