radiální základní funkce, jádra RBF a sítě RBF vysvětleny jednoduše

jiné paradigma učení

Andre Ye

sledovat

26. Září 2020 * 7 min čtení

zde je sada jednorozměrných dat: vaším úkolem je najít způsob, jak dokonale oddělit data do dvou tříd jedním řádkem.

na první pohled se to může zdát jako nemožný úkol, ale je to jen tak, pokud se omezíme na jednu dimenzi.

zavedeme vlnitou funkci f(x) a mapujeme každou hodnotu x na odpovídající výstup. Pohodlně, To dělá všechny modré body vyšší a červené body nižší na správných místech. Pak můžeme nakreslit vodorovnou čáru, která čistě rozděluje třídy na dvě části.

toto řešení se zdá být velmi záludné, ale ve skutečnosti jej můžeme zobecnit pomocí radial basis functions (RBFs). Ačkoli mají mnoho specializovaných případů použití, RBF je ve své podstatě jednoduše funkcí, jejíž body jsou definovány jako vzdálenosti od středu. Metody, které používají RBF, zásadně sdílejí paradigma učení odlišné od standardního tarifu strojového učení, což je činí tak silnými.

například zvonová křivka je příkladem RBF, protože body jsou reprezentovány jako počet směrodatných odchylek od průměru. Formálně můžeme definovat RBF jako funkci, kterou lze zapsat jako:

Všimněte si, že dvojité trubky (neformálně, v tomto případě použití) představují myšlenku „vzdálenosti“, bez ohledu na rozměr x. například

Toto je aspekt „poloměru“ funkce „radiální báze“. Dá se říci, že radiální báze funkce jsou symetrické kolem původu.

výše uvedený úkol-magicky oddělující body jedním řádkem-je známý jako jádro radiální základní funkce s aplikacemi v algoritmu powerful Support Vector Machine (SVM). Účelem „triku jádra“ je promítnout původní body do nějaké nové dimenzionality tak, aby bylo snazší oddělit pomocí jednoduchých lineárních metod.

vezměte jednodušší příklad úkolu se třemi body.

nakreslíme normální rozdělení (nebo jinou libovolnou funkci RBF) se středem v každém z bodů.

pak můžeme převrátit všechny radiální základní funkce pro datové body jedné třídy.

přidáme-li všechny hodnoty radiální báze funkcí v každém bodě x, jsme střední ‚globální‘ funkce, která vypadá něco takového:

dosáhli jsme naší vlnité globální funkce (říkejme tomu g(x))! Pracuje se všemi druhy rozložení dat, vzhledem k povaze funkce RBF.

naše RBF funkce volby-normální rozdělení – je hustá v jedné centrální oblasti a méně na všech ostatních místech. Proto má hodně houpat při rozhodování o hodnotě g (x), když hodnoty x jsou blízko jeho umístění, s klesající silou, jak se vzdálenost zvyšuje. Díky této vlastnosti jsou funkce RBF výkonné.

když mapujeme každý původní bod v místě x do bodu (x, g(x)) ve dvourozměrném prostoru, lze data vždy spolehlivě oddělit, pokud nejsou příliš hlučná. Vždy bude mapován v souladu se správnou hustotou dat z důvodu překrývajících se funkcí RBF.

ve skutečnosti lze lineární kombinace funkcí-sčítání a násobení-radiální báze použít k aproximaci téměř jakékoli funkce.

funkce (černá) slouží k modelování datových bodů (fialová) složený z několika funkcí RBF (pevné barevné čáry). Zdroj. Obrázek zdarma ke sdílení

radiální bazické sítě vezměte tuto myšlenku k srdci začleněním „radiálních bazických neuronů“ do jednoduché dvouvrstvé sítě.

vstupní vektor je n-dimenzionální vstup, ve kterém se provádí klasifikační nebo regresní úloha (pouze jeden výstupní neuron). Kopie vstupního vektoru je odeslána do každého z následujících radiálních bazických neuronů.

každý neuron RBF ukládá „centrální“ vektor — to je prostě jeden jedinečný vektor Z tréninkové sady. Vstupní vektor je porovnán s centrálním vektorem a rozdíl je zapojen do funkce RBF. Pokud by například centrální a vstupní vektory byly stejné, rozdíl by byl nulový. Normální rozdělení na x = 0 je 1, takže výstup neuronu by byl 1.

proto je „centrální“ vektor vektor ve středu funkce RBF, protože je to vstup, který poskytuje špičkový výstup.

podobně, pokud jsou centrální a vstupní vektory odlišné, výstup neuronu se exponenciálně rozkládá směrem k nule. Neuron RBF lze tedy považovat za nelineární měřítko podobnosti mezi vstupními a centrálními vektory. Protože neuron je založen na radiálním poloměru-záleží na velikosti vektoru rozdílu, nikoli na směru.

nakonec jsou poznatky z uzlů RBF váženy a sčítány jednoduchým připojením k výstupní vrstvě. Výstupní uzly dávají velké hodnoty hmotnosti neuronům RBF, které mají specifický význam pro kategorii, a menší hmotnosti pro neurony, jejichž výstupy jsou méně důležité.

proč má radiální základová síť přístup „podobnosti“ k modelování? Vezměme si následující příklad dvourozměrné datové sady, kde centrální vektory dvaceti uzlů RBF jsou reprezentovány“+“.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.