radiella basfunktioner, RBF-kärnor och RBF-nätverk förklaras enkelt

ett annat lärande paradigm

Andre Ye

följ

Sep 26, 2020 * 7 min läs

här är en uppsättning endimensionella data: din uppgift är att hitta ett sätt att helt separera data i två klasser med en rad.

vid första anblicken kan detta tyckas vara en omöjlig uppgift, men det är bara så om vi begränsar oss till en dimension.

låt oss introducera en vågig funktion f(x) och kartlägga varje värde av x till motsvarande utgång. Bekvämt gör detta alla blå punkter högre och de röda punkterna lägre på precis rätt platser. Vi kan sedan rita en horisontell linje som rent delar klasserna i två delar.

denna lösning verkar mycket lömsk, men vi kan faktiskt generalisera den med hjälp av radiella basfunktioner (rbfs). Även om de har många specialiserade användningsfall är en RBF i sig helt enkelt en funktion vars punkter definieras som avstånd från ett centrum. Metoder som använder RBF: er delar i grunden ett inlärningsparadigm som skiljer sig från standardpriset för maskininlärning, vilket gör dem så kraftfulla.

till exempel är klockkurvan ett exempel på en RBF, eftersom punkter representeras som antal standardavvikelser från medelvärdet. Formellt kan vi definiera en RBF som en funktion som kan skrivas som:

notera de dubbla rören (informellt, i detta användningsfall) representerar tanken på ’avstånd’, oavsett dimensionen på x. till exempel

Detta är ’radius’ – aspekten av ’radialbasis-funktionen’. Man kan säga att radiella basfunktioner är symmetriska runt ursprunget.

uppgiften som nämns ovan — magiskt separera punkter med en rad — är känd som radial basis function kernel, med applikationer i den kraftfulla Support Vector Machine (SVM) – algoritmen. Syftet med ett’ kärntrick ’ är att projicera de ursprungliga punkterna i någon ny dimensionalitet så att det blir lättare att separera genom enkla linjära metoder.

ta ett enklare exempel på uppgiften med tre punkter.

låt oss rita en normalfördelning (eller en annan godtycklig RBF-funktion) centrerad vid var och en av punkterna.

sedan kan vi vända alla radiella basfunktioner för datapunkter i en klass.

om vi lägger till alla värden för de radiella basfunktionerna vid varje punkt x, vi en mellanliggande ’global’ funktion som ser ut så här:

vi har uppnått vår vågiga globala funktion (låt oss kalla det g(x))! Det fungerar med alla typer av datalayouter, på grund av arten av RBF-funktionen.

vår valda RBF — funktion — normalfördelningen-är tät i ett centralt område och mindre på alla andra platser. Därför har den mycket svängning när det gäller att bestämma värdet på g (x) när värdena på x är nära dess plats, med minskande effekt när avståndet ökar. Den här egenskapen gör RBF-funktioner kraftfulla.

när vi kartlägger varje originalpunkt på plats x till punkten (x, g(x)) i tvådimensionellt utrymme kan data alltid separeras på ett tillförlitligt sätt, förutsatt att det inte är för bullrigt. Det kommer alltid att mappas i enlighet med korrekt täthet av data på grund av överlappande RBF-funktioner.

faktum är att linjära kombinationer av— addera och multiplicera — radiella basfunktioner kan användas för att approximera nästan vilken funktion som helst.

en funktion (svart) som används för att modellera datapunkter (lila) består av flera RBF funktioner (fasta färgglada linjer). Källa. Bild gratis att dela

radiella Basnätverk tar den här tanken till hjärtat genom att införliva ’radiella basneuroner’ i ett enkelt tvåskiktsnätverk.

ingångsvektorn är den n-dimensionella ingången där en klassificerings-eller regressionsuppgift (endast en utgångsneuron) utförs på. En kopia av ingångsvektorn skickas till var och en av följande radiella basneuroner.

varje RBF — neuron lagrar en ’central’ vektor-detta är helt enkelt en unik vektor från träningsuppsättningen. Ingångsvektorn jämförs med den centrala vektorn, och skillnaden är ansluten till en RBF-funktion. Till exempel, om de centrala och ingångsvektorerna var desamma, skulle skillnaden vara noll. Normalfördelningen vid x = 0 är 1, Så neuronens utgång skulle vara 1.

därför är den centrala vektorn vektorn i mitten av RBF-funktionen, eftersom det är ingången som ger topputgången.

på samma sätt, om de centrala och ingångsvektorerna är olika, försvinner neuronens utgång exponentiellt mot noll. RBF-neuronen kan då betraktas som ett olinjärt mått på likhet mellan ingången och centrala vektorer. Eftersom neuronen är radiell-radiebaserad-skillnadsvektorns storlek, inte riktning, spelar roll.

slutligen viktas och summeras lärdomarna från RBF-noderna genom en enkel anslutning till utgångsskiktet. Utgångsnoder ger stora viktvärden till RBF-neuroner som har särskild betydelse för en kategori och mindre vikter för neuroner vars utgångar betyder mindre.

varför har radialbasis-nätverket en likhetsmetod för modellering? Ta följande exempel tvådimensionell dataset, där de centrala vektorerna på tjugo RBF-noder representeras med ett’+’.

Lämna ett svar

Din e-postadress kommer inte publiceras.