1  Réseaux de neurones

1.1  Modèles de neurones

1.1.1  Neurone biologique


Figure 1: schéma d'un neurone biologique

Le cerveau humain contient près de 86 milliards de neurones (Azevedo et al., 2009), et il existe environ 200 types de neurones. Dans un neurone nous pouvons distinguer trois régions principales (cf. figure 1) : le corps cellulaire qui contient le noyau du neurone ainsi que la machine biochimique nécessaire à la synthèse d'enzymes; les dendrites, qui se divisent comme les branches d'un arbre, recueillent l'information d'autres neurones et l'acheminent vers le corps de la cellule; l'axone, généralement très long et unique, il conduit l'information du corps cellulaire vers d'autres neurones avec qui il fait des connexions appelées synapses.

Au niveau des synapses, la transmission de l'information se fait par l'intermédiaire de molécules chimiques : les neuromédiateurs. Quand un signal électrique arrive au niveau de la synapse, il provoque l'émission de neuromédiateurs excitateurs ou inhibiteurs qui vont se fixer sur les récepteurs dendritiques de l'autre côté de l'espace inter-synaptique. Lorsque suffisamment de molécules excitatrices se sont fixées, un signal électrique est émis dans les dendrites. Le neurone compare alors la somme de tous ces signaux à un seuil. Si la somme excède ce seuil, le neurone émet un signal électrique (émission d'un potentiel d'action) le long de son axone. Sinon, il reste inactif et ne stimule pas les neurones auxquels il est connecté.


Figure 0.2: schéma d'un neurone générique. Une première fonction combine les différentes entrées (le plus souvent une somme) alors qu'une seconde fonction transforme ce résultat pour générer la valeur de sortie du neurone.


1.1.2  Neurone artificiel

Un neurone artificiel modélise plus ou moins fidèlement le fonctionnement d'un neurone biologique. Il peut être défini comme une fonction algébrique non linéaire, paramétrée, à valeurs bornées, de variables réelles appelées entrée. On identifie trois éléments de bases : un ensemble de poids de connexions, un seuil, et une fonction d'activation (Haykin, 1998,Floreano and Mattiussi, 2008).

Voici une petite revue de quelques modèles de neurones du plus simplifié au plus biomimétique.

Mc Culloch's and Pitts

C'est la première modélisation hautement simplifiée d'un neurone décrit par (McCulloch and Pitts, 1943). Cette modélisation décrit une unité logique de seuil (Threshold Logic Unit (TLU)) qui applique une fonction de transfert ϕ aux entrées du neurone.

y(i)=ϕ(
n
j=1
wj,i y(j))     (1)

Avec y(i) la valeur de sortie du neurone, ϕ la fonction de transfert, y(1),y(n) les différentes entrées et wj,i les poids associés.

Dans la formulation originelle McCulloch et Pitts, les neurones avaient une sortie binaire (0 ou 1), mais deux des fonctions les plus utilisées sont la fonction seuil et la fonction sigmoïde :

ϕ(x)=
1
1+e−λ(y(i)+bias)
    (2)

avec bias correspondant au biais et λ au coefficient de pente.

Neurones à fonction radiale (RBF)

Les neurones à fonction radiale (Radial Basis Function ou RBF) (Buhmann, 2003) représentent une autre variété de neurones artificiels dont l'intensité de la réponse est inversement proportionnelle à la distance entre les entrées et un point précis dans l'espace de ces entrées. Les réseaux de fonctions à base radiale sont notamment utilisés dans la classification, l'approximation et la reconnaissance de parole. Leur but est d'approximer un comportement désiré par une collection de fonction, appelées noyaux. Un noyau est caractérisé par un centre Ci et des champs récepteurs r.

Intégrateur à fuite

L'intégrateur à fuite (Leaky integrator, LI) possède une dynamique du premier ordre 1 avec une non-linéarité liée à la fonction de décision (souvent une sigmoïde) (Floreano and Mattiussi, 2008). Le terme intégrateur à fuite est une référence aux circuits électriques parce qu'un neurone polarisé se comporte électriquement comme un condensateur, avec un courant de fuite comme sur la figure 0.3. Les réseaux de neurones intégrateurs à fuite sont très utilisés pour modéliser le comportement d'une assemblée de neurones2 (Dayan and Abbott, 2005).

Le modèle LPDS (Locally Projected Dynamic System)

Variante du modèle LI dont les propriétés permettent de vérifier mathématiquement la stabilité des réseaux dans lesquels il est utilisé. Il a notamment été utilisé dans le cadre de modèles contractants des ganglions de la base (Girard et al., 2008). Dans le cas d'une simulation utilisant la méthode d'Euler pour ses intégrations, son comportement est calculé de la manière suivante:

     
  pt(i) =
 
j ∈ C
wi,jyt(j)
    (3)
  at+dt(i) =
 max(0,min(1,at(i)+
pt(i)at(i)+Ti
τ(i)
.dt)) 
    (4)
  yt+dt(i) =
 



    at+dt(i)si i est excitateur
    −at+dt(i)si i est inhibiteur 
  
    (5)

yt+dt(i) étant la variable de sortie du neurone i, Ti et τ(i) des constantes propres du neurone et τ des constantes et pt(i) la somme des entrées à l'instant t. La principale différence entre ce modèle et un LI vient des opérateurs min et max qui limitent les valeurs possibles pour la variable d'état interne du neurone. L'intérêt est de fortement réduire le temps maximum de retour à l'état de stabilité dans le cas où le neurone est soumis à des entrées ayant une forte intensité (dans le cadre d'une entrée inhibitrice très forte, un neurone LI peut voir sa variable d'état atteindre des valeurs très fortement négatives. Après l'arrêt de cette entrée, la variable interne mettra un temps important avant de revenir à l'état d'équilibre, même avec une entrée excitatrice).

Les modèles impulsionnels

Modèles dont le but est de décrire la série d'impulsions générée par un neurone. La "sortie" du modèle est une suite d'instants, le temps des potentiels d'action. L'intérêt de ces modèles est de pouvoir illustrer une capacité de synchronisation contrairement aux modèles précédents. Or il a été montré que la synchronisation neuronale existe dans le système nerveux et a un rôle fonctionnel (Brette, 2003). Selon (Maass, 1997), ils sont computationnellement plus efficaces que les autres réseaux de neurones.

Il existe différents types de modèles impulsionnels :


Figure 0.3: circuit minimal d'un neurone LI.

1.2  Réseaux de neurones

Le choix de la topologie d'un réseau dépend de la tâche que l'on souhaite résoudre

Les réseaux "feed forward"

Ce sont des réseaux dont la structure suit une logique de traitement de l'information au travers de couches de neurones successives, de l'entrée vers la sortie, sans retour de l'information en amont (voir figure 0.4). C'est par exemple le cas des perceptrons et perceptrons multi-couches (Rosenblatt, 1958,Rumelhart et al., 1986). Dans ces réseaux la dynamique est dirigée par la présentation des exemples d'entrée. Les activations se propagent en sens unique, de la couche d'entrée à la couche de sortie. Ils sont utilisés pour de la classification, reconnaissance des formes (caractères, parole, ...) (LeCun et al., 1989) ou pour de la prédiction.


Figure 0.4: Réseau feed-forward avec une couche cachée.

Cartes auto-organisatrices

Ces cartes (Fukushima, 1975,Kohonen, 1982,Rumelhart and Zipser, 1985) sont inspirées de la structure du cortex, notamment visuel, dans lequel on peut observer une connectivité locale . En d'autres termes, chaque neurone est connecté aux entrées et à ses voisins. Parmi les différentes applications réalisées à l'aide des cartes auto-organisatrices, un assez grand nombre sont des tâches de classification non supervisées : comme une aide dans l'analyse d'observations satellitaire (Yacoub et al., 2001) ou la recherche documentaire (Kaski et al., 1998). Pour une liste d'applications se référer à (Kohonen, 2001).

Réseaux Récurrents

il s'agit de réseaux dont la structure, peut comporter des récurrences (voir figure 0.5). Ces récurrences peuvent changer radicalement la dynamique qui pourra s'instaurer dans un réseau de neurones et l'amener à s'auto-entretenir. La notion de réseau récurrent est étudiée et mise en application dans une mémoire auto-associative (Hopfield, 1982). L'utilisation de récurrence sera reprise dans le contexte des perceptrons multicouches, avec le réseau de Jordan (Jordan, 1986) et le réseau de Elman (Elman, 1990). Dans ces deux modèles, l'activation de la couche de sortie (dans le cas Jordan) ou de la couche cachée (dans le cas de Elman) est dupliquée en retour dans la couche d'entrée. Les réseaux récurrents utilisant des intégrateurs à fuite peuvent être désignés sous le nom de réseaux de neurones récurrents à temps continus (continuous time recurrent neural network, CTRNN) (Beer, 1995,Yamauchi and Beer, 1996). Ils sont connus pour être théoriquement capables de répliquer n'importe quels systèmes dynamiques et il a été montré que des petits CTRNN sont capables de dynamiques complexes (Beer, 1995,Beer, 2006,Bongard, 2011).


Figure 0.5: Architectures de réseaux récurrents. (a) Réseau récurrent simple. (b) Réseau de type Elman.

Les réseaux Echo State

Les réseaux echo state (Jaeger, 2002) sont composés d'une couche cachée faiblement et aléatoirement connectée (autour de 1% de connectivité). Les taux de connectivité et les poids de connexion de la couche cachée sont fixés au préalable et doivent respecter la propriété d'echo state (cette propriété est décrite à la section ??).

Ce type de réseau a été testé sur différentes applications robotiques telles que la détection d'évènements complexes dans la navigation d'un robot autonome (Antonelo et al., 2007) ou des tâches impliquant une forme de mémoire (Hartland et al., 2009).


1
On appelle un élément du premier ordre, un système décrit par l'équation différentielle du premier ordre : dx(t)/dt = f(x(t),t) où la fonction f définit le système dynamique étudié
2
Une assemblée de neurones est un groupe de neurones qui entretiennent entre eux des connexions synaptiques renforcées, de sorte qu'ils ont plus de chance d'être actifs tous ensembles en même temps.

Références

[Antonelo et al., 2007]
Antonelo, E., Schrauwen, B., Dutoit, X., Stroobandt, D., and Nuttin, M. (2007). Event detection and localization in mobile robot navigation using reservoir computing. Artificial Neural Networks–ICANN 2007, pages 660–669.
[Azevedo et al., 2009]
Azevedo, F. A. C., Carvalho, L. R. B., Grinberg, L. T., Farfel, J. M., Ferretti, R. E. L., Leite, R. E. P., Jacob Filho, W., Lent, R., and Herculano-Houzel, S. (2009). Equal numbers of neuronal and nonneuronal cells make the human brain an isometrically scaled-up primate brain. Journal of Comparative Neurology, 513(5):532–541.
[Beer, 1995]
Beer, R. D. (1995). On the Dynamics of Small Continuous-Time Recurrent Neural Networks. Adaptive Behavior, 3(4):469–509.
[Beer, 2006]
Beer, R. D. (2006). Parameter space structure of continuous-time recurrent neural networks. Neural Computation, 18(12):3009–3051.
[Bongard, 2011]
Bongard, J. (2011). Morphological change in machines accelerates the evolution of robust behavior. Proceedings of the National Academy of Sciences, 2010:1234–1239.
[Brette, 2003]
Brette, R. (2003). Modèles Impulsionnels de Réseaux de Neurones Biologiques.
[Buhmann, 2003]
Buhmann, M. D. (2003). Radial basis functions: theory and implementations, volume 12. Cambridge university press.
[Dayan and Abbott, 2005]
Dayan, P. and Abbott, L. F. (2005). Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems. The MIT Press.
[Elman, 1990]
Elman, J. (1990). Finding structure in time. Cognitive science, 14(2):179–211.
[Floreano and Mattiussi, 2008]
Floreano, D. and Mattiussi, C. (2008). Bio-inspired artificial intelligence: Theories, methods, and technologies.
[Fukushima, 1975]
Fukushima, K. (1975). Cognitron: a self-organizing multilayered neural network. Biological Cybernetics, 20(3-4):121–136.
[Gerstner and Kistler, 2002]
Gerstner, W. and Kistler, W. (2002). Spiking Neuron Models: An Introduction. Cambridge University Press, New York, NY, USA.
[Girard et al., 2008]
Girard, B., Tabareau, N., Pham, Q. C., Berthoz, A., and Slotine, J. J. (2008). Where neuroscience and dynamic system theory meet autonomous robotics: a contracting basal ganglia model for action selection. Neural Networks, 21(4):628–641.
[Hartland et al., 2009]
Hartland, C., Bredeche, N., and Sebag, M. (2009). Memory-enhanced evolutionary robotics: the echo state network approach. In In proc. of IEEE-CEC'09, number section IV, pages 2788–2795.
[Haykin, 1998]
Haykin, S. (1998). Neural Networks: A Comprehensive Foundation, 2nd edition. Prentice Hall PTR.
[Hodgkin and Huxley, 1952]
Hodgkin, A. L. and Huxley, A. F. (1952). A quantitative description of membrane current and its application to conduction and excitation in nerve. The Journal of physiology, 117(4):500–544.
[Hopfield, 1982]
Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America, 79(8):2554–8.
[Izhikevich, 2003]
Izhikevich, E. M. (2003). Simple model of spiking neurons. IEEE Trans. Neural Networks, pages 1569–1572.
[Jaeger, 2002]
Jaeger, H. (2002). Tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the" echo state network" approach. GMD-Forschungszentrum Informationstechnik.
[Jordan, 1986]
Jordan, M. I. (1986). Serial order: A parallel distributed processing approach. Advances in Connectionist Theory Speech, 121(ICS-8604):471–495.
[Kaski et al., 1998]
Kaski, S., Honkela, T., Lagus, K., and Kohonen, T. (1998). WEBSOM–self-organizing maps of document collections. Neurocomputing, 21(1):101–117.
[Kohonen, 1982]
Kohonen, T. (1982). Self-organized formation of topologically correct feature maps. Biological Cybernetics, 43(1):59–69.
[Kohonen, 2001]
Kohonen, T. (2001). Self-organizing maps, volume 30. Springer Verlag.
[Lapicque, 1907]
Lapicque, L. (1907). Recherches quantitatives sur l'excitation electrique des nerfs traites comme une polarization. J Physiol (Paris), pages 622–635.
[LeCun et al., 1989]
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., and Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4):541–551.
[Maass, 1997]
Maass, W. (1997). Networks of spiking neurons: the third generation of neural network models. Neural networks.
[McCulloch and Pitts, 1943]
McCulloch, W. S. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5(4):115–133.
[Rosenblatt, 1958]
Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological review, 65(1958).
[Rumelhart et al., 1986]
Rumelhart, D. E., Hinton, G. E., and Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088):533–536.
[Rumelhart and Zipser, 1985]
Rumelhart, D. E. and Zipser, D. (1985). Feature discovery by competitive learning. Cognitive science, 9(1):75–112.
[Yacoub et al., 2001]
Yacoub, M., Badran, F., and Thiria, S. (2001). A topological hierarchical clustering: Application to ocean color classification. Artificial Neural Networks—ICANN 2001, pages 492–499.
[Yamauchi and Beer, 1996]
Yamauchi, B. and Beer, R. D. (1996). Spatial learning for navigation in dynamic environments. IEEE transactions on systems, man, and cybernetics. Part B, Cybernetics : a publication of the IEEE Systems, Man, and Cybernetics Society, 26(3):496–505.