Teoria della scelta: otto pezzi di media difficoltà © Giorgio Rampa, [email protected] 7. Dissonanze Teorie individuali Un dissonanza si definisce per differenza rispetto alle consonanze previste dai canoni classici dell’armonia. Secondo Schoenberg, le dissonanze prendono piede per un’esigenza di varietà: e questa è una fortunata combinazione. 1. “Razionalità limitata” Nella precedente lezione abbiamo concluso il nostro argomento mostrando che in contesti di interazione sociale con informazione incompleta, che poi sono quelli più interessanti per la teoria della scelta, dobbiamo rinunciare alla pretesa che i partecipanti siano dotati di rappresentazioni del mondo in grado di concepire tutto ciò che potrebbe essere vero. In effetti, tra gli aspetti più rilevanti per un decisore immerso in un mondo di decisori ci sono le opinioni degli altri decisori. Ma, come abbiamo visto, è in generale impossibile che ogni decisore sia così “razionale” da includere in modo completo nella propria rappresentazione del mondo –che dovrebbe essere una rappresentazione per mezzo di modelli probabilistici sulle opinioni altrui– una razionalità “di uguale potenza” da parte di ogni altro decisore. Se ne potrebbe dedurre che ogni partecipante all’interazione ha una rappresentazione del mondo che è “semplificata”, almeno secondo i canoni di perfezione cui ambirebbe la teoria standard. In realtà i decisori potrebbero anche dotarsi di rappresentazioni molto sofisticate del mondo, ragionando sottilmente sul ragionamento altrui; ciò che manca rispetto alla teoria standard è la possibilità di pervenire consapevolmente ad un comune spazio di incertezza, nel quale incasellare nello stesso modo qualsiasi segnale provenga dall’ambiente. Ciò che dobbiamo davvero concludere, dunque, è che ogni decisore possiede un modello personale del mondo, e che non v’è alcuna garanzia che quel modello preveda il medesimo spazio di incertezza di altri. Nel seguito, chiameremo anche “teoria” ognuno dei modelli individuali posseduti dai partecipanti1. Alcuni definiscono tale stato di cose “razionalità limitata”. Non vi è nulla di male nel condividere questo uso, a patto però di non intendere con ciò che vi sia qualche difetto dei decisori a fronte di compiti normalmente eseguibili secondo canoni standard. È la situazione di interazione fra i decisori che genera un enorme eccesso di complessità cognitiva anche per decisori molto brillanti. L’economista e psicologo Herbert Simon è noto per aver studiato i temi della razionalità limitata, e per aver mostrato che, anche in situazioni relativamente semplici e non caratterizzate da interazione, i soggetti tendono a scomporre i problemi che si pongono in sotto–problemi più semplici. Questo perché problemi anche poco più complessi di quelli presentati nei primi capitoli dei manuali di microeconomia presentano difficoltà algoritmiche che i decisori affrontano in modo decisamente diverso da quanto pretenderebbe la teoria standard. La logica sottostante alla scomposizione di un problema in sotto–problemi deriva, a giudizio di Simon, dalle precedenti esperienze dei soggetti: se in circostanze passate una certa sequenza di azioni (“routine”) è stata efficace nel risolvere un qualche problema, allora quella sequenza viene nuovamente utilizzata in altre situazioni ritenute analoghe. Si devono osservare, a questo proposito, due 1 Tale termine potrebbe apparire curioso a chi è abituato a pensare che sia “teoria” solo ciò che fanno alcuni soggetti specializzati, gli scienziati, mentre i comuni mortali hanno solo punti di vista, opinioni, credenze. Probabilmente, invece, la differenza è solo di grado, e non di genere. 1 aspetti. Da una parte i decisori molto spesso paiono ritenersi soddisfatti di routine che “funzionano”, senza pretendere di aver risolto un problema di massimo in senso globale: questo atteggiamento denota il fatto che i decisori hanno “livelli di aspirazione” che governano il loro modo di valutare, o ordinare, i risultati delle scelte2. Dall’altra parte il cercare di ricondurre problemi (o parti di problemi) a situazioni di scelta già sperimentate in passato, o comunque lasciarsi guidare da routine che si sono mostrate efficaci in passato, implica che un soggetto non affronta ogni problema nei termini da noi descritti nelle prime lezioni: non si osserva né una rappresentazione “completa” di ogni singolo problema, né l’individuazione della soluzione secondo le linee usuali del calcolo ( il “max” di cui parlavamo nella lezione 1). Ora, sicuramente i problemi di calcolo non sono secondari per i problemi di scelta; su questo abbiamo già avuto modo di fare qualche osservazione (si veda la prima pagina della lezione 6). Tuttavia si potrebbe sostenere che con l’ausilio di macchine artificiali piuttosto potenti tali problemi possono essere aggirati. Nel seguito di queste lezioni non ci preoccuperemo particolarmente dei problemi di calcolo, supponendo per semplicità che i decisori siano in grado di svolgere i calcoli compatibili con il livello di complessità della rappresentazione che si sono fatti di in problema. Il punto principale, invece, è la rappresentazione stessa di un problema. Il suggerimento di Simon, secondo cui le esperienze passate sono piuttosto rilevanti nel determinare l’inquadramento di una situazione nuova, dovrà essere approfondito. Un punto di vista affine a quello appena esaminato è stato proposto da altri psicologi che si sono occupati di problemi di scelta: parliamo di Daniel Kahneman3 e Amos Tversky. Questi autori hanno condotto parecchi esperimenti relativi alle scelte che i soggetti compiono quando si trovano in condizioni di incertezza; i loro risultati dimostrano che spesso i decisori sono incoerenti, rispondendo a domande o problemi successivi in modo contraddittorio con quanto fatto in precedenza. Questi risultati, già osservati in precedenza da altri autori e considerati “paradossi”, denoterebbero secondo l’analisi standard qualche imperfezione nel loro modo di ordinare le conseguenze delle scelte, o qualche difetto di capacità di calcolo. In realtà, suggeriscono i due psicologi, pare che il punto più interessante dei risultati dei loro esperimenti sia il fatto che i soggetti tendono a focalizzare la propria attenzione su alcune parti della descrizione di un problema, dando a queste parti un peso eccessivo rispetto ad una descrizione più completa. Ciò capita, per esempio, quando i possibili esiti sono descritti in termini di perdite anziché di guadagni, pur essendo equivalenti in termini di utilità attesa; oppure accade quando uno dei possibili guadagni o perdite è particolarmente vistoso. D’altra parte, c’è molta evidenza di questo fenomeno anche nella vita normale, e non solo negli esperimenti: si pensi al fatto che molti temono di viaggiare in aereo, pur essendo provato che il danno atteso da incidente sia inferiore a quello di viaggiare con altri mezzi; oppure si pensi al fatto che molti acquistano biglietti di lotterie con premi finali molto elevati, pur essendo la vincita attesa molto inferiore al costo del biglietto. Come dicono Kahneman e Tversky, molto spesso è il modo in cui il problema viene presentato che determina il ragionamento e la soluzione adottati da un decisore4. Ciò segnalerebbe, come già suggeriva Simon, che gli individui tendono a codificare un problema secondo categorie per loro più familiari o comunque più focali. Ne segue dunque che l’esperienza passata fa sì che diversi soggetti percepiscano gli stessi problemi in modo diverso, e quindi ne diano soluzioni diverse o comunque giustificate in modo diverso. Se poi questi modi di procedere individuali vengono fatti operare su problemi non familiari possono emergere delle contraddizioni: una volta che tali contraddizioni vengono esplicitate ai soggetti, questi possono comprendere quanto è successo, e magari ristrutturare il proprio modo di pensare. Il problema è che quelle esperienze in grado di far emergere delle contraddizioni sono state “artificiali”: non solo nel senso che sono state condotte in laboratorio, ma anche nel senso che non sono esperienze usualmente vissute dai decisori. 2 Simon usa il termine “satisficing”, contrapposto a “maximising”, per descrive questo atteggiamento dei decisori. Sia Simon si Kahneman hanno ottenuto il premio Nobel in Economia. 4 Questi autori usano la locuzione “framing effect” per indicare questo fenomeno. 3 2 Torniamo dunque al punto da noi sollevato all’inizio: esistono “teorie” individuali tra loro diverse che possono coesistere, almeno sino a quando esse mostrano di “funzionare”. Per chi ritiene che la razionalità dei decisori debba essere estesa sino alla conoscenza del “modello vero” o dello “spazio di incertezza comune”, la presenza di teorie individuali diverse suona un po’ come un ammasso di dissonanze, che rovinano la limpidezza di una buona armonia. Ma non tutte le dissonanze sono tali all’orecchio di ogni sensibilità. E non tutte le apparenti dissonanze rovinano un’armonia; ma su questo torneremo nell’ultima lezione. 2. Apprendimento La principale implicazione del nostro modo di vedere le cose è che soggetti diversi, dotati di teorie diverse, pur essendo sottoposti agli stessi segnali pubblici provenienti dall’ambiente, traggono conclusioni diverse. Trarre implicazioni dai segnali provenienti dall’ambiente si può chiamare “apprendimento”. La “madre” di tutte le regole di apprendimento è la regola di Bayes, che abbiamo già incontrato più volte (si veda il riquadro alle pagine 7-8 della lezione 4). Si ricordi che il calcolo di una probabilità condizionata, che è il cuore della regola di Bayes, avviene sulla base del prior: date le variabili oggetto di incertezza, ovvero appartenenti allo spazio di incertezza, è il prior che assegna certe probabilità ad ogni possibile configurazione di quelle variabili, cioè ad ogni possibile evento. Dato il prior, le probabilità condizionate non possono che conseguire in un certo modo, per ogni possibile evento condizionante. Si noti: “ogni possibile evento” è una terminologia relativa al prior stesso: degli eventi non contemplati nel prior non si può parlare. Per esempio, potrebbe accadere che ad un certo evento x il prior assegni probabilità nulla; dunque ogni altro evento che lo includa, del tipo (x, y ) , ha probabilità nulla; inoltre tale probabilità resterà nulla in seguito a qualsiasi informazione aggiuntiva, cioè calcolando qualsiasi probabilità condizionata (a posteriori) dell’evento p ( x, y ) ponendo di conoscere qualsiasi altro evento: se p (x, y ) = 0 , allora p (x y ) = = 0 . Non p( y ) solo: non è possibile calcolare alcuna probabilità condizionata di altri eventi condizionati a quello di probabilità nulla, perché lo si ritiene a priori impossibile. In termini aritmetici, infatp ( x, y ) ti, bisognerebbe dividere qualcosa per zero: se p ( x ) = 0 , allora p ( y x ) = non è calcop( x ) labile. La teoria bayesiana non può indicare alcuna strada formalmente coerente per decidere cosa fare nel caso si “osservasse” l’evento x: occorrerebbe semplicemente cambiare il proprio prior, cioè adottare una teoria diversa. Naturalmente, se un decisore possedesse un modello capace di contemplare tutti gli eventi possibili, e se il prior assegnasse probabilità positiva, per quanto piccola, a tutto ciò che potrebbe essere vero, allora alla lunga quel decisore imparerebbe “tutto”. Questo, più o meno, è il contenuto di quello che in statistica bayesiana prende il nome di “teorema della misurazione precisa”, cioè di convergenza delle distribuzioni a posteriori allo “stato vero” del mondo. Questo teorema, tuttavia, non ci è molto utile. In primo luogo la convergenza è “asintotica”, cioè si verifica “al limite” di infinite osservazioni sugli eventi sui quali si è incerti: in effetti, un prior che assegnasse probabilità molto basse a eventi che invece hanno “oggettivamente” probabilità elevate, e viceversa, richiederebbe di sperimentare moltissime osservazioni prima di convergere. Ma si ricordi che noi stiamo parlando di soggetti che devono prendere decisioni in un contesto che richiede loro di prenderle, e non di attendere sino a quando siano sicuri di conoscere la verità. Nessun umano 3 ha mai avuto a disposizione un tempo infinito per imparare tutto. Non solo, ma se raccogliere ed elaborare osservazioni comporta un costo, un soggetto potrebbe decidere “razionalmente” di smettere di apprendere, perché il costo marginale di ulteriori affinamenti della sua distribuzione di probabilità potrebbe essere inferiore al guadagno (atteso) marginale5. In secondo luogo, e più importante, sappiamo che è impossibile possedere un modello con le caratteristiche richieste dal teorema della misurazione precisa, perché in contesti di interazione a informazione incompleta dovrebbe avere dimensione più che infinita. In presenza di teorie finite individuali, invece, un soggetto può decidere di prendere o meno in considerazione certe variabili, e ciò che potrà dedurre dalla sua esperienza successiva dipende da quali variabili ha incluso nel modello, e da come le ha incluse. Un modello per la decisione, usualmente, prende la forma di varie relazioni fra le variabili ritenute rilevanti da chi detiene quel modello. Tali relazioni sono di solito rappresentate tramite funzioni caratterizzate da un certo numero di parametri. L’incertezza verte, appunto su quei parametri. Il decisore immagina di poter osservare, sequenzialmente nel tempo, varie “realizzazioni” delle variabili tra cui è interessato a conoscere le relazioni. Si ipotizza che le realizzazioni siano “sporcate” da disturbi casuali dei quali si ipotizzano certe caratteristiche probabilistiche: per esempio, il cosiddetto “rumore bianco” è un disturbo casuale di valore atteso nullo e varianza costante nel tempo. Ciò che si potrà osservare, dunque, non saranno valori deterministici delle variabili di interesse, ma valori inclusivi di disturbi. Chiamiamo π i parametri che il soggetto vuole “stimare”, e chiamiamo σ t le osservazioni, o segnali, che egli potrebbe ricevere alle diverse date t sulle variabili legate dalle relazioni immaginate nel modello. Per ogni diverso valore dei parametri, ovviamente, la relazione fra le variabili è diversa, così come al variare dell’intercetta o del coefficiente angolare una retta si trasla oppure si inclina diversamente. Il modello statistico del decisore, dunque, è una distribuzione di probabilità del tipo p (π , σ 1 , σ 2 ,K) : ogni diversa configurazione dei parametri è associata (in modo stocastico) con diverse possibili sequenze di osservazioni dei segnali. Se dunque il nostro soggetto ritiene che osserverà k realizzazioni delle variabili, il suo prior assume in questo caso una forma del tipo p (π , σ 1 , σ 2 , K , σ k ) ; dopo aver effettivamente osservato le k realizzazioni, la distribuzione a posteriori dei parametri è data dalla regola di Bayes: p (π , σ 1 , σ 2 , K, σ k ) p π σ 1 , σ 2 ,K, σ k = . Questa è la stima dei parametri dopo aver avuto a p(σ 1 , σ 2 ,K, σ k ) disposizione k osservazioni, e chiaramente dipende da come è fatto il prior. Esistono dei metodi standardizzati tramite i quali effettuare la “migliore stima” dei parametri: usualmente si tratta di individuare i parametri in modo tale che la previsione deterministica che si farebbe delle variabili tramite quei parametri si allontani il meno possibile da ciò che si è osservato. “Il meno possibile” è valutato tramite qualche minimizzazione degli errori commessi, di solito elevati al quadrato: è il cosiddetto metodo dei minimi quadrati. Con opportune elaborazioni studiate dagli statistici, ogni processo di stima può essere considerato anche in termini ricorsivi: non si attendono cioè k osservazioni prima di effettuare la stima, ma la stima viene rivista ad ogni data. Una stima ricorsiva dà luogo ad una relazione che ha per argomenti la precedente stima e la nuova osservazione, e come valori la nuova stima. In altri termini, ad ogni data t abbiamo π t = F (π t −1 , σ t ) . Tale relazione può essere dedotta in generale dalla regola di Bayes, applicata al tipo di modello a priori adottato di volta in ( ) 5 Questo è, in statistica bayesiana, il famoso problema delle slot machines a più bracci, di cui si sa che un braccio comporta vincite attese più elevate, ma non si sa quale. Il problema è che sperimentare in questo caso vuol dire giocare, cioè spendere soldi. Un decisore può, con probabilità positiva, smettere di sperimentare e rimanere a giocare con il braccio sbagliato, per il semplice fatto che l’esperienza verificatasi nei primi tentativi lo ha indotto a ritenere che quello fosse il braccio giusto. 4 volta. Questo è ciò che spesso si intende per “apprendimento” in statistica; ne abbiamo visto un banale esempio nel riquadro a pagina 16-17 della lezione 2. Una stima ricorsiva, nel senso del precedente riquadro, potrebbe forse condurre alla “verità” nel caso in cui il fenomeno di cui apprendere qualcosa fosse esogeno all’agire di chi apprende. Per esempio, avendo a disposizione uno strumento impreciso di misura, si potrebbe comunque alla lunga apprendere il tempo di rotazione della Terra, o di altri fenomeni celesti. Anche in questo esempio, si noti, è tuttavia possibile che per millenni una comunità scientifica continui a ritenere che si tratti in realtà del tempo di rivoluzione del Sole attorno alla Terra, e per far quadrare altri movimenti celesti si inventino altre nozioni, come gli epicicli, che aggiungono innumerevoli variabili al modello. Nel caso invece di decisori che interagiscono, le variabili su cui si vuole apprendere qualcosa dipendono a loro volta dalle scelte di altri decisori che stanno cercando di apprendere qualcosa essi stessi. Dunque ciò che si vorrebbe raggiungere si muove mentre lo inseguiamo, e non è detto che il processo abbia una conclusione, o che ne abbia una sola possibile. Come si è detto al riquadro precedente, ogni decisore modifica i parametri del proprio modello in seguito ai segnali osservati. Sulla base dei modelli aggiornati, i decisori compiono le proprie scelte alla data successiva, e ciò costituisce la base dei segnali che ognuno può osservare. E così via. Questo è un sistema dinamico, cioè un sistema di equazioni che descrive come certe grandezze, in questo caso i parametri dei modelli individuali, evolvono nel tempo. Se indichiamo con π t −1 il vettore congiunto dei parametri dei modelli di tutti i partecipanti all’interazione alla data t–1, e con st il vettore congiunto delle scelte di tutti gli agenti alla data successiva, che le scelte dipendano dai modelli si può scrivere come st = G (π t −1 ) . Se poi immaginiamo che i segnali σ t osservabili dai partecipanti dipendano, eventualmente in modo casuale, dalle scelte dei partecipanti, possiamo scrivere σ t = H (st ) = H (G (π t −1 )) . I decisori, poi, aggiornano i propri modelli sulla base dei segnali osservati, secondo la regola π t = F (π t −1 , σ t ) descritta nel riquadro precedente. Abbiamo cioè π t = F (π t −1 , H (G(π t −1 ))) , o in modo più compatto π t = D (π t −1 ) . Il sistema dinamico D è in grado di descrivere il cammino di apprendimento a partire da qualsiasi condizione iniziale π 0 , vale a dire da qualsiasi configurazione dei modelli individuali (prior) nella data iniziale. Un punto stazionario di questa dinamica, detto anche equilibrio, è una configurazione dei parametri tale che, se il sistema parte da quella posizione, rimarrà sempre in quella posizione per tutto il tempo. Capite facilmente che si deve trattare di un “punto fisso” del sistema D. Il significato di un tale punto è che i decisori non hanno più ragione di modificare i propri modelli: hanno cioè appreso ciò che interessava loro apprendere. Un punto stazionario della dinamica è come il fondo di una conca per il sistema dinamico che descrive il cammino di una pallina che parta da qualsiasi punto della conca. Se però si tratta di una collina, anche la cima della collina è un punto stazionario della dinamica. Esiste tuttavia una differenza significativa tra i due casi: se spostiamo di poco la pallina dal fondo di una conca, essa vi ritornerà; se invece allontaniamo un poco la pallina dalla cima di una collina, essa se ne allontanerà per sempre. Questa è la differenza fra un punto stazionario stabile ed uno instabile: solo i punti stazionari stabili sono tali che il sistema vi potrebbe convergere. Ma il “paesaggio” in cui il sistema (la pallina) si muove potrebbe essere molto variegato (una sequenza di valli e colline affiancate), e ciò dipende da come è fatto il sistema dinamico D: quando le equazioni non sono lineari ciò è molto probabile. In tal caso il sistema possiede molti punti stazionari, e a quale di questi il sistema converga dipende dalle condizioni iniziali. In altri termini, il processo di apprendimento potrebbe avere diversi esiti possibili a seconda delle opinioni iniziali dei partecipanti; inoltre, se esiste qualche disturbo casuale nei segnali osservabili, l’esito finale dipende anche dalla storia che si è effettivamente realizzata. Un altro 5 colpo per i fautori del “modello vero”, che secondo costoro viene necessariamente appreso da decisori sufficientemente pazienti. Un ulteriore problema che sorge nei processi di apprendimento è già stato osservato nei riquadri a pagina 16 e 17 della lezione 2. La “velocità” con cui i modelli individuali si modificano in seguito al processo di apprendimento si riduce sempre più nel tempo, perché i modelli stessi diventano sempre più “precisi” (questo è un termine tecnico della statistica bayesiana): i loro detentori vi pongono sempre più fiducia. Quindi lo stesso segnale, osservato all’inizio del processo oppure più avanti nel tempo, avrà effetti diversi sulla modificazione delle opinioni individuali: più passa il tempo e più aumenta l’inerzia di tali opinioni individuali. Potrebbe peraltro accadere che i partecipanti abbiano opinioni molto forti, cioè precise, già all’inizio: in tal caso essi “apprendono poco”, o meglio si fanno influenzare poco dai segnali osservati preferendo tenere piuttosto fermi loro punti di vista iniziali. Se però ad un certo punto i segnali osservati cominciano a divergere abbondantemente da ciò che gli agenti si aspettano sulla base dei propri modelli, ciò crea una seria difficoltà. La “meccanica” dell’apprendimento bayesiano non consente di trovare una soluzione a questa difficoltà, se non quella di abbandonare il modello ed adottarne uno diverso: ma non esiste una regola statistica per questa operazione, che è necessariamente un’operazione creativa. Nella pratica molti operatori, anche professionali, chiudono gli occhi di fronte a quei segnali che chiamano “outlier”, letteralmente “che sta a parte”: si inventa qualche razionalizzazione tale per cui si tratta di segnali irrilevanti, o comunque dipendenti da cause che nulla hanno a che fare con ciò che si sta apprendendo. Ma ciò crea una crescente tensione cognitiva, che prima o poi dovrà sfociare in qualche radicale mutamento di opinione; anzi, maggiore è la precisione accordata ad un modello sottoposto a continui outlier e più dirompente sarà il suo abbandono. Come si vede, lo studio dei processi di apprendimento non è usualmente agevole dal punto di vista dell’analisi teorica. Tranne che in casi piuttosto semplici, è difficile trarre conclusioni ben definite. Per tale ragione, pur essendo consapevoli della rilevanza dell’argomento, siamo costretti a lasciarlo sul sottofondo. Ciò che abbiamo appreso è che un processo di apprendimento non necessariamente converge ad un’unica situazione di riposo possibile: non esiste cioè un solo modo in cui i decisori possono essere “cognitivamente tranquilli”. 3. L’ordine sensoriale di Hayek Facciamo ora una breve parentesi per riferire di un fenomeno curioso della storia del pensiero economico: un contributo alla psicologia da parte di un economista, F. Von Hayek6. Daremo qui un resoconto di questo fenomeno usando un linguaggio ed una sequenza logica parzialmente diversi da quelli originali di Hayek, ma utili per quanto dovremo dire più avanti. 6 Hayek era stato originariamente incerto se dedicarsi alla psicologia o all’economia. Durante gli studi aveva predisposto un saggio di psicologia, che però lasciò in un cassetto avendo nel frattempo deciso di essere un economista. Tra gli anni ’20 e ’30 del novecento studiò i problemi del ciclo economico, che erano allora piuttosto in voga, tentando di connetterli con la struttura teorica dell’equilibrio economico generale. Dopo essere cresciuto in Austria, si trasferì in Inghilterra alla London School of Economics; in quel periodo, però, l’astro inglese dell’economia era Keynes, e i lavori di Hayek non avevano tanto successo quanto egli avrebbe desiderato. Si trasferì poi a Chicago, e dopo la metà degli anni ’30 i suoi interessi si diressero verso i problemi dell’informazione e della conoscenza nel funzionamento dell’economia. Essendo politicamente di ispirazione liberista, la diffusione delle idee keynesiane non lo trovava d’accordo, e negli anni ’40 spese molto tempo nella scrittura di opere di teoria politica e giuridica. Fu solo nel 1952 che decise di ritirare fuori dal cassetto e pubblicare la sua opera giovanile nel campo della psicologia, dal titolo The sensory order: la lettura di questo lavoro può essere molto utile per comprendere meglio le sue ricerche sulla conoscenza in economia. Anch’egli vinse il premio Nobel per l’economia. 6 Sinora abbiamo discusso di varie operazioni svolte da parte dei decisori: formulazione di modelli, ricezione ed elaborazione di segnali, deliberazione di particolari scelte. In omaggio alla tradizione della teoria della scelta abbiamo supposto che il modo di ragionare ed il linguaggio utilizzati dai decisori nel compiere quelle operazioni sia di tipo formale, tipico dell’algebra, dell’analisi, della statistica. Ora, questo è certo possibile, pur tenendo conto dei limiti logici di cui abbiamo discusso nelle ultime lezioni, ma è molto più probabile che agenti meno sofisticati parlino altri linguaggi, e ciò non toglie che essi formulino teorie sul mondo che li circonda. Comunque sia, anche supponendo che il linguaggio sia quello formale, abbiamo la tendenza a credere che “dentro la scatola nera” che è la nostra testa le cose procedano così come noi le esterniamo a noi stessi e agli altri. Tendiamo ad immaginare, cioè, che nella nostra testa circolino sillogismi, segni di operazione, grafici di funzione e cose simili. Quantomeno, riteniamo di possedere un “linguaggio macchina” che è del tutto simile ad un software per computer, che decodifica, mette in memoria, richiama dalla memoria e ricodifica le operazioni che stiamo svolgendo. Ciò è molto lontano dal vero, e il primo punto su cui riflettere è il modo in cui noi organizziamo la nostra percezione del mondo esterno. Hayek parte dall’assunto che il mondo esterno sia dotato di un ordine, nel senso che i vari elementi sono legati tra loro da relazioni. Al nostro interno esiste poi un ordine, che noi attribuiamo agli elementi esterni: è l’ordine “sensoriale”, che non è un semplice rispecchiamento del primo. Questo secondo ordine ha una natura diversa, che deriva sostanzialmente dalla fisiologia del nostro corpo. Gli accadimenti esterni, tramite le relazioni che intercorrono tra essi, provocano effetti che noi percepiamo nella forma di sensazioni. Le nostre sensazioni, ovviamente, sono determinate dai nostri sensi: per esempio gli umani non percepiscono le frequenze luminose dell’infrarosso o ultravioletto, così come normalmente non percepiscono gli ultrasuoni e in genere la maggior parte delle onde (sonore o elettromagnetiche). Le sensazioni che siamo in grado di percepire ci pervengono per mezzo di qualche sensore superficiale, che poi invia impulsi ad altri sensori interni, che sono le terminazioni neurali; queste unità interne, poi, inviano a valle altri impulsi. La tesi fondamentale di Hayek è che l’ordine sensoriale che attribuiamo alle sensazioni non ha la natura di un archivio, cioè un insieme di “luoghi” separati nei quali noi depositiamo le diverse sensazioni. L’ordine sensoriale invece ha una natura diffusa, e consiste nel tipo di “cablaggi” che esistono fra tutte le unità interne. Ogni sensazione, tramite i cablaggi, provoca una particolare sequenza di impulsi interni, vale a dire una particolare configurazione di acceso/spento di tutte le unità: tale sequenza è indotta dalle connessioni esistenti fra le diverse unità, e ogni impulso che proviene da qualche unità/sensore viene trasmesso a cascata ad un certo numero di altre unità, incluse quelle localizzate nel cervello. Della sequenza può essere rilevante sia la struttura “topologica”, cioè la localizzazione delle unità accese nella sequenza, sia l’ordine temporale con cui la sequenza si forma. Il punto centrale non è “dove la sequenza finisca”, bensì la struttura della sequenza stessa. È tale sequenza a determinare il “significato” di ogni sensazione: sensazioni uguali inducono sequenze uguali di impulsi. Per essere più precisi, dovremmo dire che sensazioni tra loro simili provocano sequenze uguali di impulsi: infatti una sequenza di impulsi è formalmente un oggetto discreto, così come ogni sequenza binaria, mentre è probabile che gli stimoli provenienti dall’esterno siano di natura continua. Dunque, siccome le unità neurali si accendono, e trasmettono a valle un impulso, solo se gli impulsi che arrivano da monte superano certe “soglie”, tutti gli stimoli che stanno sul medesimo lato di una certa soglia provocano la medesima sequenza interna. È ora chiaro che, avendo le unità/sensore stesse una natura “neurale” (acceso/spento a seconda di soglie), la capacità di percepire certe sensazioni (ultrasuoni, infrarossi, eccetera) probabilmente non deriva dall’esistenza o meno di opportune unità/sensore, bensì dalla capacità dei sensori di reagire a quelle sensazioni. Alcuni soggetti o gruppi umani, per esempio, percepiscono meglio di altri certi suoni o odori. Questo fa capire che la capacità di “codificare” le sensazioni non è in genere innata, ma dipende dalle esperienze passate, in primo luogo dal modo in cui si è allevati, educati, formati. E ciò svela anche un altro aspetto cruciale: le connessioni tra unità non sono date une volta per tutte, ma vengono modulate nel corso delle esperienze. Si impara, cioè, a dare significato a certi impulsi esterni (e interni) attivando o meno certe connessioni: e questo imparare, probabilmente, avviene 7 quando l’esistenza o meno di certe connessioni si dimostra “utile o soddisfacente” per qualche scopo. Un primo esempio di apprendimento in questo senso è la sicurezza indotta dal suono di una voce familiare per un neonato. Gli stimoli esterni non arrivano in modo isolato e “ordinato”. Il modo con cui il cablaggio interno seleziona il coacervo di stimoli in cui siamo immersi determina l’ordine che noi attribuiamo ad esso. L’accoppiamento di un certo odore con una certa forma ed un certo colore diventerà “rosa” piuttosto che “azalea”. Questo vuol dire che le unità interne svolgono anche un altro compito, oltre che scaricare a valle, in date sequenze, uno stimolo esterno: esistono altre unità, o meglio gruppi di unità, che reagiscono alla presenza congiunta di certe sequenze interne, provocando altre sequenze interne. Da questo punto di vista, non esiste una differenza logica o materiale tra i due tipi di sequenze; è però la specializzazione interna di certi gruppi di unità a determinare se essi svolgano più il compito di reagire a stimoli esterni o stimoli interni. Ovviamente si può spingere questa gerarchia di compiti più avanti di uno o più passi, ed arrivare a mansioni associative sempre più complesse. Per esempio, “un certo odore con una certa forma ed un certo colore” di cui abbiamo parlato prima sono essi stessi elaborazioni già complesse, e non elementari, di stimoli esterni. L’elemento comune è, comunque, il principio “connessionista”: l’ordine sensoriale non sta nella localizzazione dei concetti in qualche struttura d’archivio, accoppiata con l’indice dell’archivio (così come accade per le attuali memorie dei computer), ma nella struttura delle connessioni. La presenza di un stimolo, esterno oppure interno, riproduce (ricrea) ogni volta una particolare struttura binaria di accensioni/spegnimenti diffusi nella rete delle unità. Anche la successione temporale degli stimoli è importante: per esempio una certa successione di suoni vocali accoppiata con la presentazione insistente e sistematica di una certa figura è, o meglio diventa dopo un addestramento sufficientemente prolungato, “mamma”: qualcosa che già prima esisteva nella forma di voce familiare o di seno materno, ma che ora assume un “ordine” più elaborato. Più avanti, un’altra sequenza di suoni accoppiata sistematicamente con indicazioni, diventa “mela”. Più avanti ancora, il simbolo “m” accoppiato con un faticoso addestramento diventa la rappresentazione del primo suono di “mamma” e “mela”. Più avanti ancora il simbolo max U (c ) può assumere c∈C qualche “significato”, se ciò provoca una certa soddisfazione, o almeno reazione, in chi vi è esposto. Si noti, in tutto ciò, l’importanza degli “insegnanti” e non solo di chi apprende. La numerosità delle unità interne e la possibilità di attuare un numero più o meno elevato di connessioni tra esse determinano la capacità del sistema neurale. Il grado di utilizzo di tale capacità dipende dall’esperienza, non passiva ma guidata dalle soddisfazioni tratte dal creare connessioni. Tutto ciò, dice Hayek, fornisce i principi generali di costituzione dell’ordine sensoriale. Nessun soggetto potrà mai spiegare completamente e nel dettaglio, tramite il proprio ordine sensoriale, l’ordine sensoriale di un altro soggetto di pari capacità. Per spiegare una struttura nel dettaglio, cioè per darsi ragione di essa all’interno di un ordine concettuale capace di comprenderla per differenza rispetto ad altre, occorre una struttura la cui capacità sia superiore alla complessità algoritmica della struttura da spiegare. Da un diverso punto di vista, ecco una bella critica ante litteram della dottrina Harsanyi-Aumann-Lucas. 4. Reti neurali Nei tempi recenti va piuttosto di moda parlare di reti neurali7. Il loro utilizzo si è mostrato abbastanza efficace nell’affrontare una serie di problemi anche complessi: previsione di andamenti borsistici, riconoscimento vocale e di immagini, gestione di apparati che richiedono una logica “fuzzy”, ec7 Le reti neurali non sono il solo esempio di apparati algoritmici “paralleli”, che tengono cioè conto del punto di vista “connessionista” nelle scienze cognitive. I cosiddetti “sistemi classificatori” sono un altro esempio. Dal punto di vista concettuale, ma anche formale, non esiste tuttavia una grande differenza. 8 cetera. Per quanto riguarda in particolare la previsione di andamenti borsistici, occorre una certa cautela: il successo in questo campo, e l’esplosione del numero di ricercatori che impiegano le reti e delle cifre che gli intermediari sono disposti a pagare per quei servizi, si sono verificati tra il 1995 e il 2000, periodo in cui la crescita delle borse era continua, impetuosa e piuttosto sistematica. Forse anche modelli relativamente più semplici avrebbero potuto avere altrettanto successo. In effetti, il numero e le paghe dei consulenti si sono recentemente ridotti rispetto al periodo precedente. In generale, comunque, le reti neurali sono oggi utilizzate in quanto strumenti di calcolo per particolari scopi pratici. Il nostro punto di vista in questa sede, invece, è diverso: per alcune delle loro caratteristiche, esse si prestano a rappresentare direttamente la conoscenza dei decisori; in altri termini i decisori dal nostro punto di vista sono, e non utilizzano per scopi pratici, reti neurali. La differenza può essere secondaria per quanto riguarda, appunto, gli scopi pratici: una rete neurale produce come risultato certi output cui il decisore è interessato. Dal punto di vista interpretativo, come vedremo, le reti neurali hanno invece proprietà che rendono conto in modo piuttosto interessante di certi fenomeni di conoscenza e di apprendimento. Una rete neurale è essenzialmente un insieme di unità, dette appunto neuroni, collegate tra loro da connessioni: ogni unità, potenzialmente, riceve impulsi da tutte le altre. Aggregando in qualche modo gli impulsi derivanti dalle altre, si ottiene una misura dell’impulso globale ricevuto da una certa unità. Se questo impulso supera una certa soglia, allora quella unità “si accende”, inviando a sua volta un impulso a valle, potenzialmente a tutte le altre unità. I parametri cruciali sono, dunque, la forza con cui l’impulso di accensione di una unità viene trasmesso ad ogni altra, e la soglia di accensione delle diverse unità. Esistono due famiglie di reti neurali: quelle “feed forward” e quelle “ricorrenti”. Nelle prime esistono tre gruppi (detti anche livelli, o strati) di neuroni: quelli di input, quelli intermedi, e quelli di output; le connessioni possono andare solo in una direzione tra questi gruppi (da qui il nome): le unità di input trasmettono impulsi solo a quelle intermedie, e quelle intermedie solo a quelle di output; possono esistere più livelli di unità intermedie, e quelle di un livello intermedio inferiore trasmettono solo a quelle del livello intermedio appena superiore. In genere si usa un solo strato intermedio Una rete feed forward con un solo strato intermedio può essere rappresentata schematicamente nel modo seguente: strato di output strato intermedio strato di input I neuroni di input misurano segnali provenienti dall’esterno: evidentemente si tratta di un “esterno” che la rete rappresenta a cinque dimensioni, perché tale è il numero dei segnali registrati. I neuroni di input trasmettono il segnale rilavato ai tre neuroni dello strato intermedio, eventualmente dopo aver moltiplicato ogni input per qualche parametro, a indicare la forza di connessione tra ogni neurone di input e ogni neurone intermedio. È nello strato intermedio che avvengono le operazioni prima descritte: sommando i valori trasmessi dagli input, ogni neurone intermedio assume valore zero oppure uno a seconda che quella somma sia superiore o inferiore ad una certa soglia, specifica di ogni neurone intermedio. I valori assunti dai neuroni intermedi vengono poi trasmessi alle due unità di output, che li ricevono moltiplicati per 9 certi parametri che misurano la forza di connessione tra neuroni intermedi e neuroni di output. A loro volta, ciascuno dei neuroni di output fa una somma dei segnali ricevuti ed emette un segnale di output pari a quella somma. Nelle reti ricorrenti, invece, ogni unità può trasmettere (ricevere) impulsi ad (da) ogni altra unità; di conseguenza non esiste una distinzione tra strati di input, intermedi e di output. Una rete ricorrente si rappresenta “schematicamente” in questo modo: output al tempo t = ∞ trasmissione di impulsi ad ogni tempo t + 1 input al tempo t = 0 Dobbiamo immaginare che le attività della rete siano governate da un orologio che scandisce i tempi in cui ogni unità riceve impulsi, calcola un proprio valore, e invia impulsi. Ognuna delle cinque unità dell’esempio riceve un segnale dall’esterno alla data zero; poi invia un impulso, pari al segnale ricevuto moltiplicato per qualche parametro, ad ogni altra unità; a questo punto ogni unità combina, per somma, gli impulsi ricevuti dalle altre, e se tale somma eccede una certa soglia si “accende”, cioè vale uno (in caso contrario vale zero); tali valori binari vengono poi trasmessi di nuovo, al tempo successivo, a tutte le altre unità. E così via, sino a quando i valori delle le unità si stabilizzano, cioè rimangono costanti nel tempo: ciò accade al tempo t = ∞, cioè dopo un tempo sufficiente per la stabilizzazione. Solo a questo punto i valori stabilizzati vengono inviati all’esterno della rete come segnale di output della stessa. La precedente rappresentazione è un po’ complicata graficamente, e dunque si preferiscono rappresentazioni analitiche. Supponiamo che la rete sia composta da n unità; chiamiamo xi ciascuna delle unità, e indichiamo con xit il valore di tale unità al tempo t. I segnali di input a ciascuna unità al tempo zero sono allora xi0 . Indichiamo poi con F i la “funzione di attivazione” di ogni unità ad ogni data successiva: tale funzione determina se quella unità vale zero oppure uno, a seconda che la somma pesata dei valori provenienti dalle altre unità, cioè i valori assunti da queste ultime alla data precedente, superino o meno una certa soglia. Avremo al- ( ) lora xit +1 = F i x1t , x 2t ,K , x nt . Infine, raggruppiamo le diverse variabili e funzioni in vettori: x t sono i valori di tutte le unità alla data t, e F è il vettore delle funzioni di attivazione; possiamo allora scrivere x t +1 = F x t . Questo è un sistema dinamico, e i suoi punti stazionari ( ) stabili (si veda il riquadro a pagina 5) sono i possibili valori di output della rete. Si osservi che una rete feed forward ad un solo strato intermedio è un sistema dinamico particolare, dove l’output si legge due tempi dopo la ricezione dell’output esterno: infatti il pas10 saggio di impulsi da strato di input a strato intermedio, e quello da quest’ultimo allo strato di output, avviene in due unità di tempo. Una proprietà essenziale di una rete neurale è che essa incorpora una struttura “non lineare”: le relazioni che ne governano il comportamento sono lungi dall’essere “semplici” come quelle che descrivono rette o piani. Una funzione lineare è “semplice” nel senso che il suo comportamento, cioè il modo in cui le variabili dipendenti reagiscono a variazioni di quelle indipendenti, è sempre prevedibile in modo semplice: dipende solo dai coefficienti angolari; la reazione di una variabile all’altra è sempre la stessa, in quanto i coefficienti angolari delle funzioni lineari sono gli stessi in ogni punto. Non a caso le funzioni lineari sono quelle che più facilmente riusciamo ad immaginare e a “governare” nelle nostre rappresentazioni. Le funzioni non lineari, invece, possono avere andamenti che non riusciamo a immaginare facilmente, e le loro implicazioni ci possono talora sorprendere. L’esempio più semplice di funzione non lineare è una funzione che è “lineare a tratti”, cioè ha un andamento lineare in un tratto e un diverso andamento lineare in un altro tratto; si forma dunque un “gradino”, che è la non linearità. Tale è proprio la funzione che definisce la “regola di accensione” delle diverse unità, come l’abbiamo definita in precedenza: una unità assume valore uno oppure zero, cioè è accesa oppure spenta, a seconda che l’impulso aggregato ricevuto dalle altre unità sia superiore o inferiore ad un certo valore di soglia. In altri casi si preferisce approssimare questa funzione a gradino con un’altra funzione liscia ma molto simile al “gradino” di cui parlavamo. Una funzione che è costante (vale uno oppure zero) in un certo tratto ha un grafico che è dato da un tratto di retta orizzontale, cioè lineare. La non linearità è costituita dal “gradino” che si forma in corrispondenza della soglia di accensione. Poniamo che la soglia di accensione di una unità sia b; misuriamo in ascissa l’impulso aggregato ricevuto dalle altre unità; misuriamo in ordinata il valore assunto dall’unità: abbiamo il seguente grafico (linea in neretto): 1 O b impulso ricevuto L’espressione analitica di questa funzione, chiamando v l’impulso aggregato ricevuto dalle al1 se v > b tre unità, è la seguente: x = . 0 se v ≤ b Una approssimazione “liscia” (cioè continua e con derivate continue) alla precedente funzione 1 − e −cv può essere ottenuta ricorrendo per esempio alla funzione x = , dove e è il numero di 1 + e −cv Nepero, cioè la base dei cosiddetti logaritmi naturali (e = 2,71828…). Il parametro c misura la reattività dell’unità all’impulso ricevuto. In questo caso la soglia di accensione è pari a zero, e i due valori tendenziali dell’unità non solo +1/–1 anziché 1/0. Il grafico è questo: +1 –1 11 La somiglianza alla funzione a gradino aumenta all’aumentare del parametro c. Il punto cruciale, ai nostri scopi, è il ruolo svolto dalle unità intermedie nel momento in cui esse aggregano l’impulso ricevuto da quelle di input (o da tutte le unità delle reti ricorrenti, nel momento in cui aggregano l’impulso ricevuto da tutte le altre). Come abbiamo detto, l’impulso aggregato ricevuto è la somma dei valori emessi dalle singole unità, zero oppure uno (+1 oppure –1 in certe altre rappresentazioni), ciascuno moltiplicato per un parametro. [In quanto segue faremo riferimento alle sole reti feed forward, in quanto la trattazione analitica di quelle ricorrenti implica lo studio di sistemi dinamici un poco complessi. Peraltro è stato dimostrato che le proprietà sulle quali ci concentreremo sono condivise da entrambi i tipi di reti neurali.] Ciascuna delle unità intermedie “separa” l’insieme di tutti i possibili valori delle unità di input in due “semispazi”: se le unità di input sono due, i loro valori stanno in un piano, e i due semipiani sono separati da una retta; se le unità di input sono tre, i loro valori stanno nello spazio tridimensionale, e i due semispazi sono separati da un piano; e così via. A seconda che i valori degli input siano in uno dei due semispazi, l’unità intermedia si accende o spegne. Se esistono due unità intermedie, ciascuna di esse opera una separazione di questo tipo, e dunque l’insieme dei possibili valori degli input è separato in quattro zone diverse. Per ogni nuova unità intermedia si genera una separazione sempre più fine dello spazio dei valori di input. L’impulso aggregato che perviene a ciascuna unità intermedia, nell’ipotesi che esistano n unità di input, si può scrivere nella seguente forma: a1 x1 + a 2 x 2 + K + a n x n . Se tale impulso supera un certa soglia b allora l’unità intermedia vale uno, altrimenti zero. Si tratta allora di valutare la seguente disequazione: a1 x1 + a 2 x 2 + K + a n x n ≥ b .Questa è una disequazione lineare, cioè la funzione che la definisce, il valore dell’impulso aggregato, è una funzione lineare. Come è noto dalle scuole medie, lo studio di disequazioni di questo tipo conduce alla definizione di rette (ciò nel caso n=2; si tratta invece di punti se n=1, oppure piani se n=3, oppure “iperpiani” se n è maggiore di 3), ciascuna delle quali definisce due semispazi: se il vettore dei valori delle unità di input è in uno dei due semispazi, il risultato è 1, altrimenti 0. La presenza di diverse unità intermedie è allora un “sistema di disequazioni”: considerando per semplicità il caso n=2, ciò graficamente dà luogo ad una partizione del piano in diverse celle, come mostrato nel seguente grafico dove si suppone che esistano quattro unità intermedie, ciascuna delle quali definisce una delle rette R1–R4. Valore dell’input 2 A B R4 R3 D a E F R2 H L I R1 M C G Valore dell’input 1 Le quattro disequazioni determinano, graficamente, le undici celle A–M delimitate in vario modo dalle rette R1–R4. La forma di tali celle dipende dalla disposizione delle rette, e dunque 12 per ciascuna di esse dai parametri ai e b sopra definiti. All’aumentare del numero di unità intermedie, cioè di rette separatrici, il numero di celle ovviamente aumenta. Ogni punto, cioè ogni configurazione di input, ricade in una cella: per esempio il punto a ricade nella cella E. In corrispondenza delle diverse “celle” in cui lo spazio degli input è partizionato la configurazione dei valori assunti dalle unità intermedie è diversa. Tale configurazione è, in sostanza, un vettore di valori binari (per esempio uno oppure zero) che è diverso da cella a cella. Poiché all’aumentare del numero di unità intermedie il numero di celle aumenta8, ecco che aumenta il numero di configurazioni diverse delle unità intermedie aumenta9. Sappiamo che l’ultimo passaggio di una rete è tradurre i valori dello strato intermedio in valori delle unità di output, tramite altre funzioni di trasferimento. È chiaro allora che, modulando opportunamente queste ultime funzioni di trasferimento (per esempio modulando i parametri che le definiscono), è possibile far assumere alle unità di output ogni valore desiderato in corrispondenza dei diversi valori delle unità intermedie, cioè delle diverse celle nello spazio degli input. Questa osservazione ci conduce al cosiddetto “teorema di rappresentazione universale”: tramite una rete con k unità di input e m unità di output è possibile approssimare qualsiasi funzione da uno spazio a k dimensioni ad uno ad m dimensioni, a patto di considerare un numero n sufficientemente elevato di unità intermedie. L’intuizione è che all’aumentare del numero delle unità intermedie possiamo discriminare un numero sempre maggiore, e potenzialmente molto grande, di celle diverse nell’insieme di definizione (valori degli input), a cui fare assumere il valore desiderato dell’output. Anche una funzione molto “strana”, cioè con comportamenti molto complicati, può essere approssimata da una rete neurale. Questa è una differenza essenziale rispetto ai modelli statistici più tradizionali, dove la famiglia delle funzioni prese in considerazione (lineare, quadratica, logaritmica, eccetera) è limitata dal prior ipotizzato inizialmente: data questa ipotesi iniziale, si è costretti a tenerla sino alla fine, a meno di non cambiare radicalmente il modello. Una rete neurale, invece, non fa ipotesi a priori sulla famiglia funzionale; anzi, questo termine non ha neppure senso all’interno della logica della rete. Tuttavia, aumentando a sufficienza il numero delle unità intermedie e modulando opportunamente i parametri delle funzioni, si ottiene il risultato desiderato. 5. Conoscenza e apprendimento neurali Una rete neurale, come anticipato, può essere una buona rappresentazione del modo in cui un soggetto “conosce”. Rispetto alla descrizione minimale che ne abbiamo fatto nel paragrafo precedente, occorre ovviamente aggiungere altri elementi, che però sono inquadrabili nello schema introdotto. Da una parte, l’output della rete è stato sinora interpretato come output numerico ai fini di certe applicazioni particolari che stanno a cuore ai “pratici”, quali la stima e la previsione di fenomeni misurabili all’esterno. Ma più in generale l’output di una rete neurale consiste in qualche configurazione di impulsi, che vengono trasmessi ad altre reti neurali (altre parti del “cervello”) oppure ad apparati che traducono quegli impulsi in “azioni” emanate dal soggetto verso l’esterno (movimenti, parole, eccetera). Esistono poi, nella rete più ampia (“cervello”) altre parti, che sono esse stesse reti neurali, in grado di riportare verso l’interno la “documentazione” di quanto il soggetto ha effettuato 8 Il numero esatto di celle che si formano all’aumentare del numero di unità intermedie è una funzione non semplice di quest’ultimo numero e del numero delle unità di input. 9 Nel caso di reti ricorrenti il numero di celle è dato dal numero dei cosiddetti “bacini di attrazione” dei punti stazionari stabili della rete (si veda il riquadro a pagina 10), cioè gli insiemi dei valori di input partendo dai quali la dinamica ricorrente converge ad un medesimo punto stazionario. Ogni punto stazionario stabile è l’analogo di ognuna delle configurazioni assunte dalle unità intermedie delle reti feed forward: la numerosità di tali configurazioni diverse dipende dal numero di unità della rete. 13 in termini di azioni verso l’esterno: questa è una sorta di “auto–percezione” del soggetto. Esistono altre parti ancora che associano, cioè prendono congiuntamente come input, gli output della prima rete e quelli delle reti deputate a tenere conto delle azioni emesse dal soggetto. Ci sono altre sotto– reti che registrano gli input esterni che pervenuti in momenti successivi, e altre che associano gli output delle reti che hanno operano nel momento precedente con quelle che hanno operato successivamente. Questa struttura più complessa (elaborazione degli input iniziali, di quelli connessi con le azioni del soggetto, di quelli dei momenti successivi) è, in forma rudimentale, una struttura potenzialmente in grado di rappresentare il modo in cui il soggetto tiene conto delle sequenze di avvenimenti interni ed esterni: in particolare degli effetti di certi input esterni precedenti su certe proprie azioni successive, e degli effetti di certe proprie azioni su altri eventi esterni ancora successivi. Una rete di livello superiore che associ tutto ciò, cioè abbia come input gli output delle reti che effettuano le diverse operazioni descritte sopra, opera nel modo usuale: produce cioè configurazioni di output che sono le stesse ogni volta che i suoi input appartengono alla stessa “cella” dello spazio dei suoi input. In questo senso, “conoscere” può essere interpretato come essere capaci a “riconoscere” ovvero “associare”: cioè avere la medesima reazione (in termini della configurazione di output di una rete opportuna) in corrispondenza di configurazioni di input tra loro simili. La medesima cosa può essere espressa dalla locuzione “dare significato”: il “significato” di un input esterno è la configurazione che assumono gli output in corrispondenza di quegli input. Si rammenti sempre che “input” va inteso in senso generalizzato: non solo input esterni al soggetto, ma anche input che provengono ad una rete da altre sotto–reti; dunque un “significato” è in generale un’operazione associativa stabile tra i vari termini che compongono una data configurazione degli input. Come sappiamo, però, l’assumere una certa configurazione di output piuttosto che un’altra in corrispondenza di ogni possibile input dipende da come sono formate le “celle” che partizionano lo spazio degli input, e dunque (v. il precedente riquadro) dipende dal valore di tutti i parametri di connessione tra unità della rete e dalle loro soglie di accensione10. Tra poco discuteremo di come questi parametri si modifichino effettivamente nel tempo, ma occorre innanzitutto sottolineare alcune implicazioni piuttosto importanti di questo modo di vedere le cose. In primo luogo, dovrebbe essere chiaro che possiamo interpretare l’intera struttura a rete, composta da diverse sotto–reti specializzate nel registrare input di varia natura (esterni, interni, di tempi diversi), con gli stessi criteri generali con i quali abbiamo descritto una singola rete: si tratta di una differenza di grado (dimensione della rete), ma i principi generali di funzionamento restano i medesimi. In secondo luogo, la numerosità delle unità di input determina la “ricchezza” dei segnali che la rete è in grado di percepire dal proprio esterno: più sono gli input e più aumenta la dimensione dello spazio (esterno a sé) che la rete sa esplorare: nella nostra esperienza sappiamo che certi segnali non vengono neppure presi in considerazione da alcuni, mentre lo sono da altri. Per esempio le quotazioni dei BTP decennali non interessano a tutti, così come non interessano a tutti i risultati delle partite di calcio o le deliberazioni del consiglio dei ministri. In terzo luogo, la numerosità delle unità intermedie, o comunque delle unità interne tra loro interconnesse, determina la “ricchezza” di possibili alternative tra le quali una rete è in grado di discriminare all’intero di quel “mondo esterno” la cui ampiezza (dimensione) è determinata dalla numerosità delle unità di input. Più sono le unità intermedie e più aumentano le “celle” diverse del mondo esterno che la rete è in grado di discriminare: sappiamo dalla nostra esperienza che certe differenze non vengono registrate da alcuni ma non da altri. Per esempio, alcuni non sanno distinguere fra indaco e viola, altri fra una temperatura esterna di 22 gradi e una di 23, altri ancora non sanno distinguere fra inglese e tedesco. In quarto luogo, se i parametri della rete, cioè le forme delle “celle” di mondo esterno che essa riesce a discriminare, si modificano anche di poco, l’effetto sugli output di rete può essere molto am10 Nelle fisiologia effettiva dei cervelli naturali, ciò corrisponde alla creazione di sinapsi più o meno numerose, e più o meno forti, tra i neuroni. 14 pio. Infatti il “significato” di una certa configurazione di input può cambiare, in quanto quella configurazione dopo il cambiamento dei parametri può ricadere in una cella diversa dalla precedente. Per esempio, facendo riferimento alla figura del riquadro a pagina 12, se si modificano di poco i parametri che determinano la retta R3, facendola per esempio traslare un poco a sinistra, allora il punto a può ritrovarsi nella cella I anziché nella cella E; se invece si sposta un poco in basso la retta R1, allora il punto a potrebbe ritrovarsi nella cella D (si noti: non è il punto a spostarsi, ma le sono le celle a deformarsi). Quando una certa configurazione di input ricade in una cella diversa, l’output prodotto dalla rete può mutare significativamente, e dunque il “significato” di quella configurazione muta radicalmente. In quinto luogo, la variazione di alcuni parametri che governano il comportamento della rete può provocare l’instaurarsi di una relazione fra due o più unita prima non connesse: basta che alcuni parametri, che prima erano irrilevanti e dunque trasmettevano impulsi con forza insufficiente per avere effetti, diventino ora più grandi. Si possono dunque generare nuove connessioni fra certe unità di input e certe intermedie, o fra certe intermedie a certe di output; di conseguenza può aumentare (o diminuire) la capacità della rete di discriminare tra eventi diversi del mondo esterno o interno. D’altra parte si possono generare nuove connessioni fra sotto–reti; di conseguenza aumenta la capacità della rete generale di porre associazioni fra “mondi” (esterni, interni, diacronici) diversi. Anche questo è un mutamento piuttosto radicale della capacità della rete di “conoscere”. Veniamo ora al punto che prima avevamo lasciato in sospeso, vale a dire il modo in cui i parametri della rete si modificano nel tempo. Tale fenomeno può essere interpretato come un’attività di “apprendimento” da parte della rete. In termini strettamente fisiologici, il mutamento dei parametri corrisponde al rafforzamento o indebolimento delle sinapsi fra unità neurali; tali mutamenti, si ritiene, avvengono in seguito alla più o meno frequente ripetizione di determinate configurazioni di acceso/spento (cioè accoppiamenti di input e output), in congiunzione con una sorta di valutazione interna del “senso di sicurezza” provocato da quelle configurazioni. Il “senso di sicurezza”, pare, è valutato a livello cerebrale molto profondo, che in termini evolutivi corrisponde alle strutture primordiali del sistema nervoso (tra cui gioca un certo ruolo l’ipotalamo): tale senso di sicurezza è quello che si produce inizialmente, nella vita dell’individuo, in corrispondenza di alcune percezioni fondamentali connesse con la protezione, il calore, l’alimentazione ed il riconoscimento vocale e visivo delle figure “vicine” associate a quegli elementi (di qui la nozione di imprinting); poi il senso di sicurezza (o tranquillità cognitiva) viene man mano esteso ad altre competenze semplici collegate alle figure esterne: toccare, seguire con lo sguardo, riconoscere; successivamente ancora, esso si collega a reazioni amorevoli di quelle figure a certe azioni proprie: pianti, sorrisi, lallazione. E così via, passando, per esempio, per un buon voto in Diritto Privato; ovviamente anche le riprovazioni, cioè la valutazioni negative esterne ed interne, contribuiscono all’attività di apprendimento. In termini astratti, queste modalità di apprendimento di una rete possono essere rappresentate come segue. Si presume che esista qualche funzione di valutazione dell’appropriatezza delle associazioni che la rete opera fra input e output. Tale funzione prende la forma di una “funzione di perdita”, perdita derivante dall’aver prodotto la rete output diversi da quelli che un “valutatore” ritiene corretti in corrispondenza di certi input; la figura del “valutatore” è fittizia, e rappresenta l’obiettivo di raggiungere una situazione di tranquillità cognitiva in relazione ad un problema affrontato. Le funzioni di perdita più diffuse nelle modellizzazioni valutano qualche media degli scostamenti degli output della rete da quelli desiderati. Siccome il modo usuale di misurare gli scostamenti, o le distanze, è calcolare il quadrato degli stessi, si perviene a qualche metodo “dei minimi quadrati”. Esso consiste in: (a) ipotizzare diverse configurazioni dei parametri della rete; (b) simulare gli output che la rete produce, in conseguenza di una data sequenza di input, per ogni diversa configurazione dei parametri; (c) calcolare i quadrati delle distanze, o “scarti”, di quegli output dagli output desiderati dal “valutatore”; (d) scegliere la configurazione dei parametri che minimizza la somma degli scarti quadratici. Esistono naturalmente metodi matematici e computistici che aiutano a risolvere questo problema di minimo. In particolare, è possibile rappresentare questo apprendimento in 15 termini ricorsivi (si veda il riquadro a pagina 4): la stima dei parametri non avviene dopo aver accumulato una sequenza lunga di osservazioni di input e output, ma dopo ogni singola osservazione. Questa ricostruzione dell’apprendimento neurale può naturalmente essere pensata come un caso particolare dell’impostazione generale di tipo bayesiano (si veda il riquadro a pagina 4): la stima dei parametri dopo un certo numero di “esperienze” può essere vista come una distribuzione a posteriori degli stessi, cioè una distribuzione condizionata al verificarsi di certi eventi, che sono appunto quelle esperienze. Tuttavia esistono due importanti differenze. In primo luogo, la configurazione complessiva della rete all’inizio di qualche periodo di apprendimento non è equivalente ad un prior: infatti una rete non ha la struttura di una distribuzione probabilistica su eventi. È vero che in certi casi una rete può essere vista come l’approssimazione di una funzione tra da certe variabili indipendenti (gli input) e certe variabili dipendenti (gli output): in tal senso essa evoca un tradizionale modello statistico. Tuttavia le proprietà che la rete deve avere affinché il suo apprendimento possa essere interpretato come applicazione della regola di Bayes sono in generale ben lungi dall’essere soddisfatte11. In secondo luogo, e più importante, le funzioni incorporate in una rete neurale (cioè le funzioni di accensione e quelle di trasferimento) non sono analoghe a funzioni tra variabili indipendenti e variabili indipendenti nel senso usuale. Il “senso usuale” è che le funzioni in questione vengono ipotizzate dall’inizio in modo esplicito dallo statistico, il quale assumendo che esistano proprio quelle relazioni funzionali tra le variabili coinvolte, il problema essendo quello di stimarne i parametri. In una rete neurale, invece, il fatto che vengano prodotti certi output dipende da certe operazioni di trasformazione delle configurazioni binarie (zero/uno) assunte dalle unità intermedie in seguito a certi input. La produzione di specifiche configurazioni binarie e successive trasformazioni in output dipendono sì da parametri di funzioni (di accensione e trasferimento), ma queste funzioni non hanno alcuna interpretazione ex ante: è solo quando ci si rende conto ex post che quelle trasformazioni “funzionano”, cioè sono rinforzate dal meccanismo di valutazione, che ci si può accorgere che esse somigliano, in alcuni casi, a relazioni tra variabili indipendenti (gli input) e dipendenti (gli output). Ma si badi: nella logica delle reti questa interpretazione, cioè il rinvenimento della relazione, è necessariamente il risultato di una attività ulteriore e diversa da parte di qualche altra sotto–rete; quest’ultima esamina cosa accade nella prima rete e ne registra certe sistematicità (delle relazioni fra input e output), attribuendo a tali sistematicità, che per la seconda sono degli input, un “significato”. Si ricordi poi che la funzione di perdita, sopra attribuita al “valutatore” del comportamento di una sotto–rete, non è esterna alla rete generale. La valutazione è necessariamente attuata essa stessa da qualche altra parte della rete neurale generale, dotata di opportune caratteristiche. Le proprietà delle reti che abbiamo elencato a pagina 14 e 15 hanno ben precise implicazioni sul modo in cui una rete, sottoposta ad una sequenza di input e dotata di uno schema di valutazione dell’associazione fra input e output, può apprendere. 1. Per prima cosa, il numero di unità di input della rete non è fissato a priori; esso dipende dalla configurazione iniziale dei parametri, che verosimilmente dipende dalla storia passata. Quindi una rete sufficientemente ricca di unità potrebbe dedicarne molte oppure poche alla registrazione dei segnali esterni, e dunque essere capace di rilevare maggiore oppure minore dettaglio nel mondo esterno (si ricordi che “esterno” significa esterno alla rete, che potrebbe essere l’interno di qualche rete neurale più ampia di cui la prima è parte). Ne segue che le “esperienze” stesse 11 Il primo problema è la non linearità della struttura della rete: anche nella statistica tradizionale i modelli non lineari sono di difficile studio perché non è facile individuare le ipotesi da farsi sulle distribuzioni congiunte di indipendenti, parametri e dipendenti affinché il metodo dei minimi quadrati, o suo equivalente, coincida con l’applicazione della regola di Bayes. Il secondo problema è che nei modelli statistici tradizionali le non linearità sono quelle delle funzioni dirette che legano variabili indipendenti e dipendenti; in una rete neurale, invece, le non linearità sono costituite dalle funzioni di accensione delle unità intermedie, che producono configurazioni binarie (zero/uno) di tali unità in corrispondenza di certi input: queste configurazioni devono poi essere ulteriormente tradotte in output con ulteriori passaggi. 16 che la rete utilizza per apprendere possono essere diverse da quelle utilizzate da un’altra rete, nel senso che le due reti “osservano” il mondo esterno in modo diverso. Dunque due reti diverse potrebbero apprendere cose diverse pur se sottoposte al medesimo ambiente. 2. Per definizione, d’altra parte, l’apprendimento neurale consiste nella modificazione dei parametri nel tempo, giusto in seguito al proporsi dei segnali esterni, e sempre in relazione con il meccanismo di valutazione, cioè la funzione di perdita di cui abbiamo parlato sopra. Potrebbe dunque darsi che una rete, che inizialmente dedica poche unità alla ricezione di segnali, col passare del tempo instauri nuove connessioni con altre unità di input. Questo avviene se qualche segnale esterno si mostra “utile”, cioè importante per la funzione di perdita; ma un segnale esterno, pur potendo essere utile, viene riconosciuto come tale solo se esso è sufficientemente forte e se si presenta alla rete piuttosto stabilmente e non eccezionalmente. Può allora accadere che di fronte ad una storia effettivamente sperimentata –che è sempre per necessità una storia di durata finita– una rete non riesca a dare denso a segnali che in storie alternative si sarebbero mostrati significativi. Si comprende allora l’importanza delle esperienze effettive di una rete, specie nella fase iniziale; e dunque l’importanza di eventuali insegnanti esterni. 3. Supponiamo che la prima fase delle esperienze di una rete sia tale che alcuni segnali non sono sufficientemente forti o frequenti, e dunque sono trascurati dalla rete (nessuna unità intermedia elabora i corrispondenti deboli impulsi delle unità di ingresso). Per quanto riguarda questa prima fase, allora, le sole connessioni attive della rete possono apprendere in modo adeguato quanto sta avvenendo. Se però, per qualche ragione, da un certo momento in poi i segnali prima trascurati diventano più forti, la rete dovrebbe modificare certi parametri; tuttavia potrebbero esserci serie difficoltà a tenere effettivamente conto dei “nuovi” segnali. Ciò deriva da una tipica proprietà di tutti i processi di apprendimento, cui abbiamo già fatto cenno altrove: dopo ogni successiva tornata della stima ricorsiva dei parametri della rete, si verifica un aumento di qualche indicatore di “precisione” della stima stessa. Dunque la modificazione dei parametri diviene sempre più lenta (v. pagina 6). Si genera allora una tensione crescente fra le anomalie riscontrate nei segnali e la persistenza, o inerzia, dei parametri della rete: il risultato dipende dalla forza relativa dei due lati, e da come questa forza varia nel tempo. Se ad un certo punto le anomalie diventano insostenibili è molto probabile che la rete “accenda” nuove connessioni prima inutilizzate: cioè, alcuni parametri che prima erano pari a zero diventano positivi. Ma questo implica un cambiamento discontinuo dei “significati”, che molto probabilmente induce una modificazione radicale anche degli altri parametri, come se fosse avvenuto un loro “azzeramento”12. Ciò dipende dalla necessità di reinterpretare tutta la storia passata in termini di una diversa struttura di rete. Questa forma di “salto gestaltico” è possibile se le unità a disposizione della rete neurale globale, di cui quella all’opera è una sotto–rete, sono in numero elevato, tale per cui ve n’è sempre una certa parte inutilizzata (ciò accade sempre nei sistemi neurali naturali). 4. Supponiamo che una rete abbia sinora dedicato molte unità alla ricezione ed elaborazione dei segnali provenienti da un certo ambiente, senza trascurarne alcuno. In tal caso, come sappiamo dal “teorema di rappresentazione universale”, la rete può essere in grado di “razionalizzare” alla perfezione, cioè senza alcuna anomalia residua rispetto alla finzione di perdita, gli accadimenti finora registrati. È però verosimile che la successiva evoluzione dei segnali che si presentano alla rete manifesti tendenze che si scostano da quanto la rete prevederebbe con l’attuale struttura dei parametri; e ciò è tanto più probabile quanto più il mondo esterno è vario e non banale. Questo è il cosiddetto problema di “overfitting”13 delle reti neurali: proprio per il fatto di funzionare alla perfezione (cioè senza errori di approssimazione) su uno spezzone iniziale delle proprie esperienze, la rete si comporta male nel periodo successivo. La ragione è che per approssimare senza errori il primo spezzone, che magari include segnali il cui comportamento è in parte ca12 Una sorta di “epilessia”. Nell’ambito della simulazione artificiale delle reti neurali (tramite software opportuni) si osserva di frequente che, in una situazione in cui sono presenti delle anomalie (outlier), consentire a qualche parametro prima nullo di diventare positivo provoca cambiamenti improvvisi di tutti gli altri parametri. 13 Letteralmente “eccesso di (buona) interpolazione”. 17 5. 6. 7. 8. suale, la rete è costretta a costruire una rappresentazione troppo fine: questa rappresentazione scambia per proprietà strutturali quelli che sono avvenimenti in parte casuali. Ne segue che il prosieguo dei segnali, che ancora contengono in parte dei disturbi casuali, non può più essere interpretato14. Anche in questo caso ciò che serve è una profonda ristrutturazione di tutti i parametri, che implica un mutamento radicale del modello. Le improvvise e profonde ristrutturazioni dei parametri della rete, cui abbiamo fatto cenno nei due punti precedenti, hanno il loro equivalente in ciò che si osserva nelle simulazioni a computer dell’apprendimento neurale: ad un certo punto può capitare che il software di minimizzazione della funzione di perdita si blocchi a lungo in un processo di completa revisione dei parametri. Ciò accade perché, data la non linearità incorporata nelle reti, i punti di minimo sono molteplici, e ben separati tra loro nello spazio dei parametri. La rete può incappare in uno di questi minimi, e la risalita da essi può essere resa difficile dal fenomeno del progressivo aumento degli indicatori di precisione. Se però uno scossone (leggi: persistenza di anomalie) è sufficientemente forte, la rete può trovare un nuovo punto di minimo anche molto distante dal precedente. Man mano che passa il tempo, e si accumulano esperienze, la rete assume una struttura sempre più elaborata (creazione di nuove connessioni tra unità e tra sotto–reti): tale grado di elaborazione dipende anche dalla ricchezza degli stimoli acquisiti nelle fasi iniziali. Ma al tempo stesso una rete diventa anche più stabile, cioè dotata di maggior “precisione”, inerzia al cambiamento. Da un certo punto in poi la forza necessaria a provocare ulteriori ristrutturazioni poco più che marginali è troppo grande rispetto alla “precisione”: come si dice, la rete perde “plasticità”15. Naturalmente, non tutte le reti sono ugualmente plastiche o rigide a parità di esperienze trascorse: alcune sono in grado di ricorrere più facilmente a “capacità inutilizzata”, e di nuovo ciò dipende probabilmente dalla ricchezza degli stimoli delle fasi iniziali. Ecco allora che, di fronte a nuove anomalie, alcune reti cercano di trovare nuove razionalizzazioni, cioè nuove configurazioni dei parametri utili per darne conto; altre reti, invece, smettono di apprendere, cioè considerano le anomalie come tali: pure eccezioni rispetto alla teoria che hanno del mondo esterno. In ogni caso, resta vero che la configurazione di ogni rete, da un certo punto in poi, dipende in modo essenziale dalla sua configurazione iniziale, ma soprattutto dalle esperienze –anche le più piccole– delle prime fasi di “vita”: queste determinano le strutture più profonde e stabili, le quali a loro volta determinano il modo in cui le nuove esperienze possono essere razionalizzate. È impossibile che due reti sufficientemente ricche di unità tra loro connesse16 abbiano la stessa struttura dopo aver sperimentato storie apparentemente identiche, perché ogni minima fluttuazione iniziale (“il battito d’ala di una farfalla”) conduce a percorsi divergenti, anche di molto17. Come si vede, “apprendere” non significa (quasi) mai accumulare in modo lineare e progressivo bit di informazione da infilare in opportuni cassetti predisposti allo scopo. In generale significa invece procedere per (piccoli o grandi) salti discontinui. 14 Tutti noi abbiamo esperienza di fenomeni di questo tipo accaduti a noi stessi, specie quando abbiamo cercato di affrontare problemi nuovi per mezzo di teorie o routine che in precedenza avevano successo: nelle prime fasi cerchiamo di darci ragione di eventuali anomalie inventando qualche variazione della teoria prima in uso, e talvolta l’aggiunta di variazioni ci conduce ad una teoria eccessivamente complicata. Magari poi “scopriamo” (e di solito lo facciamo improvvisamente, cioè con un salto improvviso) che una teoria più semplice, ma decisamente diversa, ha più successo. Anche la storia della scienza conosce fenomeni di questo tipo: si pensi all’aggiunta di “epicicli” al modello tolemaico per rendere conto di alcune anomalie. 15 Si deve anche tenere conto dei costi che le ristrutturazioni profonde comportano. In termini di reti neurali artificiali, cioè simulate a computer, si tratta di costi–macchina (programmazione del software, occupazione di memorie e processori, risorse energetiche); in termini di reti neurali naturali, cioè organismi viventi, si tratta dell’energia chimica necessaria per rimodulare moltissime sinapsi contemporaneamente. 16 Il numero dei neuroni di un cervello umano è circa 100 miliardi (per o diviso dieci, a seconda delle stime); potenzialmente il numero di connessioni è pari al quadrato del numero dei neuroni. 17 Questo dovrebbe bloccare sul nascere qualsiasi ipotesi di possibilità della “clonazione”; ma potrebbe anche salvare la nozione di “libero arbitrio”. 18 Alcuni potrebbero, giustamente, osservare che i precedenti argomenti non paiono molto nuovi (si rivolgano, però, costoro ai teorici della dottrina Harsany–Aumann–Lucas). Ciò dipende ovviamente dal linguaggio utilizzato, che è stato volutamente affine a quello di altri settori scientifici. Si ponga tuttavia attenzione al fatto che le proprietà che prima abbiamo esplorato sono proprietà formali delle reti, almeno in linea di principio (in quanto la loro analisi in dettaglio caso per caso è per definizione impossibile). Dunque abbiamo a disposizione uno strumento per “raccontare” in modo fondato e credibile una serie di fenomeni tipici dell’apprendimento neurale, e si presume anche umano. Che lo strumento sia relativamente semplice non deve preoccupare: le potenziali implicazioni, in termini di esiti dell’apprendimento neurale, dovrebbero trovare d’accordo i teorici dei “sistemi complessi” e delle “proprietà emergenti”. A questo punto del nostro discorso ci troviamo di fronte a “soggetti” che detengono teorie individuali anche molto diverse le une dalle altre: posti di fronte al “medesimo”18 nuovo problema, potrebbero venirne fuori con risposte diverse, dissonanti. Come accade, invece, che molte volte ci intendiamo? 18 Siamo sicuri, dopo la nostra precedente analisi, che un nuovo problema affrontato congiuntamente da diverse persone sia per esse il “medesimo” problema? 19 Per l’approfondimento (una discussione tra economisti sui temi di questo capitolo): Egidi M., Lombardi M., Tamborini R., a cura di, Conoscenza incertezza e decisioni economiche, Milano, Angeli, 1991 (un’analisi profonda e stimolante di questi temi, indipendente dai problemi dell’economia): Edelman M.E., Sulla materia della mente, Adelphi 1993 (il punto di vista di Simon): Simon H.A., Le scienze dell’artificiale, Bologna Il Mulino 1988 (il “libro nel cassetto” di Hayek): Hayek, F.A., L’ordine sensoriale. I fondamenti teorici della psicologia, Milano Sansoni 1967 (una visione panoramica sulle reti neurali): Parisi, D., Intervista sulle reti neurali. Cervello e macchine intelligenti, Bologna Il Mulino 1989 (statistica bayesiana e decisione): **De Groot M. H., Optimal Statistical Decision, McGraw-Hill, New York 1970 20