Next: Osservazioni conclusive Up: Apprendimento di reti Previous: Risultati da reti simulate
Per applicare le tecniche esposte ad un processo proveniente dal mondo reale, abbiamo utilizzato il database riportato a pag.44 in [4]. Si tratta di uno studio svolto dai professori Sewell e Shah riguardo le intenzioni di una popolazione scolastica di 10416 studenti dell'ultimo anno di superiori di proseguire gli studi, frequentando l'università. I dati sono stati raccolti alla Wisconsin High School nel 1968 e riguardano il sesso dello studente, il suo stato socioeconomico, il suo quoziente di intelligenza, l'incoraggiamento ricevuto dai genitori a proseguire gli studi e l'effettiva decisione di farlo o meno. La seguente tabella illustra in dettaglio le variabili ed i possibili stati che possono assumere, nonchè i codici numerici che il prototipo assegna loro, utili per comprensione dei risultati ottenuti allegati in formato elettronico.
| sigla | SEX | SES | IQ | PE | CP |
| signif. | Sex | SocioEcon.
Status |
Intell.
Quotient |
Parental
Encourag. |
College
Plans |
| 1 | male | low | low | low | yes |
| 2 | female | lower mid. | lower mid. | high | no |
| 3 | upper mid. | upper mid. | |||
| 4 | high | high |
Abbiamo tentato un primo apprendimento partendo da una rete senza archi fra i nodi, e tenendo il parametro
ad un basso valore, dato che la start network
fornita era del tutto non informativa. I risultati ottenuti sono riportati in forma grafica nella figura 5A. Come si può osservare, gli archi appresi codificano molte relazioni causali che ci saremmo potuti
aspettare, come ad esempio il fatto che il fattore socioeconomico influenzi i genitori a dare o no ai figli stimoli per andare all'università. A nostro avviso, il solo arco che connette CP a IQ sembra illogico, in quanto supporrebbe il fatto che
la scelta di andare all'università influisca sul quoziente di intelligenza dello studente.
Per tentare di evitare questo inconveniente abbiamo ripetuto l'apprendimento partendo da una rete in cui ogni nodo è collegato a CP con un arco. Questo equivale a supporre una conoscenza a priori sul fatto che tutti gli attributi possono
influenzare in qualche modo la scelta universitaria. Avendo introdotto una start network che ritenevamo molto importante, l'apprendimento è stato eseguito con un parametro
elevato. I risultati ottenuti sono osservabili nella figura 5B. Il grafo appreso mostra che il problema riscontrato è stato eliminato (adesso c'è un arco da IQ a CP, che codifica il
fatto che il quoziente di intelligenza può influenzare la scelta di proseguire gli studi). Però, la rete è logicamente debole rispetto ad un altro arco, quello che collega SES a IQ. In questo caso infatti sembrerebbe il quoziente di
intelligenza poter essere influenzato dalla condizione socioeconomica dell'individuo.
Abbiamo tentato di percorrere una terza strada. Siamo ritornati ad una start network priva di archi, ma abbiamo imposto dei vincoli sulla struttura . In questo caso si è supposto che il nodo CP non potesse esser padre di altri nodi. I
risultati ottenuti dall'apprendimento in queste condizioni sono riportati in figura 5C, partendo da un parametro
basso. La rete
appresa è la stessa del caso precedente.
Figure 5: Risultati dell'apprendimento dal database di Sewell & Shah. A.e start network vuota. B.
e start network con un arco entrante in CP da ogni nodo. C.
e start network vuota, ma con il vincolo che CP non puó essere padre di alcun nodo. Gli archi con un ``?'' sono, a nostro avviso, illogici.
Da questi risultati si può trarre la conclusione che l'algoritmo proposto sia un buon approccio per trattare dati in una prima fase, in modo da ottenere una rete di Bayes che illustri buona parte delle relazioni fra le variabili, commettendo sì qualche errore, ma fornendo già una buona visone di molte relazioni che intercorrono fra le variabili. In una seconda fase, partendo dai risultati ottenuti, è possibile utilizzare qualche metodo più sofisticato per tentare di raffinare la ``bontà'' causale della rete. Un esempio di questa tecnica può essere trovato in [4], in cui l'impiego di una metodologia che utilizza variabili nascoste permette di introdurre una nuova variabile che sembra rendere conto della ``qualità'' dei genitori, separando il quoziente di intelligenza dallo status economico.
Next: Osservazioni conclusive Up: Apprendimento di reti Previous: Risultati da reti simulate