Derivation of Bayes rule In Greek - Rhea

Derivation of Bayes rule (In Greek)
A slecture by Stylianos Chatzidakis

Partly based on the ECE662 Spring 2014 lecture material of Prof. Mireille Boutin.

click here for PDF version

Προαπαιτούμενα

Οι παρακάτω σημειώσεις προϋποθέτουν:

Γνώση των κανόνων πιθανοτήτων
Εξοικείωση με την έννοια της δεσμευμένης πιθανότητας

Λήψη αποφάσεων κατά Bayes

Σημειώσεις μαθήματος

1. Εισαγωγή

Οι σημειώσεις αυτές βασίζονται στο μάθημα ECE662 του Πανεπιστημίου Purdue και στόχος είναι να προσφέρουν μία σύντομη εισαγωγή στην συμπερασματολογία κατά Bayes, τα κύρια χαρακτηριστικά και το θεώρημα Bayes και τέλος τον κανόνα Bayes που χρησιμοποιείται στην λήψη αποφάσεων.

Ο λογισμός πιθανοτήτων βασίζεται σε τρεις απλούς κανόνες βάσει των οποίων πραγματοποιούνται όλες οι πράξεις στην θεωρία πιθανοτήτων και τη στατιστική:

1. Η πιθανότητα βρίσκεται μεταξύ 0 και 1, όπου το 0 σημαίνει αδύνατο και το 1 σημαίνει βέβαιο:

$0 \leq P(X) \leq 1$

2. Ο αθροιστικός κανόνας:

$P(X) = \sum_Y P(X,Y)$

3. Ο πολλαπλασιαστικός κανόνας:

$$ P(X,Y)=P(Y|X)P(X) $$

Αυτά τα αξιώματα/κανόνες αποτελούν τα μόνα εργαλεία που θα χρειαστούν. Με τους παραπάνω κανόνες μπορεί να λάβει κανείς αποφάσεις υπολογίζοντας την πιθανότητα P(θ|x) όπου θ συμβολίζει την άγνωστη ποσότητα/μεταβλητή και x είναι αυτό που γνωρίζουμε.

Για παράδειγμα, λόγω συμμετρίας έχουμε:

$P(X,Y)=P(Y, X) \Rightarrow$

$P(Y|X)P(X)=P(X|Y)P(Y) \Rightarrow$

$P(Y|X)= \frac{P(X|Y)P(Y)}{P(X)}$

Όπου P(Y|X) είναι η δεσμευμένη πιθανότητα του Y δεδομένου του X, P(X|Y) είναι η δεσμευμένη πιθανότητα του Y δεδομένου του X και P(Y) είναι η “a-priori” πιθανότητα. Συνδυάζοντας τον αθροιστικό κανόνα με τον πολλαπλασιαστικό μπορούμε να μετατρέψουμε τον παρανομαστή ως εξής:

$P(X) = \sum_Y {P(X|Y)P(Y)}$

Για να κατανοήσουμε τον κανόνα Bayes και πως μπορούμε να καταλήξουμε σε συμπεράσματα χρησιμοποιώντας τον κανόνα αυτό, οφείλουμε να κατανοήσουμε το γενικότερο πλαίσιο και συγκεκριμένα τι σημαίνει “στατιστική συμπερασματολογία”. Η στατιστική συμπερασματολογία μας επιτρέπει να εξάγουμε συμπεράσματα για τον ευρύτερο πληθυσμό μελετώντας ένα δείγμα που προέρχεται από τον πληθυσμό.

Συμπεράσματα για την παράμετρο θ του πληθυσμού μπορεί να πραγματοποιηθεί μόνο εφόσον παρατηρήσουμε την τιμή της τυχαίας μεταβλητής x του δείγματος. Επιπλέον, είναι απαραίτητο να καθοριστεί μία κατανομή πιθανότητας f(x|θ) η οποία καθορίζει τη σχέση της τυχαίας μεταβλητής x και πως κατανέμονται οι πιθανότητας για διάφορες τιμές της παραμέτρου θ.

2. Συμπερασματολογία κατά Bayes

Η συμπερασματολογία κατά Bayes υπολογίζει την κατανομή f(θ|x) χρησιμοποιώντας την κατανομή f(x|θ) και την “a-priori” πιθανότητα P(θ). H “a-priori” πιθανότητα P(θ) συμβολίζει την αρχική γνώση για την κατανομή του θ προτού αποκτήσουμε επιπλέον πληροφορίες για τα δεδομένα μας. Τα συμπεράσματα βασίζονται στον συνδυασμό της “a-priori” γνώσης μας με τα δεδομένα που εξάγουμε από ένα πείραμα. Η συμπερασματολογία κατά Bayes μας οδηγεί στον τρόπο σύνδεσης της “a-priori” γνώσης με τα δεδομένα ώστε να εξάγουμε συμπεράσματα για ολόκληρο τον πληθυσμό ή για τη λήψη αποφάσεων.

Παραδείγματος χάριν, αν μπαίνοντας σε μία αίθουσα ενός πανεπιστημίου έπρεπε να επιλέξουμε αν το πρώτο άτομο που συναντάμε είναι αρσενικό ή θηλυκό χωρίς να γνωρίζουμε τίποτα άλλο, τότε η πιθανότητα να μαντέψουμε σωστά είναι 50/50. Αν όμως μπαίναμε σε μία αίθουσα της σχολής Μηχανολόγων Μηχανικών τότε θα επιλέγαμε αμέσως αρσενικό διότι η εμπειρία μας μας λέει ότι ο αρσενικός πληθυσμός είναι πολύ μεγαλύτερος στη σχολή Μηχανολόγων Μηχανικών. Συνεπώς, η “a-priori” πιθανότητα συμβολίζει τις πεποιθήσεις μας και την αρχική μας γνώση και εξαρτάται από την εκάστοτε περίπτωση όπως φάνηκε στο παραπάνω παράδειγμα.

Έστω τώρα ότι κάποιος μας ζητάει να μαντέψουμε αν το πρώτο πρόσωπο που θα συναντήσουμε είναι φοιτητής ή καθηγητής. Έχοντας σαν πεποίθηση ότι οι φοιτητές είναι πολύ περισσότεροι από τους καθηγητές, επιλέγουμε φοιτητής. Αν όμως το αρχικό δεδομένο εμπεριέχει το γεγονός ότι το πρώτο πρόσωπο έχει ηλικία μεγαλύτερη των 50 χρονών, τότε και παρόλο την αρχική μας πεποίθηση θα επιλέγαμε καθηγητής γνωρίζοντας ότι είναι πολύ σπάνιο να υπάρχει φοιτητής άνω των 50 χρονών ενώ είναι πολύ φυσικό να είναι ένα καθηγητής. Η συμπερασματολογία κατά Bayes μας βοηθάει να συνδυάσουμε την “a-prioiri” γνώση με τα δεδομένα και να εξάγουμε συμπεράσματα.

3. Χαρακτηριστικά

Η συμπερασματολογία κατά Bayes χαρακτηρίζεται από:

α. Την “a-priori” πληροφορία. Αποτελεί την προγενέστερη γνώση που τυχόν έχουμε για ένα πείραμα πριν όμως αποκτήσουμε δεδομένα για το πείραμα αυτό.

β. Την “a-posteriori” κατανομή. Η μορφή της “a-posteriori” κατανομής, δηλαδή του συμπεράσματος εξαρτάται από την μορφή της “a-priori” κατανομής

Ο καθορισμός της “a-priori” κατανομής, η μετατροπή της σε “a-posteriori” κατανομή και η εξαγωγής των κατάλληλων συμπερασμάτων στο πλαίσιο της συμπερασματολογίας κατά Bayes πραγματοποιούνται με τη χρήση του θεωρήματος Bayes.

4. Θεώρημα Bayes

α. Διακριτές μεταβλητές Το θεώρημα Bayes για διακριτές μεταβλητές που χαρακτηρίζονται από πιθανότητες P μπορεί να γραφεί ως εξής (και σύμφωνα με την εξίσωση 4):

$P(\theta|x)= \frac{P(x|\theta)P(\theta)}{\sum_\theta P(x|\theta)P(\theta)}$

Όπου P(θ|x) είναι η δεσμευμένη πιθανότητα του θ δεδομένου του x, P(x|θ) είναι η δεσμευμένη πιθανότητα του x δεδομένου του θ και P(θ) είναι η “a-priori” πιθανότητα. Η επιλογής της “a-priori” κατανομής αποτελεί βασικό λίθο στην εφαρμογή του θεωρήματος Bayes και είναι σημαντικό να εκτιμηθεί σωστά. Διαφορετικές “a-priori” κατανομές οδηγούν σε διαφορετικά αποτελέσματα. Η επιλογή του μοντέλου πιθανοφάνειας εξαρτάται από τα δεδομένα του προβλήματος και συνήθως δεν είναι γνωστό εκ των προτέρων. Η δομή των δεδομένων του προβλήματος μπορεί να βοηθήσει στη επιλογή του σωστού μοντέλου πιθανοφάνειας, π.χ., αν θα είναι Γκαουσιανό ή Poisson, και στις περισσότερες περιπτώσεις χρειάζεται να υποθέσουμε ένα μοντέλο κατανομής.

β. Συνεχείς μεταβλητές Το θεώρημα Bayes για συνεχείς μεταβλητές που χαρακτηρίζονται από πυκνότητες κατανομής πιθανότητας ρ μπορεί να γραφεί ως εξής:

$P(\theta|x)= \frac{\rho(x|\theta)P(\theta)}{\int \rho(x|\theta)P(\theta)d\theta}$

Ο παρανομαστής εξαρτάται μόνο από το x, δηλαδή τις παρατηρήσεις ενός πειράματος, είναι σταθερά και ονομάζεται σταθερά κανονικοποίησης. Το θεώρημα του Bayes συνηθίζεται να γράφεται σε διαφορετική μορφή ως εξής:

$P(\theta|x)= \propto{\rho(x|\theta)P(\theta)}$

δηλαδή η “a-posteriori” κατανομή είναι ανάλογη του γινομένου της “a-priori” κατανομής με την κατανομή πιθανοφάνειας.

5. Κανόνας Bayes

Ο κανόνας Bayes αποτελεί το κύριο εργαλείο στην θεωρία της λήψης αποφάσεων και βασίζεται σε μία απλοποιημένη εφαρμογή του θεωρήματος Bayes.

α. Διακριτές μεταβλητές

Έστω ότι έχουμε N κατηγορίες ${\omega_{1},\omega_{2},....,\omega_{N}}$ στις οποίες θέλουμε να αντιστοιχίσουμε διακριτές μεταβλητές x που εξάγουμε από ένα πείραμα, όπου x είναι ένα διάνυσμα που ανήκει στο $Z^{n}$ . Οι μεταβλητές αυτές μπορεί να κάποιο χαρακτηριστικό (π.χ., η ηλικία ενός προσώπου) ενώ οι κατηγορίες μπορεί να είναι δύο (π.χ., μαθητής ή καθηγητής) ή περισσότερες.

Το κάθε δεδομένο ανήκει σε μία κατηγορία με κάποια πιθανότητα P. Ένα τρόπος να αποφασίσουμε σε ποιά κατηγορία θα εντάξουμε το κάθε δεδομένο είναι να επιλέξουμε την κατηγορία με τη μεγαλύτερη πιθανότητα:

$P(\omega_{i}|\textbf{x}) \geq P(\omega_{j}|\textbf{x})$

Η παραπάνω ανισότητα ερμηνεύεται ως “η κατηγορία $\omega_{i}$ δεδομένου του χαρακτηριστικού x έχει μεγαλύτερη πιθανότητα από την κατηγορία $\omega_{j}$ δεδομένου του χαρακτηριστικού x”. Συνεπώς επιλέγουμε την κατηγορία $\omega_{i}$ . Στην πράξη η δυσκολία έγκειται στον υπολογισμό των πιθανοτήτων $P(\omega_{i}|x)$ . Το θεώρημα του Bayes μας επιτρέπει να υπολογίσουμε τις παραπάνω πιθανότητες με ένα πιο εύκολο τρόπο. Σύμφωνα με το θεώρημα Bayes:

$P(\omega_{i}|\textbf{x})= \frac{P(\textbf{x}|\omega_{i})P(\omega_{i})}{\sum_i P(\textbf{x}|\omega_{i})P(\omega_{i})}$

Αντικαθιστώντας, έχουμε:

$P(\omega_{i}|\textbf{x}) \geq P(\omega_{j}|\textbf{x}) \Rightarrow$

$\frac{P(\textbf{x}|\omega_{i})P(\omega_{i})}{\sum_i P(\textbf{x}|\omega_{i})P(\omega_{i})} \geq \frac{P(\textbf{x}|\omega_{j})P(\omega_{j})}{\sum_j P(\textbf{x}|\omega_{j})P(\omega_{j})} \Rightarrow$

$P(\textbf{x}|\omega_{i})P(\omega_{i}) \geq P(\textbf{x}|\omega_{j})P(\omega_{j})$

Όπου λόγω συμμετρίας οι παρανομαστές είναι ίσοι και μπορούν απαλοιφθούν. Η τελευταία ανισότητα αντιπροσωπεύει τον κανόνα Bayes για διακριτές μεταβλητές και μας επιτρέπει να υπολογίσουμε την πιθανότητα $P(x|\omega_{i})$ αντί της πιθανότητας $P(\omega_{i}|x)$ . Απαραίτητη προυπόθεση φυσικά είναι η γνώση της “a-priori” κατανομής.

β. Συνεχείς μεταβλητές Έστω ότι έχουμε N κατηγορίες ${\omega_{1},\omega_{2},....,\omega_{N}}$ στις οποίες θέλουμε να αντιστοιχίσουμε συνεχείς μεταβλητές x που εξάγουμε από ένα πείραμα, όπου x είναι ένα διάνυσμα που ανήκει στο $R^{n}$ . Το κάθε δεδομένο ανήκει σε μία κατηγορία με κάποια πιθανότητα P. Ένα τρόπος να αποφασίσουμε σε ποιά κατηγορία θα εντάξουμε το κάθε δεδομένο είναι να επιλέξουμε την κατηγορία με τη μεγαλύτερη πιθανότητα:

$P(\omega_{i}|\textbf{x}) \geq P(\omega_{j}|\textbf{x})$

Όμοια με την παραπάνω περίπτωση των διακριτών μεταβλητών και σύμφωνα με το θεώρημα Bayes:

$P(\omega_{i}|\textbf{x})= \frac{\rho(\textbf{x}|\omega_{i})P(\omega_{i})}{\int \rho(\textbf{x}|\omega_{i})P(\omega_{i})d\omega}$

Αντικαθιστώντας, έχουμε:

$P(\omega_{i}|\textbf{x}) \geq P(\omega_{j}|\textbf{x}) \Rightarrow$

$\frac{\rho(\textbf{x}|\omega_{i})P(\omega_{i})}{\int \rho(\textbf{x}|\omega_{i})P(\omega_{i})d\omega} \geq \frac{\rho(\textbf{x}|\omega_{j})P(\omega_{j})}{\int \rho(\textbf{x}|\omega_{j})P(\omega_{j})d\omega} \Rightarrow$

$\rho(\textbf{x}|\omega_{i})P(\omega_{i}) \geq \rho(\textbf{x}|\omega_{j})P(\omega_{j})$

Όπου λόγω συμμετρίας οι παρανομαστές είναι ίσοι και μπορούν απαλοιφθούν. Η τελευταία ανισότητα αντιπροσωπεύει τον κανόνα Bayes για συνεχείς μεταβλητές και μας επιτρέπει να υπολογίσουμε την πιθανότητα $\rho(x|\omega_{i})$ αντί της πιθανότητας $P(\omega_{i}|x)$ . Απαραίτητη προυπόθεση φυσικά είναι η γνώση της “a-priori” κατανομής.

Αναφορές

Δελλαπόρτας Π., Τσιαμυρτζής Π., 2004. “Σημειώσεις Μαθήματος: Στατιστική κατά Bayes”, Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Στατιστικής, Αθήνα.

Bishop C.M., 2006. “Pattern Recognition and Machine Learning”, Springer

Duda, R. O., Hart, P. E., Stork, D. G., 2000. “Pattern Classification”, Wiley- Interscience, 2nd Edition.

Mireille Boutin, "ECE662: Statistical Pattern Recognition and Decision Making Processes," Purdue University, Spring 2014.

Questions and comments

If you have any questions, comments, etc. please post them on this page.