Data Snooping Bias
Πριν λίγο καιρό σκόνταψα σ’ ένα ενδιαφέρον bias της στατιστικής. Αυτό προκύπτει αν προσπαθήσει κανείς να ελέγξει εξοντωτικά τις πιθανές συσχετίσεις μεταξύ των υπο μελέτη χαρακτηριστικών (μεταβλητών). Τα συμπεράσματα είναι συχνά τρομακτικά.
Παράδειγμα:
Σε μια υποθετική έρευνα έχουμε συγκεντρώσει τις απαντήσεις 367 Έλληνων blogger (π.χ. ψευδ-ονοματεπώνυμο, ηλικία, ημερομηνία γέννησης, καταγωγή, εισόδημα, θεματολογία blog, πλατφόρμα blog, κίνητρο διατήρησης ιστολογίου, αριθμός ποστ την εβδομάδα, αγαπημένα blog, συχνότητα αλλαγής template του ιστολογίου τους κ.ά.) και ψάχνουμε να βρούμε ενδιαφέρουσες συσχετίσεις ανάμεσά τους, ώστε να ομαδοποιήσουμε (τσουβαλιάσουμε) τους Έλληνες ιστολόγους. Ρίχνουμε λοιπόν στη Μηχανή τα δεδομένα και περιμένουμε καρτερικά τις απαντήσεις.
Η Μηχανή βρίσκει αρχικά ότι υπάρχουν δύο άτομα, η Μαίρη και ο Ανδρέας, που έχουν την ίδια μέρα και μήνα και έτος γενέθλια. Κλικ στο μπουτόν ‘Βρες μου κι άλλα…βρες μου κι άλλα…’ Η Μηχανή θα ψάξει τα πάντα π.χ. α) μήπως είναι οι νεότεροι blogger β) μήπως τα blog τους έχουν την ίδια θεματολογία γ) έχουν κοινά αγαπημένα blog…
Μετά από δεκάδες ή και εκατοντάδες πιθανούς συνδυασμούς μεταξύ των απαντήσεων του Ανδρέα και της Μαίρης, πιθανόν να βρεθούν αποδείξεις που μπορούν να επιβεβαιώσουν την παρακάτω φρικιαστική υπόθεση:
Ιστολόγοι που γεννήθηκαν την 7η Αυγούστου έχουν μεγαλύτερη πιθανότητα να αλλάξουν template πάνω από δυο φορές το μήνα απ’ ότι οι υπόλοιποι.
Το περίεργο είναι ότι σύμφωνα με τα δεδομένα έχει νόημα αυτή η συσχέτιση γιατί δεν υπήρχε κανείς με διαφορετική ημερομηνία γέννησης από κάποιον άλλο που να άλλαξε template στo blog του πάνω από δυο φορές το μήνα.
Προς απανταχού data miners: πριν πετάξετε τα δεδομένα στη Μηχανή, μη λησμονήσετε να ελέγξετε τη σύνθεση και το μέγεθος του δείγματος, τη στατιστική σημαντικότητα και τις προϋποθέσεις εφαρμογής των μεθόδων που χρησιμοποιείτε.
Δευτερεύουσα αφορμή γι’ αυτό το ποστ: ένα χιουμοριστικό twit του trianta προς την magica.
Περισσότερα: data snooping bias





…Η Μηχανή βρίσκει αρχικά ότι υπάρχουν δύο άτομα, η Μαίρη και ο Ανδρέας, που έχουν την ίδια μέρα, μήνα και έτος γενέθλια…
Μάλλον εννοείς μόνο μέρα και μήνα. Αλλιώς θες πολύ περισσότερους από 367 στο δείγμα σου, για να έχεις βεβαιότητα στη μία παράμετρο
@Stazybo Horn: Ναι, διορθώθηκε, θενκς.
Το πρόβλημα που θίγεις, πέραν του καθαρά στατιστικού μέρους, είναι κατά βάση επιστημολογικό: η συσχέτιση μεταβλητών δεν σημαίνει αναγκαστικά εξήγηση ή αιτιακή σχέση. Δύο μεταβλητές μπορει να εμφανίζουν ισχυρή συσχέτιση χωρίς η μια να εξαρτάται από την άλλη, απλά και μόνο επειδή και οι δύο εξαρτώνται από κάποια κοινή τρίτη.