Data Snooping Bias

Πριν λίγο καιρό σκόνταψα σ’ ένα ενδιαφέρον bias της στατιστικής. Αυτό προκύπτει αν προσπαθήσει κανείς να ελέγξει εξοντωτικά τις πιθανές συσχετίσεις μεταξύ των υπο μελέτη χαρακτηριστικών (μεταβλητών). Τα συμπεράσματα είναι συχνά τρομακτικά.

Παράδειγμα:

Σε μια υποθετική έρευνα έχουμε συγκεντρώσει τις απαντήσεις 367 Έλληνων blogger (π.χ. ψευδ-ονοματεπώνυμο, ηλικία, ημερομηνία γέννησης, καταγωγή, εισόδημα, θεματολογία blog, πλατφόρμα blog, κίνητρο διατήρησης ιστολογίου, αριθμός ποστ την εβδομάδα, αγαπημένα blog, συχνότητα αλλαγής template του ιστολογίου τους κ.ά.) και ψάχνουμε να βρούμε ενδιαφέρουσες συσχετίσεις ανάμεσά τους, ώστε να ομαδοποιήσουμε (τσουβαλιάσουμε) τους Έλληνες ιστολόγους. Ρίχνουμε λοιπόν στη Μηχανή τα δεδομένα και περιμένουμε καρτερικά τις απαντήσεις.

Η Μηχανή βρίσκει αρχικά ότι υπάρχουν δύο άτομα, η Μαίρη και ο Ανδρέας, που έχουν την ίδια μέρα και μήνα και έτος γενέθλια. Κλικ στο μπουτόν ‘Βρες μου κι άλλα…βρες μου κι άλλα…’ Η Μηχανή θα ψάξει τα πάντα π.χ. α) μήπως είναι οι νεότεροι blogger β) μήπως τα blog τους έχουν την ίδια θεματολογία γ) έχουν κοινά αγαπημένα blog…

Μετά από δεκάδες ή και εκατοντάδες πιθανούς συνδυασμούς μεταξύ των απαντήσεων του Ανδρέα και της Μαίρης, πιθανόν να βρεθούν αποδείξεις που μπορούν να επιβεβαιώσουν την παρακάτω φρικιαστική υπόθεση:

Ιστολόγοι που γεννήθηκαν την 7η Αυγούστου έχουν μεγαλύτερη πιθανότητα να αλλάξουν template πάνω από δυο φορές το μήνα απ’ ότι οι υπόλοιποι.

Το περίεργο είναι ότι σύμφωνα με τα δεδομένα έχει νόημα αυτή η συσχέτιση γιατί δεν υπήρχε κανείς με διαφορετική ημερομηνία γέννησης από κάποιον άλλο που να άλλαξε template στo blog του πάνω από δυο φορές το μήνα.

Προς απανταχού data miners: πριν πετάξετε τα δεδομένα στη Μηχανή, μη λησμονήσετε να ελέγξετε τη σύνθεση και το μέγεθος του δείγματος, τη στατιστική σημαντικότητα και τις προϋποθέσεις εφαρμογής των μεθόδων που χρησιμοποιείτε.

Δευτερεύουσα αφορμή γι’ αυτό το ποστ: ένα χιουμοριστικό twit του trianta προς την magica.

Περισσότερα: data snooping bias

Buzzdigmeblogspacedeliciousgoogle bookmarks

Popularity: 22% [?]

This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.
(c) 2010 amarkos|gr|blog | powered by WordPress with Barecity