Data Snooping Bias

Πριν λίγο καιρό σκόνταψα σ’ ένα ενδιαφέρον bias της στατιστικής. Αυτό προκύπτει αν προσπαθήσει κανείς να ελέγξει εξοντωτικά τις πιθανές συσχετίσεις μεταξύ των υπο μελέτη χαρακτηριστικών (μεταβλητών). Τα συμπεράσματα είναι συχνά τρομακτικά.

Παράδειγμα:

Σε μια υποθετική έρευνα έχουμε συγκεντρώσει τις απαντήσεις 367 Έλληνων blogger (π.χ. ψευδ-ονοματεπώνυμο, ηλικία, ημερομηνία γέννησης, καταγωγή, εισόδημα, θεματολογία blog, πλατφόρμα blog, κίνητρο διατήρησης ιστολογίου, αριθμός ποστ την εβδομάδα, αγαπημένα blog, συχνότητα αλλαγής template του ιστολογίου τους κ.ά.) και ψάχνουμε να βρούμε ενδιαφέρουσες συσχετίσεις ανάμεσά τους, ώστε να ομαδοποιήσουμε (τσουβαλιάσουμε) τους Έλληνες ιστολόγους. Ρίχνουμε λοιπόν στη Μηχανή τα δεδομένα και περιμένουμε καρτερικά τις απαντήσεις.

Η Μηχανή βρίσκει αρχικά ότι υπάρχουν δύο άτομα, η Μαίρη και ο Ανδρέας, που έχουν την ίδια μέρα και μήνα και έτος γενέθλια. Κλικ στο μπουτόν ‘Βρες μου κι άλλα…βρες μου κι άλλα…’ Η Μηχανή θα ψάξει τα πάντα π.χ. α) μήπως είναι οι νεότεροι blogger β) μήπως τα blog τους έχουν την ίδια θεματολογία γ) έχουν κοινά αγαπημένα blog…

Μετά από δεκάδες ή και εκατοντάδες πιθανούς συνδυασμούς μεταξύ των απαντήσεων του Ανδρέα και της Μαίρης, πιθανόν να βρεθούν αποδείξεις που μπορούν να επιβεβαιώσουν την παρακάτω φρικιαστική υπόθεση:

Ιστολόγοι που γεννήθηκαν την 7η Αυγούστου έχουν μεγαλύτερη πιθανότητα να αλλάξουν template πάνω από δυο φορές το μήνα απ’ ότι οι υπόλοιποι.

Το περίεργο είναι ότι σύμφωνα με τα δεδομένα έχει νόημα αυτή η συσχέτιση γιατί δεν υπήρχε κανείς με διαφορετική ημερομηνία γέννησης από κάποιον άλλο που να άλλαξε template στo blog του πάνω από δυο φορές το μήνα.

Προς απανταχού data miners: πριν πετάξετε τα δεδομένα στη Μηχανή, μη λησμονήσετε να ελέγξετε τη σύνθεση και το μέγεθος του δείγματος, τη στατιστική σημαντικότητα και τις προϋποθέσεις εφαρμογής των μεθόδων που χρησιμοποιείτε.

Δευτερεύουσα αφορμή γι’ αυτό το ποστ: ένα χιουμοριστικό twit του trianta προς την magica.

Περισσότερα: data snooping bias

Share this post: buzzdeliciousgooglefacebooktwitter

3 Comments »

  1. …Η Μηχανή βρίσκει αρχικά ότι υπάρχουν δύο άτομα, η Μαίρη και ο Ανδρέας, που έχουν την ίδια μέρα, μήνα και έτος γενέθλια…

    Μάλλον εννοείς μόνο μέρα και μήνα. Αλλιώς θες πολύ περισσότερους από 367 στο δείγμα σου, για να έχεις βεβαιότητα στη μία παράμετρο

    Comment by Stazybο Hοrn — April 17, 2008 @ 21:16
  2. @Stazybo Horn: Ναι, διορθώθηκε, θενκς.

    Comment by amarkos — April 17, 2008 @ 21:29
  3. Το πρόβλημα που θίγεις, πέραν του καθαρά στατιστικού μέρους, είναι κατά βάση επιστημολογικό: η συσχέτιση μεταβλητών δεν σημαίνει αναγκαστικά εξήγηση ή αιτιακή σχέση. Δύο μεταβλητές μπορει να εμφανίζουν ισχυρή συσχέτιση χωρίς η μια να εξαρτάται από την άλλη, απλά και μόνο επειδή και οι δύο εξαρτώνται από κάποια κοινή τρίτη.

    Comment by nikan — April 18, 2008 @ 8:26

RSS feed for comments on this post. TrackBack URI

Leave a comment

-- Βρίσκεστε σε ένα προσωπικό ιστολόγιο. Ανάρμοστα ή προσβλητικά σχόλια όπως flames, trolling, ad hominem επιθέσεις και άσχετα links, θα επισημειώνονται ή θα διαγράφονται --

Additional comments powered by BackType

This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.
(c) 2012 amarkos|gr|blog | powered by WordPress with Barecity