5  Κεφάλαιο: Εξέταση Μεταβλητότητας

Η ζωή μας είναι ζάρι, πέσιμο στον Βαρδάρη / Αμάξι που μαρσάρει δέκα μέτρα πριν στουκάρει

— Λεξ


5.1 Εξαρτημένες και Ανεξάρτητες Μεταβλητές

Η εξέταση των κατανομών μεμονωμένων μεταβλητών είναι πάντα μια καλή αφετηρία. Αλλά ως αναλυτές δεδομένων, τα ενδιαφέροντά μας συνήθως υπερβαίνουν την εξερεύνηση μοτίβων της μεταβλητότητας σε μια μεμονωμένη μεταβλητή. Αυτό που θέλουμε είναι να εξηγήσουμε τη μεταβλητότητα.

Ας ξεκινήσουμε με έναν άτυπο ορισμό του «εξηγώ τη μεταβλητότητα»: εάν το να γνωρίζουμε την τιμή μιας παρατήρησης σε μια μεταβλητή μας βοηθά να κάνουμε μια ελαφρώς καλύτερη εικασία για την τιμή αυτής της παρατήρησης σε μια άλλη μεταβλητή, τότε μπορούμε να πούμε ότι η πρώτη μεταβλητή εξηγεί κάποιο μέρος της μεταβλητότητας της δεύτερης μεταβλητής.

Για παράδειγμα, εάν γνωρίζαμε το ύψος ενός ατόμου θα μπορούσαμε πιθανώς να κάνουμε μια πιο ακριβή πρόβλεψη του μήκους του αντίχειρά του, υποθέτοντας ότι τα πιο ψηλά άτομα θα έχουν μεγαλύτερους αντίχειρες. Αυτό δεν σημαίνει ότι η πρόβλεψή μας θα ήταν πολύ ακριβής, αλλά θα ήταν πιο ακριβής από ό,τι εάν δεν γνωρίζαμε το ύψος τους.

Άτυπος Ορισμός της Εξήγησης της Μεταβλητότητας: Εάν γνωρίζουμε την τιμή μιας παρατήρησης σε μια μεταβλητή, μπορούμε να κάνουμε καλύτερη πρόβλεψη της τιμής της σε μια άλλη μεταβλητή.

Σε αυτό το κεφάλαιο θα μάθουμε πώς να αναπαριστούμε μια υπόθεση σχετικά με τη σχέση μεταξύ δύο μεταβλητών ως μια εξίσωση από λέξεις. Στη συνέχεια θα μάθουμε πώς να αναπαριστούμε τα δεδομένα (με διαγράμματα διασποράς, boxplot και ιστογράμματα) για να διερευνήσουμε την υπόθεση. (Σε επόμενα κεφάλαια, θα μετατρέψουμε αυτές τις λεκτικές εξισώσεις σε μαθηματικές συναρτήσεις που μπορούμε να χρησιμοποιήσουμε για να κάνουμε πραγματικές προβλέψεις, όπως το μήκος του αντίχειρα ενός ατόμου με βάση το ύψος του.)

Εξαρτημένες vs Ανεξάρτητες Μεταβλητές

Μέχρι αυτό το σημείο, έχουμε διακρίνει τις μεταβλητές σε ποιοτικές και ποσοτικές. Αλλά η επιθυμία μας να εξηγήσουμε τη μεταβλητότητα μιας μεταβλητής με τη μεταβλητότητα μιας άλλης μεταβλητής μας οδηγεί στο να κάνουμε άλλη μια διάκριση, δηλαδή, μεταξύ μιας εξαρτημένης μεταβλητής ή μεταβλητής αποτελέσματος και μιας ανεξάρτητης ή ερμηνευτικής μεταβλητής.

Μια εξαρτημένη μεταβλητή (dependent/outcome variable) είναι μια μεταβλητή της οποίας τη μεταβλητότητα προσπαθούμε να εξηγήσουμε.

Μια ανεξάρητη μεταβλητή (independent/explanatory variable) είναι μεταβλητή που χρησιμοποιούμε για να εξηγήσουμε τη μεταβλητότητα της εξαρτημένης μεταβλητής.

Στο παράδειγμά μας όπου χρησιμοποιούμε το ύψος (Height) για να εξηγήσουμε το μήκος του αντίχειρα (Thumb), ποια είναι η εξαρτημένη μεταβλητή;

Thumb είναι η σωστή απάντηση.

Τι είναι η εξαρτημένη μεταβλητή:

Η εξαρτημένη μεταβλητή είναι αυτή που: - Προσπαθούμε να προβλέψουμε ή να εξηγήσουμε - Επηρεάζεται από άλλες μεταβλητές - Είναι το αποτέλεσμα που μας ενδιαφέρει

Στο συγκεκριμένο παράδειγμα: - Στόχος: Να προβλέψουμε το μήκος του αντίχειρα χρησιμοποιώντας το ύψος - Υπόθεση: Το ύψος επηρεάζει το μήκος του αντίχειρα - Εξαρτημένη μεταβλητή:Thumb (αυτό που προσπαθούμε να προβλέψουμε) - Ανεξάρτητη μεταβλητή: Height (αυτό που χρησιμοποιούμε για πρόβλεψη)

Γιατί το Ύψος δεν είναι η εξαρτημένη μεταβλητή: Το ύψος είναι η ανεξάρτητη μεταβλητή γιατί: - Το χρησιμοποιούμε για να εξηγήσουμε τη μεταβλητότητα στο μήκος αντίχειρα - Είναι η πιθανή αιτία και όχι το αποτέλεσμα

Προς το παρόν τα εργαλεία και οι μέθοδοι που χρησιμοποιούμε θα εστιάζουν σε μία εξαρτημένη μεταβλητή και μία ανεξάρτητη μεταβλητή τη φορά. Αλλά θέλουμε να σας προετοιμάσουμε για την περίπτωση της χρήσης πολλών ανεξάρτητων μεταβλητών για να εξηγήσουμε τη μεταβλητότητα σε μία εξαρτημένη μεταβλητή.

Στο παράδειγμά μας σχετικά με το μήκος αντίχειρα (Thumb) και το ύψος (Height), ποια είναι η ανεξάρτητη μεταβλητή;

Height είναι η σωστή απάντηση.

Τι είναι η ανεξάρτητη μεταβλητή:

Η ανεξάρτητη μεταβλητή είναι αυτή που: - Χρησιμοποιούμε για να εξηγήσουμε ή να προβλέψουμε άλλες μεταβλητές - Επηρεάζει ή προκαλεί αλλαγές σε άλλες μεταβλητές - Είναι η πιθανή αιτία που εξετάζουμε

Εναλλακτικές ονομασίες: Η ανεξάρτηση μεταβλητή ονομάζεται επίσης: - Προβλεπτική μεταβλητή) - Ερμηνευτική μεταβλητή

Στο συγκεκριμένο παράδειγμα: - Ερώτημα: Μπορούμε να προβλέψουμε το μήκος αντίχειρα από το ύψος; - Υπόθεση: Ψηλότερα άτομα έχουν μεγαλύτερους αντίχειρες - Ανεξάρτητη μεταβλητή: Height (αυτό που χρησιμοποιούμε για να εξηγήσουμε) - Εξαρτημένη μεταβλητή: Thumb (αυτό που εξηγούμε)

Μπορεί να έχετε ή να μην έχετε συναντήσει τους όρους «εξαρτημένη μεταβλητή» και «ανεξάρτητη μεταβλητή». Θα χρησιμοποιούμε αυτούς τους όρους σε όλο το κείμενο. Αλλά εάν έχετε παρακολουθήσει μαθήματα στατιστικής ή διαβάσει ερευνητικά άρθρα, αναμφίβολα θα έχετε συναντήσει έναν αριθμό διαφορετικών όρων που χρησιμοποιούνται για να κάνουν την ίδια διάκριση.

Αντί για εξαρτημένη μεταβλητή, κάποιοι την αναφέρουν ως μεταβλητή αποτελέσματος, μεταβλητή απόκρισης, ή μεταβλητή εξόδου. Για την ανεξάρτητη μεταβλητή, μπορεί να συναντήσετε τους όρους ερμηνευτική μεταβλητή, προβλεπτική μεταβλητή, μεταβλητή θεραπείας, πειραματική μεταβλητή, ή παράγοντας.

Ποιοι από τους ακόλουθους όρους αναφέρονται στην εξαρτημένη μεταβλητή; (Υπάρχουν περισσότερες από μία σωστές απαντήσεις.)

Συμπληρώστε τον ακόλουθο ορισμό:

Άτυπος Ορισμός της Εξήγησης της Μεταβλητότητας: Αν γνωρίζουμε την τιμή μιας παρατήρησης στην ________, μπορούμε να κάνουμε καλύτερη πρόβλεψη της τιμής της στην ________.

Λεκτικές Εξισώσεις

Μπορούμε να αναπαραστήσουμε τις σχέσεις μεταξύ εξαρτημένων και ανεξάρτητων μεταβλητών με λεκτικές εξισώσεις. Ακολουθεί μια εξίσωση από λέξεις που αναπαριστά τη σχέση μεταξύ του μήκους αντίχειρα και του ύψους:

μήκος αντίχειρα = ύψος + άλλα πράγματα

Ο όρος «άλλα πράγματα» στο τέλος της εξίσωσης αντιπροσωπεύει μια σημαντική ιδέα: ακόμη και εάν το να γνωρίζουμε το ύψος κάποιου μπορεί να μας βοηθήσει να κάνουμε μια καλύτερη πρόβλεψη του μήκους του αντίχειρά του, η πρόβλεψη δεν θα είναι τέλεια. Ενώ κάποια από τη μεταβλητότητα στο μήκος του αντίχειρα μπορεί να εξηγηθεί από τη μεταβλητότητα στο ύψος, θα υπάρχει ακόμη κάποιο μέρος της μεταβλητότητας που δεν εξηγείται. Αυτή η υπολειπόμενη μεταβλητότητα θα μπορούσε, υποθετικά, να εξηγηθεί από άλλες μεταβλητές.

Γράψαμε την εξίσωσή μας με κανονικές λέξεις όπως “μήκος αντίχειρα” και “ύψος” αλλά θα μπορούσαμε επίσης να χρησιμοποιήσουμε τα ονόματα άλλων πιθανών ανεξάρτητων μεταβλητών από το πλαίσιο δεδομένων Fingers. Δείτε παρακάτω ένα τμήμα του πλαισίου δεδομένων για να θυμηθείτε τα ονόματα των μεταβλητών και σκεφτείτε διαφορετικές παραλλαγές της εξίσωσης.

  Gender SSLast Year Thumb Pinkie Height
1   male     NA    3 66.00   57.0   70.5
2 female      7    2 64.00   62.0   64.8
3 female      2    2 56.00   54.0   64.0
4   male      9    2 58.42   63.5   70.0
5 female      8    3 74.00   64.0   68.0
6 female      7    3 60.00   58.0   68.0

Ορίστε πώς να διαβάσετε μια εξίσωση από λέξεις: «Η μεταβλητότητα της μεταβλητής Thumb μπορεί να εξηγηθεί από τη μεταβλητότητα της μεταβλητής Height συν άλλα πράγματα». Κατά σύμβαση, η εξαρτημένη μεταβλητή, Thumb, γράφεται στα αριστερά της ισότητας και η εξαρτημένη μεταβλητή, Height, γράφεται στα δεξιά.

Οι λεκτικές εξισώσεις δεν είναι το ίδιο με τις μαθηματικές εξισώσεις. Δεν ισχύει, για παράδειγμα, ότι το μήκος του αντίχειρα και το ύψος είναι το ίδιο πράγμα ή ότι είναι «ίσα.» Μια εξίσωση από λέξεις είναι απλώς ένας άτυπος τρόπος αναπαράστασης της ιδέας ότι κάποια από τη μεταβλητότητα στο μήκος του αντίχειρα εξηγείται από τη μεταβλητότητα στο ύψος (η υπόλοιπη εξηγείται από άλλες μεταβλητές).

Πιο γενικά, θα μπορούσαμε να πούμε ότι κάποια από τη μεταβλητότητα στην εξαρτημένη μεταβλητή εξηγείται από τη μεταβλητότητα στην ανεξάρτητη μεταβλητή:

εξαρτημένη = ανεξάρτητη + άλλα πράγματα

Θα αρχίσουμε να αναφερόμαστε σε αυτές τις λεκτκές εξισώσεις ως άτυπα μοντέλα. Ένα μοντέλο αεροπλάνου δεν είναι το ίδιο με το πραγματικό, αλλά μας δίνει μια καλή ιδέα του πώς μοιάζει ένα πραγματικό αεροπλάνο. Τα μοντέλα μας δίνουν μια απλοποιημένη αναπαράσταση του πώς θα μπορούσε να μοιάζει η σχέση μεταξύ των μεταβλητών. Θα ποσοτικοποιήσουμε αυτές τις σχέσεις ως μαθηματικά μοντέλα αργότερα, αλλά είναι χρήσιμο να αρχίσουμε να σκεφτόμαστε τις λεκτικές εξισώσεις ως μοντέλα.

Με βάση την ερμηνεία για το μήκος του αντίχειρα που δόθηκε ως παράδειγμα (“η μεταβλητότητα του μήκους αντίχειρα εξηγείται από τη μεταβλητότητα του ύψους συν τη μεταβλητότητα σε άλλα πράγματα”), προσπαθήστε να γράψετε μια ερμηνεία για αυτή την εξίσωση:

Ατομική ευημερία = Ατομική υγεία + άλλα πράγματα

Η μεταβλητότητα της ατομικής ευημερίας εξηγείται από τη μεταβλητότητα της ατομικής υγείας συν τη μεταβλητότητα άλλων μεταβλητών είναι η σωστή απάντηση.

Ακολουθώντας το ίδιο πρότυπο ερμηνείας: Εφαρμόζουμε τη δομή: “Η μεταβλητότητα του [εξαρτημένη μεταβλητή] εξηγείται από τη μεταβλητότητα του [ανεξάρτητη μεταβλητή] συν τη μεταβλητότητα σε άλλα πράγματα”

Μονάδα ανάλυσης: Σε αυτή την περίπτωση, κάθε παρατήρηση είναι ένα άτομο: - Μετράμε την ευημερία του κάθε ατόμου ξεχωριστά - Μετράμε την υγεία του κάθε ατόμου ξεχωριστά - Εξετάζουμε πώς οι ατομικές διαφορές στην υγεία σχετίζονται με ατομικές διαφορές στην ευημερία

Τι σημαίνει στην πράξη: - Άτομα με καλύτερη υγεία τείνουν να έχουν υψηλότερη ευημερία - Οι διαφορές στην ευημερία μεταξύ των ατόμων μπορούν μερικώς να εξηγηθούν από διαφορές στην υγεία τους - Η υγεία δεν είναι ο μοναδικός παράγοντας - άλλες μεταβλητές επίσης παίζουν ρόλο

Γιατί οι άλλες επιλογές είναι λάθος: - Α: Αντιστρέφει την κατεύθυνση της σχέσης - Γ: Αγνοεί την ύπαρξη άλλων παραγόντων - Δ: Δεν αναγνωρίζει τη σχέση εξάρτησης που υποδηλώνει η εξίσωση

Παραδείγματα “άλλων μεταβλητών” σε ατομικό επίπεδο: - Κοινωνικές σχέσεις και υποστήριξη - Οικονομική κατάσταση - Εργασιακή ικανοποίηση - Προσωπικότητα και χαρακτηριστικά - Βιώματα και εμπειρίες ζωής

Σημαντική επισήμανση για την υγεία: Ενώ η υγεία σχετίζεται με την ευημερία, η σχέση είναι πολύπλοκη και αμφίδρομη. Η ψυχική και σωματική υγεία αλληλεπιδρούν, και παράγοντες όπως το άγχος, οι συνθήκες ζωής και οι προσωπικές επιλογές επηρεάζουν και τα δύο.

Τώρα προσπαθήστε να γράψετε μια ερμηνεία για την παρακάτω εξίσωση: Ευημερία χώρας = Πλούτος χώρας + Περιβαλλοντική ομορφιά + άλλα πράγματα

Προσπαθήστε να γράψετε μια εξίσωση από λέξεις για την υγεία των οικιακών βοηθών. Ποιες ανεξάρτητες μεταβλητές που θα μπορούσαν να εξηγήσουν τη μεταβλητότητα στην υγεία τους;

Η χρήση της μεταβλητότητας μιας μεταβλητής (ανεξάρτητης) για να εξηγήσουμε τη μεταβλητότητα μιας άλλης (εξαρτημένης) βρίσκεται στην καρδιά της στατιστικής ανάλυσης. Από το σημείο αυτό είναι που αρχίζετε να μαθαίνετε πώς οι ισχυρισμοί σας για τον κόσμο υποστηρίζονται από τα δεδομένα, ή όχι. Αν και αυτό το κεφάλαιο είναι μεγαλύτερο σε έκταση από τα προηγούμενα, αφιερώστε χρόνο για να το μελετήσετε. Επειδή οι έννοιες είναι σημαντικές, η προσπάθεια και η σκληρή δουλειά που θα επενδύσετε σε αυτό το κεφάλαιο θα αποδώσει αργότερα καθώς μαθαίνετε πώς να δημιουργείτε και να ελέγχετε στατιστικά μοντέλα για το πραγματικό κόσμο!

5.2 Οπτικοποίηση Σχέσεων Μεταβλητών με Διαγράμματα Διασποράς

μήκος αντίχειρα = ύψος + άλλα πράγματα

Τώρα που έχουμε μια εξίσωση από λέξεις, ας δημιουργήσουμε ένα διάγραμμα για να διερευνήσουμε τη σχέση μεταξύ της ανεξάρτητης και της εξαρτημένης μεταβλητής.

Δίνεται ο κώδικας για να δημιουργήσουμε ένα διάγραμμα διασποράς:

gf_point(Thumb ~ Height, data = Fingers)

Ας αναλύσουμε αυτή τη γραμμή κώδικα. Αρχικά, παρατηρήστε το πρώτο μέρος του κώδικα που βρίσκεται μέσα στις παρενθέσεις ( ):

gf_point(Thumb ~ Height, data = Fingers)

Πως σχετίζεται το μέρος που επισημαίνεται με κίτρινο με την εξίσωση:

μήκος αντίχειρα = ύψος + άλλα πράγματα

Τώρα παρατηρήστε το μέρος που ξεκινά με data =:

gf_point(Thumb ~ Height, data = Fingers)

Γιατί νομίζετε ότι χρησιμοποείται το data = Fingers;

Για να δηλώσει στην R το όνομα του πλαισίου δεδομένων είναι η σωστή απάντηση.

Τι κάνει το data = Fingers:

Το data = Fingers λέει στην R πού να βρει τις μεταβλητές που αναφέρονται στην εντολή: - Fingers είναι το όνομα του πλαισίου δεδομένων (data frame) - Μέσα στο πλαίσιο δεδομένων Fingers υπάρχουν οι μεταβλητές Thumb και Height - Χωρίς το data = Fingers, η R δεν θα ξέρει πού να ψάξει για τις μεταβλητές

Ανάλυση του κώδικα:

gf_point(Thumb ~ Height, data = Fingers)
         |    |   |      |     |
      εξαρτ. σχέση ανεξ.  |   πλαίσιο
      μεταβλ.     μεταβλ. |  δεδομένων
                         |
                    καθορίζει
                     πηγή

Γιατί οι άλλες επιλογές είναι λάθος: - Α: Το Fingers δεν είναι το όνομα μιας μεταβλητής, αλλά του πλαισίου δεδομένων - Β: Το όνομα της εξαρτημένης μεταβλητής είναι Thumb, όχι Fingers - Γ: Το όνομα της ανεξάρτητης μεταβλητής είναι Height, όχι Fingers

Χωρίς το data = Fingers: Αν δεν καθορίσουμε το πλαίσιο δεδομένων, η R θα δώσει σφάλμα γιατί δεν θα ξέρει πού να βρει τις μεταβλητές Thumb και Height.

Τέλος, ρίξτε μια ματιά στο αρχικό μέρος του κώδικα:

gf_point(Thumb ~ Height, data = Fingers)

Η gf_point() είναι το όνομα μιας συνάρτησης R που θα δημιουργήσει ένα διάγραμμα διασποράς της σχέσης μεταξύ ύψους και μήκους αντίχειρα.

Εντάξει, αρκετά το εξηγήσαμε. Ας γράψουμε κώδικα για να διερευνήσουμε την υπόθεση που εκφράζεται στην εξίσωση Αντίχειρας = Ύψος + άλλα πράγματα με ένα διάγραμμα διασποράς.

Ερμηνεία του Διαγράμματος Διασποράς

Ορίστε το διάγραμμα που παράγεται από τη συνάρτηση gf_point().

Κατά σύμβαση, τοποθετούμε την εξαρτημένη μεταβλητή (σε αυτή την περίπτωση την Thumb) στον άξονα y και την ανεξάρτητη μεταβλητή (Height) στον άξονα x. Κάθε σημείο στο διάγραμμα διασποράς αντιπροσωπεύει έναν μεμονωμένο φοιτητή (μια γραμμή στο πλαίσιο δεδομένων Fingers).

Καθώς εξετάζουμε αυτό το διάγραμμα, ας έχουμε κατά νου τη σχέση που υποθέσαμε μεταξύ Thumb και Height:

μήκος αντίχειρα = ύψος + άλλα πράγματα

**Παρατηρείτε στοιχεία στο διάγραμμα διασποράς που υποστηρίζουν την υπόθεση ότι μέρος της μεταβλητότητας του μήκους αντίχειρα (Thumb) εξηγείται από τη μεταβλητότητα του ύψους (Height);

Ναι είναι η σωστή απάντηση.

Στοιχεία που υποστηρίζουν την υπόθεση:

Σε ένα διάγραμμα διασποράς μεταξύ Thumb και Height, θα αναζητάμε:

Θετική τάση/μοτίβο: - Καθώς το ύψος αυξάνεται, το μήκος αντίχειρα τείνει επίσης να αυξάνεται - Τα σημεία δεν είναι τυχαία διασκορπισμένα, αλλά ακολουθούν μια γενική κατεύθυνση - Υπάρχει μια ανοδική τάση από κάτω αριστερά προς πάνω δεξιά

Τι σημαίνει “μέρος της μεταβλητότητας”: - Δεν απαιτείται τέλεια σχέση: Τα σημεία δεν χρειάζεται να σχηματίζουν ευθεία γραμμή - Αρκεί ένα μοτίβο: Ακόμη και μια αδύναμη τάση είναι αρκετή - Υπάρχει διασπορά: Άλλοι παράγοντες (“άλλα πράγματα”) επίσης επηρεάζουν το μήκος αντίχειρα

Πιθανή ερμηνεία: Είναι λογικό να περιμένουμε σχέση μεταξύ ύψους και μήκους αντίχειρα γιατί: - Και τα δύο είναι μετρήσεις μεγέθους σώματος - Ψηλότερα άτομα γενικά έχουν μεγαλύτερα άκρα - Υπάρχουν κοινοί γενετικοί παράγοντες που επηρεάζουν το συνολικό μέγεθος

Τι θα έδειχνε “Όχι”: Αν η απάντηση ήταν “Όχι”, θα βλέπαμε: - Εντελώς τυχαία διασπορά των σημείων στο διάγραμμα - Καμία εμφανή τάση ή μοτίβο - Οριζόντια ή κάθετη κατανομή των σημείων

Παρατηρείτε στοιχεία στο διάγραμμα διασποράς που υποστηρίζουν την υπόθεση ότι όλη η μεταβλητότητα του μήκους αντίχειρα εξηγείται από τη μεταβλητότητα του ύψους;

Όχι είναι η σωστή απάντηση.

Γιατί δεν εξηγείται όλη η μεταβλητότητα:

Αν όλη η μεταβλητότητα της Thumb εξηγούνταν από τη μεταβλητότητα της Height, θα βλέπαμε:

Τέλεια γραμμική σχέση: - Όλα τα σημεία θα βρίσκονταν ακριβώς πάνω σε μια ευθεία γραμμή - Καμία διασπορά γύρω από τη γραμμή

Αυτό που πραγματικά βλέπουμε: - Τα σημεία διασκορπίζονται γύρω από μια γενική τάση - Υπάρχει μεταβλητότητα που δεν εξηγείται από το ύψος - Άτομα με το ίδιο ύψος μπορεί να έχουν διαφορετικά μήκη αντίχειρα

Γενικά, οι φοιτητές που είναι ψηλότεροι (δηλαδή, τα σημεία που βρίσκονται πιο μακριά προς τα δεξιά) τείνουν επίσης να έχουν μακρύτερους αντίχειρες (δηλαδή, τείνουν να είναι πιο κοντά στο επάνω μέρος του γραφήματος). Αυτό το μοτίβο δείχνει τι εννοούμε όταν λέμε ότι κάποιος μέρος από τη μεταβλητότητα του Thumb εξηγείται από τη μεταβλητότητα του Height. Αν γνωρίζουμε το ύψος κάποιου, μπορούμε να κάνουμε μια καλύτερη πρόβλεψη του μήκους του αντίχειρά του από ό,τι θα μπορούσαμε να κάνουμε αν δεν γνωρίζαμε το ύψος του.

Παρόλο που μπορούμε να κάνουμε μια καλύτερη πρόβλεψη του μήκους αντίχειρα αν γνωρίζουμε το ύψος, δεν μπορούμε να κάνουμε μια τέλεια πρόβλεψη. Εκεί είναι που παίζουν ρόλο τα «άλλα πράγματα». Μπορούμε να δούμε στο διάγραμμα διασποράς ότι υπάρχουν μερικοί φοιτητές με ύψος 178cm (χρωματισμένοι με μωβ). Παρόλο που έχουν όλοι το ίδιο ύψος, εξακολουθεί να υπάρχει μεταβλητότητα στα μήκη των αντιχείρων τους - λόγω, υποθετικά, άλλων πραγμάτων.

Σχήμα 5.1

Πώς η R Γνωρίζει Ποια Μεταβλητή να Βάλει σε Ποιον Άξονα

Όπως επισημάνθηκε νωρίτερα, είναι σύνηθες να τοποθετούμε την εξαρτημένη μεταβλητή στον άξονα y και την ανεξάρτητη μεταβλητή στον άξονα x. Πώς όμως η R γνωρίζει ποια μεταβλητή πρέπει να βρίσκεται στον άξονα y;

Ορίστε, ξανά, ο κώδικας που χρησιμοποιήθηκε για να δημιουργηθεί το διάγραμμα διασπορά παραπάνω:

gf_point(Thumb ~ Height, data = Fingers)

Η σειρά με την οποία γράφουμε τις μεταβλητές στην R καθορίζει σε ποιους άξονες (x ή y) εμφανίζονται οι μεταβλητές στο διάγραμμα διασποράς. Ποιες από τις παρακάτω εντολές είναι σωστές; (Υπάρχουν περισσότερες από μία σωστές απαντήσεις.)

Α και Δ είναι οι σωστές απαντήσεις.

Σύνταξη της gf_point: Η βασική δομή της εντολής gf_point είναι:

gf_point(y ~ x, data = dataframe)

Κλειδί: Το σύμβολο ~ (tilde) - Αριστερά του ~: Μεταβλητή που πάει στον άξονα y (κάθετος άξονας) - Δεξιά του ~: Μεταβλητή που πάει στον άξονα x (οριζόντιος άξονας)

Γιατί η Α είναι σωστή: gf_point(y_axis_variable ~ x_axis_variable, data = name_of_dataframe) - Η μεταβλητή του άξονα y είναι αριστερά του ~ - Η μεταβλητή του άξονα x είναι δεξιά του ~ - Το data = καθορίζει το πλαίσιο δεδομένων

Γιατί η Δ είναι σωστή: gf_point(outcome ~ predictor, data = name_of_dataframe) - Outcome (εξαρτημένη μεταβλητή) → άξονας y - Predictor (ανεξάρτητη μεταβλητή) → άξονας x - Αυτή είναι η συνήθης σύμβαση στη στατιστική

Στο παράδειγμά μας:

gf_point(Thumb ~ Height, data = Fingers)
         |      |
    άξονας y   άξονας x
 (εξαρτημένη) (ανεξάρτητη)

Γιατί οι άλλες επιλογές είναι λάθος: - Β: Αντιστρέφει τη σειρά - βάζει την ανεξάρτητη στον y και την εξαρτημένη στον x - Γ: Εντελώς λανθασμένη σύνταξη - βάζει το όνομα του dataframe στη θέση της μεταβλητής - Ε: Αντιστρέφει τη λογική - βάζει τον predictor στον y και το outcome στον x

Μνημονικός κανόνας: “y εξαρτάται από x”y ~ x - Η εξαρτημένη μεταβλητή εξαρτάται από την ανεξάρτητη - Γι’ αυτό η εξαρτημένη πάει αριστερά (y) και η ανεξάρτητη δεξιά (x)

Δοκιμάστε να τροποποιήσετε τον παρακάτω κώδικα για να βάλετε το ύψος (Height) στον άξονα y και το μήκος αντίχειρα (Thumb) στον άξονα x. (Προσθέσαμε επίσης κάποιο κώδικα για να σας δείξουμε πώς να αλλάξετε το χρώμα των σημείων, color = "purple".)

Στο διάγραμμα διασποράς παραπάνω, με τα μωβ σημεία, πού εντοπίζονται οι φοιτητές με τους μεγαλύτερους αντίχειρες;

Είμαι τα σημεία προς το επάνω μέρος του γραφήματος είναι η σωστή απάντηση.

Ανάλυση των αξόνων: Από τον κώδικα gf_point(Thumb ~ Height, data = Fingers) ξέρουμε: - Άξονας y (κάθετος): Μήκος αντίχειρα (Thumb) - Άξονας x (οριζόντιος): Ύψος (Height)

Πώς διαβάζουμε το διάγραμμα: - Κάτω στον άξονα y: Μικρότερες τιμές αντίχειρα (κοντύτεροι αντίχειρες) - Πάνω στον άξονα y: Μεγαλύτερες τιμές αντίχειρα (μακρύτεροι αντίχειρες) - Αριστερά στον άξονα x: Μικρότερες τιμές ύψους (κοντύτερα άτομα) - Δεξιά στον άξονα x: Μεγαλύτερες τιμές ύψους (ψηλότερα άτομα)

Γιατί “προς τα επάνω”: Οι φοιτητές με μεγαλύτερους αντίχειρες θα έχουν υψηλότερες τιμές στη μεταβλητή Thumb, οπότε τα αντίστοιχα σημεία θα εμφανίζονται ψηλότερα στο διάγραμμα (προς την κορυφή του άξονα y).

Γιατί οι άλλες επιλογές είναι λάθος: - Β - Προς το κάτω: Αυτά είναι σημεία με κοντύτερους αντίχειρες - Γ - Προς τα αριστερά: Αυτό δείχνει κοντύτερα άτομα (άξονας x), όχι μεγαλύτερους αντίχειρες - Δ - Προς τα δεξιά: Αυτό δείχνει ψηλότερα άτομα (άξονας x), όχι απαραίτητα μεγαλύτερους αντίχειρες

Πρακτικό παράδειγμα: Αν ένας φοιτητής έχει αντίχειρα 7.5cm, το σημείο του θα εμφανιστεί ψηλά στο διάγραμμα, ανεξάρτητα από το ύψος του. Αν έχει αντίχειρα 5.5cm, το σημείο του θα εμφανιστεί χαμηλά.

Σημαντικό: Πάντα προσέχουμε ποια μεταβλητή αντιστοιχεί σε ποιον άξονα για να διαβάζουμε σωστά το διάγραμμα!

Παρόλο που μπορείτε να τοποθετήσετε την εξαρτημένη μεταβλητή οπουδήποτε, είναι πιο συνηθισμένο αυτή να τοποθετείται στον άξονα y. Θα ακολουθήσουμε αυτή τη σύμβαση επειδή καθιστά ευκολότερη την ερμηνεία των διαγραμμάτων διασποράς.

Αν πρόκειται να βάλουμε την εξαρτημένη μεταβλητή στον άξονα y (και την ανεξάρτητη στον άξονα x), ποια θα είναι η σωστή σειρά στον κώδικα R;

εξαρτημένη ~ ανεξάρτητη είναι η σωστή απάντηση.

Λογική της σύνταξης R: Στην R, η σύνταξη y ~ x σημαίνει: - Αριστερά του ~: Μεταβλητή για τον άξονα y - Δεξιά του ~: Μεταβλητή για τον άξονα x

Στατιστική σύμβαση: Συνήθως τοποθετούμε: - Εξαρτημένη μεταβλητή (outcome) → άξονας y (κάθετος) - Ανεξάρτητη μεταβλητή (explanatory) → άξονας x (οριζόντιος)

Συνδυάζοντας τα δύο:

gf_point(εξαρτημένη ~ ανεξάρτητη, data = dataframe)
         |            |
    άξονας y      άξονας x
  (εξαρτημένη)   (ανεξάρτητη)

Παράδειγμα με τα δεδομένα μας:

gf_point(Thumb ~ Height, data = Fingers)
         |      |
   εξαρτημένη  ανεξάρτητη
   (αντίχειρας) (ύψος)

Γιατί αυτή η σειρά είναι λογική: - Θέλουμε να δούμε πώς η εξαρτημένη εξαρτάται από την ανεξάρτητη - Η εξάρτηση συνήθως απεικονίζεται με την εξαρτημένη στον y και την ανεξάρτητη στον x - Αυτό διευκολύνει την ερμηνεία: “Πώς αλλάζει η y όταν αλλάζει η x;”

Μνημονικός κανόνας: “Η εξαρτημένη εξαρτάται από (~) την ανεξάρτητη” Άρα: εξαρτημένη ~ ανεξάρτητη

5.3 Ποιοτικές Ανεξάρτητες Μεταβλητές

Υποθέσεις με Ποιοτικές Μεταβλητές

Είδαμε πώς να μετατρέπουμε τις υποθέσεις σε λετικές εξισώσεις και στη συνέχεια σε διαγράμματα διασποράς με μια ποσοτική εξαρτημένη και μια ποσοτική ανεξάρτητη μεταβλητή (το μήκος αντίχειρα, Thumb και το ύψος, Height, είναι και οι δύο ποσοτικές). Τώρα ας δοκιμάσουμε να αντικαταστήσουμε την ποσοτική ανεξάρτητη μεταβλητή Height με μια ποιοτική ανεξάρτητη μεταβλητή: το Φύλο φοιτητή (Gender).

Σκεφτείτε μια εξίσωση από λέξεις που να αντιπροσωπεύει την υπόθεση ότι κάποιο μέρος της μεταβλητότητας του μήκους αντίχειρα φοιτητή (Thumb) μπορεί να εξηγηθεί από το Φύλο φοιτητή (Gender) (αν είναι γυναίκα/female ή άνδρας/male).

Στο παρακάτω παράθυρο κώδικα, δημιουργήστε ένα διάγραμμα διασποράς για να διερευνήσετε αυτή την υπόθεση.

Γιατί υπάρχει μια κάθετη γραμμή από σημεία εκεί όπου η μεταβλητή Gender είναι ίση με “female” και μια άλλη κάθετη γραμμή εκεί όπου είναι ίση με “male”;

Παρόλο που το παραπάνω διάγραμμα μπορεί να φαίνεται λίγο περίεργο στην αρχή, είναι κι αυτό διάγραμμα διασποράς! Απλά το φύλο είναι διαφορετικό είδος μεταβλητής από το ύψος. Το ύψος (Height) μπορεί να λάβει διαφορετικές τιμές: 170, 172.5, 178, για να αναφέρουμε μερικές. Η μεταβλητή Gender αντίθετα μπορεί να λάβει μόνο δύο πιθανές τιμές: “female” ή “male”. Έτσι τα σημεία είναι όλα ευθυγραμμισμένα σε ένα από τα δύο μέρη στον οριζόντιο άξονα x: πάνω από το “female” ή πάνω από το “male”.

Παρατηρήστε ότι η μεταβλητή Thumb εξακολουθεί να λαμβάνει διαφορετικές αριθμητικές τιμές, οπότε τα σημεία είναι διασκορπισμένα κατά μήκος του κάθετου άξονα y παρόλο που είναι συγκεντρωμένα σε δύο μέρη στον άξονα x.

Ποιο φύλο τείνει να έχει μεγαλύτερα μήκη αντίχειρα;

Άνδρες είναι η σωστή απάντηση.

Ανάλυση του γραφήματος:

Από το διάγραμμα διασποράς μπορούμε να παρατηρήσουμε:

Κατανομή για τις γυναίκες (female): - Τα περισσότερα σημεία συγκεντρώνονται μεταξύ 45-75mm - Η πλειονότητα των τιμών βρίσκεται στο κάτω μέρος της κλίμακας - Λίγες γυναίκες έχουν αντίχειρες πάνω από 80mm

Κατανομή για τους άνδρες (male): - Τα σημεία εκτείνονται σε μεγαλύτερο εύρος τιμών - Πολλά σημεία βρίσκονται στο πάνω μέρος της κλίμακας (70-90mm) - Η κεντρική τάση φαίνεται να είναι υψηλότερη από τις γυναίκες

Συγκριτική παρατήρηση: - Οι υψηλότερες τιμές (85-90mm) εμφανίζονται κυρίως στους άνδρες - Η συνολική κατανομή για τους άνδρες είναι μετατοπισμένη προς τα πάνω - Υπάρχει κάποια επικάλυψη, αλλά η τάση είναι ξεκάθαρη

Σημαντική επισήμανση: Αυτές είναι στατιστικές τάσεις σε επίπεδο ομάδας και δεν ισχύουν για κάθε άτομο ξεχωριστά - υπάρχουν γυναίκες με μεγαλύτερους αντίχειρες από κάποιους άνδρες.

Μπορούμε να παρατηρήσουμε ξανά το διάγραμμα διασποράς υπό το πρίσμα της υποθετικής σχέσης που διερευνούμε: μήκος αντίχειρα = φύλο + άλλα πράγματα. Εξηγεί η μεταβλητή Gender κάποιο μέρος της μεταβλητότητας της μεταβλητής Thumb;

Αν η Gender εξηγεί κάποιο μέρος της μεταβλητότητας του μήκους αντίχειρα, τότε το να γνωρίζουμε αν ένας φοιτητής είναι γυναίκα ή άνδρας θα μας βοηθούσε να κάνουμε καλύτερη πρόβλεψη του μήκους του αντίχειρά του από ό,τι αν δεν γνωρίζαμε το φύλο του. Συγκεκριμένα, αν γνωρίζαμε ότι ένας φοιτητής είναι άνδρας, θα προβλέπαμε μεγαλύτερο μήκος αντίχειρα (ίσως 65mm, το μέσο όρο της κατανομής για τους άντρες) από ό,τι αν ήταν γυναίκα, οπότε θα προβλέπαμε κάτι πιο κοντά στα 60mm. Αυτές δεν θα ήταν πολύ ακριβείς προβλέψεις, αλλά θα ήταν λίγο καλύτερες από το αν δεν γνωρίζαμε τίποτα για το φύλο του φοιτητή.

Διαγράμματα Διασποράς με Τυχαία Μετατόπιση (Jitter)

Παρόλο που το διάγραμμα διασποράς είναι συνηθισμένος τρόπος να παρουσιάσουμε τη σχέση μεταξύ μιας εξαρτημένης και μιας ανεξάρτητης μεταβλητής, στην περίπτωση μιας ποιοτικής ανεξάρτητης μεταβλητής (όπως το φύλο) συχνά δεν μπορούμε να δούμε όλα τα σημεία επειδή πολλά από αυτά βρίσκονται πάνω σε άλλα σημεία. Μια λύση σε αυτό είναι να μετατοπίσουμε ελαφρώς τα σημεία γύρω από την αρχική τους θέση ώστε να μπορούμε να τα δούμε καλύτερα.

Θα χρησιμοποιήσουμε τη συνάρτηση gf_jitter() για να δημιουργήσουμε ένα διάγραμμα διασποράς με τυχαία μετατόπιση των σημείων (διάγραμμα jitter) που αναπαριστά το μήκος αντίχειρα (Thumb) σε σχέση με το Φύλο (Gender). Αυτή η συνάρτηση λειτουργεί ακριβώς όπως η gf_point(), με τη διαφορά ότι τα σημεία θα μετατοπιστούν με τυχαίο τρόπο τόσο κάθετα όσο και οριζόντια ώστε να μην επικαλύπτονται. Αν εκτελέσετε τον παρακάτω κώδικα, θα διαπιστώσετε ότι στο προεπιλεγμένο (default) διάγραμμα jitter έχουν μετατοπιστεί αρκετά τα σημεία!

gf_jitter(Thumb ~ Gender, data = Fingers)
Σχήμα 5.2

Μπορούμε να χρησιμοποιήσουμε τις παραμέτρους height και width για να ρυθμίσουμε το μέγεθος της τυχαίας μετατόπισης (jitter). Σε αυτή την περίπτωση, ίσως θέλουμε την κάθετη μετατόπιση (height) να οριστεί σε 0 ώστε ένα άτομο με μήκος αντίχειρα 60 mm να εμφανίζεται ακριβώς στα 60 του άξονα y. Ίσως επίσης θέλουμε να μειώσουμε την οριζόντια μετατόπιση (width), αλλά όχι τόσο ώστε τα σημεία να επικαλύπτονται πάρα πολύ. Σημειώστε ότι αυτές οι δύο παράμετροι μπορούν να λάβουν τιμές ανάμεσα στο 0 και το 1.

Δοκιμάστε να εκτελέσετε τον παρακάτω κώδικα αφού μειώσετε το height σε 0 και το width σε 0.1.

Τι νομίζετε ότι σημαίνει το ότι π.χ. ένα από τα σημεία της ίδιας κατηγορίας (π.χ. female) βρίσκεται λίγο πιο αριστερά ή λίγο πιο δεξιά από τα υπόλοιπα;

Αν ένα σημείο βρίσκεται στην περιοχή female, αντιστοιχεί στο μήκος αντίχειρα μιας γυναίκας. Αλλά το να βρίσκεται πιο αριστερά ή δεξιά από τα υπόλοιπα στην ίδια περιοχή δεν σημαίνει απολύτως τίποτα - έχει απλά μετατοπιστεί τυχαία για να μην επικαλύπτονται πάρα πολύ τα σημεία και να αποκρύπτεται πόσες γυναίκες έχουν το ίδιο μήκος αντίχειρα.

Σε ένα διάγραμμα τύπου jitter, τι μπορείτε να μετρήσετε για να διαπιστώσετε πόσοι φοιτητές υπάρχουν με συγκεκριμένο μήκος αντίχειρα;

Τον αριθμό των σημείων σε μια οριζόντια γραμμή (σημεία στο ίδιο ύψος) είναι η σωστή απάντηση.

Πώς διαβάζουμε ένα διάγραμμα jitter:

Σε ένα διάγραμμα jitter όπως αυτό που βλέπουμε: - Άξονας y: Thumb (μήκος αντίχειρα) - Άξονας x: Gender (φύλο) - Κάθε σημείο: Ένας φοιτητής

Μέθοδος μέτρησης: Για να βρείτε πόσοι φοιτητές έχουν συγκεκριμένο μήκος αντίχειρα: 1. Εντοπίστε την τιμή στον άξονα y (π.χ. 65mm) 2. Φανταστείτε μια οριζόντια γραμμή σε αυτό το ύψος 3. Μετρήστε όλα τα σημεία που τέμνουν αυτή την οριζόντια γραμμή 4. Κάθε σημείο = ένας φοιτητής με αυτό το μήκος αντίχειρα

Γιατί οι άλλες επιλογές είναι λάθος: - Α - Ύψος των σημείων: Το ύψος δείχνει την τιμή της μεταβλητής, όχι τη συχνότητα - Β - Σημεία σε στήλη: Αυτό θα έδειχνε όλους τους άνδρες ή όλες τις γυναίκες, όχι συγκεκριμένο μήκος - Δ - Κέντρο των σημείων: Το κέντρο δείχνει τη μέση τιμή, όχι τη συχνότητα

Πλεονέκτημα της τυχαίας μετατόπισης των σημείων: Η μικρή οριζόντια μετατόπιση (jitter)) αποτρέπει την επικάλυψη σημείων που έχουν την ίδια τιμή, επιτρέποντάς μας να δούμε την πραγματική συχνότητα κάθε τιμής.

Πρακτική εφαρμογή: Αυτή η τεχνική είναι χρήσιμη για να κατανοήσουμε την κατανομή των δεδομένων και να εντοπίσουμε συχνές ή σπάνιες τιμές στο δείγμα μας.

Στο διάγραμμα διασποράς τύπου jitter, μια πυκνή σειρά σημείων δείχνει ότι υπάρχουν πολλοί άνθρωποι με αυτό το μήκος αντίχειρα. Για παράδειγμα, κοιτάξτε στο παρακάτω διάγραμμα όλα τα σημεία female στα 60mm, που σημειώνονται με μωβ χρώμα. Περισσότερα σημεία σημαίνουν περισσότερες γυναίκες με αυτό το συγκεκριμένο μήκος αντίχειρα.

Σχήμα 5.3

Άλλα Χαρακτηριστικά των Διαγραμμάτων Διασποράς

Τόσο στα διαγράμματα διασποράς όσο και στα διαγράμματα jitter, μπορείτε να αλλάξετε το μέγεθος, το σχήμα και τη διαφάνεια των σημείων συμπεριλαμβάνοντας τις παραμέτρους size, shape και alpha, αντίστοιχα.

Ορίστε μερικά διαφορετικά σχήματα που μπορείτε να χρησιμοποιήσετε. Για παράδειγμα, ορίζοντας την παράμετρο shape = 15 θα έχει ως αποτέλεσμα να βλέπετε τα σημεία με σχήμα τετραγώνου αντί για κύκλου.

Πειραματιστείτε με τον παρακάτω κώδικα και δοκιμάστε να αλλάξετε το μέγεθος (δοκιμάστε αριθμούς μεταξύ 0-5), το σχήμα (δοκιμάστε ακέραιους αριθμούς μεταξύ 1 και 20) και τη διαφάνεια (δοκιμάστε αριθμούς μεταξύ 0-1, με το 0 να είναι πιο διαφανές και το 1 πιο αδιαφανές).

5.4 Χρήση Boxplot για τη Διερεύνηση Σχέσεων Μεταβλητών

Οι συναρτήσεις gf_point() και gf_jitter() είναι χρήσιμες επειδή μας επιτρέπουν να δούμε κάθε μεμονωμένο σημείο δεδομένων. Υπάρχουν όμως στιγμές που θέλουμε να εστιάσουμε στο γενικό μοτίβο μιας κατανομής.

Τα boxplot, τα οποία έχουμε δει σε προηγούμενο κεφάλαιο, είναι χρήσιμα υπό αυτή την άποψη, και είναι ιδιαιτέρως χρήσιμα για τη σύγκριση της κατανομής μιας εξαρτημένης μεταβλητής σε διαφορετικά επίπεδα μιας ποιοτικής ανεξάρτητης μεταβλητής.

Ορίστε πώς μπορούμε να δημιουργήσουμε διαγράμματα boxplot του μήκους αντίχειρα (Thumb) σε σχέση με το φύλο (Gender).

gf_boxplot(Thumb ~ Gender, data = Fingers)

Μπορούμε επίσης να συνδυάσουμε διαγράμματα διασποράς με διαγράμματα διασποράς με τυχαία μετατόπιση (jitter). Στη ggformula, όταν συνδέουμε πολλαπλές συναρτήσεις, οι μεταγενέστερες συναρτήσεις (μετά τον τελεστή %>%) χρησιμοποιούν τις ίδιες μεταβλητές και πλαίσια δεδομένων με τις συναρτήσεις που προηγούνται, οπότε δεν χρειάζεται να τα πληκτρολογήσουμε ξανά.

gf_boxplot(Thumb ~ Gender, data = Fingers) %>%
  gf_jitter(height = 0, width = .25)

Ο παραπάνω κώδικας θα δημιουργήσει πρώτα ένα boxplot και στη συνέχεια θα προβάλει επάνω του το διάγραμμα jitter, όπως φαίνεται παρακάτω.

Σχήμα 5.4

Στο παραπάνω συνδυαστικό διάγραμμα boxplot + jitter, πόσες μεταβλητές αναπαρίστανται;

Δύο: Thumb και Gender είναι η σωστή απάντηση.

Τι είναι μεταβλητή: Μια μεταβλητή είναι ένα χαρακτηριστικό που μετράμε ή παρατηρούμε και μπορεί να παίρνει διαφορετικές τιμές.

Οι δύο μεταβλητές στο διάγραμμα:

1. Thumb (συνεχής μεταβλητή): - Μετράει το μήκος αντίχειρα σε χιλιοστά - Παίρνει αριθμητικές τιμές (π.χ. 45mm, 60mm, 85mm) - Απεικονίζεται στον άξονα y

2. Gender (ποιοτική μεταβλητή): - Καθορίζει το φύλο των συμμετεχόντων - Παίρνει δύο τιμές: “female” και “male” - Απεικονίζεται στον άξονα x

Γιατί οι άλλες επιλογές είναι λάθος:

Β - “Female” και “Male”: - Αυτές είναι τιμές της μεταβλητής Gender, όχι ξεχωριστές μεταβλητές - Είναι σαν να λέμε ότι τα “κόκκινα” και “μπλε” αυτοκίνητα είναι δύο μεταβλητές αντί για τιμές της μεταβλητής “χρώμα”

Γ - Τρεις μεταβλητές: - Συνδυάζει λανθασμένα τη μεταβλητή Gender με τις τιμές της - Δεν διακρίνει σωστά μεταξύ μεταβλητής και τιμών

Δ - Σύνοψη των πέντε αριθμών: - Αυτό αναφέρεται σε στατιστικά, όχι σε μεταβλητές - Η σύνοψη των πέντε αριθμών (ελάχιστο, Q1, διάμεσος, Q3, μέγιστο) είναι τρόπος περιγραφής μιας μεταβλητής

Βασική διάκριση: - Μεταβλητή: Το χαρακτηριστικό που μετράμε (π.χ. Gender, Thumb) - Τιμές: Οι συγκεκριμένες κατηγορίες ή αριθμοί που παίρνει η μεταβλητή (π.χ. female/male, 60mm) - Στατιστικά: Περιγραφικά μέτρα των μεταβλητών (π.χ. μέσος όρος, διάμεσος)

Στο boxplot για τις γυναίκες παραπάνω, τι ποσοστό των δεδομένων των γυναικών πέφτει μέσα στο σκιασμένο κουτί;

Τα μισά από τα σημεία είναι η σωστή απάντηση.

Τι αντιπροσωπεύει το κουτί (box): Το σκιασμένο κουτί σε ένα boxplot αντιπροσωπεύει το ενδοτεταρτημοριακό εύρος (IQR): - Κάτω άκρο του κουτιού: 1ο τεταρτημόριο (Q1) - 25% των δεδομένων - Πάνω άκρο του κουτιού: 3ο τεταρτημόριο (Q3) - 75% των δεδομένων - Μέσα στο κουτί: Από Q1 έως Q3

Υπολογισμός του ποσοστού: Το ποσοστό των δεδομένων μέσα στο κουτί είναι: Q3 - Q1 = 75% - 25% = 50% των δεδομένων

Ερμηνεία: - 25% των γυναικών έχουν αντίχειρες κάτω από το κουτί (κάτω από Q1) - 50% των γυναικών έχουν αντίχειρες μέσα στο κουτί (μεταξύ Q1 και Q3) - 25% των γυναικών έχουν αντίχειρες πάνω από το κουτί (πάνω από Q3)

Γιατί οι άλλες επιλογές είναι λάθος: - Α - Ένα τέταρτο (25%): Αυτό είναι το ποσοστό σε κάθε τεταρτημόριο μόνο του - Γ - Τρία τέταρτα (75%): Αυτό θα ήταν από το ελάχιστο έως το Q3 - Δ - Σχεδόν όλα: Αυτό δεν ισχύει - μόνο τα μισά είναι μέσα στο κουτί

Πρακτική επαλήθευση: Μπορείτε να το επαληθεύσετε οπτικά: κοιτάξτε τα σημεία στο διάγραμμα και εκτιμήστε πόσα βρίσκονται μεταξύ των άκρων του κουτιού. Θα διαπιστώσετε ότι είναι περίπου τα μισά από το σύνολο.

Σταθερή ιδιότητα των boxplot: Αυτό ισχύει για όλα τα boxplot - το κουτί πάντα περιέχει το μεσαίο 50% των δεδομένων, ανεξάρτητα από το σχήμα της κατανομής.

Θυμηθείτε ότι το σκιασμένο ορθογώνιο στο κέντρο του boxplot μας δείχνει πού βρίσκεται το μεσαίο 50% των σημείων δεδομένων στην κλίμακα της εξαρτημένης μεταβλητής. Η παχιά οριζόντια γραμμή μέσα στο κουτί είναι η διάμεσος. Σκεφτείτε τη σύνοψη των πέντε αριθμών. Μπορούμε να πάρουμε τη σύνοψη των πέντε αριθμών για το μήκος αντίχειρα (Thumb) κατηγοριοποιημένο κατά φύλο (Gender) τροποποιώντας τον τρόπο που χρησιμοποιούσαμε προηγουμένως τη συνάρτηση favstats().

favstats(Thumb ~ Gender, data = Fingers)

  Gender min Q1 median     Q3   max     mean       sd   n missing
1 female  39 54     57 63.125 86.36 58.25585 8.034694 112       0
2   male  47 60     64 70.000 90.00 64.70267 8.764933  45       0
Σχήμα 5.5

Κάθε χρωματιστό κουτί περιλαμβάνει: (Επιλέξτε όλα όσα ισχύουν.)

Β, Γ, Δ και Ε είναι οι σωστές απαντήσεις. Όλες περιγράφουν το ίδιο πράγμα με διαφορετικούς τρόπους.

Τι αντιπροσωπεύει το κουτί: Το χρωματιστό κουτί σε ένα boxplot αντιπροσωπεύει το ενδοτεταρτημοριακό εύρος (IQR).

Ανάλυση των σωστών απαντήσεων:

Β - Μεταξύ Q3 και Q1: - Q1 = 1ο τεταρτημόριο (25ο εκατοστημόριο) - Q3 = 3ο τεταρτημόριο (75ο εκατοστημόριο) - Το κουτί εκτείνεται από Q1 έως Q3

Γ - Μεταξύ 75ου και 25ου εκατοστημορίου: - Ισοδύναμο με το Β - 25ο εκατοστημόριο = Q1 - 75ο εκατοστημόριο = Q3

Δ - Μεσαίο 50% των δεδομένων: - Q3 (75%) - Q1 (25%) = 50% των δεδομένων - Το κεντρικό μισό της κατανομής

Ε - 2ο και 3ο τεταρτημόριο: - 1ο τεταρτημόριο: 0-25% - 2ο τεταρτημόριο: 25-50% - 3ο τεταρτημόριο: 50-75% - 4ο τεταρτημόριο: 75-100% - Το κουτί καλύπτει το 2ο και 3ο τεταρτημόριο

Γιατί η Α είναι λάθος: Α - 50ο έως 100ο εκατοστημόριο: - Αυτό θα περιλάμβανε από τη διάμεσο έως το μέγιστο - Θα κάλυπτε το 50% των δεδομένων, αλλά το πάνω 50% - Το κουτί καλύπτει το μεσαίο 50%, όχι το πάνω 50%

Οπτική επιβεβαίωση: Από το διάγραμμα μπορείτε να δείτε ότι: - Υπάρχουν σημεία πάνω και κάτω από κάθε κουτί - Το κουτί περιέχει το κεντρικό τμήμα των δεδομένων - Η παχιά γραμμή μέσα στο κουτί είναι η διάμεσος (50ο εκατοστημόριο)

Διερεύνηση της Εξηγούμενης Μεταβλητότητας σε Boxplot

Στο boxplot του μήκους αντίχειρα (Thumb) σε σχέση με το φύλο (Gender), το κουτί για τις γυναίκες βρίσκεται χαμηλότερα από το κουτί για τους άντρες.

Πώς μπορούμε να ερμηνεύσουμε τη σχετική θέση του κουτιού για γυναίκες και άντρες στο παραπάνω διάγραμμα;

Εάν το Φύλο δεν εξηγούσε κανένα μέρος της μεταβλητότητας στο μήκος αντίχειρα, πώς θα έπρεπε να μοιάζει το παραπάνω boxplot;

Ας αντικαταστήσουμε τη μεταβλητή Gender με μια άλλη ανεξάρτητη μεταβλητή. Η μεταβλητή Job (είδος απασχόλησης) είναι ποιοτική μεταβλητή με τρεις κατηγορίες (καμία/no job, μερική/part-time, και πλήρης/full-time απασχόληση).

Τροποποιήστε τον παρακάτω κώδικα για να δημιουργήσετε ένα boxplot για το μήκος αντίχειρα (Thumb) σε σχέση με το είδος απασχόλησης (Job) (αντί για το φύλο).

Παρατηρήστε ότι σε αυτό το διάγραμμα, τα κουτιά που αντιστοιχούν στις κατηγορίες “Not Working” και “Part-time Job” βρίσκονται περίπου στην ίδια θέση και έχουν περίπου το ίδιο ύψος. Το boxplot για την κατηγορία “Full-time Job” φαίνεται να είναι αρκετά διαφορετικό (και παράξενο).

Γιατί το boxplot της κατηγορίας αυτής είναι τόσο διαφορετικό από αυτά των άλλων δύο; Υπόδειξη: δοκιμάστε να εκτελέσετε την εντολή table(Fingers$Job).

Το κουτί που αντιστοιχεί στην κατηγορία της πλήρους απασχόλησης περιλαμβάνει μόνο έναν φοιτητή, οπότε δεν θα θέλαμε να βγάλουμε συμπεράσματα για τη σχέση μεταξύ πλήρους απασχόλησης και μήκους αντίχειρα. Οι περισσότεροι φοιτητές στο πλαίσιο δεδομένων Fingers είτε εργάζονται με μερική απασχόληση είτε καθόλου. Οι αντίχειρες των φοιτητών χωρίς απασχόληση δεν είναι πολύ μακρύτεροι ή κοντύτεροι από τους αντίχειρες των φοιτητών με μερική απασχόληση. Αλλά μέσα σε κάθε ομάδα, τα μήκη των αντιχείρων τους ποικίλλουν πολύ. Υπάρχουν φοιτητές με μεγάλους και μικρούς αντίχειρες τόσο με μερική απασχόληση όσο και χωρίς απασχόληση.

Απολήξεις και IQR

Τώρα ας στρέψουμε την προσοχή μας ξανά στο τμήμα των απολήξεων (τις γραμμές που εκτείνονται από κάθε πλευρά). Οι απολήξεις σχεδιάζονται σε σχέση με το IQR, το ενδοτεταρτημοριακό εύρος. Αλλά αυτή τη φορά το IQR υπολογίζεται ξεχωριστά για κάθε κατηγορία της ανεξάρτητης μεταβλητής (δηλαδή, κάθε ομάδα).

Τι είναι το IQR; (Επιλέξτε όλα όσα ισχύουν.)

Δ και Ε είναι οι σωστές απαντήσεις.

Ορισμός του IQR: Το IQR (Interquartile Range) ή Ενδοτεταρτημοριακό Εύρος είναι ένα μέτρο διασποράς που δείχνει πόσο εκτεταμένα είναι τα κεντρικά δεδομένα.

Μαθηματικός ορισμός: IQR = Q3 - Q1 όπου: - Q1 = 1ο τεταρτημόριο (25ο εκατοστημόριο) - Q3 = 3ο τεταρτημόριο (75ο εκατοστημόριο)

Ανάλυση των σωστών απαντήσεων:

Δ - Απόσταση μεταξύ Q3 και Q1: - Αυτός είναι ο ακριβής μαθηματικός ορισμός - IQR = Q3 - Q1

Ε - Απόσταση μεταξύ κάτω και πάνω μέρους του κουτιού: - Στο boxplot, το κάτω μέρος του κουτιού είναι το Q1 - Το πάνω μέρος του κουτιού είναι το Q3 - Άρα η απόσταση είναι Q3 - Q1 = IQR

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Τυπική απόκλιση: - Η τυπική απόκλιση είναι διαφορετικό μέτρο διασποράς - Βασίζεται στον μέσο όρο και τις αποκλίσεις από αυτόν - Δεν σχετίζεται με τα τεταρτημόρια

Β - Εύρος (Range): - Το εύρος είναι: Μέγιστο - Ελάχιστο - Το IQR είναι μόνο το μεσαίο 50% των δεδομένων - Διαφορετικά μέτρα διασποράς

Γ - Εύρος διαιρεμένο δια 2: - Αυτό θα ήταν (Μέγιστο - Ελάχιστο) / 2 - Δεν έχει σχέση με τα τεταρτημόρια - Δεν είναι ο ορισμός του IQR

Πλεονεκτήματα του IQR: - Ανθεκτικό στις ακραίες τιμές: Δεν επηρεάζεται από ακραίες τιμές - Εύκολη ερμηνεία: Δείχνει το εύρος του μεσαίου 50% των δεδομένων - Χρήσιμο για σύγκριση: Επιτρέπει σύγκριση διασποράς μεταξύ ομάδων

Παράδειγμα από το διάγραμμα: Στο boxplot των αντρών, αν Q1 ≈ 60mm και Q3 ≈ 70mm, τότε IQR ≈ 70 - 60 = 10mm.

Στη συνάρτησηgf_boxplot(), οι ακραίες τιμές, που ορίζονται ως οι παρατηρήσεις που βρίσκονται 1.5 φορά το IQR πάνω ή κάτω από το κουτί για κάθε ομάδα, σημειώνονται με κουκκίδες. Τα άκρα των απολήξεων (οι γραμμές που εκτείνονται πάνω και κάτω από το κουτί) αντιστοιχούν στις μέγιστες και ελάχιστες τιμές σε κάθε ομάδα που δεν χαρακτηρίζονται ως ακραίες τιμές.

Πώς βρίσκουμε το IQR; Συμπληρώστε τα κενά με τις κατάλληλες έννοιες.

IQR = ________ - ________

Q3, Q1 είναι η σωστή απάντηση.

Τύπος για το IQR: IQR = Q3 - Q1

Επεξήγηση των όρων: - Q1: 1ο τεταρτημόριο (25ο εκατοστημόριο) - Q3: 3ο τεταρτημόριο (75ο εκατοστημόριο) - IQR: Ενδοτεταρτημοριακό εύρος

Στάδια υπολογισμού: 1. Ταξινομήστε τα δεδομένα από το μικρότερο στο μεγαλύτερο 2. Βρείτε το Q1: Η τιμή που χωρίζει το κάτω 25% από το πάνω 75% 3. Βρείτε το Q3: Η τιμή που χωρίζει το κάτω 75% από το πάνω 25% 4. Υπολογίστε: IQR = Q3 - Q1

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Μέγιστο - Ελάχιστο: - Αυτό είναι ο ορισμός του εύρους (Range), όχι του IQR - Το εύρος περιλαμβάνει όλα τα δεδομένα, το IQR μόνο το μεσαίο 50%

Β - Q2 - Q1: - Το Q2 είναι η διάμεσος (50ο εκατοστημόριο) - Αυτό θα έδινε το εύρος μόνο του κάτω μισού των δεδομένων - Δεν είναι το IQR

Δ - Μέσος όρος - Τυπική απόκλιση: - Αυτή η πράξη δεν έχει στατιστική σημασία - Ο μέσος όρος και η τυπική απόκλιση είναι διαφορετικά μέτρα - Δεν σχετίζονται με τον υπολογισμό του IQR

Παράδειγμα: Αν έχουμε δεδομένα με: - Q1 = 55mm - Q3 = 70mm Τότε: IQR = 70 - 55 = 15mm

Ερμηνεία: Το IQR μας λέει πόσο “διαδεδομένα” είναι τα κεντρικά δεδομένα μας. Μεγαλύτερο IQR σημαίνει μεγαλύτερη διασπορά στο μεσαίο 50% των παρατηρήσεων.

Πώς βρίσκουμε το όριο για τις ακραίες τιμές που είναι πολύ χαμηλές; Συμπληρώστε τα κενά με τις κατάλληλες έννοιες.

Κάτω όριο για ακραίες τιμές = ________ - [________ × (________ - ________)]

Q1, 1.5, Q3, Q1 είναι η σωστή απάντηση.

Αναλυτικός τύπος για κάτω όριο ακραίων τιμών: Κάτω όριο = Q1 - [1.5 × (Q3 - Q1)]

Επεξήγηση κάθε μέρους: - Q1: Σημείο εκκίνησης (1ο τεταρτημόριο) - 1.5: Τυπικός συντελεστής για ακραίες τιμές - (Q3 - Q1): Αυτό είναι το IQR (Ενδοτεταρτημοριακό εύρος) - 1.5 × IQR: Η “επιπλέον απόσταση” προς τα κάτω

Αναδιατύπωση του τύπου: Επειδή (Q3 - Q1) = IQR, μπορούμε να γράψουμε: Κάτω όριο = Q1 - 1.5 × IQR

Λογική του τύπου: 1. Ξεκινάμε από το Q1 (κάτω άκρο του κουτιού) 2. Υπολογίζουμε το IQR (μέτρο διασποράς των κεντρικών δεδομένων) 3. Πολλαπλασιάζουμε το IQR επί 1.5 (τυπικός κανόνας) 4. Αφαιρούμε αυτή την ποσότητα από το Q1

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Q3, 1.5, Q3, Q1: - Θα έδινε: Q3 - 1.5 × (Q3 - Q1) - Αυτό δεν είναι κάτω όριο αλλά κάποια ενδιάμεση τιμή - Δεν ακολουθεί τη λογική του boxplot

Γ - Q1, 2, Τυπική απόκλιση, IQR: - Μπερδεύει διαφορετικά στατιστικά μέτρα - Ο συντελεστής 2 δεν είναι τυπικός για τον κανόνα IQR - Η τυπική απόκλιση δεν χρησιμοποιείται σε αυτόν τον τύπο

Δ - Q3, Μέσος όρος, 1, Εύρος: - Εντελώς λανθασμένη σύνθεση όρων - Δεν ακολουθεί κανέναν γνωστό κανόνα για ακραίες τιμές - Ο μέσος όρος και το εύρος δεν σχετίζονται με τα τεταρτημόρια

Πρακτικό παράδειγμα: Αν Q1 = 50mm και Q3 = 70mm: - IQR = 70 - 50 = 20mm - Κάτω όριο = 50 - [1.5 × 20] = 50 - 30 = 20mm - Οποιαδήποτε τιμή κάτω από 20mm θεωρείται ακραία τιμή

Συμπληρωματικός τύπος: Πάνω όριο = Q3 + [1.5 × (Q3 - Q1)] = Q3 + 1.5 × IQR

Οποιεσδήποτε τιμές είναι μεγαλύτερες ή μικρότερες από τις τιμές στις απολήξεις αναπαρίστανται σε ένα boxplot ως μεμονωμένα σημεία. Κατά σύμβαση, αυτά μπορούν να θεωρηθούν ως ακραίες τιμές.

5.5 Διαιρεμένα Ιστογράμματα

Τα διαγράμματα διασποράς, τα διαγράμματα jitter και τα boxplot είναι διαφορετικοί τρόποι για να οπτικοποιήσουμε υποθέσεις με ποιοτικές ανεξάρτητες μεταβλητές (όπως η μήκος αντίχειρα = φύλο + άλλα πράγματα).

Ένας ακόμη τρόπος είναι τα ιστογράμματα, αλλά αυτή τη φορά διαιρούμε το ιστόγραμμα σε δύο «όψεις» — μία για τις γυναίκες και μία άλλη για τους άντρες. Το κάνουμε αυτό χρησιμοποιώντας τον τελεστή %>% για να συνδέσουμε τη συνάρτηση gf_facet_grid() με τη συνάρτηση gf_histogram(). Αυτό τοποθετεί τα δύο ιστογράμματα του μήκους αντίχειρα (ένα για τις γυναίκες και ένα για τους άντρες) στο ίδιο πλέγμα (grid).

gf_histogram(~ Thumb, data = Fingers) %>%
  gf_facet_grid(Gender ~ .)

Όπως το να βάζουμε μια μεταβλητή πριν από το σύμβολο ~ (tilde) την τοποθετεί στον άξονα y, το να βάζουμε τη μεταβλητή Gender πριν από το ~ στην εντολή gf_facet_grid(Gender ~ .) στοιβάζει τα δύο διαγράμματα κάθετα, το ένα πάνω από το άλλο, κατά μήκος του άξονα y. Αν βάζαμε την Gender μετά το ~ θα τοποθετούσε τα δύο γραφήματα το ένα δίπλα στο άλλο σε μια γραμμή κατά μήκος του άξονα x.

Σημειώστε ότι χρησιμοποιήσαμε μια τελεία (Gender ~ .) ως «σύμβολο κράτησης θέσης» στην περίπτωση που αργότερα θέλουμε να δημιουργήσουμε επιμέρους ιστογράμματα για περισσότερες από μία μεταβλητές, π.χ., gf_facet_grid(Gender ~ RaceEthnic).

Διαιρεμένα Ιστογράμματα Πυκνότητας Πιθανότητας

Τόσο στο διαιρεμένο ιστόγραμμα όσο και στο διάγραμμα jitter, μπορεί να παρατηρήσατε ότι υπάρχουν λιγότεροι άντρες από ότι γυναίκες. Στην περίπτωση αυτή είναι χρήσιμη η πυκνότητα πιθανότητας (αντί της απόλυτης συχνότητας). Θυμηθείτε ότι η πυκνότητα πιθανότητας μοιάζει με την αναλογία (είναι το ίδιο με την αναλογία όταν το binwidth = 1 επειδή η πυκνότητα πιθανότητας είναι η αναλογία διαιρεμένη με το εύρος του διαστήματος, binwidth).

Τροποποιήστε τον ακόλουθο κώδικα για να μετατρέψετε αυτά τα ιστογράμματα σε ιστογράμματα πυκνότητας πιθανότητας.

Παρατηρήστε τα ιστογράμματα πυκνότητας πιθανότητας που δημιουργήσατε. Διαφέρουν τα μήκη αντίχειρα ως προς το φύλο; Με ποιον τρόπο; Υπάρχει μεταβλητότητα στα μήκη αντίχειρα μεταξύ ατόμων του ίδιου φύλου;

Μεταβλητότητα Μεταξύ Ομάδων και Εντός Ομάδων

Ένας άλλος τρόπος να σκεφτούμε ότι το φύλο (Gender) εξηγεί τη μεταβλητότητα στο μήκος αντίχειρα (Thumb) είναι να πούμε ότι το μήκος αντίχειρα αποτελείται στην πραγματικότητα από δύο διαφορετικές κατανομές, μία για τους άντρες και μία για τις γυναίκες. Παρόλο που το σχήμα αυτών των δύο ιστογραμμάτων είναι περίπου κανονικό, η κατανομή του μήκους αντίχειρα των αντρών φαίνεται να είναι κεντραρισμένη λίγο πιο δεξιά στην κλίμακα από την κατανομή του μήκους αντίχειρα των γυναικών. Δηλαδή, φαίνεται σαν ολόκληρη η κατανομή των ανδρών να έχει μετατοπιστεί προς τα δεξιά κατά μήκος του άξονα x.

Τι πρέπει να κοιτάξετε σε ένα ιστόγραμμα για να παρατηρήσετε τη μεταβλητότητα εντός ομάδας;

Τη διασπορά της κατανομής είναι η σωστή απάντηση.

Τι είναι η μεταβλητότητα εντός ομάδας: Η μεταβλητότητα εντός ομάδας αναφέρεται στο πόσο διαφέρουν μεταξύ τους τα άτομα μέσα στην ίδια ομάδα ή κατηγορία.

Πώς φαίνεται η δισαπορά σε ιστόγραμμα: - Μεγάλη διασπορά: Το ιστόγραμμα είναι ευρύ και εκτείνεται σε μεγάλο εύρος τιμών - Μικρή διασπορά: Το ιστόγραμμα είναι στενό και συγκεντρώνεται γύρω από συγκεκριμένες τιμές - Μεγάλη μεταβλητότητα εντός ομάδας: Τα άτομα της ομάδας έχουν πολύ διαφορετικές τιμές

Παραδείγματα διασποράς: - Στενή κατανομή: Όλοι οι φοιτητές έχουν αντίχειρες 60-65mm (μικρή μεταβλητότητα) - Ευρεία κατανομή: Οι φοιτητές έχουν αντίχειρες 40-90mm (μεγάλη μεταβλητότητα)

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Κέντρο της κατανομής: - Το κέντρο δείχνει την τυπική ή μεσαία τιμή της ομάδας - Δεν δείχνει πόσο διαφέρουν τα άτομα μεταξύ τους - Σχετίζεται με την κεντρική τάση, όχι τη μεταβλητότητα

Γ - Πυκνότητα της κατανομής: - Η πυκνότητα δείχνει πόσα άτομα βρίσκονται σε κάθε τιμή - Δεν δείχνει την έκταση της μεταβλητότητας - Σχετίζεται με τη συχνότητα, όχι τη διασπορά

Δ - Ασυμμετρία της κατανομής: - Η ασυμμετρία δείχνει αν η κατανομή έχει μακριά ουρά προς μία κατεύθυνση - Δεν δείχνει απευθείας την έκταση της μεταβλητότητας εντός ομάδας - Σχετίζεται με το σχήμα, όχι το εύρος της κατανομής

Πρακτική εφαρμογή: Όταν συγκρίνετε δύο ομάδες (π.χ. άνδρες vs γυναίκες), κοιτάξτε το εύρος κάθε ιστογράμματος για να δείτε ποια ομάδα έχει μεγαλύτερη εσωτερική μεταβλητότητα.

Καθώς η κατανομή του μήκους αντίχειρα των αντρών μετατοπίζεται προς τα δεξιά, η μεταβλητότητα μεταξύ των ομάδων (between-group variation), δηλαδή η διαφορά μεταξύ των κέντρων των δύο κατανομών, γίνεται μεγαλύτερη. Ταυτόχρονα, όμως, η μεταβλητότητα (ή η διασπορά) εντός της κάθε ομάδας (within-group variation) είναι τώρα μικρότερη από ό,τι θα ήταν αν όλα τα μήκη αντίχειρα ήταν μαζί σε ένα μόνο ιστόγραμμα. Η μεταβλητότητα μεταξύ των μελών της ίδιας ομάδας ονομάζεται μεταβλητότητα εντός ομάδας, η οποία είναι μικρότερη από τη συνολική μεταβλητότητα με την οποία ξεκινήσαμε. Είναι σαν κάποιο μέρος της συνολικής μεταβλητότητας του μήκους αντίχειρα (Thumb) να οφείλεται στο φύλο (Gender).

Όταν λέμε ότι η μεταβλητότητα του μήκους αντίχειρα μπορεί μερικώς να εξηγηθεί από το φύλο, εννοούμε το εξής:

  • Αν γνωρίζαμε ότι ένας φοιτητής είναι άνδρας, θα μπορούσαμε να προβλέψουμε ότι θα έχει ελαφρώς μεγαλύτερο αντίχειρα
  • Αν γνωρίζαμε ότι είναι γυναίκα, θα μπορούσαμε να προβλέψουμε ότι θα έχει ελαφρώς μικρότερο αντίχειρα

Επειδή μπορούμε να δούμε τη μεταβλητότητα εντός ομάδας μόνο αφού διαιρέσουμε την κατανομή ως προς το φύλο, ένα άλλο όνομα για τη μεταβλητότητα εντός ομάδας είναι υπολειπόμενη μεταβλητότητα (leftover variation). Παρόλο που απομένει μεγάλο μέρος της μεταβλητότητας στο μήκος αντίχειρα αφού αφαιρέσουμε το φύλο, εξακολουθεί να ισχύει ότι αν γνωρίζουμε το φύλο κάποιου μπορούμε να είμαστε λίγο καλύτεροι στην πρόβλεψη του μήκους του αντίχειρά του. Αυτό το «λίγο καλύτεροι» μπορεί να μην είναι εξαιρετικό, αλλά είναι καλύτερο από το τίποτα.

Αν γνωρίζαμε μόνο το φύλο, θα ήμασταν πάντα σωστοί στις προβλέψεις μας; Όχι! Γιατί; Εξαιτίας των «άλλων πραγμάτων».

Το φύλο δεν είναι η μόνη μεταβλητή που εξηγεί τη μεταβλητότητα. Ακόμη και μεταξύ των γυναικών, αν γνωρίζαμε περισσότερες πληροφορίες γι’ αυτές, θα μπορούσαμε να εξηγήσουμε γιατί υπάρχει αυτή η μεταβλητότητα εντός ομάδας. Αυτό είναι που εννοούμε με τη φράση «και άλλα πράγματα» - όλους εκείνους τους άλλους παράγοντες που επίσης επηρεάζουν το μήκος του αντίχειρα αλλά δεν τους έχουμε μετρήσει ή συμπεριλάβει στην εξίσωσή μας.

Ποιες από τις ακόλουθες υποθέσεις είναι πιθανώς χειρότερες από την μήκος αντίχειρα = φύλο + άλλα πράγματα στο να εξηγούν τη μεταβλητότητα στο μήκος αντίχειρα; (Μπορείτε να επιλέξετε περισσότερες από μία απαντήσεις.)

Α, Γ και Δ είναι πιθανώς χειρότερες υποθέσεις από την μήκος αντίχειρα = φύλο + άλλα πράγματα.

Κριτήρια αξιολόγησης υποθέσεων: Μια καλή υπόθεση για την εξήγηση μεταβλητότητας πρέπει να έχει: 1. Βιολογική ή φυσική βάση: Λογική σύνδεση με το μήκος αντίχειρα 2. Ισχυρή συσχέτιση: Η ανεξάρτητη μεταβλητή να σχετίζεται σημαντικά με την εξαρτημένη 3. Μετρήσιμη διαφορά μεταξύ ομάδων: Διαφορετικές κατηγορίες να παράγουν διαφορετικά αποτελέσματα

Ανάλυση κάθε υπόθεσης:

Α - μήκος αντίχειρα = άγχος για τα μαθηματικά + άλλα πράγματα (Χειρότερη): - Καμία βιολογική βάση: Το άγχος για τα μαθηματικά δεν έχει φυσιολογική σχέση με το μέγεθος αντίχειρα - Ασθενής συσχέτιση: Δεν υπάρχει λόγος να περιμένουμε ότι άτομα με μαθηματικό άγχος έχουν διαφορετικούς αντίχειρες - Ψυχολογικό vs φυσικό χαρακτηριστικό: Το μήκος αντίχειρα καθορίζεται κυρίως από γενετικούς/αναπτυξιακούς παράγοντες

Β - μήκος αντίχειρα = μήκους παράμεσου + άλλα πράγματα (Καλύτερη): - Ισχυρή βιολογική βάση: Και ο αντίχειρας και ο παράμεσος είναι δάχτυλα του ίδιου χεριού - Κοινοί γενετικοί παράγοντες: Το συνολικό μέγεθος χεριού επηρεάζει όλα τα δάχτυλα - Αναπτυξιακή συσχέτιση: Μεγαλύτερα χέρια έχουν γενικά μεγαλύτερα δάχτυλα

Γ - μήκος αντίχειρα = απασχόληση + άλλα πράγματα (Χειρότερη): - Ασθενής βιολογική σύνδεση: Η απασχόληση δεν επηρεάζει το μήκος οστών που ήδη έχει διαμορφωθεί - Χρονικό πρόβλημα: Το μήκος αντίχειρα καθορίζεται στην ανάπτυξη, πριν την επιλογή επαγγέλματος - Έμμεση σχέση: Ακόμη κι αν υπάρχει συσχέτιση, πιθανώς οφείλεται σε άλλους παράγοντες (π.χ. ύψος)

Δ - μήκος αντίχειρα = έτος σπουδών + άλλα πράγματα (Χειρότερη): - Καμία βιολογική βάση: Το έτος σπουδών δεν έχει φυσιολογική σχέση με το μέγεθος αντίχειρα - Τυχαία συσχέτιση: Οποιεσδήποτε διαφορές θα ήταν πιθανώς τυχαίες - Μικρή ηλικιακή διαφορά: Οι φοιτητές έχουν παρόμοιες ηλικίες, άρα ελάχιστη διαφορά στην ανάπτυξη

Γιατί το φύλο είναι καλή υπόθεση: - Ισχυρή βιολογική βάση: Το φύλο επηρεάζει το συνολικό μέγεθος σώματος - Ορμονικοί παράγοντες: Η τεστοστερόνη επηρεάζει την οστική ανάπτυξη - Παρατηρήσιμη διαφορά: Οι άνδρες έχουν γενικά μεγαλύτερες σωματικές διαστάσεις - Εμπειρικά δεδομένα: Έχουμε ήδη παρατηρήσει αυτή τη σχέση στα δεδομένα μας

Δοκιμάστε να διερεύνησετε την υπόθεση μήκος αντίχειρα = έτος σπουδών + άλλα πράγματα με ένα διαιρεμένο ιστόγραμμα στον παρακάτω κώδικα.

Ποιο μέρος του παραπάνω διαιρεμένου ιστογράμματος μας δείχνει ότι η εξαρτημένη μεταβλητή Year δεν είναι και τόσο καλή επεξηγηματική μεταβλητή όσο η Gender;

Με άλλα λόγια, η γνώση του έτους σπουδών μας βοηθάει να κάνουμε καλύτερη πρόβλεψη για το μήκος αντίχειρα;

Ας εξετάσουμε τα δεδομένα του μήκους αντίχειρα ανά έτος σπουδών.

Έχουμε:

  • Πρωτοετείς φοιτητές

  • Δευτεροετείς φοιτητές

  • Τριτοετείς φοιτητές

  • Τεταρτοετείς φοιτητές

Παρατήρηση των Κατανομών:

Όταν εξετάζουμε τις κατανομές του μήκους αντίχειρα για κάθε έτος σπουδών, παρατηρούμε ότι:

  • Οι κατανομές των πρωτοετών, δευτεροετών και τριτοετών είναι στοιβαγμένες η μία πάνω στην άλλη.

  • Δεν υπάρχει μετατόπιση μεταξύ των ομάδων

  • Όλες οι κατανομές έχουν περίπου το ίδιο κέντρο

Συμπέρασμα για το Έτος Σπουδών:

Ακόμη κι αν γνωρίζαμε ότι κάποιος είναι πρωτοετής, δευτεροετής ή τριτοετής, δεν θα αλλάζαμε σημαντικά την πρόβλεψή μας για το μήκος του αντίχειρά του. Επομένως, το έτος σπουδών δεν εξηγεί σημαντικό μέρος της μεταβλητότητας στο μήκος αντίχειρα.

Πρακτικές Οδηγίες για να αξιολογήσετε αν μια μεταβλητή εξηγεί μεταβλητότητα:

  1. Δημιουργήστε διαιρεμένα ιστογράμματα συχνότητας ή πυκνότητας πιθανότητας
  2. Εξετάστε αν οι κατανομές έχουν διαφορετικά κέντρα
  3. Αναζητήστε οριζόντια μετατόπιση μεταξύ των ομάδων
  4. Αν υπάρχει μετατόπιση, η μεταβλητή πιθανώς εξηγεί κάποιο μέρος της μεταβλητότητας
  5. Αν δεν υπάρχει μετατόπιση, η μεταβλητή πιθανώς δεν είναι χρήσιμη για εξήγηση/πρόβλεψη

Διαίρεση Ιστογράμματος ως προς μια Ποσοτική Μεταβλητή

Όπως είδαμε, τα διαιρεμένα ιστογράμματα είναι χρήσιμα όταν έχουμε μία ποσοτική εξαρτημένη μεταβλητή και τουλάχιστον μία ποιοτική ανεξάρτητη μεταβλητή. Ας δοκιμάσουμε να διερευνήσουμε τι θα συμβεί σε ένα διαιρεμένο ιστόγραμμα αν χρησιμοποιήσουμε μια ποσοτική ανεξάρτητη μεταβλητή, όπως το μήκος παράμεσου φοιτητή (Ring), αντί μιας ποιοτικής μεταβλητής (όπως οι Gender, RaceEthnic, ή Job).

Το αποτέλεσμα δεν μοιάζει καν με διαιρεμένο ιστόγραμμα. Αυτό συμβαίνει επειδή η R προσπαθεί να δημιουργήσει ένα ξεχωριστό ιστόγραμμα για κάθε μοναδική τιμή της μεταβλητής Ring, και υπάρχουν πάρα πολλές διαφορετικές τιμές (όπως οι 42, 66.04, 86, και άλλες)! Η διαίρεση ιστογράμματος λειτουργεί καλύτερα όταν υπάρχει ένας περιορισμένος αριθμός τιμών της ανεξάρτητης μεταβλητής (όπως συμβαίνει για τις περισσότερες ποιοτικές μεταβλητές).

Ποιο διάγραμμα θα πρέπει να χρησιμοποιήσουμε για να διερευνήσουμε εάν η γνώση του μήκους του παράμεσου μας βοηθά να κάνουμε καλύτερες προβλέψεις για το μήκος του αντίχειρα;

Επιπλέον Χαρακτηριστικά Ιστογραμμάτων

Πολλά από αυτά που έχετε ήδη μάθει για τα ιστογράμματα μπορούν να προστεθούν και στα διαιρεμένα ιστογράμματα. Μπορείτε να ρυθμίσετε τα διαστήματα τιμών (bins), μπορείτε να προσθέσετε τίτλους, και μπορείτε να προβάλετε πάνω σε αυτά καμπύλες πυκνότητας πιθανότητας.

Μπορείτε επίσης να προβάλετε boxplot πάνω στα διαιρεμένα ιστογράμματα χρησιμοποιώντας τον τελεστή %>% για να συνδέσετε τη συνάρτηση gf_boxplot().

Γιατί τα boxplot που προβάλλονται στα ιστογράμματα έχουν οριζόντια αντί για κάθετη διάταξη;

Σχήμα 5.6

Πώς μας βοηθά η προβολή boxplot πάνω στα ιστογράμματα να συγκρίνουμε τις κατανομές του μήκους αντίχειρα ανάμεσα σε γυναίκες και άνδρες;

5.6 Ποιοτικές Εξαρτημένες Μεταβλητές

Έχουμε μάθει να εκφράζουμε υποθέσεις με λεκτικές εξισώσεις και να δημιουργούμε κατάλληλες εποπτικές αναπαραστάσεις για να διερευνήσουμε αυτές τις υποθέσεις με πραγματικά δεδομένα. Μέχρι τώρα, έχουμε εστιάσει αποκλειστικά σε υποθέσεις σχετικά με ποσοτικές εξαρτημένες μεταβλητές - π.χ., μήκος αντίχειρα. Μπορούμε να επεκτείνουμε τις ίδιες ιδέες σε ποιοτικές εξαρτημένες μεταβλητές.

Παράδειγμα Μελέτης: TeachingMethods

Το πλαίσιο δεδομένων TeachingMethods περιέχει τα αποτελέσματα ενός πειράματος στο οποίο ένα δείγμα φοιτητών κατανεμήθηκε τυχαία σε μία από δύο συνθήκες (καταγεγραμμένες στη μεταβλητή Method). Στη συνθήκη Traditional (\(N=40\)) οι φοιτητές διδάχθηκαν με παραδοσιακές μεθόδους διδασκαλίας, ενώ στη συνθήκη Interactive (\(N=40\)) χρησιμοποιήθηκαν διαδραστικές μέθοδοι διδασκαλίας.

Οι ερευνητές υπέθεσαν ότι η διαδραστική διδασκαλία θα οδηγούσε σε καλύτερη ακαδημαϊκή επίδοση. Τέσσερις εβδομάδες μετά την έναρξη της μελέτης, οι ερευνητές κατέγραψαν αν κάθε φοιτητής παρουσίασε βελτίωση στη βαθμολογία του τουλάχιστον 10 μονάδες σε μια ποιοτική μεταβλητή που ονομάζεται Improvement (είτε “improved” είτε “not improved”). Παρακάτω, παρουσιάζουμε ένα δείγμα των δεδομένων από 10 φοιτητές για τις δύο μεταβλητές (Method και Improvement).

Method Improvement
Traditional not improved
Traditional improved
Traditional not improved
Interactive improved
Interactive improved
Interactive improved
Traditional not improved
Interactive improved
Interactive not improved
Interactive improved

Ποια από αυτές τις δύο μεταβλητές είναι η εξαρτημένη μεταβλητή;

Improvement είναι η σωστή απάντηση.

Λογική της σχέσης στη μελέτη:

Σε αυτή τη μελέτη εκπαιδευτικών μεθόδων, η πιθανή αιτιακή σχέση είναι μεταξύ των μεταβλητών:

  • Method (Μέθοδος διδασκαλίας): Η παρέμβαση που εφαρμόζουν οι ερευνητές
  • Improvement (Βελτίωση): Το αποτέλεσμα που μετρούν μετά από 4 εβδομάδες

Χαρακτηριστικά της εξαρτημένης μεταβλητής: - Ποιοτική μεταβλητή: “improved” ή “not improved” - Αποτέλεσμα μέτρησης: Αυτό που παρατηρούμε ως αποτέλεσμα της παρέμβασης - Χρονικά εξαρτημένη: Μετράται μετά την εφαρμογή της μεθόδου

Χαρακτηριστικά της ανεξάρτητης μεταβλητής: - Method: Traditional ή Interactive - Ελεγχόμενη από τους ερευνητές: Τυχαία κατανομή φοιτητών - Χρονικά προηγούμενη: Καθορίζεται πριν τη μέτρηση της βελτίωσης

Ερευνητική υπόθεση: “Η διαδραστική διδασκαλία θα οδηγήσει σε μεγαλύτερο ποσοστό φοιτητών που θα δείξουν βελτίωση σε σχέση με την παραδοσιακή διδασκαλία.”

Εξίσωση με λέξεις: Improvement = Method + άλλοι παράγοντες

5.7 Διαιρεμένα Ραβδογράμματα

Επειδή η μεταβλητή Improvement είναι μια ποιοτική εξαρτημένη μεταβλητή, δεν μπορούμε να αναπαραστήσουμε την κατανομή της σε ιστόγραμμα. Αντ’ αυτού, μπορούμε να χρησιμοποιήσουμε ένα ραβδόγραμμα. Δοκιμάστε να εκτελέσετε τον παρακάτω κώδικα. Στη συνέχεια αντικαταστήστε την gf_histogram() με την gf_bar() για να δημιουργήσετε ένα ραβδόγραμμα.

Αυτό το διάγραμμα μας δείχνει αν οι φοιτητές βελτιώθηκαν ή όχι, αλλά δεν αναλύει το αποτέλεσμα ανά μέθοδο διδασκαλίας (Method). Για να δούμε αν η μέθοδος διδασκαλίας μπορεί να εξηγήσει κάποια από την μεταβλητότητα στη μεταβλητή Improvement, μπορούμε να προσθέσουμε τη συνάρτηση gf_facet_grid(). Μπορούμε να διαιρέσουμε ραβδογράμματα είτε κάθετα είτε οριζόντια. Δοκιμάστε να δημιουργήσετε και τους δύο τύπους διαιρεμένων ραβδογραμμάτων στο παρακάτω παράθυρο κώδικα.

Ποιο διάγραμμα σας φαίνεται πιο βοηθητικό για τη διερεύνηση της υπόθεσης ότι η μέθοδος διδασκαλίας (Method) φαίνεται να εξηγεί μέρος της μεταβλητότητας στη μεταβλητή `Improvement’; Αυτό με την κάθετη ή αυτό με την οριζόντια διάταξη των ραβδογραμμάτων;

Σχήμα 5.7

Υπάρχει ένας περιορισμός στο παραπάνω διάγραμμα. Παρότι στην περίπτωσή μας τα μεγέθη των δειγμάτων είναι ίδια μεταξύ των δύο ομάδων (40 στην ομάδα Traditional, 40 στην Interactive), συνήθως είναι δύσκολο να συγκρίνουμε άμεσα τις επιδόσεις δύο ομάδων όταν εξετάζουμε απόλυτους αριθμούς. Από το διάγραμμα φαίνεται ότι 36 φοιτητές στην ομάδα Interactive βελτιώθηκαν σε σύγκριση με 6 στην ομάδα Traditional (και το αντίστροφο), αλλά οι αναλογίες θα μας δώσουν μια πιο σαφή εικόνα.

Μπορείτε να χρησιμοποιήσετε τη συνάρτηση gf_props() αντί της gf_bar(). Η gf_props() δείχνει την αναλογία των φοιτητών που βελτιώθηκαν αντί για τη συχνότητα των φοιτητών. Στο παρακάτω παράθυρο κώδικα, χρησιμοποιήστε την gf_props() για να δημιουργήσετε ένα ραβδόγραμμα που αναπαριστά την αναλογία των φοιτητών που βελτιώθηκαν σε κάθε συνθήκη.

Τα μεγέθη δειγμάτων μεταξύ των δύο ομάδων είναι ίδια (40 φοιτητές σε κάθε ομάδα), αλλά οι αναλογίες εξακολουθούν να αποτελούν καλύτερη βάση για τη σύγκριση των δύο ομάδων καθώς μας επιτρέπουν να δούμε τα ποσοστά επιτυχίας. Το 0.85 (ή το 85%) των φοιτητών της ομάδας Interactive βελτιώθηκαν (34 από 40 φοιτητές), ενώ μόνο το 0.15 (ή 15%) της ομάδας Traditional βελτιώθηκαν (6 από 40 φοιτητές).

Με βάση τα παραπάνω διαιρεμένα ραβδογράμματα, τι νομίζετε σχετικά με την υπόθεση για το αν η μέθοδος διδασκαλίας εξηγεί κάποιο μέρος της μεταβλητότητας στη βελτίωση της βαθμολογίας;

5.8 Πίνακες Συνάφειας

Τα ραβδογραφήματα είναι ένας τρόπος για να οπτικοποιήσουμε την υπόθεση Βελτίωση βαθμολογίας = Μέθοδος διδασκαλίας + Άλλα πράγματα. Ένας άλλος τρόπος για να διερευνήσουμε την υπόθεση αυτήν είναι με έναν πίνακα συνάφειας, ο οποίος δείχνει την κατανομή των παρατηρήσεων σε δύο κατηγορικές μεταβλητές.

Γνωρίζετε ήδη τη συνάρτηση R που χρησιμοποιούμε για να φτιάχνουμε πίνακες, την table(). Εδώ θα επεκτείνουμε τη χρήση της για να εξετάσουμε τη συνάφεια ανάμεσα σε μια εξαρτημένη και σε μια ανεξάρτητη μεταβλητή.

table(TeachingMethods$Method, TeachingMethods$Improvement)

               Interactive Traditional
  improved              34           6
  not improved           6          34

Κάθε τιμή στον πίνακα αντιπροσωπεύει τη συχνότητα ενός συγκεκριμένου συνδυασμού κατηγοριών (π.χ., “improved” και “Interactive”; “improved” και “Traditional”, “not improved” και “Interactive”; “not improved” και “Traditional”) στο σύνολο δεδομένων.

Αν θέλετε αναλογίες αντί για συχνότητες μπορείτε να χρησιμοποιήσετε την prop.table με την παράμετρο margin = 2 για κανονικοποίηση κατά στήλες (οι τιμές αθροίζουν στη μονάδα κατά στήλες):

prop.table(table(TeachingMethods$Improvement, TeachingMethods$Method), margin = 2)

               Interactive Traditional
  improved            0.85        0.15
  not improved        0.15        0.85

Αν θέλαμε οι αναλογίες να αθροίζουν στο 1 κατά γραμμές (χρησιμοποιώντας margin = 1), θα λέγαμε ότι είναι κανονικοποιημένες κατά γραμμές.

Στην περίπτωση αυτή είναι πιο θεμιτό να κανονικοποιήσουμε κατά στήλες (δηλαδή, οι κατηγορίες της μεταβλητής Improvement να αθροίζουν στο 1 εντός κάθε κατηγορίας της μεταβλητής Method) επειδή μας ενδιαφέρει να συγκρίνουμε την αναλογία των φοιτητών που βελτιώθηκαν μεταξύ των δύο συνθηκών. Από τα αποτελέσματα βλέπουμε ότι το 85% των φοιτητών στην ομάδα της διαδραστικής μεθόδου διδασκαλίας βελτιώθηκαν, σε σύγκριση με μόλις το 15% στην ομάδα της παραδοσιακής μεθόδου. Αν ο πίνακας ήταν κανονικοποιημένος κατά γραμμές, δεν θα βλέπαμε την αναλογία των φοιτητών που βελτιώθηκαν, αλλά την αναλογία εκείνων που βελτιώθηκαν (ή όχι) μέσα σε κάθε ομάδα.

Ποιο είδος διαγράμματος μεταφέρει πιο άμεσα την πληροφορία που περιέχει ένας πίνακας συνάφειας;

Ραβδόγραμμα είναι η σωστή απάντηση.

Τι είναι ο πίνακας συνάφειας: Ένας πίνακας συνάφειας (contingency table) δείχνει τις συχνότητες ή αναλογίες για συνδυασμούς δύο ή περισσότερων κατηγορικών μεταβλητών.

Παράδειγμα πίνακα συνάφειας:

                 Method
Improvement   Traditional  Interactive
Improved           15          25
Not Improved       25          15

Γιατί το ραβδόγραμμα είναι ιδανικό: - Αναπαριστά κατηγορίες: Κάθε ράβδος αντιπροσωπεύει μια κατηγορία - Δείχνει συχνότητες: Το ύψος κάθε ράβδου δείχνει το πλήθος ή την αναλογία (ποσοστό) - Επιτρέπει σύγκριση: Εύκολη σύγκριση μεταξύ ομάδων - Διαιρεμένες ράβδοι: Μπορεί να δείξει υποκατηγορίες στην ίδια ράβδο

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Ιστόγραμμα: - Χρησιμοποιείται για συνεχείς μεταβλητές, όχι ποιοτικές - Δείχνει κατανομές, όχι σχέσεις μεταξύ κατηγοριών - Δεν είναι κατάλληλο για δεδομένα συχνότητας

Β - Διάγραμμα διασποράς: - Χρησιμοποιείται για σχέσεις μεταξύ δύο συνεχών μεταβλητών - Δεν μπορεί να απεικονίσει κατηγορικά δεδομένα - Δεν δείχνει συχνότητες

Γ - Boxplot: - Δείχνει την κατανομή μιας συνεχούς μεταβλητής - Δεν είναι κατάλληλο για κατηγορικά δεδομένα - Δεν δείχνει σχέσεις μεταξύ κατηγοριών

Πρακτικό παράδειγμα: Για τη μελέτη των εκπαιδευτικών μεθόδων, ένα ραβδόγραμμα θα μπορούσε να δείξει: - Δύο ράβδους (Traditional, Interactive) - Κάθε ράβδος διαιρεμένη σε “Improved” και “Not Improved” - Άμεση οπτική σύγκριση των ποσοστών επιτυχίας

Ανακεφαλαίωση Πινάκων / Διαγραμμάτων

Μέχρι στιγμής έχουμε εξετάσει τόσο ποσοτικές (π.χ., Thumb) όσο και ποιοτικές εξαρτημένες μεταβλητές (π.χ., Improvement). Έχουμε επίσης εξετάσει ορισμένες ποιοτικές ανεξάρτητες μεταβλητές (π.χ., Gender, Method) και ποσοτικές ανεξάρτητες μεταβλητές (π.χ., Height).

Δεν έχουμε ακόμη εξετάσει περιπτώσεις όπου μας ενδιαφέρει η σχέση μιας ποιοτικής εξαρτημένης μεταβλητής και μιας ποσοτικής ανεξάρτητης μεταβλητής. Αλλά δεν υπάρχει λόγος να πιστεύουμε ότι δεν μπορούμε! Ίσως μια ποσοτική μεταβλητή όπως οι ώρες μελέτης να μπορούσε να μας βοηθήσει να προβλέψουμε αν ένας φοιτητής θα βελτιωθεί ή όχι.

Ας ανακεφαλαιώσουμε σε ποιες περιπτώσεις είναι κατάλληλο κάθε είδος πίνακα ή διαγράμματος για την οργάνωση και παρουσίαση δεδομένων.

Πίνακες ή Διαγράμματα Μίας Μεταβλητής

Μεταβλητή Πίνακας ή Διάγραμμα Συνάρτηση R
Ποιοτική Πίνακας Συχνοτήτων table
Ποιοτική Ραβδόγραμμα gf_bar
Ποσοτική Ιστόγραμμα gf_histogram
Ποσοτική Boxplot gf_boxplot

Πίνακες ή Διαγράμματα Δύο Μεταβλητών

Εξαρτημένη Μεταβλητή Ανεξάρτητη Μεταβλητή Πίνακας ή Διάγραμμα Συνάρτηση R
Ποιοτική Ποιοτική Πίνακας Συχνοτήτων table
Ποιοτική Ποιοτική Διαιρεμένο Ραβδόγραμμα gf_bar %>% gf_facet_grid
Ποσοτική Ποιοτική Διαιρεμένο Ιστόγραμμα gf_histogram %>% gf_facet_grid
Ποσοτική Ποιοτική Boxplot gf_boxplot
Ποσοτική Ποιοτική Διάγραμμα Διασποράς / Jitter gf_jitter / gf_point
Ποιοτική Ποσοτική Διάγραμμα Διασποράς / Jitter gf_jitter / gf_point
Ποσοτική Ποσοτική Διάγραμμα Διασποράς / Jitter gf_jitter / gf_point

Έχετε επίσης μάθει πολλές συναρτήσεις της R που μπορείτε να χρησιμοποιήσετε για να δημιουργήσετε αυτούς τους πίνακες ή τα διαγράμματα. Παρόλο που βρισκόμαστε μόνο στη μέση περίπου του κεφαλαίου 5, έχετε μάθει τον περισσότερο κώδικα που θα χρησιμοποιήσουμε σε ολόκληρο το μάθημα!

Προσθήκη Περισσότερων Ανεξάρτητων Μεταβλητών σε ένα Διάγραμμα

Έχουμε μάθει πώς να οπτικοποιούμε δεδομένα για να διερευνήσουμε υποθέσεις με μία εξαρτημένη μεταβλητή και μία ανεξάρτητη μεταβλητή. Μπορούμε να εκφράσουμε αυτές τις υποθέσεις πιο γενικά με αυτή την λεκτική εξίσωση:

εξαρτημένη μεταβλητή = ανεξάρτητη μεταβλητή + άλλα πράγματα

Επειδή συνήθως τοποθετούμε τη εξαρτημένη μεταβλητή στον άξονα y, μπορούμε επίσης να εκφράσουμε τέτοιες υποθέσεις σε μια λεκτική εξίσωση ως:

\(Y = X + \text{άλλα πράγματα}\)

Αλλά συχνά μπορούμε να κάνουμε καλύτερες προβλέψεις για τις εξαρτημένες μεταβλητές (όπως η μεταβλητή του μήκυος αντίχειρα) αν συμπεριλάβουμε περισσότερες από μία ανεξάρτητες μεταβλητές στο μοντέλο μας. Για παράδειγμα, το να γνωρίζουμε και το ύψος και το φύλο ενός φοιτητή ίσως βελτίωνε την πρόβλεψή μας για το μήκος του αντίχειρά του.

Να διατυπώσετε την εξίσωση που αντιστοιχεί στην παραπάνω υπόθεση.

Αυτή ονομάζεται πολυμεταβλητή υπόθεση επειδή έχει περισσότερες από μία ανεξάρτητες μεταβλητές.

Χρήση Χρώματος για την Προσθήκη μιας Δεύτερης Ανεξάρτητης Μεταβλητής σε ένα Διάγραμμα

Μπορούμε να διερευνήσουμε πολυμεταβλητές υποθέσεις μέσω διαγραμμάτων με διάφορους τρόπους. Ένας τρόπος είναι να ξεκινήσουμε με ένα βασικό διάγραμμα διασποράς (όπως αυτό παρακάτω) και να προσθέσουμε χρώμα για να αναπαραστήσουμε την άλλη ανεξάρτητη μεταβλητή (προσθέτοντας την παράμετρο color = ~ Gender).

Δοκιμάστε να προσθέσετε την παράμετρο color στον παρακάτω κώδικα για να χρωματίσετε τις παρατηρήσεις που αντιστοιχούν σε γυναίκες φοιτήτριες διαφορετικά από αυτές των αντρών στο διάγραμμα διασποράς του μήκους αντίχειρα σε σχέση με το ύψος.

Σύμφωνα με το παραπάνω διάγραμμα, ποιοι φοιτητές τείνουν να έχουν μεγαλύτερους αντίχειρες; (Μπορείτε να επιλέξετε περισσότερες από μία απαντήσεις.)

Άνδρες και ψηλότερα άτομα είναι οι σωστές απαντήσεις.

Ανάλυση του διαγράμματος διασποράς:

Β - Άνδρες (μωβ σημεία) έχουν μεγαλύτερους αντίχειρες: Από το διάγραμμα παρατηρούμε: - Τα μωβ σημεία (άνδρες) συγκεντρώνονται στο πάνω μέρος του διαγράμματος - Οι υψηλότερες τιμές μήκους αντίχειρα (85-90mm) ανήκουν κυρίως σε άνδρες - Η γενική τάση των μωβ σημείων είναι προς υψηλότερες τιμές αντίχειρα - Υπάρχει εμφανής διαχωρισμός με περισσότερους άνδρες στο πάνω μισό του γραφήματος

Δ - Ψηλότερα άτομα έχουν μεγαλύτερους αντίχειρες: Το διάγραμμα δείχνει θετική συσχέτιση: - Καθώς το ύψος αυξάνεται (κίνηση προς τα δεξιά), το μήκος αντίχειρά τείνει να αυξάνεται - Στην περιοχή 58-62 inches: περισσότερα σημεία με Thumb < 65mm - Στην περιοχή 70-75 inches: περισσότερα σημεία με Thumb > 65mm - Υπάρχει ανοδική τάση από κάτω αριστερά προς πάνω δεξιά

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Γυναίκες (τιρκουάζ σημεία): - Τα τιρκουάζ σημεία κυριαρχούν στο κάτω μέρος του γραφήματος - Οι χαμηλότερες τιμές Thumb (40-50mm) ανήκουν κυρίως σε γυναίκες - Λίγα τιρκουάζ σημεία φτάνουν πάνω από 80mm

Γ - Κοντύτερα άτομα: - Στην αριστερή πλευρά του γραφήματος (χαμηλότερα ύψη) υπάρχουν κυρίως χαμηλότερες τιμές μηκών αντίχειρα - Η συσχέτιση είναι θετική, όχι αρνητική Οπτικά στοιχεία που επιβεβαιώνουν: - Διαχωρισμός χρωμάτων: Μωβ σημεία (άνδρες) στο πάνω μέρος, τιρκουάζ (γυναίκες) στο κάτω - Διαγώνια τάση: Γενική κλίση από κάτω αριστερά προς πάνω δεξιά - Κατανομή ακραίων τιμών: Μέγιστα μήκη αντίχειρα στους ψηλότερους άνδρες, ελάχιστα στις κοντύτερες γυναίκες

Μπορείτε επίσης να αλλάξετε τα χρώματα των ράβδων σε ιστογράμματα και ραβδογράμματα, αλλά αντί για την color πρέπει να χρησιμοποιήσετε την παράμετρο fill. Δοκιμάστε να προσαρμόσετε το παρακάτω ιστόγραμμα γεμίζοντας τις ράβδους με διαφορετικό χρώμα σύμφωνα με τη μεταβλητή Gender.

Μέγεθος και Σχήμα

Το χρώμα δεν είναι ο μοναδικός τρόπος για να προσθέσετε επιπλέον ανεξάρτητες μεταβλητές σε ένα διάγραμμα. Μπορεί επίσης να θέλετε να εξετάσετε παραμέτρους όπως οι size και shape με τις gf_point() και gf_jitter().

Στον παρακάτω κώδικα, χρησιμοποιούμε τις παραμέτρους color και shape για να διερευνήσουμε μια υπόθεση με τρεις επεξηγηματικές μεταβλητές. Προσθέσαμε επίσης την παράμετρο size = 3 απλώς για να κάνουμε τα σημεία μεγαλύτερα.

gf_point(Thumb ~ Height, data = Fingers, 
  color = ~RaceEthnic, shape = ~Gender, size = 3)
Σχήμα 5.8

Να διατυπώσετε την εξίσωση που αντιστοιχεί στην παραπάνω υπόθεση.

Δημιουργία Πλέγματος

Ας δούμε έναν ακόμη τρόπο για να διερευνήσουμε μια πολυμεταβλητή υπόθεση. Γνωρίζουμε ήδη πώς να δημιουργούμε ξεχωριστές όψεις (ή πάνελ) διαγραμμάτων – χρησιμοποιώντας τον τελεστή %>% και την gf_facet_grid(). Μπορούμε επίσης να χρησιμοποιήσουμε την gf_facet_grid() για να διατάξουμε διαγράμματα σε έναν πλέγμα από γραμμές και στήλες.

Ας δοκιμάσουμε να χρησιμοποιήσουμε αυτές τις επιλογές για να διερευνήσουμε μια νέα υπόθεση στο πλαίσιο δεδομένων TeachingMethods, και συγκεκριμένα αν μπορούμε να κάνουμε καλύτερες προβλέψεις για την βαθμολογία των φοιτητών μετά τη διδασκαλία (PostScore) αν γνωρίζουμε την αρχική τους βαθμολογία (PreScore) καθώς και ποια ομάδα διδασκαλίας ανήκουν (Method).

Να διατυπώσετε την εξίσωση που αντιστοιχεί στην παραπάνω υπόθεση.

Στο παρακάτω παράθυρο κώδικα, δημιουργήστε διαγράμματα για να διερευνήσετε την παραπάνω πολυμεταβλητή υπόθεση.

Ποιο διάγραμμα σας φάνηκε πιο χρήσιμο από αυτά που δοκιμάσατε;

5.9 Πηγές Μεταβλητότητας

Έχουμε συζητήσει τι σημαίνει για μια ανεξάρτητη μεταβλητή να εξηγεί την μεταβλητότητα σε μια εξαρτημένη, και έχουμε μάθει μερικούς τρόπους για να εξετάσουμε αυτή την ιδέα με οπτικές αναπαραστάσεις των δεδομένων. Ας κάνουμε τώρα ένα βήμα πίσω και να σκεφτούμε πιο εκτενώς από πού προέρχεται η μεταβλητότητα στα δεδομένα. Υπάρχουν τρεις σημαντικές επισημάνσεις που θέλουμε να κάνουμε σχετικά με τις πηγές μεταβλητότητας.

(1) Η Μεταβλητότητα Μπορεί να Είναι Είτε Εξηγούμενη είτε Ανεξήγητη

Σχήμα 5.9

Εξετάστε την λεκτική εξίσωση PostScore = Method + άλλα πράγματα. Η εξηγούμενη μεταβλητότητα είναι το μέρος της συνολικής μεταβλητότητας στην εξαρτημένη μεταβλητή (δηλαδή, την τελική βαθμολογία) που μπορούμε να αποδώσουμε στην ανεξάρτητη μεταβλητή (μέθοδος διδασκαλίας). Το υπόλοιπο μέρος της μεταβλητότητας (ή η υπολειπόμενη μεταβλητότητα αφού ληφθεί υπόψη η ανεξάρτητη μεταβλητή) παραμένει ανεξήγητο. Τα άλλα πράγματα αντιπροσωπεύουν αυτή την ανεξήγητη μεταβλητότητα.

Είναι χρήσιμο να σκεφτόμαστε τη συνολική παραλλακτικότητα ως το άθροισμα της εξηγημένης και της ανεξήγητης παραλλακτικότητας.

Η εξίσωση μήκος αντίχειρα = ύψος + άλλα πράγματα σε ποια από τις παρακάτω εξισώσεις μεταβλητότητας αντιστοιχεί;

Συνολική μεταβλητότητα = εξηγούμενη μεταβλητότητα + ανεξήγητη μεταβλητότητα είναι η σωστή απάντηση.

Αντιστοιχία εξισώσεων:

Μήκος αντίχειρα = Ύψος + Άλλα πράγματα
       ↓            ↓         ↓
   Συνολική    = Εξηγούμενη + Ανεξήγητη
μεταβλητότητα  μεταβλητότητα μεταβλητότητα

Λογική της αντιστοιχίας: - Μήκος αντίχειρα: Αντιπροσωπεύει όλη τη μεταβλητότητα που παρατηρούμε στην εξαρτημένη μεταβλητή (συνολική) - Ύψος: Το μέρος που μπορούμε να εξηγήσουμε και να προβλέψουμε (από την ανεξάρτητη μεταβλητή) - Άλλα πράγματα: Το μέρος που δεν μπορούμε να εξηγήσουμε (ανεξήγητη)

Γιατί οι άλλες επιλογές είναι λάθος: - Επιλογή Α: Η ανεξήγητη δεν μπορεί να είναι το άθροισμα των άλλων δύο - Επιλογή Γ: Η εξηγούμενη δεν μπορεί να είναι το άθροισμα - είναι μέρος της συνολικής - Επιλογή Δ: Η αφαίρεση δεν έχει νόημα - όλα τα μέρη είναι θετικά

Βασική αρχή: Η συνολική μεταβλητότητα σε οποιαδήποτε μεταβλητή μπορεί να αναλυθεί σε δύο μέρη: 1. Εξηγούμενη: Το μέρος που καταλαβαίνουμε από τις ανεξάρτητες μεταβλητές που έχουμε 2. Ανεξήγητη: Το μέρος που οφείλεται σε μεταβλητές που δεν έχουμε μετρήσει

Πρακτική σημασία: Αυτή η ανάλυση μας βοηθάει να καταλάβουμε: - Πόσο καλό είναι το μοντέλο μας (ποσοστό εξηγούμενης μεταβλητότητας) - Πόσο περιθώριο βελτίωσης υπάρχει (μέγεθος ανεξήγητης μεταβλητότητας)

(2) Ένα Μέρος της Ανεξήγητης Μεταβλητότητας Μπορεί να Εξηγηθεί

Ένα μέρος της ανεξήγητης μεταβλητότητας της εξαρτημένης μεταβλητής μπορεί να εξηγηθεί, αν προσθέσουμε τις σωστές μεταβλητές στο μοντέλο μας. Για παράδειγμα, στο πλαίσιο δεδομένων Fingers έχουμε δεδομένα για το φύλο (Gender). Αν προσθέσουμε το φύλο στο μοντέλο μας (πλέον του ύψους των φοιτητών), θα μπορούσε να εξηγηθεί ένα μέρος της μεταβλητότητας που υπολείπεται.

Θα μπορούσαν να υπάρχουν και άλλες μεταβλητές που να εξηγούν μέρος της μεταβλητότητας του μήκους αντίχειρα, αν φυσικά προηγουμένως τις είχαμε μετρήσει. Για παράδειγμα, οι διατροφικές συνήθειες κατά την παιδική ηλικία, το μήκος αντίχειρα της μητέρας τους, το μήκος βραχίονα κ.ά. θα μπορούσαν να εξηγήσουν κάποιο μέρος της μεταβλητότητας του μήκους αντίχειρα.

Η μεταβλητότητα που θα μπορούσε να είχε εξηγηθεί από άλλες μεταβλητές (είτε μετρημένες είτε μη μετρημένες), αν τις είχαμε συμπεριλάβει στο μοντέλο, αποτελούν μέρος των «άλλων πραγμάτων». Αν προσθέσουμε μια ανεξάρτητη μεταβλητή στο μοντέλο και επομένως εξηγήσουμε περισσότερη από τη μεταβλητότητα, το μέρος της που παραμένει ανεξήγητο (δηλαδή, οι άλλοι παράγοντες) θα μειωθεί κατά την ίδια ποσότητα. Η δουλειά του αναλυτή δεδομένων μπορεί να θεωρηθεί ως η αύξηση του ποσοστού της μεταβλητότητας που εξηγείται, με ταυτόχρονη μείωση του ποσοστού της που παραμένει ανεξήγητο.

Μπορούμε ποτέ να εξηγήσουμε όλη τη μεταβλητότητα μιας εξαρτημένης μεταβλητής; Σχεδόν σίγουρα όχι. Ακόμη και αν μετρήσουμε πολλές μεταβλητές και τις προσθέσουμε στο μοντέλο μας, θα υπήρχε ακόμη κάποιο μέρος της μεταβλητότητας στα μήκη αντίχειρα που δεν θα μπορούσαμε να εξηγήσουμε. Αυτό δεν σημαίνει ότι δεν θα μπορούσε ποτέ να εξηγηθεί, αλλά απλώς ότι, προς το παρόν, είναι πολύ δύσκολο να εξηγηθεί.

Σχήμα 5.10

(3) Η Ανεξήγητη Μεταβλητότητα Μπορεί να Θεωρηθεί ως Τυχαία

Κάποιο μέρος της μεταβλητότητας πάντα Θα παραμένει ανεξήγητη. Οι στατιστικολόγοι αντιμετωπίζουν αυτή την ανεξήγητη μεταβλητότητα ως τυχαία (random). Παρόλο που δεν μπορούμε να εξηγήσουμε πλήρως γιατί ένας αντίχειρας είναι μακρύτερος από κάποιον άλλο, μπορούμε να υποθέσουμε ότι, με την πάροδο του χρόνου, η ανεξήγητη μεταβλητότητα θα κατανεμηθεί με προβλέψιμο τρόπο.

Για παράδειγμα, πολλά από τα στατιστικά μοντέλα που θα μάθετε σε αυτό το μάθημα υποθέτουν ότι η ανεξήγητη μεταβλητότητα κατανέμεται τυχαία ως κανονική κατανομή. Βασιζόμενοι σε αυτή την υπόθεση, μπορούμε να πούμε ότι οι προβλέψεις που κάνουν αυτά τα μοντέλα είναι εξίσου πιθανό να είναι πολύ υψηλές όσο και πολύ χαμηλές, και ότι τα περισσότερα από τα σφάλματα πρόβλεψης θα αποκλίνουν λίγο, με μόνο λίγα να αποκλίνουν πολύ. Θα πούμε περισσότερα για αυτό αργότερα στο βιβλίο!

Ας σκεφτούμε δύο μοντέλα, εκφρασμένα ως λεκτικές εξισώσεις:

Μοντέλο 1: Μήκος αντίχειρα = Ύψος + Άλλα πράγματα

Μοντέλο 2: Μήκος αντίχειρα = Ύψος + Φύλο + Άλλα πράγματα

Αν υποθέσουμε ότι και το ύψος και το φύλο εξηγούν κάποια από τη μεταβλητότητα στο μήκος αντίχειρα, σε ποιο μοντέλο θα είναι μεγαλύτερη η μεταβλητότητα που παραμένει ανεξήγητη;

Μοντέλο 1 είναι η σωστή απάντηση.

Λογική της σύγκρισης μοντέλων: Όταν προσθέτουμε περισσότερες ανεξάρτητες μεταβλητές σε ένα μοντέλο, η ανεξήγητη μεταβλητότητα γενικά μειώνεται.

Μοντέλο 1: Μήκος αντίχειρα = Ύψος + Άλλα πράγματα - Έχουμε μόνο το Ύψος ως ανεξάρτητη μεταβλητή - Όλα τα άλλα (συμπεριλαμβανομένου του Φύλου) περιλαμβάνονται στα “Άλλα πράγματα” - Μεγαλύτερη ανεξήγητη μεταβλητότητα

Μοντέλο 2: Μήκος αντίχειρα = Ύψος + Φύλο + Άλλα πράγματα - Έχουμε δύο ανεξάρτητες μεταβλητές: Ύψος και Φύλο - Το Φύλο μετακινείται από τα “Άλλα πράγματα” στο εξηγημένο μέρος - Μικρότερη ανεξήγητη μεταβλητότητα

Γιατί το Μοντέλο 1 έχει μεγαλύτερη ανεξήγητη μεταβλητότητα: Στο Μοντέλο 1, η επίδραση του Φύλου είναι “κρυμμένη” στα “Άλλα πράγματα”. Στο Μοντέλο 2, αυτή η επίδραση αναγνωρίζεται και μετακινείται στο εξηγημένο μέρος.

Γενική αρχή: Όσο περισσότερες σχετικές ανεξάρτητες μεταβλητές προσθέτουμε σε ένα μοντέλο: - Αυξάνεται η εξηγούμενη μεταβλητότητα - Μειώνεται η ανεξήγητη μεταβλητότητα - Βελτιώνεται η προβλεπτική ικανότητα του μοντέλου

Προσοχή: Αυτό ισχύει μόνο όταν οι νέες μεταβλητές πραγματικά σχετίζονται με την εξαρτημένη μεταβλητή. Η προσθήκη άσχετων μεταβλητών δεν βελτιώνει σημαντικά το μοντέλο.

Πρακτική εφαρμογή: Στην πραγματικότητα, έχουμε δει ότι και το Ύψος και το Φύλο συσχετίζονται με το μήκος αντίχειρα, οπότε το Μοντέλο 2 θα είναι πιο ακριβές και θα έχει λιγότερη ανεξήγητη μεταβλητότητα.

5.10 Ερευνητικός Σχεδιασμός

Μέχρι το σημείο αυτό, έχετε αποκτήσει μια καλή ιδέα του τι σημαίνει να εξηγούμε τη μεταβλητότητα μιας εξαρτημένης μεταβλητής με μια ανεξάρτητη μεταβλητή. Επιπλέον, είδαμε ότι αν προσθέσουμε περισσότερες ανεξάρτητες μεταβλητές στην εξίσωση, μπορούμε να μειώσουμε περαιτέρω το μέρος της μεταβλητότητας που παραμένει ανεξήγητο. Αλλά ας εξετάσουμε τώρα σε μεγαλύτερο βάθος το νόημα της λέξης «εξηγώ».

Α. Σκεφτείτε το ακόλουθο σενάριο. Τα παιδιά που φορούν παπούτσια μεγαλύτερου μεγέθους έχουν καλύτερες επιδόσεις σε ένα σταθμισμένο τεστ γνωστικής ανάπτυξης από τα παιδιά που φορούν παπούτσια μικρότερου μεγέθους. Ο ερευνητής Α συνιστά στους γονείς να αγοράζουν στα παιδιά τους μεγαλύτερα παπούτσια για να βελτιώσουν τις επιδόσεις τους.

  1. Ποια είναι η εξαρτημένη μεταβλητή σύμφωνα με το παραπάνω σενάριο;

  2. Ποια είναι η ανεξάρτητη μεταβλητή;

  3. Ποιο διάγραμμα θα ήταν κατάλληλο για την εξέταση αυτών των δεδομένων;

  4. Ο ερευνητής Α θεωρεί ότι έχει «εξηγήσει» την μεταβλητότητα. Ποια είναι η σημασία του «εξηγώ» γι’ αυτόν τον ερευνητή;

  5. Ποιο είναι το σφάλμα στην εξήγησή του;

Β. Σκεφτείτε το ακόλουθο σενάριο. Η μέση θερμοκρασία στον πλανήτη ήταν πολύ υψηλότερη σε χρονιές που οι περισσότεροι άνθρωποι φορούσαν μπλουζάκια, κοντά παντελόνια, μπικίνι και άλλα ρούχα που εκθέτουν μεγάλο μέρος του δέρματος στο φως του ήλιο. Ο ερευνητής Β υποστηρίζει ότι η υπερθέρμανση του πλανήτη μπορεί να καταπολεμηθεί αν οι άνθρωποι ντύνονται πιο σεμνά.

  1. Σύμφωνα με το σενάριο, ποια είναι η εξαρτημένη μεταβλητή;

  2. Σύμφωνα με το σενάριο, ποια είναι η ανεξάρτητη μεταβλητή;

  3. Ποιο διάγραμμα θα ήταν κατάλληλο για την εξέταση αυτών των δεδομένων;

  4. Ο ερευνητής πιστεύει ότι έχει «εξηγήσει» τη μεταβλητότητα της εξαρτημένης μεταβλητής. Τι σημαίνει για αυτόν η λέξη «εξηγώ»;

  5. Ποιο είναι το σφάλμα στην εξήγησή του;

Το Πρόβλημα της Αιτιότητας

Μέχρι στιγμής, έχουμε χρησιμοποιήσει τη λέξη «εξηγώ» για να εννοήσουμε ότι η μεταβλητότητα σε μια μεταβλητή (η εξαρτημένη μεταβλητή) μπορεί να οφείλεται στη μεταβλητότητα σε μια άλλη μεταβλητή (η ανεξάρτητη μεταβλητή). Με άλλα λόγια, η ανεξήγητη μεταβλητότητα στην εξαρτημένη μεταβλητή μειώνεται όταν η ανεξάρτητη μεταβλητή συμπεριλαμβάνεται στο μοντέλο.

Το πρόβλημα με αυτόν τον ορισμό του «εξηγώ» είναι ότι μερικές φορές δεν οδηγεί σε μια εξήγηση που έχει νόημα. Στην προσπάθειά μας να κατανοήσουμε τον κόσμο, συνήθως αναζητάμε μια αιτιακή εξήγηση για τη μεταβλητότητα σε μια εξαρτημένη μεταβλητή. Μια μεταβλητή μπορεί να συσχετίζεται με μια άλλη μεταβλητή, αλλά αυτό δεν σημαίνει απαραίτητα ότι η σχέση είναι αιτιακή.

Τα παραπάνω σενάρια αντιστοιχούν σε δύο συγκεκριμένα προβλήματα που μπορούμε να αντιμετωπίσουμε καθώς προσπαθούμε να κατανοήσουμε τις σχέσεις μεταξύ των μεταβλητών. Πρώτον, η κατεύθυνση της αιτιακής σχέσης μπορεί να μην είναι αυτή που υποθέτουμε. Ο ερευνητής Β συνάγει εσφαλμένα ότι τα ελαφριά ρούχα προκαλούν αύξηση της θερμοκρασίας, βασιζόμενος σε μια σχέση μεταξύ των δύο μεταβλητών.

Από μια άποψη έχει δίκιο: οι άνθρωποι τείνουν να φοράνε πιο ελαφριά ρούχα σε πιο ζεστό καιρό. Αλλά αναμφίβολα κάνει λάθος στο αιτιακό του συμπέρασμα: δεν είναι η ελαφριά ενδυμασία που προκαλεί ζεστό καιρό, αλλά αντίστροφα ο ζεστός καιρός που κάνει τους ανθρώπους να φορούν ελαφριά ρούχα. Το γεγονός ότι δύο μεταβλητές σχετίζονται δεν μας λέει από μόνο του ποια μπορεί να είναι η κατεύθυνση της αιτιότητας. Θα το ονομάσουμε το πρόβλημα της αιτιακής κατεύθυνσης.

Ένα δεύτερο πρόβλημα είναι το πρόβλημα των συγχυτικών (confounding) παραγόντων. Ο ερευνητής Α έχει εντοπίσει ένα μοτίβο: η μεταβλητότητα στο μέγεθος του παπουτσιού σχετίζεται με τη μεταβλητότητα στη γνωστική επίδοση. Αλλά είναι πιθανό ότι καμία από αυτές τις δύο μεταβλητές δεν προκαλεί την άλλη. Αντίθετα, μπορεί να υπάρχει μια συγχυτική μεταβλητή (μερικές φορές ονομάζεται «κρυφή μεταβλητή» ή τρίτη μεταβλητή) που, παρόλο που δεν μετρήθηκε στη μελέτη μας, εντούτοις εξηγεί μέρος της μεταβλητότητας και στο μέγεθος παπουτσιού και στην ακαδημαϊκή επίδοση.

Ποια συγχυτική μεταβλητή θεωρείτε ότι μπορεί να οδηγεί σε αύξηση τόσο το μέγεθος παπουτσιού όσο και την επίδοση στα τεστ γνωστικής ανάπτυξης;

Μερικές φορές μπορεί να μη μας ενδιαφέρει η αιτιότητα. Για παράδειγμα, αν στόχος μας είναι απλώς να χρησιμοποιήσουμε μια ανεξάρτητη μεταβλητή για να προβλέψουμε ένα αποτέλεσμα σε ένα μελλoντικό δείγμα, δεν έχει πραγματικά σημασία αν η σχέση είναι αιτιακή· βασιζόμενοι στη σχέση που υπάρχει και μόνο, μπορούμε να εικάσουμε ότι το ίδιο μοτίβο θα εμφανιστεί και σε μια μελλοντική μελέτη.

Αλλά πιο συχνά, θέλουμε να γνωρίζουμε ποιες είναι οι αιτιακές σχέσεις. Αν θέλουμε να κατανοήσουμε γιατί τα πράγματα εξελίσσονται όπως εξελίσσονται, συνήθως δεν θα είμαστε ικανοποιημένοι παρά μόνο αν έχουμε εντοπίσει τις αιτίες του αποτελέσματος που προσπαθούμε να κατανοήσουμε.

Θα χρειαστεί επίσης να εντοπίσουμε τις μεταβλητές που προκαλούν ένα αποτέλεσμα αν στόχος μας είναι να αλλάξουμε το αποτέλεσμα (π.χ., να βοηθήσουμε τα παιδιά να έχουν καλύτερες επιδόσεις, ή να επηρεάσουμε την κλιματική αλλαγή). Όσο καλό και αν είναι το μέγεθος παπουτσιού στην πρόβλεψη των βαθμών σε ένα τεστ, το να δίνουμε στα παιδιά μεγαλύτερα παπούτσια δεν θα τα βοηθήσει να έχουν καλύτερες επιδόσεις.

Πράγματι, το να μπορούμε να αλλάξουμε κάτι και να το δούμε να επιδρά σε κάτι άλλο είναι η κοινή μας αντίληψη του τι σημαίνει αιτιότητα. Είναι ένας από τους βασικούς τρόπους που γνωρίζουμε πότε πραγματικά κατανοούμε μια συστηματική σχέση που υπάρχει στον κόσμο.

Ερευνητικοί Σχεδιασμοί και Αιτιότητα

Οι περιπτώσεις που παρουσιάστηκαν παραπάνω είναι εκ προθέσεως αφελείς. Αλλά στην πραγματικότητα, συχνά δεν γνωρίζουμε πότε υπάρχει πρόβλημα αιτιακής κατεύθυνσης (δηλαδή, όταν έχετε δύο μεταβλητές και δεν γνωρίζετε ποια είναι η αιτία και ποια το αποτέλεσμα) ή πρόβλημα συγχυτικών παραγόντων. Είναι κάτι για το οποίο οι ερευνητές πρέπει πάντα να είναι σε εγρήγορση. Ο ερευνητικός σχεδιασμός είναι το καλύτερο εργαλείο μας για τη διάκριση πραγματικών αιτιακών σχέσεων από ψευδείς σχέσεις (δηλαδή, σχέσεις που δεν είναι αιτιακές αλλά που αντίθετα οφείλονται σε κάποια μη μετρημένη τρίτη μεταβλητή).

Ο απλούστερος σχεδιασμός έρευνας είναι απλά η λήψη ενός τυχαίου δείγματος από έναν πληθυσμό, και στη συνέχεια η μέτρηση ορισμένων μεταβλητών. Αυτός ο τύπος σχεδιασμού αναφέρεται ως μελέτη συσχέτισης (correlational study), ή μελέτη παρατήρησης (observational study). Δεν ελέγχουμε καμία από τις μεταβλητές σε αυτόν τον τύπο μελέτης, απλώς τις μετράμε. Μερικές φορές είναι το καλύτερο που μπορούμε να κάνουμε, αλλά μπορεί να κάνει δύσκολη την ερμηνεία των αποτελεσμάτων των αναλύσεών μας, όπως έχουμε διαπιστώσει.

Αν πραγματικά θέλουμε να είμαστε σίγουροι ότι μια σχέση είναι αιτιακή, γενικά θα χρειαστεί να κάνουμε μια αλλαγή σε μια μεταβλητή, και στη συνέχεια να παρατηρήσουμε το αποτέλεσμα σε μια άλλη. Στην πραγματικότητα, αυτός είναι ο τρόπος που κρίνουμε την ύπαρξη αιτιότητας στην καθημερινότητά μας. Ωστόσο, αυτό δεν είναι τόσο απλό όσο ακούγεται.

Για παράδειγμα, ένας σερβιτόρος ψάχνει τρόπους για να αυξήσει το φιλοδώρημα που θα πάρει από τους πελάτες που σερβίρει. Έχει μια θεωρία: αν ζωγραφίζει ένα χαμογελαστό προσωπάκι στο χαρτάκι του λογαριασμού τους, οι πελάτες θα του δίνουν μεγαλύτερο φιλοδώρημα. Έτσι αποφάσισε να το δοκιμάσει. Σχεδίασε ένα χαμογελαστό προσωπάκι σε έναν λογαριασμό και έλαβε τεράστιο φιλοδώρημα! Έχει δείξει ότι υπάρχει μια αιτιακή σχέση;

Δυστυχώς, όχι. Το συγκεκριμένο τραπέζι που διάλεξε για το πείραμά του μπορεί να είχε γενναιόδωρους πελάτες που δίνουν φιλοδώρημα ούτως ή άλλως, ή το φαγητό μπορεί να ήταν εξαιρετικά καλό εκείνη την ημέρα. Ο σερβιτόρος μπορεί να έπαιρνε μεγαλύτερο φιλοδώρημα ακόμη και χωρίς να σχεδιάσει το χαμογελαστό προσωπάκι στον λογαριασμό. Και επίσης: ίσως δεν ήταν το χαμογελαστό προσωπάκι που προκάλεσε το μεγαλύτερο φιλοδώρημα, αλλά απλώς το γεγονός ότι ο συγκεκριμένος σερβιτόρος δεν μπορούσε να κρύψει τον ενθουσιασμό του που διεξάγει το πρώτο του πείραμα!

Για να το καταλάβουμε αυτό, πρέπει να χρησιμοποιήσουμε έναν πειραματικό σχεδιασμό (experimental design). Επειδή θέλουμε τα ευρήματά μας να γενικεύονται σε πολλά τραπέζια και πολλούς πελάτες, αποφασίζουμε να μελετήσουμε ένα δείγμα τραπεζιών. Μόλις έχουμε στη διάθεσή μας ένα δείγμα, αναθέτουμε τυχαία κάθε τραπέζι στην πειραματική ομάδα ή στην ομάδα ελέγχου. Τα τραπέζια στην πειραματική ομάδα παίρνουν ένα χαμογελαστό προσωπάκι ζωγραφισμένο στο χαρτάκι του λογαριασμού τους, ενώ εκείνα στην ομάδα ελέγχου παίρνουν έναν απλό λογαριασμό.

Έχοντας ξεκινήσει το πείραμά μας, μετράμε τον μέσο όρο φιλοδωρήματος ανά τραπέζι για τα τραπέζια στις δύο ομάδες. Επειδή χειραγωγήσαμε την ανεξάρτητη μεταβλητή (σχεδιάζοντας ένα χαμογελαστό προσωπάκι ή όχι), και επειδή εκχωρήσαμε τυχαία τα τραπέζια στις δύο ομάδες, υποθέτουμε ότι αν δούμε διαφορά στα φιλοδωρήματα μεταξύ των δύο ομάδων, αυτή πρέπει να οφείλεται στην ανεξάρτητη μεταβλητή.

Η Ομορφιά της Τυχαίας Ανάθεσης

Αυτό μπορεί να είναι ένα καλό σημείο για να κάνουμε μια παύση στη ροή του κειμένου και να εξυμνήσουμε την ομορφιά της τυχαίας ανάθεσης! Πρώτα από όλα, η τυχαία ανάθεση ΔΕΝ είναι το ίδιο με την τυχαία δειγματοληψία. Και οι δύο είναι τυχαίες, αλλά η τυχαία ανάθεση μπορεί να επιτύχει πολύ περισσότερα από την απλή τυχαία δειγματοληψία.

Ταιριάξτε κάθε όρο με τον ορισμό του:

Η τυχαία δειγματοληψία ταιριάζει με:

Η τυχαία ανάθεση ταιριάζει με:

Διάκριση μεταξύ Τυχαίας Ανάθεσης και Τυχαίας Δειγματοληψίας:

Random Sampling (Τυχαία Δειγματοληψία): - Πότε συμβαίνει: Στην αρχή της έρευνας - Τι κάνει: Επιλέγει ποιοι θα συμμετάσχουν στη μελέτη - Από πού: Από έναν πληθυσμό - στόχο - Σκοπός: Να εξασφαλίσει αντιπροσωπευτικό δείγμα Random Assignment (Τυχαία Ανάθεση): - Πότε συμβαίνει: Αφού έχουμε το δείγμα μας - Τι κάνει: Κατανέμει τους συμμετέχοντες σε ομάδες/συνθήκες - Σε ποιους: Στους συμμετέχοντες που ήδη έχουμε επιλέξει - Σκοπός: Να εξασφαλίσει ισοδυναμία μεταξύ των ομάδων

Η ομορφιά της τυχαίας ανάθεσης έγκειται στο γεγονός ότι εκχωρώντας τυχαία τις παρατηρήσες σε μια μελέτη σε μία ομάδα ή στην άλλη, ουσιαστικά κατασκευάζουμε δύο ομάδες που είναι συγκρίσιμες μεταξύ τους (παρόλο που θα μπορούσαν να είναι πολύ διαφορετικές). Στόχος μας είναι οποιαδήποτε διαφορά μεταξύ των δύο ομάδων να είναι εντελώς τυχαία.

Επειδή οι δύο ομάδες θεωρούνται ισοδύναμες, εκτός από διαφορές λόγω τυχαιότητας, μπορούμε να συμπεράνουμε ότι αν κάποια παρέμβαση (π.χ., σχεδιάζοντας ένα χαμογελαστό προσωπάκι) οδηγεί σε διαφορά στις κατανομές μεταξύ των ομάδων (π.χ., στα φιλοδωρήματα), η διαφορά πρέπει να οφείλεται στο χαμογελαστό προσωπάκι, και όχι σε άλλους παράγοντες. (Αργότερα θα μάθουμε πώς να λαμβάνουμε υπόψη την τυχαία μεταβλητότητα μεταξύ των ομάδων όταν διατυπώνουμε αυτό το συμπέρασμα.)

Ας σκεφτούμε αυτή την ιδέα περισσότερο. Να σκεφτείτε μερικές μεταβλητές που θα μπορούσαν να εξηγήσουν γιατί ορισμένα τραπέζια δίνουν πιο γενναιόδωρο φιλοδώρημα από άλλα.

Για παράδειγμα, ας υποθέσουμε ότι τα τραπέζια που είναι γεμάτα με άτομα που γιορτάζουν ένα γεγονός (π.χ. γενέθλια) τείνουν να είναι πιο γενναιόδωρα από τα τραπέζια που δεν γιορτάζουν κάτι συγκεκριμένο. Πώς μας βοηθά η τυχαία ανάθεση να καταλάβουμε εάν το σχέδιο ενός χαμογελαστού προσώπου αυξάνει το φιλοδώρημα, παρά το γεγονός ότι οι πελάτες σε κάθε τραπέζι έχουν διαφορετικούς λόγους να βρίσκονται εκεί;

Με την προϋπόθεση ότι εκχωρούμε τα τραπέζια τυχαία στις ομάδες, τα γενναιόδωρα τραπέζια δεν είναι πιθανότερο να εκχωρηθούν σε μία ομάδα παρά στην άλλη, και το ίδιο θα ισχύει για τα τσιγκούνικα τραπέζια. Η τυχαία ανάθεση μας βοηθά να αποκλείσουμε συγχυτικές μεταβλητές εξασφαλίζοντας ότι οποιεσδήποτε μεταβλητές επηρεάζουν την εξαρτημένη μεταβλητή μας, είτε θετικά είτε αρνητικά, θα εξισορροπηθούν μεταξύ των ομάδων.

Αυτό δεν σημαίνει ότι το επίπεδο μιας συγχυτικής μεταβλητής θα είναι ακριβώς το ίδιο σε δύο ομάδες, ακόμη και αν εκχωρούνται τυχαία. Αλλά σημαίνει ότι οι διάφοροι συγχυτικοί παράγοντες θα πρέπει, με την πάροδο του χρόνου, να εξουδετερώνουν ο ένας τον άλλον.

Αναπόφευκτα, θα υπάρχει μεταβλητότητα στην εξαρτημένη μεταβλητή μέσα σε κάθε ομάδα. Άλλωστε, το μέγεθος του φιλοδωρήματος ενός δείγματος τραπεζιών μπορεί να διαφέρει για πολλούς διαφορετικούς λόγους. Αργότερα θα μάθουμε περισσότερα για τρόπους μοντελοποίησης αυτής της μεταβλητότητας εντός της κάθε ομάδας ως μιας τυχαίας διαδικασίας.

5.11 Εξετάζοντας την Τυχαιότητα ως Πιθανή Διαδικασία Παραγωγής Δεδομένων

Ας κάνουμε ένα διάλειμμα από τη γιορτή προς τιμή της τυχαίας ανάθεσης, και ας αναφερθούμε στο γιατί μπορεί να εξαπατηθούμε, ακόμη και με τον πιο ισχυρό από όλους τους ερευνητικούς σχεδιασμούς. Θα βασίσουμε τη συζήτησή μας σε ένα νέο σύνολο δεδομένων που ονομάζεται TipExperiment.

Το Πείραμα του Φιλοδωρήματος

Τα δεδομένα στο πλαίσιο TipExperiment προέρχονται από μια πραγματική μελέτη που διεξήχθη από μια ομάδα ερευνητών και δημοσιεύθηκε σε επιστημονικό περιοδικό το 1996. Σε αυτό το πείραμα, 44 τραπέζια ενός εστιατορίου κατανεμήθηκαν τυχαία ώστε είτε να λάβουν χαμογελαστά προσωπάκια στους λογαριασμούς τους είτε όχι. Οι ερευνητές υπέθεσαν ότι τα τραπέζια θα έδιναν υψηλότερο φιλοδωρήμα ως ποσοστό του λογαριασμού αν έπαιρναν τον λογαριασμό με ζωγραφισμένο το χαμογελαστό προσωπάκι παρά χωρίς αυτό.

Δίνεται ένα ένα δείγμα από 6 τραπέζια στο πλαίσιο δεδομένων καθώς και πληροφορίες γι’ αυτό.

head(TipExperiment)

  TableID Tip Condition  Check FoodQuality
1       1  39   Control 194.03        54.9
2       2  36   Control 352.94        51.7
3       3  34   Control 382.02        60.5
4       4  34   Control 204.82        56.7
5       5  33   Control 146.67        51.0
6       6  31   Control 254.10        43.3

TableID
Αριθμός Τραπεζιού

Tip
Φιλοδωρήμα ως ποσοστό του λογαριασμού

Condition
Πειραματική συνθήκη στην οποία ανατέθηκε κάθε τραπέζι (Control = Ελέγχου, Smiley Face = Χαμογελαστό προσωπάκι)

Check
Ποσό λογαριασμού σε $

FoodQuality
Αντιλαμβανόμενη ποιότητα φαγητού

Συμπληρώστε τον παρακάτω κώδικα για να οπτικοποιήσετε τη σχέση μεταξύ των μεταβλητών Tip και Condition στο πλαίσιο δεδομένων TipExperiment. Έχουμε προσθέσει κώδικα για να δημιουργήσουμε μια κόκκινη γραμμή που δείχνει το μέσο φιλοδώρημα που δόθηκε από τα τραπέζια σε κάθε συνθήκη (σε αυτή την περίπτωση, τον αριθμητικό μέσο όρο κάθε ομάδας).

Από το διάγραμμα διαπιστώνουμε ότι τα τραπέζια στη συνθήκη του χαμογελαστού προσώπου (Smiley Face) φαίνεται να αφήνουν λίγο περισσότερο φιλοδώρημα, κατά μέσο όρο, από εκείνα στην ομάδα ελέγχου, παρόλο που υπάρχει μεγάλη επικάλυψη μεταξύ των δύο κατανομών. Για παράδειγμα, υπάρχουν μερικά τραπέζια στην ομάδα του χαμογελαστού προσώπου που δίνουν πολύ μεγάλο φιλοδώρημα ως ποσοστό του λογαριασμού τους, ενώ το τραπέζι με το χαμηλότερο φιλοδώρημα βρίσκεται στην ομάδα ελέγχου.

Δυστυχώς, ακόμη και σε ένα τέλεια εκτελεσμένο πείραμα, υπάρχουν δύο πιθανοί λόγοι που εξηγούν γιατί η ομάδα του χαμογελαστού προσώπου μπορεί να έδωσε μεγαλύτερα φιλοδωρήματα κατά μέσο όρο. Ο πρώτος και πιο ενδιαφέρων πιθανός λόγος είναι ότι υπάρχει μια αιτιακή σχέση μεταξύ του σχεδιασμού ενός χαμογελαστού προσώπου και των φιλοδωρημάτων! Θα ήταν υπέροχο αν μια μικρή ζωγραφιά πραγματικά κάνει τους ανθρώπους να αφήνουν πιο γενναιόδωρα φιλοδωρήματα.

Ποια από αυτές τις λεκτικές εξισώσεις αντιπροσωπεύει την υπόθεση των ερευνητών στο πείραμα φιλοδωρημάτων;

Tips = Condition + Άλλα πράγματα είναι η σωστή απάντηση.

Περιγραφή του πειράματος: Στο πείραμα φιλοδωρημάτων (TipExperiment), 44 τραπέζια ενός εστιατορίου κατανεμήθηκαν τυχαία σε δύο συνθήκες: - Control: Λογαριασμοί χωρίς χαμογελαστό προσωπάκι - Smiley Face: Λογαριασμοί με ζωγραφισμένο χαμογελαστό προσωπάκι

Ανάλυση της εξίσωσης: - Tips: Η εξαρτημένη μεταβλητή - το ποσοστό φιλοδωρήματος που μετράνε - Condition: Η ανεξάρτητη μεταβλητή - η πειραματική παρέμβαση (Control vs Smiley Face) - Άλλα πράγματα: Όλοι οι άλλοι παράγοντες που επηρεάζουν τα φιλοδωρήματα

Ερευνητική υπόθεση: Οι ερευνητές υπέθεσαν ότι τα τραπέζια που θα έπαιρναν λογαριασμούς με χαμογελαστά προσωπάκια θα έδιναν υψηλότερο φιλοδώρημα ως ποσοστό του λογαριασμού.

Πειραματικός σχεδιασμός: - Τυχαία ανάθεση: Κάθε τραπέζι εκχωρήθηκε τυχαία σε μία από τις δύο συνθήκες - Ελεγχόμενη παρέμβαση: Οι ερευνητές χειραγώγησαν την ανεξάρτητη μεταβλητή - Μέτρηση αποτελέσματος: Καταγραφή του ποσοστού φιλοδωρήματος

Γιατί οι άλλες επιλογές είναι λάθος: - Tips = Tables + Άλλα πράγματα: Τα “Tables” δεν είναι η πειραματική μεταβλητή - Tips = Άλλα πράγματα: Δεν περιλαμβάνει την πειραματική συνθήκη - Smiley Face = Tips + Άλλα πράγματα: Αντιστρέφει την αιτιότητα - Tables = Condition + Άλλα πράγματα: Λάθος εξαρτημένη μεταβλητή

Σημασία της τυχαίας ανάθεσης: Η τυχαία ανάθεση των τραπεζιών στις συνθήκες εξασφαλίζει ότι: - Γενναιόδωρα και τσιγκούνικα τραπέζια κατανέμονται ισομερώς στις ομάδες - Συγχυτικοί παράγοντες (π.χ. γιορτές, ποιότητα φαγητού) εξισορροπούνται - Μπορούμε να αποδώσουμε τυχόν διαφορές στην πειραματική παρέμβαση

“Άλλα πράγματα” στο πείραμα: Περιλαμβάνει παράγοντες όπως: - Το μέγεθος της παρέας - Την ποιότητα του φαγητού - Την ποιότητα της εξυπηρέτησης - Ατομικές διαφορές στη γενναιοδωρία - Ειδικές περιστάσεις (γενέθλια, επετείους)

Πρακτικά αποτελέσματα: Τα δεδομένα έδειξαν ότι η ομάδα που έλαβαν το χαμογελαστό προσωπάκι έδωσε ελαφρώς υψηλότερα φιλοδωρήματα κατά μέσο όρο, αν και με μεγάλη επικάλυψη μεταξύ των ομάδων.

Υπάρχει, όμως, ένας ακόμη λόγος για οποιαδήποτε διαφορά παρατηρείται μεταξύ των ομάδων: η δειγματοληπτική μεταβλητότητα (sampling variation), δηλαδή η μεταβλητότηα που οφείλεται στην τυχαία δειγματοληψία. Αν απλώς αναθέταμε τυχαία τα τραπέζια σε μία από τις δύο ομάδες και δεν κάναμε τίποτα διαφορετικό στις δύο ομάδες (κανένα τραπέζι δεν παίρνει χαμογελαστά προσωπάκια), ακόμη και τότε θα περιμέναμε κάποια διαφορά στα φιλοδωρήματα μεταξύ των δύο ομάδων απλώς λόγω τυχαιότητας.

Οι διαφορές στις κατανομές μεταξύ της ομάδας ελέγχου και της ομάδας του χαμογελαστού προσώπου θα μπορούσαν να οφείλονται είτε στην αιτιακή επίδραση των χαμογελαστών προσώπων, είτε στην τυχαιότητα, είτε σε συνδυασμό των δύο. Πώς, όμως, μπορούμε να καταλάβουμε τι τελικά συμβαίνει; Ένα εργαλείο που μπορεί να μας βοηθήσει σε αυτό είναι η προσομοίωση (simulation), με τη χρήση της R, και ιδιαίτερα, η προσομοίωση της τυχαιότητας. Ας εξετάσουμε αυτό το εργαλείο, και ας δούμε πώς θα μπορούσε να μας βοηθήσει.

Ίσως Όλα Οφείλονται Μόνο στην Τυχαιότητα

Είναι απλό να υποθέσουμε ότι τα χαμογελαστά πρόσωπα οδήγησαν τους πελάτες στα αντίστοιχα τραπέζια να αφήνουν ελαφρώς υψηλότερα φιλοδωρήματα. Αλλά θα μπορούσε αυτό να οφείλεται στην τυχαιότητα;

Σκεφτείτε ότι παίρνουμε τα πραγματικά ποσοστά φιλοδωρήματος από τα 44 τραπέζια στο πλαίσιο δεδομένων TipExperiment και απλώς τα ανακατανέμουμε τυχαία στις δύο ομάδες. Είναι δυνατόν αυτή η ανάλυση να δείξει ότι η μία ομάδα έδωσε περισσότερο φιλοδώρημα από την άλλη;

Ναι, είναι δυνατόν είναι η σωστή απάντηση.

Γιατί συμβαίνει αυτό: Ακόμη και όταν ανακατεύουμε τυχαία τα δεδομένα, η τυχαία μεταβλητότητα μπορεί να δημιουργήσει διαφορές μεταξύ των ομάδων:

Παράδειγμα ανακατέματος: Αν έχουμε 44 τιμές φιλοδωρημάτων και τις χωρίσουμε τυχαία σε δύο ομάδες των 22: - Ομάδα 1: Μπορεί τυχαία να πάρει περισσότερες από τις υψηλές τιμές - Ομάδα 2: Μπορεί τυχαία να πάρει περισσότερες από τις χαμηλές τιμές - Αποτέλεσμα: Η Ομάδα 1 θα έχει υψηλότερο μέσο όρο

Βασική αρχή της τυχαιότητας: Η τυχαία ανάθεση δεν εγγυάται ότι οι ομάδες θα είναι ίδιες: - Εγγυάται: Ότι δεν υπάρχει μεροληψία στον τρόπο ανάθεσης - Δεν εγγυάται: Ότι οι ομάδες θα είναι ακριβώς ισοδύναμες

Αναλογία με νόμισμα: Αν ρίξετε 10 νομίσματα: - Αναμενόμενο αποτέλεσμα: 5 κορώνες, 5 γράμματα - Δυνατό αποτέλεσμα: 3 κορώνες, 7 γράμματα (ή άλλος συνδυασμός) - Λόγος: Τυχαία μεταβλητότητα

Σημασία για το πείραμα: Αυτό εξηγεί γιατί στο πραγματικό πείραμα πρέπει να αναρωτηθούμε: - Η διαφορά που παρατηρούμε οφείλεται στο χαμογελαστό προσωπάκι; - Ή μπορεί να οφείλεται απλώς στην τυχαία μεταβλητότητα;

Πρακτικό παράδειγμα: Αν ανακατέψουμε τα 44 φιλοδωρήματα χιλιάδες φορές: - Κάποιες φορές η “Ομάδα 1” θα έχει υψηλότερο μέσο όρο - Άλλες φορές η “Ομάδα 2” θα έχει υψηλότερο μέσο όρο - Η κατανομή αυτών των διαφορών μας δείχνει τι είναι δυνατόν να οφείλεται στην τυχαιότητα και μόνο

Βασικό μάθημα: Η τυχαία ανάθεση μειώνει αλλά δεν εξαλείφει την πιθανότητα ύπαρξης διαφορών μεταξύ των ομάδων.

Έχοντας στη διάθεσή μας την R, δεν χρειάζεται απλώς να αναρωτιόμαστε για την τυχαιότητα ως διαδικασία παραγωγής δεδομένων. Μπορούμε στην πραγματικότητα να την προσομοιώσουμε. Υπάρχει μια συνάρτηση που ονομάζεται shuffle() και μπορούμε να τη χρησιμοποιήσουμε για να ανακατέψουμε τυχαία τα 44 ποσοστά φιλοδωρήματος (μεταβλητή Tip) από το πλαίσιο δεδομένων στις δύο συνθήκες/ομάδες.

Ας δούμε πώς λειτουργεί αυτή η διαδικασία εξετάζοντας 6 τραπέζια από το πλαίσιο δεδομένων TipExperiment. Στον παρακάτω πίνακα, αριστερά βλέπουμε τα αρχικά δεδομένα και δεξιά τα ανακατεμένα δεδομένα για τα ίδια τραπέζια.

Στα αρχικά δεδομένα (αριστερά), τα τρία τραπέζια στην ομάδα ελέγχου έδωσαν φιλοδώρημα 39%, 34% και 31% του λογαριασμού τους αντίστοιχα. Τα τραπέζια με το χαμογελαστό πρόσωπο έδωσαν 65%, 41% και 33%. Επομένως, παρατηρήστε ότι στα αρχικά δεδομένα η ομάδα του χαμογελαστού προσώπου φαίνεται να έδωσε κατά μέσο όρο μεγαλύτερο φιλοδώρημα.

αρχικά δεδομένα

TableID Tip Condition
1 39 Control
4 34 Control
7 31 Control
24 65 Smiley Face
27 41 Smiley Face
30 33 Smiley Face

ανακατεμένα δεδομένα

TableID shuffle(Tip) Condition
1 41 Control
4 65 Control
7 31 Control
24 33 Smiley Face
27 34 Smiley Face
30 39 Smiley Face

Στα τυχαία ανακατεμένα δεδομένα (δεξιά), τα ποσοστά φιλοδωρήματος έχουν ανακατανεμηθεί τυχαία μεταξύ των τραπεζιών, ενώ όλες οι άλλες τιμές παραμένουν ίδιες. Τα ID των τραπεζιών παραμένουν στην ίδια σειρά, τα πρώτα τρία τραπέζια στην ομάδα ελέγχου, και τα επόμενα τρία στην ομάδα του χαμογελαστού προσώπου. Για παράδειγμα, το 39% που αρχικά ανήκε στο τραπέζι 1 (Control) τώρα βρίσκεται στο τραπέζι 30 (Smiley Face).

Μετά το τυχαίο ανακάτεμα των φιλοδωρημάτων, ποια ομάδα φαίνεται τώρα να αφήνει λίγο περισσότερο φιλοδώρημα;

Η ομάδα ελέγχου (control group) είναι η σωστή απάντηση.

Τι συνέβη με το τυχαίο ανακάτεμα: Όταν ανακατέψαμε τυχαία τα 44 φιλοδωρήματα: - Οι ίδιες ακριβώς τιμές φιλοδωρημάτων παραμένουν - Αλλά τώρα κατανέμονται τυχαία στις δύο ομάδες - Η τυχαιότητα έκανε την ομάδα ελέγχου να “κερδίσει” αυτή τη φορά

Σημαντική παρατήρηση: Αυτό το αποτέλεσμα είναι εντελώς τυχαίο και δεν έχει καμία σχέση με: - Χαμογελαστά προσωπάκια - Πραγματικές επιδράσεις οποιουδήποτε πειράματος - Πραγματικές διαφορές μεταξύ των ομάδων

Αυτό δείχνει ότι: - Ακόμη και χωρίς καμία πραγματική επίδραση, μπορούμε να δούμε διαφορές μεταξύ ομάδων - Η τυχαιότητα από μόνη της μπορεί να δημιουργήσει την εντύπωση ύπαρξης επίδρασης Σύγκριση με το αρχικό πείραμα: - Αρχικό πείραμα: Η ομάδα του χαμογελαστού προσωπάκι είχε ελαφρώς υψηλότερα φιλοδωρήματα - Μετά το τυχαίο ανακάτεμα: Η ομάδα ελέγχου έχει υψηλότερα φιλοδωρήματα - Συμπέρασμα: Οι διαφορές μπορεί να είναι τυχαίες

Για τα πραγματικά δεδομένα, οι διαφορές μεταξύ των δύο ομάδων θα μπορούσαν να οφείλονται είτε στο χαμογελαστό πρόσωπο είτε στην τυχαιότητα. Αλλά στην περίπτωση των ανακατεμένων δεδομένων, οποιεσδήποτε διαφορές μεταξύ των δύο ομάδων οφείλονται αποκλειστικά στην τυχαιότητα. Όπως είδαμε, ακόμη κι όταν η τυχαιότητα είναι η μοναδική αιτία, οι τιμές των ομάδων στην εξαρτημένη μεταβλητή μπορεί να διαφέρουν.

5.12 Το Τυχαίο Ανακάτεμα Μπορεί να μας Βοηθήσει να Κατανοήσουμε Καλύτερα τα Πραγματικά Δεδομένα

Η Τυχαιότητα Παράγει Μοτίβα Μακροπρόθεσμα

Κάτι σημαντικό που χρειάζεται να κατανοήσουμε για τις τυχαίες διαδικασίες είναι ότι κάθε φορά θα παράγουν διαφορετικό αποτέλεσμα. Αν ρίξετε ένα νόμισμα μόνο μία φορά και έρθει κορώνα, δεν μπορείτε να καταλάβετε τίποτα για την τυχαία διαδικασία που παρήγαγε το αποτέλεσμα. Δεν μπορείτε καν να γνωρίζετε ότι ήταν τυχαία. Αλλά αν ρίξετε ένα νόμισμα χίλιες φορές, θα δείτε ότι μακροπρόθεσμα το νόμισμα θα έρθει κορώνα το 50% των φορών. Είναι ο νόμος των μεγάλων αριθμών!

Το ίδιο ισχύει και με το τυχαίο ανακάτεμα των δεδομένων. Αν ανακατέψουμε τα ποσοστά φιλοδωρήματος μόνο μία φορά θα δούμε ένα μόνο πιθανό αποτέλεσμα μιας τυχαίας διαδικασίας. (Υποθέτουμε εδώ ότι η διαδικασία είναι τυχαία επειδή η συνάρτηση shuffle() έχει σχεδιαστεί για να προσομοιώνει την τυχαιότητα.) Αλλά για να διακρίνουμε ένα μοτίβο στην τυχαιότητα χρειάζεται να ανακατέψουμε πολλές φορές. Αυτός είναι ο μοναδικός τρόπος να δούμε το εύρος των πιθανών αποτελεσμάτων που μπορούν να παραχθούν από μια καθαρά τυχαία διαδικασία, και να δούμε πόσο συχνά εμφανίζονται διαφορετικά αποτελέσματα.

Ο παρακάτω κώδικας δημιουργεί το διάγραμμα jitter για το ποσοστό φιλοδωρήματος σε σχέση με την ομάδα/συνθήκη. Μπορείτε να ανακατέψετε τα φιλοδωρήματα με την shuffle(Tip) αντί της Tip στη θέση της εξαρτημένης μεταβλητής. Εκτελέστε μερικές φορές τον παρακάτω κώδικα για να δείτε πώς αλλάζει το διάγραμμα μετά από κάθε τυχαίο ανακάτεμα των φιλοδωρημάτων.

Κάθε φορά που ανακατεύετε τα δεδομένα, θα παίρνετε ένα ελαφρώς διαφορετικό αποτέλεσμα. Η προβολή των μέσων όρων των ομάδων πάνω από κάθε κατανομή μπορεί να σας βοηθήσει να διακρίνετε το μοτίβο πιο καθαρά καθώς αλλάζει με κάθε ανακάτεμα.

Αποθηκεύουμε την ανακατεμένη εκδοχή της Tip ως ShuffTip για να αναπαραστήσουμε τους μέσους όρους των δύο ομάδων ως γραμμές με μωβ χρώμα. (Θα εξηγήσουμε παρακάτω πώς ακριβώς γίνεται αυτό. Για την ώρα, ας εστιάσουμε στην εκμάθηση της συνάρτησης shuffle().)

Ας δούμε τρία από τα πιθανά διαγράμματα jitter που δημιουργούνται αν ανακατέψουμε πολλές φορές.

Σχήμα 5.11

Όπως φαίνεται, μερικά ανακατέματα παράγουν κατανομές όπου τα φιλοδωρήματα είναι παρόμοια μεταξύ των ομάδων (όπως στο κεντρικό διάγραμμα). Άλλα ανακατέματα οδηγούν σε μεγαλύτερα φιλοδωρήματα στην ομάδα ελέγχου (όπως στο αριστερό διάγραμμα), ενώ σε άλλα τα τραπέζια με το χαμογελαστό πρόσωπο φαίνεται να αφήνουν μεγαλύτερα φιλοδωρήματα (όπως στο δεξί διάγραμμα).

Γιατί βλέπουμε αυτά τα διαφορετικά μοτίβα στα ανακατεμένα δεδομένα;

Όλα αυτά τα μοτίβα προκαλούνται από μια τυχαία διαδικασία (δηλ., το ανακάτεμα) είναι η σωστή απάντηση.

Κεντρική ιδέα: Όταν ανακατεύουμε τα δεδομένα, αφαιρούμε εντελώς οποιαδήποτε πραγματική επίδραση των χαμογελαστών προσώπων. Οι διαφορές που βλέπουμε οφείλονται αποκλειστικά στην τυχαιότητα.

Τι σημαίνει τυχαίο “ανακάτεμα” (shuffling): - Παίρνουμε όλες τις 44 πραγματικές τιμές φιλοδωρημάτων - Τις κατανέμουμε τελείως τυχαία στις δύο ομάδες - Καμία σχέση με τις αρχικές πειραματικές συνθήκες - Αποτέλεσμα: Μόνο τυχαία μεταβλητότητα

Γιατί η επιλογή Α είναι λάθος: Η επιλογή “Μερικές φορές το σχέδιο με το χαμογελαστό προσωπάκι έχει αποτέλεσμα ενώ μερικές φορές όχι” δεν ισχύει γιατί: - Με το τυχαίο ανακάτεμα, δεν υπάρχουν πια χαμογελαστά προσωπάκια - Οι ετικέτες “Control” και “Smiley Face” είναι πλέον τελείως αυθαίρετες - Οι διαφορές δεν έχουν σχέση με την πειραματική συνθήκη

Διδακτικός σκοπός: Αυτή η άσκηση δείχνει ότι: - Η τυχαιότητα από μόνη της μπορεί να δημιουργήσει διαφορές μεταξύ ομάδων - Οι τυχαίες διαφορές μπορεί να φαίνονται σαν πραγματικές επιδράσεις Παραδείγματα διαφορετικών μοτίβων: Σε διαφορετικά ανακατέματα μπορεί να δούμε: - Φορά 1: Η ομάδα “Control” δίνει μεγαλύτερα φιλοδωρήματα - Φορά 2: Η ομάδα “Smiley Face” δίνει μεγαλύτερα φιλοδωρήματα - Φορά 3: Σχεδόν ίδια αποτελέσματα - Όλα οφείλονται στην τυχαιότητα

Πρακτική εφαρμογή: Στην πραγματική έρευνα, αυτό μας διδάσκει ότι: - Πρέπει να είμαστε προσεχτικοί με την ερμηνεία των διαφορών - Χρειαζόμαστε κατάλληλα στατιστικά εργαλεία - Η αναπαραγωγιμότητα των αποτελεσμάτων είναι σημαντική

Κανένα από αυτά τα αποτελέσματα δεν θα μπορούσε να οφείλεται στην επίδραση των χαμογελαστών προσώπων στους λογαριασμούς. Το γνωρίζουμε αυτό επειδή η κατανομή των τραπεζιών στις ομάδες έγινε με τη χρήση μιας 100% τυχαίας διαδικασίας. Αυτό που βλέπουμε σε αυτά τα διαγράμματα είναι το πώς μπορεί να μοιάζει το πιθανό αποτέλεσμα αν η διαδικασία είναι καθαρά τυχαία. Όσο περισσότερες φορές εκτελούμε τον κώδικα, τόσο περισσότερο θα κατανοούμε το εύρος των αποτελεσμάτων που μπορούν να προκύψουν.

Πώς το Τυχαίο Ανακάτεμα Μπορεί να μας Βοηθήσει να Κατανοήσουμε Καλύτερα τα Πραγματικά Δεδομένα

Ας επιστρέψουμε στην ερώτηση που κάναμε πριν αρχίσουμε να ανακατεύουμε τα φιλοδωρήματα. Που οφείλονται οι μικρές διαφορές στα φιλοδωρήματα μετά την προσθήκη των χαμογελαστών προσώπων στους λογαριασμούς; Οφείλονται στα χαμογελαστά πρόσωπα, ή θα μπορούσαν να οφείλονται απλώς στην τυχαιότητα; Το τυχαίο ανακάτεμα των φιλοδωρημάτων μας δίνει έναν τρόπο να ξεκινήσουμε να απαντάμε σε αυτή την ερώτηση.

Μέσω της διαγραμματικής αναπαράστασης πολλαπλών συνόλων τυχαίων αποτελεσμάτων, μπορούμε να εξετάσουμε αν το μοτίβο που παρατηρήθηκε στα πραγματικά δεδομένα μοιάζει σαν να μπορούσε να παραχθεί τυχαία, ή μοιάζει σημαντικά διαφορετικό από τα τυχαία παραγόμενα μοτίβα. Αν έμοιαζε σημαντικά διαφορετικό, θα αρχίζαμε να τείνουμε να πιστεύουμε ότι τα χαμογελαστά πρόσωπα είχαν επίδραση. Αν έμοιαζε παρόμοιο με τα τυχαία αποτελέσματα, θα αρχίζαμε να τείνουμε να πιστεύουμε ότι η επίδραση, ακόμη και αν είναι προφανής στα δεδομένα μας, θα μπορούσε απλώς να είναι το αποτέλεσμα τυχαιότητας.

Παρακάτω παρουσιάζουμε εννέα διαφορετικά διαγράμματα. Οκτώ από αυτά είναι το αποτέλεσμα τυχαίου ανακατέματος των φιλοδωρημάτων· το άλλο, που βρίσκεται επάνω αριστερά με τις κόκκινες γραμμές για τους μέσους όρους, είναι το διάγραμμα των πραγματικών δεδομένων. Ρίξτε μια ματιά σε όλα αυτά τα διαγράμματα, και συγκρίνετε το διάγραμμα των πραγματικών δεδομένων με τα υπόλοιπα διαγράμματα.

Σχήμα 5.12

Αφού παρατηρήσατε τα διαγράμματα, θεωρείτε ότι το μοτίβο που εμφανίζεται στα πραγματικά δεδομένα (επάνω αριστερά) θα μπορούσε να είχε παραχθεί από μια εντελώς τυχαία Διαδικασία Παραγωγής Δεδομένων (όπως αυτή της συνάρτησης shuffle;)

Η χρήση της shuffle() μας δυσκολεύει από το να συμπεραίνουμε ότι κάθε σχέση που παρατηρούμε στα δεδομένα (π.χ., η σχέση μεταξύ του χαμογελαστού προσώπου και του ύψους του φιλοδωρήματος) είναι πραγματική στη Διαδικασία Παραγωγής Δεδομένων. Πάντα πρέπει να εξετάζουμε αν η σχέση στα δεδομένα μπορεί απλώς να είναι αποτέλεσμα της δειγματοληπτικής μεταβλητότητας. Το να συμπεραίνουμε ότι μια σχέση στα δεδομένα είναι πραγματική όταν στην πραγματικότητα είναι αποτέλεσμα της τυχαιότητας είναι αυτό που οι στατιστικολόγοι ονομάζουν Σφάλμα Τύπου I (Type I Error), κάτι για το οποίο θα αναφέρουμε περισσότερα στη συζήτησή μας για τη στατιστική συμπερασματολογία σε επόμενα κεφάλαια.

Ίσως δεν Είναι Μόνο Τυχαιότητα

Βασιζόμενοι στην ανάλυσή μας των εννέα διαγραμμάτων jitter προηγουμένως, καταλήξαμε στο συμπέρασμα ότι ίσως – και μόνο ίσως – η διαφορά που παρατηρήσαμε μεταξύ της ομάδας του χαμογελαστού προσώπου και της ομάδας ελέγχου θα μπορούσε να οφείλεται απλώς στη δειγματοληπτική μεταβλητότητα. Αλλά θα είναι αυτό πάντα το αποτέλεσμα του τυχαίου ανακατέματος; Ασφαλώς όχι.

Ας πάρουμε την περίπτωση του φύλου και του ύψους των φοιτητών. Παρακάτω παρουσιάζουμε ένα διάγραμμα jitter που δείχνει αυτή τη σχέση, και, όπως προηγουμένως, προσθέσαμε στο διάγραμμα τους μέσους όρους του ύψους γυναικών και αντρών με κόκκινες γραμμές.

Σχήμα 5.13

Εδώ φαίνεται να υπάρχει μια αρκετά μεγάλη διαφορά μεταξύ γυναικών και ανδρών. Αλλά υπάρχει και μερική επικάλυψη μεταξύ των δύο κατανομών· παρόλο που οι άνδρες είναι ψηλότεροι γενικά, ορισμένες γυναίκες είναι ψηλότερες από ορισμένους άνδρες. Η ερώτηση είναι: Θα μπορούσε η διαφορά του ύψους μεταξύ γυναικών και ανδρών να οφείλεται μόνο στη μεταβλητότητα λόγω τυχαίας δειγματοληψίας, ή υπάρχει πραγματική διαφορά στη Διαδικασία Παραγωγής Δεδομένων;

Στα εννέα διαγράμματα jitter που ακολουθούν παρουσιάζουμε τα πραγματικά δεδομένα (με τους μέσους όρους με κόκκινο χρώμα), και οκτώ διαγράμματα που δείχνουν οκτώ διαφορετικά τυχαία ανακατέματα του ύψους μεταξύ γυναικών και ανδρών.

Παρατηρήστε τα παραπάνω διαγράμματα. Το διάγραμμα των πραγματικών δεδομένων είναι παρόμοιο ή διαφέρει από αυτά με τις ανακατεμένες κατανομές;

Η διαφορά του ύψους μεταξύ των ανδρών και των γυναικών στα πραγματικά δεδομένα μοιάζει να είναι διαφορετική από αυτή στα ανακατεμένα δεδομένα είναι η σωστή απάντηση.

Ανάλυση των διαγραμμάτων:

Πραγματικά δεδομένα (πάνω αριστερά): - Καθαρή διαφορά: Οι άνδρες (male) έχουν εμφανώς μεγαλύτερα ύψη από τις γυναίκες (female) - Διαχωρισμός μέσων όρων: Η κόκκινη γραμμή για τους άνδρες είναι σημαντικά ψηλότερα από αυτή των γυναικών - Μικρή επικάλυψη: Υπάρχει περιορισμένη επικάλυψη μεταξύ των δύο κατανομών

Ανακατεμένα δεδομένα (υπόλοιπα διαγράμματα): - Παρόμοιοι μέσοι όροι: Οι μωβ γραμμές για “female” και “male” είναι σχεδόν στο ίδιο επίπεδο - Μεγάλη επικάλυψη: Οι κατανομές των δύο ομάδων επικαλύπτονται σημαντικά - Τυχαίες μικρές διαφορές: Οποιεσδήποτε διαφορές είναι μικρές και τυχαίες

Γιατί υπάρχει αυτή η διαφορά: - Πραγματική βιολογική επίδραση: Το φύλο πραγματικά επηρεάζει το ύψος - Ισχυρό σήμα: Η επίδραση του φύλου στο ύψος είναι μεγάλη και συνεπής - Η διαφορά είναι πολύ μεγαλύτερη από ό,τι θα περιμέναμε από την τυχαιότητα

Σύγκριση με το πείραμα φιλοδωρημάτων: Αυτό αντιπαραβάλλεται με το πείραμα φιλοδωρημάτων όπου: - Η επίδραση του χαμογελαστού προσώπου ήταν αδύναμη - Ήταν δύσκολο να διακριθεί από την τυχαιότητα - Τα πραγματικά και τα ανακατεμένα δεδομένα έμοιαζαν παρόμοια

Διδακτικό μήνυμα: - Οι πραγματικές επιδράσεις ξεχωρίζουν: Όταν υπάρχει ισχυρή σχέση, αυτή φαίνεται - Η τυχαιότητα δεν μιμείται τις ισχυρές επιδράσεις: Το τυχαίο ανακάτεμα δεν μπορεί να αναπαράγει μεγάλες διαφορές - Η σύγκριση με τα ανακατεμένα δεδομένα είναι ισχυρό εργαλείο: Μας βοηθάει να διακρίνουμε πραγματικές από τυχαίες επιδράσεις

Πρακτική εφαρμογή: Αυτή η αντίθεση μας διδάσκει ότι: - Κάποιες επιδράσεις είναι προφανείς και αξιόπιστες (φύλο → ύψος) - Άλλες είναι λεπτές και αβέβαιες (χαμογελαστό προσωπάκι → φιλοδώρημα)

Για τα δεδομένα του χαμογελαστού προσώπου, ήταν δύσκολο να διακρίνουμε τα πραγματικά από τα τυχαιοποιημένα δεδομένα. Αλλά στην περίπτωση του φύλου και του ύψους, το διάγραμμα των πραγματικών δεδομένων φαίνεται πολύ διαφορετικό από τα τυχαία παραγόμενα δεδομένα. Για αυτόν τον λόγο, θα μπορούσαμε να συμπεράνουμε ότι η σχέση μεταξύ φύλου και ύψους δεν οφείλεται απλώς στην τυχαιότητα αλλά είναι μια πραγματική σχέση στη Διαδικασία Παραγωγής Δεδομένων.

Αν και εξακολουθεί να είναι πιθανό ότι μια τυχαία διαδικασία παρήγαγε αυτά τα δεδομένα ύψους - φύλου (άλλωστε, μπορεί να συμβεί να φέρετε 1000 γράμματα στη σειρά), κάτι τέτοιο δεν είναι πολύ πιθανό. Στη συνέχεια θα δούμε πιο συστηματικούς τρόπους λήψης αυτής της απόφασης, αλλά προς το παρόν, το τυχαίο ανακάτεμα των δεδομένων και η εξέταση των αποτελεσμάτων μπορεί να είναι ένα ισχυρό εργαλείο για να μας βοηθήσει να ερμηνεύσουμε μοτίβα αποτελεσμάτων στα δεδομένα.

Ποσοτικοποίηση της Διαδικασίας Παραγωγής Δεδομένων

Μέχρι στιγμής έχουμε προχωρήσει αρκετά απλώς καθορίζοντας τα μοντέλα μας με λεκτικές εξισώσεις και διερευνώντας πιθανές ερμηνείες για τη μεταβλητότητα που παρατηρούμε στα δεδομένα μας. Όλα αυτά αποτελούν λεκτικά μοντέλα, καθώς δεν έχουμε ακόμη ποσοτικοποιήσει τίποτα σχετικά με αυτά.

Μέχρι αυτό το σημείο έχουμε φτάσει όσο μακριά θα μπορούσαμε με τα λεκτικά μοντέλα της Διαδικασίας Παραγωγής Δεδομένων. Έχουμε εξασκηθεί στη διαγραμματική αναπαράσταση της κατανομής μιας μεμονωμένης μεταβλητής, και εργαστεί για να φανταστούμε και να αναπαραστήσουμε τη Διαδικασία Παραγωγής Δεδομένων που θα μπορούσε να έχει δημιουργήσει την κατανομή. Έχουμε επίσης βιώσει, με διαισθητικό τρόπο, τι σημαίνει να εξηγούμε τη μεταβλητότητα σε μία μεταβλητή με τη μεταβλητότητα σε μια άλλη.

Αλλά υπάρχουν σημαντικές ερωτήσεις που δεν μπορούμε να απαντήσουμε μέχρι να είμαστε σε θέση να δημιουργήσουμε ποσοτικά στατιστικά μοντέλα. Για παράδειγμα: παρόλο που τώρα γνωρίζουμε διαισθητικά ότι η συνολική μεταβλητότητα μπορεί να διαχωριστεί σε εξηγούμενη μεταβλητότητα και ανεξήγητη μεταβλητότητα, δεν έχουμε τρόπο να προσδιορίσουμε το ποσοστό της μεταβλητότητας που εξηγείται ή παραμένει ανεξήγητο. Αν θέλαμε να συγκρίνουμε δύο μεταβλητές και να ρωτήσουμε: ποια εξηγεί περισσότερη μεταβλητότητα σε μια συγκεκριμένη εξαρτημένη μεταβλητή, δεν θα είχαμε τρόπο να απαντήσουμε.

Κατά τον ίδιο τρόπο, παρόλο που μπορούμε διαισθητικά να καταλάβουμε τι σημαίνει να κάνουμε μια «καλύτερη πρόβλεψη» για την τιμή μιας συγκεκριμένης παρατήρησης στην εξαρτημένη μεταβλητή αν γνωρίζουμε την τιμή της σε μια ανεξάρτητη μεταβλητή, δεν έχουμε ακόμη δει μια συστηματική μέθοδο που να μας επιτρέπει να διατυπώσουμε μια ακριβή ποσοτική πρόβλεψη του αποτελέσματος. Ακόμη πιο σημαντικό, όμως, είναι ότι δεν διαθέτουμε ακόμη τρόπο να γνωρίζουμε, με μετρήσιμο τρόπο, πόσο μεγάλο μπορεί να είναι το σφάλμα της πρόβλεψής μας.

Τέλος, έχουμε παρουσιάσει διαισθητικά τι είναι το σφάλμα Τύπου I. Αλλά δεν έχουμε αναπτύξει κανέναν τρόπο ποσοτικοποίησης της πιθανότητας να έχουμε διαπράξει ένα σφάλμα Τύπου I, σε μια συγκεκριμένη περίπτωση. (Θα επιστρέψουμε σε αυτή την ιδέα σε μεταγενέστερα κεφάλαια, οπότε δεν χρειάζεται να ανησυχείτε υπερβολικά γι’ αυτό σε αυτό το σημείο.)

Αυτές είναι ερωτήσεις που δεν μπορούμε να απαντήσουμε απλώς κοιτάζοντας διαγράμματα και πίνακες. Για αυτό, θα χρειαστεί να δημιουργήσουμε στατιστικά μοντέλα της Διαδικασίας Παραγωγής Δεδομένων, να χρησιμοποιήσουμε αυτά τα μοντέλα για να κάνουμε προβλέψεις, και να αξιολογήσουμε την ακρίβεια των προβλέψεών μας. Έτσι περνάμε στην επόμενη ενότητα του μαθήματος.

5.13 Ερωτήσεις Επανάληψης Κεφαλαίου 5

Το πλαίσιο δεδομένων SleepStudy

Το πλαίσιο δεδομένων SleepStudy περιέχει δεδομένα από μια μελέτη ύπνου φοιτητών. Παρακάτω παρουσιάζεται ένα τμήμα των δεδομένων καθώς και οι ορισμοί των μεταβλητών:

  Gender LarkOwl NumEarlyClass  GPA ClassesMissed CognitionZscore
1      0 Neither             0 3.60             0           -0.26
2      0 Neither             2 3.24             0            1.39
3      0     Owl             0 2.97            12            0.38
4      0    Lark             5 3.76             0            1.39
5      0     Owl             0 3.20             4            1.22
6      1 Neither             0 3.50             0           -0.04
  PoorSleepQuality DepressionScore Stress Happiness AllNighter
1                4               4 normal        28          0
2                6               1 normal        25          0
3               18              18 normal        17          0
4                9               1 normal        32          0
5                9               7 normal        15          0
6                6              14   high        22          0

Ορισμοί μεταβλητών:

  • Gender: Φύλο (1=άνδρας, 0=γυναίκα)
  • LarkOwl: Πρωινός τύπος ή νυχτερινός; Lark (πρωινός), Neither (ούτε-ούτε), ή Owl (νυχτερινός)
  • NumEarlyClass: Αριθμός μαθημάτων την εβδομάδα πριν τις 9 π.μ.
  • GPA: Μέσος όρος ακαδημαϊκής επίδοσης (κλίμακα 0-4)
  • ClassesMissed: Αριθμός μαθημάτων που χάθηκαν σε ένα εξάμηνο
  • CognitionZscore: Σύνοψη επίδοσης σε τεστ γνωστικών δεξιοτήτων (συνεχείς βαθμολογίες από -1 έως +1)
  • PoorSleepQuality: Μέτρο ποιότητας ύπνου (υψηλότερες τιμές = χειρότερος ύπνος)
  • DepressionScore: Μέτρο βαθμού κατάθλιψης
  • Stress: Κωδικοποιημένη βαθμολογία άγχους: normal (φυσιολογικό) ή high (υψηλό)
  • Happiness: Μέτρο βαθμού ευτυχίας (υψηλότερες τιμές = πιο ευτυχισμένοι)
  • AllNighter: Αγρύπνησε όλη τη νύχτα αυτό το εξάμηνο; 0 = όχι ή 1 = ναι
  1. Αυτά τα δεδομένα συλλέχθηκαν από μια ομάδα ερευνητών που ενδιαφέρονταν για τον ύπνο, αλλά ας υποθέσουμε ότι μια ερευνήτρια ενδιαφέρεται να τα χρησιμοποιήσει για να εξηγήσει τις διαφορές στα επίπεδα ευτυχίας των μαθητών (μεταβλητή Happiness). Γιατί κάποιοι θα ήθελαν να εξηγήσουν τις διαφορές στην ευτυχία; Ποιες άλλες μεταβλητές σε αυτό το πλαίσιο δεδομένων θα μπορούσαν να έχουν σημαντική σχέση με την ευτυχία;

2. Ποιες από τις παρακάτω είναι ποσοτικές μεταβλητές; (Επιλέξτε όλα όσα ισχύουν.)

Είναι η Stress ποσοτική μεταβλητή;

Είναι η Happiness ποσοτική μεταβλητή;

Είναι η LarkOwl ποσοτική μεταβλητή;

Είναι η CognitionZscore ποσοτική μεταβλητή;

Ποσοτικές μεταβλητές: Happiness και CognitionZscore

Ποσοτικές μεταβλητές (Quantitative variables): Είναι μεταβλητές που παίρνουν αριθμητικές τιμές που αντιπροσωπεύουν ποσότητες και έχουν νόημα οι μαθηματικές πράξεις σε αυτές.

Happiness - ΠΟΣΟΤΙΚΗ: - Αριθμητικές τιμές που μετρούν βαθμό ευτυχίας - Υψηλότερες τιμές = μεγαλύτερη ευτυχία - Μπορούμε να υπολογίσουμε μέσο όρο, διάμεσο

CognitionZscore - ΠΟΣΟΤΙΚΗ: - Συνεχής μεταβλητή από -1 έως +1 - Μετρά γνωστική επίδοση - Οι μαθηματικές πράξεις έχουν νόημα

Stress - ΠΟΙΟΤΙΚΗ: - Δύο κατηγορίες: “normal” ή “high” - Όχι αριθμητική μεταβλητή

LarkOwl - ΠΟΙΟΤΙΚΗ: - Τρεις κατηγορίες: “Lark”, “Neither”, “Owl” - Περιγράφει τύπο ύπνου, όχι ποσότητα

3. Ίσως το να θεωρείς τον εαυτό σου πρωινό τύπο (“lark”) ή νυχτερινό τύπο (“owl”) να σχετίζεται με τη μεταβλητότητα στην μέση επίδοση (GPA). Ποιο από τα παρακάτω διαγράμματα θα μας βοηθούσε να δούμε αν η μεταβλητότητα στην GPA σχετίζεται με τη μεταβλητότητα στην LarkOwl;

Όλα τα παραπάνω είναι η σωστή απάντηση.

Και τα τρία διαγράμματα είναι χρήσιμα για να εξετάσουμε τη σχέση μεταξύ GPA και LarkOwl:

Α - Διαιρεμένο ιστόγραμμα (Faceted histogram):

gf_histogram(~ GPA, data = SleepStudy) %>% 
  gf_facet_grid(LarkOwl ~ .)
  • Πλεονεκτήματα: Δείχνει την πλήρη κατανομή του GPA για κάθε ομάδα
  • Τι βλέπουμε: Το σχήμα, την κεντρική τάση και τη διασπορά κάθε ομάδας
  • Χρήσιμο για: Ανίχνευση ασυμμετρίας, πολλαπλών κορυφών, ακραίων τιμών

Β - Box plot:

gf_boxplot(GPA ~ LarkOwl, data = SleepStudy)
  • Πλεονεκτήματα: Συμπαγής σύγκριση κεντρικών τάσεων και διασποράς
  • Τι βλέπουμε: Διάμεσο, τεταρτημόρια, ακραίες τιμές για κάθε ομάδα
  • Χρήσιμο για: Γρήγορη οπτική σύγκριση μεταξύ των τριών ομάδων

Γ - Jitter/Point plot:

gf_point(GPA ~ LarkOwl, data = SleepStudy)
  • Πλεονεκτήματα: Δείχνει κάθε μεμονωμένη παρατήρηση
  • Τι βλέπουμε: Την ακριβή κατανομή των σημείων
  • Χρήσιμο για: Μικρά δείγματα, ανίχνευση μοτίβων στα δεδομένα

Γιατί και τα τρία είναι κατάλληλα: Όλα τα διαγράμματα: - Συγκρίνουν μια ποσοτική μεταβλητή (GPA) μεταξύ κατηγοριών (Lark, Neither, Owl) - Μας βοηθούν να δούμε αν υπάρχει μετατόπιση στις κατανομές - Επιτρέπουν την αξιολόγηση αν το LarkOwl εξηγεί διακύμανση στο GPA

Συμπληρωματικές πληροφορίες: - Ιστόγραμμα: Καλύτερο για λεπτομερή κατανόηση του σχήματος - Box plot: Καλύτερο για γρήγορες συγκρίσεις - Point plot: Καλύτερο για μικρά δείγματα ή όταν θέλουμε να δούμε κάθε παρατήρηση

Πρακτική συμβουλή: Στην πράξη, συχνά χρησιμοποιούμε περισσότερες από μία οπτικοποιήσεις για να κατανοήσουμε πλήρως τη σχέση μεταξύ των μεταβλητών.

4. Το παρακάτω ιστόγραμμα δημιουργήθηκε με τον κώδικα:

gf_histogram(~ GPA, data = SleepStudy) %>%
  gf_facet_grid(LarkOwl ~ .)
Σχήμα 5.14

Είναι αλήθεια ότι οι πρωινοί τύποι (Lark) έχουν χαμηλότερη επίδοση (GPA) από τους νυχτερινούς τύπους (Owl);

Είναι αλήθεια ότι υπάρχουν περισσότεροι νυχτερινοί τύποι (Owl) από αυτούς που δεν είναι ούτε πρωινοί ούτε νυχτερινοί (Neither);

Είναι αλήθεια ότι η επίδοση (GPA) των νυχτερινών τύπων (Owl) δεν έχει σημαντική μεταβλητότητα;

Είναι αλήθεια ότι υπάρχουν λιγότεροι φοιτητές που θεωρούν τον εαυτό τους πρωινό τύπο (Lark) από εκείνους που θεωρούν τον εαυτό τους ούτε πρωινό ούτε νυχτερινό (Neither);

Μόνο η τελευταία πρόταση είναι σωστή.

1. Lark vs Owl GPA - ΟΧΙ: - Και οι δύο ομάδες έχουν παρόμοιες κατανομές - Κεντραρισμένες γύρω στο 3.0-3.5 - Δεν υπάρχει σαφής διαφορά

2. Περισσότεροι Owl από Neither - ΟΧΙ: - Η κατηγορία Neither έχει πολύ περισσότερες παρατηρήσεις - Η κατηγορία Owl έχει λιγότερες

3. Owl χωρίς μεταβλητότητα - ΟΧΙ: - Εύρος από ~2.0 έως ~4.0 - Υπάρχει σαφής διασπορά

4. Λιγότεροι Lark από Neither - ΝΑΙ: - Η κατηγορία Lark έχει λίγες παρατηρήσεις - Η κατηγορία Neither έχει πολλές παρατηρήσεις - Σαφώς λιγότεροι στην κατηγορία Lark

5. Ακολουθεί ένα διαιρεμένο ιστόγραμμα πυκνότητας πιθανότητας της αυτο-αναφερόμενης ευτυχίας (Happiness) σε σχέση με το άγχος (Stress, υψηλό vs. φυσιολογικό). Πού θα κοιτάζατε στο ιστόγραμμα για να δείτε τη μεταβλητότητα εντός των ομάδων στη μεταβλητή Happiness;

Οριζόντια, κατά μήκος του άξονα x είναι η σωστή απάντηση.

Τι είναι η μεταβλητότητα εντός ομάδας: Η μεταβλητότητα εντός ομάδας αναφέρεται στο πόσο διαφέρουν μεταξύ τους τα άτομα μέσα στην ίδια ομάδα.

Πώς να την αναγνωρίσετε στο ιστόγραμμα: Η μεταβλητότητα εντός της κάθε ομάδας φαίνεται από το εύρος της κατανομής: - Οριζόντια έκταση: Πόσο εκτείνεται το ιστόγραμμα στον άξονα x - Ευρεία κατανομή: Μεγάλη μεταβλητότητα - τα άτομα διαφέρουν πολύ μεταξύ τους - Στενή κατανομή: Μικρή μεταβλητότητα - τα άτομα είναι παρόμοια

Ανάλυση του διαγράμματος:

Ομάδα “high” stress: - Το ιστόγραμμα εκτείνεται από ~0 έως ~35 στην κλίμακα Happiness - Μεγάλη οριζόντια διασπορά = σημαντική μεταβλητότητα εντός ομάδας - Κάποιοι με υψηλό stress είναι λίγο ευτυχισμένοι άλλοι αρκετά ευτυχισμένοι

Ομάδα “normal” stress: - Το ιστόγραμμα εκτείνεται κυρίως από ~10 έως ~35 - Μικρότερη οριζόντια διασπορά από την ομάδα high stress - Πιο συγκεντρωμένη κατανομή γύρω από υψηλότερες τιμές ευτυχίας

Γιατί οι άλλες επιλογές είναι λάθος:

Β - Κάθετα, κατά μήκος του y: - Ο άξονας y (density) δείχνει την πυκνότητα πιθανότητας, όχι τη μεταβλητότητα - Το ύψος των ράβδων δεν αντιπροσωπεύει διασπορά

Γ - Δεν φαίνεται η μεταβλητότητα εντός ομάδας: - Λάθος - φαίνεται καθαρά από την οριζόντια έκταση

Δ - Μεταξύ των δύο ιστογραμμάτων: - Αυτό θα έδειχνε μεταβλητότητα μεταξύ ομάδων, όχι εντός ομάδας - Η σύγκριση μεταξύ των πάνελ δείχνει διαφορές στις ομάδες

Βασική αρχή: - Οριζόντια έκταση = μεταβλητότητα εντός ομάδας - Διαφορά μεταξύ πάνελ = μεταβλητότητα μεταξύ ομάδων

6. Πού θα κοιτάζατε στο ιστόγραμμα για να δείτε τη μεταβλητότητα μεταξύ των ομάδων στην Happiness;

Μεταξύ των δύο ιστογραμμάτων είναι η σωστή απάντηση.

Τι είναι η μεταβλητότητα μεταξύ ομάδων: Η μεταβλητότητα μεταξύ ομάδων αναφέρεται στις διαφορές μεταξύ διαφορετικών ομάδων. Στην περίπτωση αυτή, διερευνούμε αν οι φοιτητές με υψηλό άγχος (high stress) έχουν διαφορετική κατανομή ευτυχίας από εκείνους με φυσιολογικό άγχος (normal stress).

Πώς να την αναγνωρίσετε: Για να δείτε τη μεταβλητότητα μεταξύ ομάδων, πρέπει να συγκρίνετε τα δύο ιστογράμματα:

Τι να ψάξετε: - Διαφορά στην κεντρική θέση: Είναι οι κατανομές κεντραρισμένες σε διαφορετικά σημεία; - Διαφορά στο σχήμα: Έχουν διαφορετική μορφή (συμμετρική, ασύμμετρη); - Διαφορά στο εύρος: Καλύπτουν διαφορετικά εύρη τιμών; - Διαφορά στη διασπορά: Είναι η μία πιο συγκεντρωμένη από την άλλη;

Ανάλυση αυτού του γραφήματος:

Ομάδα “high” stress (άνω ιστόγραμμα): - Πιο ευρεία κατανομή - Εκτείνεται σε χαμηλότερες τιμές ευτυχίας - Πιο πλατιά και ομοιόμορφη κατανομή

Ομάδα “normal” stress (κάτω ιστόγραμμα): - Πιο στενή κατανομή - Κεντραρισμένη σε υψηλότερες τιμές ευτυχίας (25-30) - Πιο συγκεντρωμένη γύρω από υψηλές τιμές

Συμπέρασμα μεταβλητότητας μεταξύ ομάδων: Υπάρχει σαφής διαφορά μεταξύ των δύο ομάδων: - Οι φοιτητές με φυσιολογικό άγχος τείνουν να είναι πιο ευτυχισμένοι - Οι φοιτητές με υψηλό άγχος έχουν μεγαλύτερη μεταβλητότητα στα επίπεδα ευτυχίας

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Κάθετα, κατά μήκος του y: - Ο άξονας y δείχνει πυκνότητα πιθανότητας, όχι διαφορές μεταξύ ομάδων

Β - Δεν φαίνεται: - Λάθος - φαίνεται καθαρά από τη σύγκριση των ιστογραμμάτων

Δ - Οριζόντια στον x άξονα: - Αυτό δείχνει μεταβλητότητα εντός ομάδας, όχι μεταξύ ομάδων

Βασική διάκριση: - Εντός ομάδας: Οριζόντια έκταση μέσα σε ένα πάνελ - Μεταξύ ομάδων: Σύγκριση μεταξύ των ιστογραμμάτων

7. Σε μια μελέτη που σχεδιάστηκε για να διερευνήσει τι εξηγεί τη μεταβλητότητα στην Happiness, η _____ θα ήταν η εξαρτημένη μεταβλητή και η _____ θα ήταν η ανεξάρτητη μεταβλητή.

Happiness; Stress είναι η σωστή απάντηση.

Ορισμοί των ρόλων των μεταβλητών:

Εξαρτημένη μεταβλητή: - Αυτό που προσπαθούμε να εξηγήσουμε ή να προβλέψουμε - Η μεταβλητή της οποίας τη μεταβλητότητα θέλουμε να κατανοήσουμε - Συχνά αναφέρεται ως “Y” στις εξισώσεις - Στην περίπτωση αυτή: Happiness

Ανεξάρτητη μεταβλητή: - Αυτό που χρησιμοποιούμε για να εξηγήσουμε τη μεταβλητότητα - Η μεταβλητή που πιστεύουμε ότι επηρεάζει την εξαρτημένη - Συχνά αναφέρεται ως “X” στις εξισώσεις - Στην περίπτωση αυτή: Stress

Γιατί αυτή η απάντηση είναι σωστή: Η ερώτηση είναι: “τι εξηγεί τη μεταβλητότητα στην Happiness” - Εξαρτημένη μεταβλητή: Happiness - αυτό που θέλουμε να εξηγήσουμε - Ανεξάρτητη μεταβλητή: Stress - η πιθανή μεταβλητή που επηρεάζει

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Stress; η αιτία της ευτυχίας: - Αντιστρέφει τους ρόλους - το Stress δεν είναι η εξαρτημένη μεταβλητή - Η “αιτία της ευτυχίας” είναι ασαφής έκφραση και όχι συγκεκριμένη μεταβλητή

Β - Stress; Happiness: - Αντίστροφη σειρά - η Stress δεν είναι η εξαρτημένη μεταβλητή εδώ

Δ - Happiness; η αξιολόγηση της ευτυχίας: - Η εξαρτημένη μεταβλητή είναι σωστή, αλλά η “αυτο-αξιολόγηση της ευτυχίας” δεν είναι η ανεξάρτητη μεταβλητή - Η αυτο-αξιολόγηση είναι απλώς ο τρόπος μέτρησης της εξαρτημένης μεταβλητής

8. Ας υποθέσουμε ότι ένας ερευνητής επιθυμεί να διερευνήσει την υπόθεση ότι η γνώση του επιπέδου άγχους κάποιου μπορεί να βοηθήσει στην πρόβλεψη των επιπέδων ευτυχίας του. Ποια λεκτική εξίσωση αποτυπώνει καλύτερα αυτή την ιδέα;

Happiness = Stress + άλλα πράγματα είναι η σωστή απάντηση.

Γιατί αυτή η εξίσωση είναι η καλύτερη:

Βασικά στοιχεία της υπόθεσης: - Εξαρτημένη μεταβλητή: Happiness (αυτό που προβλέπουμε) - Ανεξάρτητη μεταβλητή: Stress (αυτό που χρησιμοποιούμε για πρόβλεψη) - Αναγνώριση: Υπάρχουν και άλλοι παράγοντες που επηρεάζουν την ευτυχία

Γιατί χρειαζόμαστε τα ‘άλλα πράγματα’: Τα άλλα πράγματα είναι σημαντικά γιατί: - Το άγχος δεν είναι ο μοναδικός παράγοντας που ενδεχομένως επηρεάζει την αντιλαμβανόμενη ευτυχία - Αναγνωρίζουμε την ύπαρξη και άλλων ανεξάρτητων μεταβλητών - Αντιπροσωπεύει όλα όσα δεν μετρήσαμε ή δεν συμπεριλάβαμε - Είναι μια ρεαλιστική υπόθεση - η ευτυχία είναι πολυπαραγοντική

Τι μπορεί να περιλαμβάνει το ‘άλλα πράγματα’: - Ποιότητα ύπνου - Κοινωνικές σχέσεις - Οικονομική κατάσταση - Σωματική υγεία - Προσωπικότητα - Ακαδημαϊκή επιτυχία - Και πολλούς άλλους παράγοντες

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Happiness = Stress: - Υπεραπλουστευμένη: Υποθέτει ότι το άγχος είναι ο μόνος παράγοντας - Μη ρεαλιστική: Αγνοεί όλους τους άλλους παράγοντες - Κακό μοντέλο: Θα είχε πολύ χαμηλή προβλεπτική ικανότητα

Γ - άλλα πράγματα = Stress + Happiness: - Λάθος εξαρτημένη μεταβλητή: Τα άλλα πράγματα δεν είναι αυτό που προβλέπουμε - Αντίστροφη λογική: Δεν έχει νόημα για την υπόθεση

Δ - Stress = Happiness + άλλα πράγματα: - Αντεστραμμένοι ρόλοι: Το Stress γίνεται εξαρτημένη αντί για ανεξάρτητη - Διαφορετικό ερευνητικό ερώτημα: Αυτό θα ερευνούσε από τι προβλέπεται το άγχος

Στατιστική ερμηνεία: Η εξίσωση Happiness = Stress + άλλα πράγματα σημαίνει: - Το Stress εξηγεί μέρος της μεταβλητότητας στην Happiness - Τα άλλα πράγματα εξηγούν την υπολοιπόμενη μεταβλητότητα

9. Για να εξετάσετε την κατανομή της Happiness, ποιο από τα παρακάτω θα ήταν πιο χρήσιμο;

Ένα ιστόγραμμα είναι η σωστή απάντηση.

Γιατί το ιστόγραμμα είναι καλύτερο:

Φύση της μεταβλητής Happiness: - Είναι ποσοτική μεταβλητή (αριθμητική κλίμακα) - Παίρνει πολλές διαφορετικές τιμές (όχι μόνο λίγες κατηγορίες) - Είναι συνεχής ή σχεδόν συνεχής στη φύση της

Πλεονεκτήματα του ιστογράμματος: - Οπτικοποιεί το σχήμα της κατανομής (συμμετρική, ασύμμετρη, κ.λπ.) - Δείχνει την κεντρική τάση (πού συγκεντρώνονται οι τιμές) - Αποκαλύπτει τη διασπορά (πόσο εκτείνονται οι τιμές) - Ανιχνεύει ακραίες τιμές και ασυνήθιστα μοτίβα - Εύκολο στην ερμηνεία για ποσοτικά δεδομένα

Γιατί ο πίνακας συχνοτήτων είναι λιγότερο χρήσιμος:

Περιορισμοί του πίνακα συχνοτήτων: - Πολλές μοναδικές τιμές: Η Happiness έχει πολλές διαφορετικές τιμές - Πολύπλοκη αναπαράσταση: Μια λίστα με δεκάδες αριθμούς είναι δύσκολο να διαβαστεί - Χάνεται το σχήμα: Δεν βλέπουμε εύκολα το μοτίβο της κατανομής - Καλύτερος για ποιοτικές μεταβλητές: Ο πίνακας συχνοτήτων είναι χρήσιμος για μεταβλητές με λίγες κατηγορίες

Παράδειγμα: Αν η Happiness έχει τιμές όπως: 17, 22, 25, 28, 15, 32, 18, 14, 30, 27, κ.λπ.

Με πίνακα συχνοτήτων:

14: 1
15: 1
17: 1
18: 1
22: 1
25: 1
...

Δύσκολο να δούμε το μοτίβο!

Με ιστόγραμμα: Βλέπουμε αμέσως: - Οι περισσότεροι φοιτητές έχουν Happiness 25-30 - Λίγοι έχουν πολύ χαμηλές τιμές Happiness (<15) - Η κατανομή είναι ελαφρώς ασύμμετρη

Γενικός κανόνας: - Ποσοτικά δεδομένα (πολλές τιμές) → Ιστόγραμμα - Κατηγορικά δεδομένα (λίγες κατηγορίες) → Πίνακας συχνοτήτων ή Ραβδόγραμμα

10. Ποιος κώδικας δημιούργησε το παρακάτω διάγραμμα;

gf_point(Happiness ~ Stress, data = SleepStudy) είναι η σωστή απάντηση.

Αναγνώριση του διαγράμματος: Το διάγραμμα δείχνει: - Μεμονωμένα σημεία (points) για κάθε παρατήρηση - Δύο στήλες σημείων: μία για “high” stress και μία για “normal” stress - Κάθετη διάταξη των σημείων κατά μήκος του άξονα Happiness - Όχι κουτιά ή άλλα γραφικά στοιχεία σύνοψης

Γιατί αυτό είναι ένα διάγραμμα σημείων (point plot): - Βλέπουμε κάθε μεμονωμένη παρατήρηση ως ξεχωριστό σημείο - Τα σημεία είναι διατεταγμένα κατά κατηγορία (high vs normal) - Υπάρχει επικάλυψη σημείων όπου πολλές παρατηρήσεις έχουν παρόμοιες τιμές - Μας επιτρέπει να δούμε την ακριβή κατανομή των δεδομένων

Ανάλυση των επιλογών:

Α - gf_facet(Happiness ~ Stress, data = SleepStudy): - Η gf_facet δεν είναι αυτόνομη συνάρτηση - Χρησιμοποιείται με %>% για διαίρεση γραφημάτων

Β - gf_histogram(Happiness ~ Stress, data = SleepStudy): - Θα δημιουργούσε ιστογράμματα με ράβδους - Όχι μεμονωμένα σημεία

Γ - gf_point(Happiness ~ Stress, data = SleepStudy) - ΣΩΣΤΟ: - Δημιουργεί scatter/strip plot - Ένα σημείο για κάθε παρατήρηση - Διαχωρισμένο ανά κατηγορία Stress

Δ - gf_boxplot(Happiness ~ Stress, data = SleepStudy): - Θα δημιουργούσε δύο boxplot ανα κατηγορία Stress - Όχι μεμονωμένα σημεία για όλες τις παρατηρήσεις

Πλεονεκτήματα του gf_point: - Βλέπουμε όλες τις παρατηρήσεις - Ανιχνεύουμε εύκολα ακραίες τιμές - Καταλαβαίνουμε το μέγεθος δείγματος κάθε ομάδας - Αποφεύγουμε την απώλεια πληροφορίας όπως με τους στατιστικούς δείκτες

Βελτιώσεις που θα μπορούσαν να γίνουν:

gf_jitter(Happiness ~ Stress, data = SleepStudy, width = 0.1)

Το jitter προσθέτει μικρή τυχαία μετατόπιση για να μειώσει την επικάλυψη σημείων.

11. Στο παρακάτω διάγραμμα, τι αντιπροσωπεύει το σημείο που είναι κυκλωμένο με κόκκινο;

Την ευτυχία ενός φοιτητή ή μιας φοιτήτριας με υψηλό άγχος είναι η σωστή απάντηση.

Τι αντιπροσωπεύει κάθε σημείο: Σε αυτό το διάγραμμα σημείων (point plot): - Κάθε σημείο = μία μεμονωμένη παρατήρηση/φοιτητής - Θέση στον άξονα x: Σε ποια κατηγορία Stress ανήκει (high ή normal) - Θέση στον άξονα y: Η τιμή Happiness του συγκεκριμένου φοιτητή

Ανάλυση του κυκλωμένου σημείου: Το κυκλωμένο σημείο βρίσκεται: - Στη στήλη “high”: Άρα αυτός ο φοιτητής έχει υψηλό άγχος - Στο ύψος ~15 στον άξονα Happiness: Άρα η ευτυχία του φοιτητή είναι περίπου 15 - Συμπέρασμα: Ένας φοιτητής με high stress και Happiness≈15

Γιατί οι άλλες επιλογές είναι λάθος:

Β - “Το άγχος των φοιτητών με υψηλό άγχος”: - Το σημείο δεν μετρά το επίπεδο άγχους - Η θέση στον x-άξονα (high) δείχνει την κατηγορία άγχους - Η θέση στον y-άξονα δείχνει ευτυχία, όχι άγχος

Γ - “Τη μέση ευτυχία όλων των φοιτητών”: - Αυτό θα ήταν ένα στατιστικό που συνοψίζει τις τιμές, όχι ένα μεμονωμένο σημείο - Κάθε σημείο είναι ένας φοιτητής, όχι μέσος όρος - Ο μέσος όρος θα χρειαζόταν διαφορετική αναπαράσταση (π.χ., γραμμή)

Δ - “Ένα δείγμα δεδομένων που είχαν υψηλό άγχος”: - Αυτή η διατύπωση είναι ασαφής και ανακριβής - Το σημείο είναι μία παρατήρηση, όχι ένα “δείγμα” - Ολόκληρο το διάγραμμα δείχνει το δείγμα

12. Το παρακάτω διάγραμμα jitter δημιουργήθηκε με αυτόν τον κώδικα:

gf_jitter(Happiness ~ Stress, data = SleepStudy, height = 0, width = .25)

Τι σημαίνει η απόσταση μεταξύ των δύο σημείων (που εμφανίζεται στο κόκκινο ορθογώνιο);

Τίποτα είναι η σωστή απάντηση.

Κατανόηση της τυχαίας μετατόπισης (jitter): Το διάγραμμα jitter προσθέτει τυχαία μετατόπιση στα σημεία για να μειώσει την επικάλυψη: - width = .25: Προσθέτει τυχαία οριζόντια μετατόπιση - height = 0: Δεν προσθέτει κάθετη μετατόπιση - Σκοπός: Να μπορούμε να δούμε σημεία που αλλιώς θα επικαλύπτονταν

Ανάλυση των δύο σημείων στο κόκκινο ορθογώνιο: Τα δύο σημεία: - Βρίσκονται και τα δύο στην κατηγορία “high” (υψηλό άγχος) - Έχουν την ίδια τιμή Happiness (περίπου 20) - Η οριζόντια απόστασή τους είναι τεχνητή - προκλήθηκε από την τυχαία μετατόπιση (jitter)

Γιατί η απόσταση δεν σημαίνει τίποτα: - Και τα δύο άτομα έχουν ακριβώς την ίδια κατηγορία stress (high) - Και τα δύο έχουν πολύ παρόμοια (ίσως ίδια) Happiness (~20) - Η οριζόντια απόσταση είναι τυχαία μετατόπιση για οπτική σαφήνεια - Δεν αντιπροσωπεύει πραγματική διαφορά στα δεδομένα

Αν δεν υπήρχε τυχαία μετατόπιση: Τα δύο αυτά σημεία θα ήταν: - Ακριβώς το ένα πάνω στο άλλο - Αόρατο ότι υπάρχουν δύο παρατηρήσεις - Παραπλανητικό για το μέγεθος δείγματος

Γιατί οι άλλες επιλογές είναι λάθος:

Α - “Ένα άτομο έχει περισσότερο άγχος”: - Και τα δύο είναι στην ίδια κατηγορία “high” - Το Stress είναι ποιοτική μεταβλητή (high/normal), όχι συνεχής - Δεν υπάρχει πληροφορία για διαφορετικά επίπεδα εντός του “high”

Γ - “Ένα άτομο είναι πιο ευτυχισμένο”: - Και τα δύο έχουν την ίδια τιμή Happiness (~20) - Η κάθετη θέση (άξονας y) δείχνει ευτυχία, και είναι ίδια - Η οριζόντια απόσταση δεν σχετίζεται με την ευτυχία

Δ - “Το αριστερό ερωτήθηκε πρώτο”: - Η σειρά στο διάγραμμα jitter είναι εντελώς τυχαία - Δεν υπάρχει καμία πληροφορία χρονικής σειράς - Κάθε φορά που δημιουργείται το διάγραμμα, η θέση μπορεί να αλλάξει

Βασική αρχή: Στα διαγράμματα jitter: - Μόνο η κάθετη θέση (άξονας y) έχει νόημα για ποσοτικές τιμές - Η οριζόντια θέση εντός μιας κατηγορίας είναι τυχαία - Η μετατόπιση (jitter) είναι οπτικό τέχνασμα, όχι πραγματικά δεδομένα

Πρακτική εφαρμογή: Όταν διαβάζετε διαγράμματα jitter: - Εστιάστε στην κατακόρυφη κατανομή των σημείων - Αγνοήστε τις οριζόντιες αποστάσεις εντός κατηγοριών - Συγκρίνετε μεταξύ κατηγοριών, όχι εντός τους

13. Στο παρακάτω διάγραμμα jitter, έχουμε σχεδιάσει ένα μπλε κουτί γύρω από μια πυκνή σειρά δεδομένων (με ετικέτα A) και ένα κίτρινο κουτί γύρω από μια λιγότερο πυκνή σειρά δεδομένων (με ετικέτα B). Τι μπορούμε να ισχυριστούμε δεδομένης της υψηλής πυκνότητας δεδομένων στο μπλε κουτί;

Υπάρχουν πολλά άτομα που έχουν την ίδια τιμή στον άξονα y είναι η σωστή απάντηση.

Ανάλυση της πυκνότητας:

Μπλε κουτί (A) - Υψηλή πυκνότητα στο y=30: - Πολλά σημεία συγκεντρωμένα στο ίδιο ύψος (~30) - Όλα αυτά τα άτομα έχουν Happiness ≈ 30 - Η οριζόντια διασπορά είναι από το την τυχαία μετατόπιση - Δείχνει ότι πολλοί φοιτητές με normal stress έχουν υψηλή ευτυχία

Χρυσό κουτί (B) - Χαμηλότερη πυκνότητα στο y=20: - Λιγότερα σημεία σε αυτό το ύψος (~20) - Λιγότεροι φοιτητές έχουν Happiness ≈ 20 - Πιο αραιή κατανομή σε αυτό το επίπεδο

Γιατί η απάντηση Α είναι σωστή: - Ο άξονας y αντιπροσωπεύει Happiness - Όταν πολλά σημεία έχουν το ίδιο ύψος, σημαίνει: - Πολλά άτομα με την ίδια (ή πολύ παρόμοια) τιμή Happiness - Αυτή η τιμή (30) είναι κοινή στον πληθυσμό - Πιθανώς μια δημοφιλής απάντηση στην κλίμακα

Γιατί οι άλλες επιλογές είναι λάθος:

Β - “Είναι πιθανό να υπάρχουν λίγες ακραίες τιμές”: - Η πυκνότητα σε μια περιοχή δεν σχετίζεται με ακραίες τιμές - Οι ακραίες τιμές είναι σπάνιες τιμές - Στην πραγματικότητα, υπάρχουν ακραίες τιμές (π.χ., Happiness=0 και Happiness≈5)

Γ - “Το διάγραμμα jitter είναι πιθανώς λάθος επιλογή”: - Το διάγραμμα jitter είναι κατάλληλο για αυτά τα δεδομένα - Η πυκνότητα δείχνει ότι η τυχαία μετατόπιση λειτουργεί σωστά - Χωρίς τυχαία μετατόπιση, δεν θα βλέπαμε πόσα σημεία υπάρχουν σε κάθε επίπεδο

Δ - “Υπάρχουν πολλά άτομα με την ίδια τιμή στον x”: - Αυτό είναι αυτονόητο - όλα είναι στην κατηγορία “normal” - Δεν εξηγεί την οριζόντια διασπορά εντός της κατηγορίας - Δεν σχετίζεται με την πυκνότητα σε συγκεκριμένο ύψος

14. Πώς θα πρέπει να ερμηνεύσουμε αυτό το boxplot;

Όλα τα παραπάνω είναι η σωστή απάντηση.

Ανάλυση του boxplot:

Ομάδα “high” stress: - Διάμεσος: ~24-25 - IQR (κουτί): ~19 έως ~28 - Απολήξεις: ~11 έως ~33 - Ακραίες Τιμές: Ένα σημείο στο 0

Ομάδα “normal” stress: - Διάμεσος: ~28 - IQR (κουτί): ~26 έως ~30 - Απολήξεις: ~18 έως ~36 - Ακραίες Τιμές: Μερικά σημεία στο 14-17 και ένα στο ~5

Επαλήθευση κάθε πρότασης:

Α - Μεγαλύτερη μεταβλητότητα στο high stress - ΣΩΣΤΟ: - IQR high: ~9 μονάδες (28-19) - IQR normal: ~4 μονάδες (30-26) - Το κουτί του high stress είναι μεγαλύτερο - Το εύρος (range) του high stress είναι επίσης μεγαλύτερο - Συμπέρασμα: Περισσότερη διασπορά στην ευτυχία για high stress

Β - Normal stress πιο ευτυχισμένα - ΣΩΣΤΟ: - Διάμεσος normal: ~28 - Διάμεσος high: ~24-25 - Η διάμεσος του normal είναι υψηλότερα - Το κουτί του normal είναι σχεδόν όλο πάνω από τη διάμεσο του high - Συμπέρασμα: Κατά μέσο όρο, normal stress σχετίζεται με υψηλότερη ευτυχία

Γ - Διάμεσος normal > 75% του high - ΣΩΣΤΟ: - Διάμεσος normal: ~28 - 75o εκατοστημόριο (Q3) του high: ~28 - Η διάμεσος του normal είναι περίπου ίση με το Q3 του high - Αυτό σημαίνει ότι το 50% του normal > 75% του high - Συμπέρασμα: Ένα “μεσαίο” άτομο στο normal είναι πιο ευτυχισμένο από τα περισσότερα στο high

15. Τι θα κάνει ο ακόλουθος κώδικας;

gf_boxplot(Happiness ~ Stress, data = SleepStudy, fill = "orange") %>%
  gf_jitter()

Θα δημιουργούσε ένα μόνο διάγραμμα (ένα boxplot με επικαλυπτόμενο διάγραμμα jitter) είναι η σωστή απάντηση.

Πώς λειτουργεί ο τελεστής διοχέτευσης (%>%):

Βασική αρχή: Ο τελεστής διοχέτευσης %>% προσθέτει στρώματα (layers) στο διάγραμμα: - Ξεκινάμε με ένα βασικό διάγραμμα (gf_boxplot) - Προσθέτουμε πάνω του επιπλέον στοιχεία (gf_jitter) - Όλα εμφανίζονται στο ίδιο διάγραμμα

Βήμα προς βήμα εκτέλεση:

1. Δημιουργία boxplot:

gf_boxplot(Happiness ~ Stress, data = SleepStudy, fill = "orange")
  • Δημιουργεί δύο boxplot για Happiness ως προς Stress
  • Τα κουτιά είναι πορτοκαλί (fill = “orange”)
  • Δείχνει διάμεσο, τεταρτημόρια, απολήξεις, ακραίες τιμές

2. Προσθήκη στρώματος jitter:

%>% gf_jitter()
  • Προσθέτει μεμονωμένα σημεία πάνω στα boxplot
  • Κληρονομεί τις μεταβλητές από το boxplot (Happiness ~ Stress)
  • Τα σημεία επικαλύπτουν τα κουτιά

Το τελικό αποτέλεσμα: Ένα διάγραμμα που περιλαμβάνει: - Δύο πορτοκαλί boxplot για κάθε κατηγορία Stress - Μαύρα σημεία για κάθε παρατήρηση - Συνδυασμός στατιστικών δεικτών και αρχικών δεδομένων

Πλεονεκτήματα αυτού του συνδυασμού: - Boxplot: Δείχνει στατιστικά της κατανομής (διάμεσο, τεταρτημόρια, ενδοτεταρτημοριακό εύρος) για κάθε κατανομή - Jitter: Δείχνει όλες τις μεμονωμένες παρατηρήσεις - Μαζί: Πλήρης εικόνα τόσο της κατανομής όσο και των δεδομένων

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Boxplot μόνο (χωρίς διάγραμμα jitter): - Λάθος - η gf_jitter() είναι πλήρης - Δεν χρειάζεται επιπλέον παράμετρους όταν χρησιμοποιείται με τελεστή ανάθεσης - Κληρονομεί όλα τα απαραίτητα από το προηγούμενο layer

Β - Δύο ξεχωριστά διαγράμματα: - Λάθος - ο τελεστής %>% συνδυάζει τα στρώματα - Για ξεχωριστά διαγράμματα θα χρειαζόταν ξεχωριστές εντολές

Δ - Διάγραμμα jitter μόνο: - Λάθος - το boxplot δεν αντικαθίσταται - Ο τελεστής διοχέτευσης προσθέτει, δεν αντικαθιστά

Πρακτική συμβουλή: Ο συνδυασμός boxplot + jitter είναι εξαιρετικά χρήσιμος για: - Μικρά έως μεσαία σύνολα δεδομένων: Μπορείτε να δείτε κάθε σημείο - Ανίχνευση ακραίων τιμών: Βλέπετε ποια σημεία είναι ακραία - Κατανόηση κατανομής: Συνδυάζονται στατιστικά + λεπτομέρειες

16. Ας χωρίσουμε τη μέση επίδοση (GPA) σε τρεις ομάδες—χαμηλή, μεσαία και υψηλή—και στη συνέχεια να δημιουργήσουμε ένα διαιρεμένο ιστόγραμμα. Τι ταιριάζει στα κενά στον ακόλουθο κώδικα;

SleepStudy$GPA3Group <- ntile(_____, 3)

gf_dhistogram(~ Happiness, data = _____) %>%
  gf_facet_grid(GPA3Group ~ .)

SleepStudy$GPA; SleepStudy είναι η σωστή απάντηση.

Ανάλυση κάθε κενού:

Πρώτο κενό - στη συνάρτηση ntile():

SleepStudy$GPA3Group <- ntile(SleepStudy$GPA, 3)

Τι κάνει η ntile(): - Παίρνει μια μεταβλητή (στήλη) ως είσοδο - Τη χωρίζει σε n ίσες ομάδες (εδώ 3) - Επιστρέφει αριθμούς 1, 2, 3 που δείχνουν την ομάδα

Γιατί χρειάζεται η SleepStudy$GPA: - Η ntile() χρειάζεται την πραγματική μεταβλητή - Η SleepStudy$GPA επιλέγει τη στήλη GPA από το πλαίσιο δεδομένων - Η συνάρτηση δεν μπορεί να δουλέψει με όλο το πλαίσιο δεδομένων

Δεύτερο κενό - στο data =:

gf_dhistogram(~ Happiness, data = SleepStudy) %>%
  gf_facet_grid(GPA3Group ~ .)

Γιατί χρειαζόμαστε το SleepStudy: - Το data = παίρνει ένα ολόκληρο πλαίσιο δεδομένων - Το SleepStudy περιέχει όλες τις μεταβλητές (Happiness και GPA3Group) - Δεν χρειαζόμαστε την SleepStudy$GPA εδώ γιατί το πλαίσιο δεδομένων έχει ήδη τη νέα στήλη

Τι κάνει ο πλήρης κώδικας:

1. Δημιουργία ομάδων GPA:

SleepStudy$GPA3Group <- ntile(SleepStudy$GPA, 3)
  • Παίρνει τις τιμές GPA
  • Τις ταξινομεί από χαμηλή σε υψηλή
  • Χωρίζει σε 3 ίσες ομάδες (tertiles)
  • Αναθέτει: 1 = χαμηλό, 2 = μεσαίο, 3 = υψηλό
  • Δημιουργεί νέα στήλη GPA3Group στο SleepStudy

2. Δημιουργία διαγράμματος:

gf_dhistogram(~ Happiness, data = SleepStudy) %>%
  gf_facet_grid(GPA3Group ~ .)
  • Δημιουργεί ιστόγραμμα πυκνότητας πιθανότητας της Happiness
  • Διαιρεί σε 3 μέρη (ένα για κάθε ομάδα της GPA)
  • Επιτρέπει σύγκριση της κατανομής Happiness μεταξύ των επιπέδων της GPA

Γιατί οι άλλες επιλογές είναι λάθος:

Α - SleepStudy$GPA; SleepStudy$GPA: - Το δεύτερο κενό είναι λάθος - data = χρειάζεται το πλαίσιο δεδομένων, όχι μία στήλη - SleepStudy$GPA είναι μόνο ένα διάνυσμα

Β - SleepStudy; SleepStudy: - Το πρώτο κενό είναι λάθος - Η ntile() χρειάζεται μία μεταβλητή, όχι ολόκληρο πλαίσιο δεδομένων - Θα προκαλούσε σφάλμα

Γ - GPA3Group; SleepStudy: - Το πρώτο κενό είναι λάθος - Η GPA3Group δεν υπάρχει ακόμα - τη δημιουργούμε! - Είναι κυκλική λογική

Εναλλακτικός τρόπος με χρήση τελεστή διοχέτευσης:

SleepStudy <- SleepStudy %>%
  mutate(GPA3Group = ntile(GPA, 3))

gf_dhistogram(~ Happiness, data = SleepStudy) %>%
  gf_facet_grid(GPA3Group ~ .)

Ερευνητικό ερώτημα: Αυτός ο κώδικας θα μας βοηθήσει να απαντήσουμε: - Σχετίζεται η ακαδημαϊκή επίδοση (GPA) με την ευτυχία; - Είναι πιο ευτυχισμένοι οι φοιτητές με υψηλότερο GPA; - Πώς διαφέρει η κατανομή της ευτυχίας μεταξύ επιπέδων επίδοσης;

  1. Παρακάτω υπάρχουν δύο σειρές διαιρεμένων ιστογραμμάτων. Αριστερά αναπαρίσταται η ευτυχία (Happiness) ως προς τις κατηγορίες της GPA3Group και δεξιά η ευτυχία ως προς τις κατηγορίες της Stress. Ποια μεταβλητή φαίνεται να εξηγεί καλύτερα τη μεταβλητότητα στην ευτυχία: η GPA3Group ή η Stress; Γιατί πιστεύετε ότι αυτή η μεταβλητή είναι καλύτερη ανεξάρτητη μεταβλητή; (Αναφέρετε χαρακτηριστικά των ιστογραμμάτων για να υποστηρίξετε την απάντησή σας.)
Σχήμα 5.15

18. Δίνεται το διάγραμμα διασποράς μεταξύ της ευτυχίας (Happiness) και της μέσης ακαδημαϊκής επίδοσης (GPA). Ο αριθμητικός μέσος όρος της Happiness υποδεικνύεται με μια μπλε οριζόντια γραμμή. Να σχολιάσετε το διάγραμμα διασποράς για τη σχέση μεταξύ Happiness και GPA; (Υποθέστε ότι η μέγιστη βαθμολογία της Happiness είναι 36.)

Όλα τα παραπάνω είναι η σωστή απάντηση.

Ανάλυση του διαγράμματος διασποράς:

Βασικές παρατηρήσεις: - Μπλε γραμμή: Μέσος όρος Happiness (~26-27) - Εύρος GPA: Περίπου 2.0 έως 4.0 - Εύρος Happiness: 0 έως ~36 - Κατανομή σημείων: Διασκορπισμένα σε όλο το εύρος

Επαλήθευση κάθε πρότασης:

Α - Η πρόβλεψη δεν διαφέρει πολύ - ΣΩΣΤΟ: - Τα σημεία είναι ομοιόμορφα κατανεμημένα σε όλα τα επίπεδα GPA - Δεν υπάρχει εμφανής τάση - Η μπλε γραμμή είναι οριζόντια - ο μέσος όρος είναι σταθερός - Για GPA=2.0 και GPA=4.0, η καλύτερη πρόβλεψη είναι περίπου η ίδια (~26-27)

Β - Η ευτυχία δεν σχετίζεται με την ακαδημαϊκή επίδοση - ΣΩΣΤΟ: - Δεν υπάρχει γραμμική σχέση - Δεν υπάρχει προφανές μοτίβο - τα σημεία είναι τυχαία κατανεμημένα - Η γνώση της ακαδημαϊκής επίδοσης δεν βοηθά στην πρόβλεψη της ευτυχίας - Τα δύο μεγέθη μεταβάλλονται ανεξάρτητα το ένα από το άλλο

Γ - Περισσότερα άτομα πάνω από 20 - ΣΩΣΤΟ: - Η πλειονότητα των σημείων είναι πάνω από τη γραμμή 20 - Λίγα σημεία κάτω από 20 - Η κατανομή είναι ασύμμετρη προς τα πάνω

Στατιστική ερμηνεία:

Έλλειψη συσχέτισης: - H ακαδημαϊκή επίδοση δεν εξηγεί τη μεταβλητότητα στην ευτυχία - Το “άλλα πράγματα” στην εξίσωση Happiness = GPA + άλλα πράγματα είναι πολύ μεγάλο

19. Αποφασίζετε να πραγματοποιήσετε μια μελέτη σε προπτυχιακούς φοιτητές από τη σχολή σας σχετικά με την κατανάλωση ενεργειακών ποτών. Επιλέγετε τους συμμετέχοντες τυχαία από μια λίστα με τους αριθμούς μητρώου των ενεργών φοιτητών. Μόλις επιλεγούν, τους χωρίζετε τυχαία σε δύο ομάδες ώστε κάθε ομάδα να καταναλώνει εβδομαδιαίως ένα από δύο διαφορετικά ενεργειακά ποτά, καθ’ όλη τη διάρκεια του ακαδημαϊκού εξαμήνου. Το πρώτο βήμα είναι παράδειγμα _____ και το δεύτερο είναι παράδειγμα _____.

Τυχαίας επιλογής (Random selection); τυχαίας ανάθεσης (Random assignment) είναι η σωστή απάντηση.

Ανάλυση κάθε βήματος:

Πρώτο βήμα - Τυχαία επιλογή (Random Selection): - Τι γίνεται: “Επιλέγετε συμμετέχοντες επιλέγοντας τυχαία αριθμούς μητρώου” - Από πού: Από όλους τους ενεργούς φοιτητές - Σκοπός: Να πάρετε ένα αντιπροσωπευτικό δείγμα από τον φοιτητικό πληθυσμό - Όφελος: Εξωτερική εγκυρότητα - ώστε να μπορείτε να γενικεύσετε στον πληθυσμό

Δεύτερο βήμα - Τυχαία ανάθεση (Random Assignment): - Τι γίνεται: “Αναθέτετε τυχαία τους φοιτητές σε μία από δύο ομάδες (κατανάλωση διαφορετικού ενεργειακού ποτού)” - Σε ποιους: Στους συμμετέχοντες που ήδη επιλέξατε - Σκοπός: Να κατανείμετε τους συμμετέχοντες σε πειραματικές συνθήκες - Όφελος: Εσωτερική εγκυρότητα - μπορείτε να καταλήξετε σε αιτιακά συμπεράσματα

Βασική διάκριση:

Random Selection (Τυχαία επιλογή/δειγματοληψία): - Πότε: Στην αρχή της έρευνας - Ερώτημα: Ποιοι θα συμμετάσχουν στη μελέτη; - Από πού σε πού: Από τον πληθυσμό στο δείγμα - Διασφαλίζει: Αντιπροσωπευτικότητα

Random Assignment (Τυχαία ανάθεση/κατανομή): - Πότε: Μετά την επιλογή δείγματος - Ερώτημα: Ποιοι θα πάρουν ποια παρέμβαση (ενεργειακό ποτό); - Από πού σε πού: Από το δείγμα στις ομάδες - Διασφαλίζει: Ισοδυναμία ομάδων

Διάγραμμα ροής της μελέτης:

Όλοι οι φοιτητές (Πληθυσμός)
         ↓
  [ΤΥΧΑΙΑ ΕΠΙΛΟΓΗ]
         ↓
Επιλεγμένοι συμμετέχοντες (Δείγμα)
         ↓
  [ΤΥΧΑΙΑ ΑΝΑΘΕΣΗ]
       /   \
Ποτό Α   Ποτό Β

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Random assignment; Random selection: - Αντίστροφη σειρά - Δεν μπορείς να κάνεις ανάθεση πριν την επιλογή

Β - Random selection, Random selection: - Το δεύτερο βήμα δεν είναι επιλογή - Ήδη έχεις επιλέξει - τώρα τους κατανέμεις σε ομάδες

Δ - Random assignment, Random assignment: - Το πρώτο βήμα δεν είναι ανάθεση - Επιλέγεις από τον πληθυσμό, δεν κατανέμεις

20. Στη μελέτη σας, δοκιμάσατε δύο μάρκες ενεργειακών ποτών (το SuperBuzz και το StayFocused). Διαπιστώσατε ότι οι φοιτητές που κατανάλωσαν το SuperBuzz αξιολόγησαν τον εαυτό τους ως πιο εγρήγορους κατά μέσο όρο από εκείνους που κατανάλωσαν το StayFocused. Η συγκάτοικός σας υποψιάζεται ότι έχετε εξαπατυθεί από την τυχαιότητα (κάτι που ονομάζεται και Σφάλμα Τύπου Ι). Ποια ακριβώς είναι η ανησυχία της;

Η διαφορά που βρήκατε ήταν αποτέλεσμα της δειγματοληπτικής μεταβλητότητας είναι η σωστή απάντηση.

Τι είναι το Σφάλμα Τύπου Ι:

Ορισμός: - False positive - Ψευδώς θετικό αποτέλεσμα - Συμπεραίνουμε ότι υπάρχει επίδραση όταν στην πραγματικότητα δεν υπάρχει Τι σημαίνει “εξαπάτηση από την τύχη”:

Μεταβλητότητα δειγματοληψίας: - Ακόμη και αν δεν υπάρχει πραγματική διαφορά μεταξύ των ποτών - Η τυχαία επιλογή ατόμων μπορεί να δημιουργήσει διαφορές - Κάποιες φορές το ένα δείγμα θα έχει υψηλότερες τιμές τυχαία - Αυτό είναι φυσιολογικό αποτέλεσμα της τυχαιότητας

Παράδειγμα: Φανταστείτε ότι και τα δύο ποτά είναι ίδια (π.χ., νερό με γεύση): - Κατανέμετε τυχαία 50 άτομα σε κάθε ομάδα - Τυχαία, η ομάδα SuperBuzz μπορεί να έχει περισσότερα άτομα σε μεγαλύτερη εγρήγορση - Βρίσκετε διαφορά, αλλά δεν οφείλεται στο ενεργειακό ποτό - Οφείλεται στην τυχαία κατανομήτων ατόμων

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Όχι αρκετοί συμμετέχοντες: - Αυτό σχετίζεται με κάτι που ονομάζεται Σφάλμα τύπου ΙΙ (false negative) - Μικρό δείγμα → λιγότερη στατιστική ισχύς - Κίνδυνος να σας ξεφύγει μια πραγματική επίδραση - Όχι κίνδυνος να βρείτε ψευδή επίδραση

Β - Η τυχαία επιλογή δεν ήταν τυχαία: - Αυτό θα επηρέαζε την εξωτερική εγκυρότητα - Η ανησυχία της συγκατοίκου είναι για την ύπαρξη επίδρασης, όχι για τη δυνατότητα γενίκευσης

Γ - Η τυχαία ανάθεση δεν ήταν τυχαία: - Η ανησυχία εδώ είναι για τυχαιότητα, όχι για το αν η ανάθεση έγινε τυχαία - Η συγκάτοικος λέει “εξαπατάστε από την τύχη

Σύνδεση με προηγούμενες έννοιες:

Ανακάτεμα/Shuffling: Θυμηθείτε τα ανακατεμένα δεδομένα από το πείραμα φιλοδωρημάτων: - Ακόμη και χωρίς πραγματική επίδραση - Το τυχαίο ανακάτεμα δημιουργούσε διαφορές μεταξύ ομάδων - Αυτό είναι ακριβώς η δειγματοληπτική μεταβλητότητα

Το πλαίσιο δεδομένων NutritionStudy περιέχει δεδομένα για 315 ασθενείς ενός νοσοκομείου που είχαν υποβληθεί σε αφαίρεση μη καρκινικού όγκου μέσω χειρουργικής επέμβασης. Περιλαμβάνει τις ακόλουθες μεταβλητές:

  • Age - Ηλικία του ατόμου (σε έτη)
  • Vitamin - Χρήση βιταμινών: 1=Τακτική, 2=Περιστασιακή, ή 3=Καμία
  • Calories - Αριθμός θερμίδων που καταναλώνονται ημερησίως
  • Fat - Γραμμάρια λίπους που καταναλώνονται ημερησίως
  • Fiber - Γραμμάρια φυτικών ινών που καταναλώνονται ημερησίως
  • Alcohol - Αριθμός αλκοολούχων ποτών που καταναλώνονται εβδομαδιαίως
  • Cholesterol - Χοληστερόλη που καταναλώνεται ημερησίως, σε mg
  • Gender - Κωδικοποιημένο ως Γυναίκα (Female) ή Άνδρας (Male)
  • EverSmoke - Κατάσταση καπνίσματος: Ποτέ (Never), Πρώην (Former), ή Τωρινός (Current)

Ακολουθεί το αποτέλεσμα από την εκτέλεση της head(NutritionStudy):

  Age Vitamin Calories  Fat Fiber Alcohol Cholesterol Gender EverSmoke
1  64       1   1298.8 57.0   6.3     0.0       170.3 Female    Former
2  76       1   1032.5 50.1  15.8     0.0        75.8 Female     Never
3  38       2   2372.3 83.6  19.1    14.1       257.9 Female    Former
4  40       3   2449.5 97.5  26.5     0.5       332.6 Female    Former
5  72       1   1952.1 82.6  16.2     0.0       170.8 Female     Never
6  40       3   1366.9 56.0   9.6     1.3       154.6 Female    Former

21. Χρησιμοποιήστε το παραπάνω παράθυρο κώδικα για να κατασκευάσετε ένα διαιρεμένο ιστόγραμμα πυκνότητας πιθανότητας της κατανάλωσης λίπους (Fat) ανά κατάσταση καπνίσματος (EverSmoke) στο πλαίσιο δεδομένων NutritionStudy. Ποια από τις τρεις ομάδες της κατάστασης καπνίσματος μοιάζει με το παρακάτω ιστόγραμμα;

Ασθενείς που ΚΑΠΝΙΖΟΥΝ ΤΩΡΑ (Current) είναι η σωστή απάντηση.

Κώδικας για το ιστόγραμμα:

gf_dhistogram(~ Fat, data = NutritionStudy) %>%
  gf_facet_grid(EverSmoke ~ .)

Σύγκριση των τριών ιστογραμμάτων:

Never (Ποτέ καπνιστές) - Πάνω ιστόγραμμα: - Σχήμα: Ασύμμετρη κατανομή με κορυφή γύρω στα 50-60g λίπους - Εύρος: Κυρίως 20-140g, με λίγες ακραίες τιμές - Χαρακτηριστικά: Πιο συγκεντρωμένη κατανομή στις χαμηλότερες τιμές

Former (Πρώην καπνιστές) - Μεσαίο ιστόγραμμα: - Σχήμα: Παρόμοιο με Never, αλλά με μεγαλύτερη διασπορά - Εύρος: 20-200g περίπου - Χαρακτηριστικά: Πιο ευρεία κατανομή

Current (Τρέχοντες καπνιστές) - Κάτω ιστόγραμμα: - Σχήμα: Πολύ ανώμαλη και ευρεία κατανομή - Εύρος: Μεγάλη διασπορά από πολύ χαμηλά έως πολύ υψηλά - Χαρακτηριστικά: - Κορυφή γύρω στα 50g - Δεύτερη κορυφή γύρω στα 120-130g (bimodal) - Πολύ ανώμαλη - λιγότερο ομαλή από τις άλλες

Το αρχικό ιστόγραμμα της ερώτησης: Κοιτάζοντας το ιστόγραμμα που δόθηκε αρχικά: - Χαμηλή μέγιστη πυκνότητα (~0.025) - Ευρεία κατανομή - Ανώμαλο σχήμα

Αυτά τα χαρακτηριστικά ταιριάζουν με το κάτω ιστόγραμμα (Current).

22. Κάποιος διατύπωσε την υπόθεση ότι οι νεότεροι άνθρωποι πίνουν περισσότερο αλκοόλ από τους μεγαλύτερους. Βάσει του διαγράμματος διασποράς του αριθμού αλκοολούχων ποτών την εβδομάδα ανά ηλικία, ποια από τις ακόλουθες παρατηρήσεις είναι αληθής;

Οι περισσότεροι άνθρωποι δεν πίνουν περισσότερα από πέντε ποτά την εβδομάδα είναι η σωστή απάντηση.

Ανάλυση του διαγράμματος διασποράς:

Βασικές παρατηρήσεις: - Συγκέντρωση στο μηδέν: Η συντριπτική πλειονότητα των σημείων είναι στο ή κοντά στο 0 - Λίγες ακραίες τιμές: Μερικά σημεία σε υψηλότερες τιμές (ένα στο ~200!) - Εύρος ηλικιών: Περίπου 20-90 χρόνια - Κατανομή: Πολύ ασύμμετρη - οι περισσότεροι στις χαμηλές τιμές

Επαλήθευση κάθε πρότασης:

Α - Οι περισσότεροι <5 ποτά/εβδομάδα - ΣΩΣΤΟ: - Η συντριπτική πλειονότητα των σημείων είναι κάτω από 5 - Πολλοί είναι στο 0 (καθόλου αλκοόλ) - Μόνο λίγα σημεία πάνω από 5 - Αυτή η παρατήρηση είναι σαφώς αληθής

Β - Μεγαλύτεροι πίνουν περισσότερο - ΛΑΘΟΣ: - Δεν υπάρχει εμφανής τάση με την ηλικία - Τα υψηλότερα σημεία είναι σε διάφορες ηλικίες - Δεν υπάρχει ανοδική γραμμή με την ηλικία - Αν υπήρχε τάση, θα ήταν ελαφρά καθοδική (λιγότερο αλκοόλ με την ηλικία)

Γ - Δεν ποικίλλει στο δείγμα - ΛΑΘΟΣ: - Υπάρχει σαφής μεταβλητότητα - Από 0 έως >200 ποτά/εβδομάδα - Διαφορετικά άτομα έχουν πολύ διαφορετικές συνήθειες - Η ύπαρξη ακραίων τιμών δείχνει μεταβλητότητα

Σχετικά με την αρχική υπόθεση: Η υπόθεση ότι “οι νεότεροι πίνουν περισσότερο” δεν υποστηρίζεται από αυτά τα δεδομένα: - Δεν υπάρχει σαφής σχέση μεταξύ ηλικίας και κατανάλωσης αλκοόλ - Οι υψηλές τιμές εμφανίζονται σε όλες τις ηλικίες - Οι χαμηλές τιμές (0) είναι επίσης σε όλες τις ηλικίες

Για την ερμηνεία των δεδομένων: - Οι ακραίες τιμές (π.χ., 200 ποτά/εβδομάδα = ~29/ημέρα) μπορεί να είναι: - Σφάλματα δεδομένων - Διαταραχή χρήσης αλκοόλ που χρειάζεται βοήθεια από ειδικό - Ακραίες περιπτώσεις που δεν αντιπροσωπεύουν τυπική συμπεριφορά

23. Βάσει των δεδομένων που εμφανίζονται στο παρακάτω διάγραμμα, μπορούμε να συμπεράνουμε ότι το κάπνισμα προκαλεί αλλαγές στην κατανάλωση λίπους;

Όχι, επειδή αυτά τα δεδομένα είναι αποτέλεσμα μιας συσχετιστικής μελέτης, όχι μιας πειραματικής μελέτης είναι η σωστή απάντηση.

Βασική αρχή: Συσχέτιση ≠ Σχέση αιτίας - αποτελέσματος

Γιατί δεν μπορούμε να συμπεράνουμε αιτιότητα:

Τύπος μελέτης: - Αυτά είναι δεδομένα παρατήρησης - Δεν υπήρξε τυχαία ανάθεση σε ομάδες καπνιστών/μη καπνιστών - Οι άνθρωποι επέλεξαν μόνοι τους αν θα καπνίσουν - Δεν χειραγωγήσαμε την ανεξάρτητη μεταβλητή

Πρόβλημα cσυγχυτικών παραγόντων: Πολλοί άλλοι παράγοντες μπορεί να εξηγούν τη σχέση: - Κοινωνικοοικονομικό επίπεδο: Μπορεί να επηρεάζει και το κάπνισμα και τις διατροφικές επιλογές - Στρες: Μπορεί να οδηγεί και σε κάπνισμα και σε αλλαγές στη διατροφή - Εκπαίδευση: Συσχετίζεται με υγιεινές συνήθειες γενικότερα - Γενετικοί παράγοντες: Μπορεί να επηρεάζουν τόσο τον εθισμό όσο και τις προτιμήσεις τροφής - Άλλες συμπεριφορές: Άσκηση, ύπνος, άλλες συνήθειες υγείας

Πιθανές εναλλακτικές εξηγήσεις: 1. Αντίστροφη αιτιότητας: Ίσως η διατροφή επηρεάζει το κάπνισμα (όχι το αντίστροφο) 2. Τρίτη μεταβλητή: Κάτι άλλο προκαλεί και τα δύο 3. Τυχαίο: Μπορεί να μην υπάρχει καμία πραγματική σχέση

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Ψέματα για το κάπνισμα: - Αυτό είναι σφάλμα μέτρησης - πρόβλημα εγκυρότητας - Όχι ο κύριος λόγος που δεν μπορούμε να συμπεράνουμε αιτιότητα - Ακόμη και με τέλεια μέτρηση, εξακολουθεί να είναι μελέτη συσχέτισης

Β - Ναι, είναι σαφές: - Λάθος - δεν μπορούμε να συμπεράνουμε αιτιότητα - Στην πραγματικότητα, το boxplot δεν δείχνει μεγάλες διαφορές - Οι διαμέσοι είναι παρόμοιες (~65-75g) - Υπάρχει μεγάλη επικάλυψη μεταξύ των ομάδων

Δ - Το λίπος δεν προκαλείται από τίποτα: - Λάθος - η κατανάλωση λίπους έχει αιτίες - Επηρεάζεται από πολλούς παράγοντες - Όχι ο σωστός λόγος για αυτή την ερώτηση

Πώς θα μπορούσαμε να εξετάσουμε αιτιότητα:

Πειραματικός σχεδιασμός (θεωρητικά - όχι ηθικά αποδεκτός!): 1. Τυχαία επιλογή συμμετεχόντων 2. Τυχαία ανάθεση σε: - Ομάδα Α: Υποχρέωση να καπνίσουν - Ομάδα Β: Απαγόρευση καπνίσματος 3. Μέτρηση κατανάλωσης λίπους

Γιατί αυτό δεν γίνεται: - Ανήθικο - δεν μπορούμε να αναγκάσουμε ανθρώπους να καπνίσουν - Επιβλαβές - το κάπνισμα είναι γνωστό καρκινογόνο - Παραβίαση δικαιωμάτων - δεν μπορούμε να απαγορεύσουμε σε ενήλικες

Τι μας λένε τα δεδομένα:

Από το boxplot: - Never: Διάμεσος ~65g, IQR ~50-85g - Former: Διάμεσος ~75g, IQR ~55-100g - Current: Διάμεσος ~75g, IQR ~55-115g

Παρατηρήσεις: - Μικρές διαφορές στις κεντρικές τάσεις - Μεγάλη επικάλυψη μεταξύ ομάδων - Μερικές ακραίες τιμές σε όλες τις ομάδες - Δεν είναι σαφές ότι υπάρχει ισχυρή σχέση

24. Πού θα κοιτάζατε σε αυτό το boxplot για να δείτε τη μεταβλητότητα εντός των ομάδων στην κατανάλωση λίπους;

Κάθετα, μέσα σε κάθε boxplot είναι η σωστή απάντηση.

Μεταβλητότητα εντός ομάδας στα boxplot:

Τι δείχνει το κάθετο ύψος: Το κάθετο εύρος ενός boxplot δείχνει πόσο ποικίλλουν οι τιμές μέσα στην ίδια ομάδα:

Γιατί οι άλλες επιλογές είναι λάθος:

Α - Οριζόντια, κατά μήκος του x: - Ο άξονας x δείχνει τις κατηγορίες (Never, Former, Current) - Δεν υπάρχει μεταβλητότητα εντός κατηγορίας στον x-άξονα - Κάθε boxplot είναι κεντραρισμένο στην κατηγορία του

Β - Μόνο στα ιστογράμματα: - Λάθος - τα boxplot δείχνουν μεταβλητότητα εντός ομάδας - Απλώς τη δείχνουν διαφορετικά από τα ιστογράμματα - Boxplot: Συνοπτικά στατιστικά (διάμεσος, τεταρτημόρια) - Ιστογράμματα: Πλήρης κατανομή

Δ - Μεταξύ των τριών κουτιών: - Αυτό δείχνει μεταβλητότητα μεταξύ ομάδων - Όχι εντός κάθε ομάδας - Διαφορετική έννοια

Σύγκριση μεταβλητότητας εντός vs μεταξύ:

Εντός ομάδας (Within-group): - Πόσο διαφέρουν τα άτομα μέσα στην ίδια ομάδα - Κοιτάζουμε κάθετα σε ένα boxplot - Μετριέται με IQR, range, κλπ.

Μεταξύ ομάδων (Between-group): - Πόσο διαφέρουν οι μέσες τιμές των ομάδων - Συγκρίνουμε μεταξύ των boxplots - Κοιτάζουμε τις διαφορές στις διαμέσους

Τι μας λέει η μεταβλητότητα εντός ομάδας:

25. Παρακάτω υπάρχουν boxplot των θερμίδων (Calories) που καταναλώνονται ημερησίως ανά φύλο (Gender). Στα δεξιά βλέπετε την κατανομή για τους άνδρες. Τα δύο ορθογώνια που συνθέτουν το “κουτί” του διαγράμματος έχουν διαφορετικά ύψη. Τι σημαίνει αυτό;

Η κατανομή των θερμίδων (Calories) που καταναλώνονται από τους άνδρες είναι ασύμμετρη είναι η σωστή απάντηση.

Ανάλυση του boxplot για άνδρες:

Παρατήρηση της δομής: Στο boxplot των ανδρών βλέπουμε: - Κάτω ορθογώνιο (Q1 έως διάμεσος): Μικρότερο ύψος (~1800-2000) - Πάνω ορθογώνιο (διάμεσος έως Q3): Μεγαλύτερο ύψος (~2000-2500) - Διάμεσος: Περίπου 2000 θερμίδες

Τι σημαίνει αυτό: Όταν το πάνω ορθογώνιο είναι μεγαλύτερο από το κάτω: - Η κατανομή είναι θετικά ασύμμετρη (positively skewed / right-skewed) - Οι τιμές πάνω από τη διάμεσο είναι πιο διασκορπισμένες - Υπάρχει μακριά ουρά προς τις υψηλές θερμίδες - Κάποιοι άνδρες καταναλώνουν πολύ περισσότερες θερμίδες από τη διάμεσο

Σύγκριση με γυναίκες: Το boxplot των γυναικών: - Έχει πιο ισομερή ορθογώνια - Πιο συμμετρική κατανομή - Ακραίες υψηλές τιμές (~3200-4500) - Γενικά χαμηλότερες θερμίδες (διάμεσος ~1700)

Γιατί οι άλλες επιλογές είναι λάθος:

Β - Περισσότεροι άνδρες πάνω από τη διάμεσο: - Πάντα το 50% είναι πάνω από τη διάμεσο - Και το 50% κάτω - αυτός είναι ο ορισμός - Δεν εξαρτάται από το ύψος των ορθογωνίων

Γ - Περισσότεροι άνδρες στο πάνω ορθογώνιο: - Πάντα το 25% βρίσκεται σε κάθε τεταρτημόριο - Το ύψος δείχνει διασπορά τιμών, όχι πλήθος ατόμων

Δ - Σφάλμα στα δεδομένα: - Διαφορετικά ύψη είναι φυσιολογικά - Δείχνουν το πραγματικό σχήμα της κατανομής

26. Σε μια μελέτη που σχεδιάστηκε για να ανακαλύψει αν οι συνήθειες καπνίσματος εξηγούν τη μεταβλητότητα στην κατανάλωση λίπους, η _______ θα ήταν η εξαρτημένη μεταβλητή και η ______ θα ήταν η ανερξάρτητη μεταβλητή.

Fat; EverSmoke είναι η σωστή απάντηση.

Ανάλυση του ερευνητικού ερωτήματος:

Το ερώτημα είναι: “Εξηγούν οι συνήθειες καπνίσματος τη μεταβλητότητα στην κατανάλωση λίπους;”

Αναγνώριση ρόλων: - Εξαρτημένη μεταβλητή: Αυτό που προσπαθούμε να εξηγήσουμε = Fat - Ανεξάρτητη μεταβλητή: Αυτό που χρησιμοποιούμε για εξήγηση = EverSmoke

Λεκτική εξίσωση:

Fat = EverSmoke + Άλλα πράγματα
 ↓           ↓
Εξαρτημένη  Ανεξάρτητη

Γιατί αυτή η σειρά: Διερευνούμε: Πώς το κάπνισμα σχετίζεται με τη διατροφή - Υποθέτουμε ότι το κάπνισμα μπορεί να επηρεάζει τις διατροφικές επιλογές - Θέλουμε να δούμε αν η κατανάλωση λίπους ποικίλλει ανάλογα με την κατάσταση καπνίσματος

Γιατί οι άλλες επιλογές είναι λάθος:

Α - EverSmoke; η αιτία της λιπαρής διατροφής: - Αντίστροφη σειρά - το EverSmoke δεν είναι η εξαρτημένη μεταβλητή - Η “αιτία της λιπαρής διατροφής” δεν είναι συγκεκριμένη μεταβλητή

Β - Fat; ο ρυθμός κατανάλωσης: - Η εξαρτημένη μεταβλητή είναι σωστή (Fat) - Αλλά “ο ρυθμός κατανάλωσης” δεν είναι η ανεξάρτητη μεταβλητή - Η ανεξάρτητη είναι το EverSmoke

Δ - EverSmoke; Fat: - Εντελώς αντίστροφη σειρά - Θα σήμαινε: “Εξηγεί η κατανάλωση λίπους το κάπνισμα;” - Όχι το ερευνητικό μας ερώτημα

  Gender LarkOwl NumEarlyClass  GPA ClassesMissed CognitionZscore
1      0 Neither             0 3.60             0           -0.26
2      0 Neither             2 3.24             0            1.39
3      0     Owl             0 2.97            12            0.38
4      0    Lark             5 3.76             0            1.39
5      0     Owl             0 3.20             4            1.22
6      1 Neither             0 3.50             0           -0.04
  PoorSleepQuality DepressionScore Stress Happiness AllNighter
1                4               4 normal        28          0
2                6               1 normal        25          0
3               18              18 normal        17          0
4                9               1 normal        32          0
5                9               7 normal        15          0
6                6              14   high        22          0

Ορισμοί μεταβλητών:

  • Gender: Φύλο (1=άνδρας, 0=γυναίκα)
  • LarkOwl: Πρωινός τύπος ή νυχτερινός; Lark (πρωινός), Neither (ούτε-ούτε), ή Owl (νυχτερινός)
  • NumEarlyClass: Αριθμός μαθημάτων την εβδομάδα πριν τις 9 π.μ.
  • GPA: Μέσος όρος ακαδημαϊκής επίδοσης (κλίμακα 0-4)
  • ClassesMissed: Αριθμός μαθημάτων που χάθηκαν σε ένα εξάμηνο
  • CognitionZscore: Σύνοψη επίδοσης σε τεστ γνωστικών δεξιοτήτων (συνεχείς βαθμολογίες από -1 έως +1)
  • PoorSleepQuality: Μέτρο ποιότητας ύπνου (υψηλότερες τιμές = χειρότερος ύπνος)
  • DepressionScore: Μέτρο βαθμού κατάθλιψης
  • Stress: Κωδικοποιημένη βαθμολογία άγχους: normal (φυσιολογικό) ή high (υψηλό)
  • Happiness: Μέτρο βαθμού ευτυχίας (υψηλότερες τιμές = πιο ευτυχισμένοι)
  • AllNighter: Αγρύπνησε όλη τη νύχτα αυτό το εξάμηνο; 0 = όχι ή 1 = ναι

27. Χρησιμοποιήστε την gf_point() για να εξετάσετε τον αριθμό των χρωστούμενων μαθημάτων σε ένα εξάμηνο (ClassesMissed) ανά φύλο (Gender, κωδικοποιημένο 0 για γυναίκες, 1 για άνδρες). Εντοπίστε το άτομο που χρωστούσε τα περισσότερα μαθήματα. Είναι γυναίκα ή άνδρας;

Άνδρας (Male) είναι η σωστή απάντηση.

Κώδικας για το διάγραμμα:

gf_point(ClassesMissed ~ Gender, data = SleepStudy)

Ανάλυση του διαγράμματος:

Παρατηρήσεις: - Αριστερή στήλη (Gender=0, Female): Μέγιστο περίπου 15 μαθήματα - Δεξιά στήλη (Gender=1, Male): Υπάρχει ένα σημείο στο 20 - το υψηλότερο στο διάγραμμα - Ξεκάθαρη ακραία τιμή: Το σημείο στο 20 ξεχωρίζει εμφανώς

Το άτομο που έχασε τα περισσότερα μαθήματα: - Gender: 1 (Άνδρας) - ClassesMissed: 20 μαθήματα - Είναι το μοναδικό σημείο σε αυτό το ύψος - Σαφώς ξεχωρίζει από τους υπόλοιπους

Σύγκριση των δύο φύλων: - Γυναίκες (0): Το υψηλότερο περίπου 15 μαθήματα - Άνδρες (1): Το υψηλότερο 20 μαθήματα - Διαφορά: Ο άνδρας με το μέγιστο χρωστούσε 5+ περισσότερα μαθήματα

28. Δημιουργήστε ένα διάγραμμα jitter για να εξετάσετε τον αριθμό των χρωστούμενων μαθημάτων σε ένα εξάμηνο (ClassesMissed) ανά φύλο (Gender, κωδικοποιημένο 0 για γυναίκες, 1 για άνδρες). Μεταξύ των φοιτητών που δεν έχασαν κανένα μάθημα, υπήρχαν περισσότερες γυναίκες ή περισσότεροι άνδρες;

Γυναίκες (Females) είναι η σωστή απάντηση.

Κώδικας για το διάγραμμα:

gf_jitter(ClassesMissed ~ Gender, data = SleepStudy, height = 0, width = 0.1)

Ανάλυση του διαγράμματος jitter:

Πώς να το προσδιορίσετε: - Κοιτάξτε τη γραμμή ClassesMissed = 0 (κάτω μέρος του γραφήματος) - Στο Gender = 0 (περίπου x=0.0): Πολλά πυκνά σημεία στο μηδέν - Στο Gender = 1 (περίπου x=1.0): Επίσης πολλά σημεία, αλλά λιγότερα από τις γυναίκες

Από το διάγραμμα: - Αριστερά (Gender=0, Females): Μεγάλη συγκέντρωση σημείων στο 0 - Δεξιά (Gender=1, Males): Πολλά σημεία στο 0, αλλά λιγότερα - Σαφής διαφορά: Οι γυναίκες έχουν περισσότερα άτομα με μηδενικά χρωστούμενα

29. Έχετε την υποψία ότι το φύλο (Gender) μπορεί να χρησιμοποιηθεί για να εξηγήσει την ποιότητα ύπνου (PoorSleepQuality). Δημιουργήστε ένα διάγραμμα jitter για να διερευνήσετε αν η υποψία σας ευσταθεί. Ποιο από τα παρακάτω είναι αληθές;

**Το φύλο δεν φαίνεται να εξηγεί σημαντικό μέρος της μεταβλητότητας της ποιότητας ύπνου.

Κώδικας για το διάγραμμα:

gf_jitter(PoorSleepQuality ~ Gender, data = SleepStudy, height = 0, width = 0.1)

Ανάλυση του διαγράμματος jitter:

Τι βλέπουμε: - Αριστερή στήλη (Gender=0, Females): Σημεία κατανεμημένα από ~1 έως ~18 - Δεξιά στήλη (Gender=1, Males): Σημεία κατανεμημένα από ~1 έως ~15 - Μεγάλη επικάλυψη: Οι κατανομές επικαλύπτονται σχεδόν πλήρως - Παρόμοιες πυκνότητες: Τα σημεία φαίνονται ομοιόμορφα κατανεμημένα και στις δύο ομάδες

Κεντρικές τάσεις: Από την οπτική επιθεώρηση: - Οι περισσότερες τιμές για γυναίκες φαίνεται να είναι γύρω στο 5-8 - Οι περισσότερες τιμές για άνδρες φαίνεται να είναι γύρω στο 5-8 - Καμία εμφανής διαφορά στις κεντρικές τάσεις

Συμπέρασμα: Το Gender δεν προβλέπει σημαντικό μέρος της μεταβλητότητας της ποιότητας ύπνου επειδή: - Οι κατανομές είναι πολύ παρόμοιες - Δεν υπάρχει καθαρός διαχωρισμός μεταξύ των ομάδων - Η ατομική μεταβλητότητα εντός κάθε φύλου είναι πολύ μεγαλύτερη από τις διαφορές μεταξύ φύλων

Γιατί οι άλλες επιλογές είναι λάθος:

Β - Το διάγραμμα jitte δεν είναι κατάλληλο διάγραμμα: - Λάθος - το διάγραμμα jitter είναι ιδανικό για αυτή την υπόθεση - Δείχνει όλα τα μεμονωμένα σημεία - Επιτρέπει την άμεση οπτική σύγκριση των κατανομών

Γ - Το φύλο εξηγεί σαφώς…: - Ξεκάθαρα λάθος από το διάγραμμα - Οι κατανομές είναι σχεδόν ίδιες

30. Δημιουργήστε ένα boxplot για να εξετάσετε αν το άγχος (Stress, κωδικοποιημένο ως normal ή high) μπορεί να εξηγήσει τη μεταβλητότητα στην ακαδημαϊκή επίδοση (GPA). Ποιες από τις ακόλουθες δηλώσεις είναι αληθείς;

Η μοναδική ακραία τιμή είναι ένα άτομο με φυσιολογικά επίπεδα άγχους:

Οι συμμετέχοντες με υψηλά επίπεδα άγχους έχουν ελαφρώς υψηλότερη ακαδημαϊκή επίδοση:

Η ακαδημαϊκή επίδοση (GPA) των ατόμων με υψηλά επίπεδα άγχους ποικίλλει σημαντικά περισσότερο από αυτή των ατόμων με φυσιολογικά επίπεδα άγχους:

Κώδικας για το διάγραμμα:

gf_boxplot(GPA ~ Stress, data = SleepStudy)

Οι δύο πρώτες προτάσεις είναι αληθείς.

Ανάλυση του boxplot:

High stress (αριστερά): - Διάμεσος: ~3.3 - IQR: ~3.05-3.65 - Απολήξεις: ~2.5-4.0 - Ακραίες τιμές: Καμία

Normal stress (δεξιά): - Διάμεσος: ~3.2 - IQR: ~3.0-3.5 - Απολήξεις: ~2.3-4.0 - Ακραίες τιμές: Ένα σημείο στο ~2.0

Ανάλυση κάθε πρότασης:

1. Η μοναδική ακραία τιμή είναι στην ομάδα με normal stress - ΣΩΣΤΟ: - Υπάρχει ένα μόνο σημείο κάτω από την απόληξη - Βρίσκεται στην ομάδα normal stress - Είναι στο GPA ~2.0 - Δεν υπάρχουν ακραίες τιμές στην ομάδα high stress

2. High stress → ελαφρώς υψηλότερο GPA - ΣΩΣΤΟ: - Η διάμεσος του high (~3.3) είναι ελαφρώς υψηλότερη από το normal (~3.2), όπως και ολόκληρη η κατανομή του πρώτου σε σχέση με το δεύτερο. - ΣΗΜΕΙΩΣΗ: Αυτό φαίνεται παράδοξο! - Όμως η διαφορά είναι πολύ μικρή - Οι κατανομές επικαλύπτονται σχεδόν ολόκληρες

3. High stress → περισσότερη μεταβλητότητα - ΛΑΘΟΣ: - Τα IQR είναι παρόμοια (~0.6 και για τα δύο) - Το εύρος είναι επίσης παρόμοιο - Δεν υπάρχει σημαντική διαφορά στη διασπορά

31. Δημιουρφήστε ένα boxplot για να δείτε αν σχετίζεται το άγχος (Stress) με το βαθμό κατάθλιψης (DepressionScore). Ποιο από τα παρακάτω είναι αληθές;

Το Q3 για normal stress ≈ Q1 για high stress είναι η σωστή απάντηση.

Κώδικας για το διάγραμμα:

gf_boxplot(DepressionScore ~ Stress, data = SleepStudy)

Ανάλυση του boxplot:

High stress (αριστερά): - Διάμεσος: ~9.5 - Q1: ~5 - Q3: ~15 - Απολήξεις: ~0-28 - Ακραίες τιμές: Καμία

Normal stress (δεξιά): - Διάμεσος: ~2.5 - Q1: ~1 - Q3: ~5 - Απολήξεις: ~0-11 - Ακραίες τιμές: Πολλές (12, 14, 15, 16, 18, 34)

Επαλήθευση των προτάσεων:

Α - Περισσότερη μεταβλητότητα στο normal - ΛΑΘΟΣ: - IQR high: ~10 (15-5) - IQR normal: ~4 (5-1) - Η ομάδα high stress έχει μεγαλύτερη μεταβλητότητα

Β - Το stress δεν εξηγεί την κατάθλιψη - ΛΑΘΟΣ: - Σαφής διαφορά μεταξύ των ομάδων - Η ομάδα high stress έχει πολύ υψηλότερες τιμές - Το stress εξηγεί σημαντικό μέρος της μεταβλητότητας

Γ - Q3 του normal ≈ Q1 του high - ΣΩΣΤΟ: - Q3 του normal: ~5 - Q1 του high: ~5 - Είναι περίπου ίσα! - Αυτό σημαίνει: το 75% των normal έχει DepressionScore ≤ 5, ενώ μόνο το 25% των high έχει ≤ 5

Δ - Περισσότερες ακραίες τιμές στο high - ΛΑΘΟΣ: - Το normal έχει 6 ακραίες τιμές (12-34) - Το high δεν έχει ακραίες τιμές - Αντίθετα από την πρόταση

32. Μπορεί το άγχος (Stress) να είναι προβλεπτικός παράγοντας της ευτυχίας (Happiness); Τι βλέπετε στο boxplot;

Κώδικας για το διάγραμμα:

gf_boxplot(Happiness ~ Stress, data = SleepStudy)

Υπάρχουν περισσότερες ακραίες τιμές στο normal stress είναι η σωστή απάντηση.

Ανάλυση του boxplot:

High stress (αριστερά): - Διάμεσος: ~25 - IQR: ~19-28.5 (εύρος ~9.5) - Απολήξεις: ~11-33 - Ακραίες τιμές: Μία στο 0

Normal stress (δεξιά): - Διάμεσος: ~28 - IQR: ~26-30 (εύρος ~4) - Απολήξεις: ~18-35 - Ακραίες τιμές: Έξι σημεία (5, 14, 15, 16, 16, 17)

Επαλήθευση των προτάσεων:

Α - Το stress δεν προβλέπει την ευτυχία - ΛΑΘΟΣ: - Υπάρχει διαφορά στις διαμέσους (~25 vs ~28) - Η ομάδα high stress τείνει να έχει χαμηλότερα επίπεδα ευτυχίας - Η σχέση είναι εμφανής, αν και όχι τόσο ισχυρή όσο με την κατάθλιψη

Β - Περισσότερες ακραίες τιμές στην ομάδα normal stress - ΣΩΣΤΟ: - Normal stress: 6 ακραίες τιμές - High stress: 1 ακραία τιμή - Σαφής διαφορά

Γ - Μικρότερη μεταβλητότητα στην ομάδα high stress - ΛΑΘΟΣ: - IQR high: ~9.5 - IQR normal: ~4 - Η ομάδα high stress έχει μεγαλύτερη μεταβλητότητα (διπλάσιο IQR)

33. Δημιουργήστε ένα διάγραμμα διασποράς για να εξερευνήσετε τη σχέση μεταξύ ακαδημαϊκής επίδοσης (GPA) και ευτυχίας (Happiness) μεταξύ των συμμετεχόντων στη SleepStudy. Τι ισχύει από τα παρακάτω;

Όλα τα παραπάνω είναι αληθή.

Κώδικας για το γράφημα:

gf_point(Happiness ~ GPA, data = SleepStudy)

Ανάλυση του διαγράμματος διασποράς:

Τι βλέπουμε: - Διάσπαρτα σημεία χωρίς σαφές μοτίβο - Καμία εμφανής γραμμική σχέση μεταξύ GPA και Happiness - Σημεία σε όλα τα επίπεδα ευτυχίας για κάθε επίπεδο GPA - Μεγάλη μεταβλητότητα στην ευτυχία σε κάθε επίπεδο GPA

Επαλήθευση κάθε πρότασης:

Α - Το GPA δεν προβλέπει την ευτυχία - ΣΩΣΤΟ: - Δεν υπάρχει ισχυρή συσχέτιση - Τα σημεία είναι τυχαία κατανεμημένα - Άτομα με υψηλό GPA έχουν διαφορετικά επίπεδα ευτυχίας σε όλο το εύρος (από ~5 έως ~35) - Άτομα με χαμηλό GPA επίσης έχουν επίπεδα ευτυχίας σε όλο το εύρος

Β - Χαμηλό GPA ≠ χαμηλή ευτυχία - ΣΩΣΤΟ: - Υπάρχουν σημεία με GPA ~2.0 και Happiness ~24 - Οι φοιτητές με τα χαμηλότερα GPA (2.0-2.5) αναφέρουν επίπεδα ευτυχίας από 19 έως 31 - Δεν είναι οι λιγότερο ευτυχισμένοι

Γ - Υψηλό GPA ≠ υψηλή ευτυχία - ΣΩΣΤΟ: - Υπάρχουν σημεία με GPA ~4.0 και Happiness ~5 - Υπάρχουν σημεία με GPA ~3.8 και Happiness ~13-18 - Οι φοιτητές με τα υψηλότερα GPA (3.8-4.0) έχουν αναφέρουν επίπεδα ευτυχίας από 15 έως 33 - Τεράστια μεταβλητότητα ακόμα και στους άριστους