11Κεφάλαιο: Η Λογική της Στατιστικής Συμπερασματολογίας
«Όψις γάρ των αδήλων τα φαινόμενα.» — Αναξαγόρας
Έως αυτό το σημείο, έχετε αποκτήσει σημαντικά εφόδια στην ανάλυση δεδομένων. Εξοικειωθήκατε με την έννοια της κατανομής και μελετήσατε δύο από τους τρεις πυλώνες της στατιστικής:
Την κατανομή των δεδομένων του δείγματος (αυτό που παρατηρούμε).
Την κατανομή του πληθυσμού, η οποία εκφράζει την υποκείμενη Διαδικασία Παραγωγής των Δεδομένων (ΔΠΔ).
Μάθατε πώς να ορίζετε και να προσαρμόζετε στατιστικά μοντέλα (όπως το Γενικό Γραμμικό Μοντέλο), πώς να ποσοτικοποιείτε την ποιότητα προσαρμογής τους ελαχιστοποιώντας το σφάλμα, και πώς να συγκρίνετε διαφορετικά μοντέλα για να κάνετε προβλέψεις που βελτιώνουν την κατανόηση της ΔΠΔ.
Ωστόσο, η βέλτιστη προσαρμογή ενός μοντέλου στα δεδομένα μας δεν λύνει το βασικό μας πρόβλημα: δεν γνωρίζουμε με βεβαιότητα πόσο καλά το μοντέλο αυτό αντιπροσωπεύει την πραγματική ΔΠΔ. Γνωρίζουμε πώς συμπεριφέρεται το μοντέλο μας και οι εκτιμητές του (όπως το \(b_0\) και το \(b_1\)) σε σχέση με το συγκεκριμένο δείγμα που έχουμε στα χέρια μας, αλλά η αβεβαιότητα παραμένει για τον ευρύτερο πληθυσμό και τις πραγματικές παραμέτρους (\(\beta_0\) και \(\beta_1\)) από τις οποίες προήλθαν αυτά τα δεδομένα.
Σε αυτό το μέρος του βιβλίου, μεταβαίνουμε από την περιγραφή στην συμπερασματολογία. Θα εξετάσουμε πώς οι επιστήμονες αξιολογούν την αξιοπιστία των μοντέλων τους και πώς ποσοτικοποιούν το σφάλμα που περιβάλλει τις εκτιμήσεις των παραμέτρων.
Η λύση σε αυτό το πρόβλημα βασίζεται στην ολοκλήρωση της «Τριάδας των Κατανομών» με την εισαγωγή της δειγματοληπτικής κατανομής (ή κατανομής των εκτιμήσεων).
Τύπος Κατανομής
Αντικείμενο
Κατάσταση
Κατανομή Δείγματος
Παρατηρήσεις στα δεδομένα μας
Πραγματική και Γνωστή
Κατανομή Πληθυσμού (ΔΠΔ)
Η υποκείμενη αλήθεια που αναζητάμε
Πραγματική αλλά Άγνωστη
Δειγματοληπτική Κατανομή
Στατιστικές εκτιμήσεις (π.χ. μέσοι όροι ή κλίσεις \(b_1\))
Υποθετική / «Φανταστική»
Ενώ οι δύο πρώτες κατανομές αφορούν στις γνωστές και άγνωστες παρατηρήσεις, η δειγματοληπτική κατανομή είναι ένα κατασκεύασμα της στατιστικής συλλογιστικής. Απαιτεί από εμάς να κάνουμε υποθετικά σενάρια, ρωτώντας:
«Τι θα συνέβαινε αν επαναλαμβάναμε τη διαδικασία δειγματοληψίας άπειρες φορές;»
11.1 Το Πρόβλημα της Στατιστικής Συμπερασματολογίας
Σε προηγούμενα κεφάλαια, μάθατε πώς να ορίζετε και να προσαρμόζετε στατιστικά μοντέλα σε δεδομένα, και πώς να χρησιμοποιείτε τη σημειογραφία του Γενικού Γραμμικου Μοντέλου (GLM) για να αναπαραστήσετε αυτά τα μοντέλα (π.χ., \(Y_i = b_0 + b_1 X_i + e_i\)). Τέτοια μοντέλα πράγματι μπορεί να είναι τα βέλτιστα που προσαρμόζονται στα δεδομένα μας, αλλά τα δεδομένα μας δεν είναι πάντα αντιπροσωπευτικά της διαδικασίας παραγωγής τους.
Αυτό που μας ενδιαφέρει στην πραγματικότητα είναι να εντοπίσουμε το καλύτερο μοντέλο για τη ΔΠΔ (π.χ., \(Y_i = \beta_0 + \beta_1 X_i + \epsilon_i\)). Ένα πιο σύνθετο μοντέλο είναι πάντα ένα καλύτερο μοντέλο για τα δεδομένα, αλλά είναι και καλύτερο μοντέλο για τη ΔΠΔ συγκριτικά με το κενό μοντέλο; Ποιες είναι οι πραγματικές τιμές των \(\beta_i\) και \(\beta_0\);
Δυστυχώς, δεν μπορούμε να υπολογίσουμε απευθείας τις τιμές των παραμέτρων του μοντέλου στη ΔΠΔ. Μπορούμε φυσικά να τις εκτιμήσουμε με τους συντελεστές \(b_0\) και \(b_1\), αλλά δε γνωρίζουμε πόσο ακριβείς είναι αυτές οι εκτιμήσεις. Στα επόμενα κεφάλαια, θα δούμε πώς να καταλήγουμε σε συμπεράσματα για τη ΔΠΔ, βασιζόμενοι σε μοντέλα που έχουμε εκτιμήσει από ένα δείγμα.
Το πώς γεφυρώνουμε το χάσμα ανάμεσα στα δεδομένα μας και τη ΔΠΔ αναφέρεται συχνά ως το πρόβλημα της στατιστικής συμπερασματολογίας (statistical inference). Έχουμε ήδη διερευνήσει άτυπα αυτό το πρόβλημα σε προηγούμενα κεφάλαια. Γνωρίζουμε ότι η ίδια ΔΠΔ μπορεί να παράγει πολλά διαφορετικά δείγματα. Κατά τον ίδιο τρόπο, είναι δύσκολο να γνωρίζουμε ακριβώς από ποια ΔΠΔ προήλθε ένα δείγμα. Στα κεφάλαια που ακολουθούν, διερευνούμε πιθανές λύσεις σε αυτό το πρόβλημα, περιγράφοντας τη λογική της στατιστικής συμπερασματολογίας και τα οφέλη που αποκομίζουμε από αυτήν.
Ποια από τις παρακάτω δηλώσεις είναι αληθής;
Επεξήγηση
Σωστή απάντηση: Β — Είτε γνωρίζουμε τη ΔΠΔ είτε όχι, τα δείγματα που παράγονται από μια ΔΠΔ θα ποικίλουν.
Τι είναι η Διαδικασία Παραγωγής Δεδομένων (ΔΠΔ);
Η ΔΠΔ είναι η πραγματική, υποκείμενη διαδικασία που παράγει τα δεδομένα που παρατηρούμε. Σκεφτείτε την ως:
Το πραγματικό μοντέλο της φύσης ή του φαινομένου που μελετάμε
Τη θεωρητική κατανομή από την οποία προέρχονται οι παρατηρήσεις μας
Τις πραγματικές παραμέτρους που θέλουμε να ανακαλύψουμε
Παράδειγμα:
Αν μελετάμε το ύψος των ανθρώπων, η ΔΠΔ περιλαμβάνει:
Την πραγματική κατανομή των υψών στον πληθυσμό
Τους πραγματικούς παράγοντες που επηρεάζουν το ύψος (γενετική, διατροφή, κλπ.)
Τον πραγματικό μέσο όρο και τυπική απόκλιση του πληθυσμού
Το θεμελιώδες πρόβλημα της στατιστικής
Το κεντρικό πρόβλημα:
Δεν γνωρίζουμε ποτέ την πραγματική ΔΠΔ. Έχουμε μόνο ένα δείγμα δεδομένων από αυτήν.
Η πρόκληση της συμπερασματολογίας:
Έχουμε: Ένα δείγμα δεδομένων (π.χ., 100 παρατηρήσεις)
Θέλουμε να μάθουμε: Την πραγματική ΔΠΔ (τις πραγματικές παραμέτρους του πληθυσμού)
Το πρόβλημα: Διαφορετικά δείγματα από την ίδια ΔΠΔ θα δώσουν διαφορετικές εκτιμήσεις!
Ανάλυση των επιλογών
Α. “Αν γνωρίζαμε πραγματικά τη ΔΠΔ, τότε τα δείγματα που παράγονται από αυτή τη ΔΠΔ δεν θα ποικίλουν.” — ΛΑΘΟΣ
Γιατί είναι λάθος:
Αυτή η δήλωση συγχέει την ΔΠΔ με τα δείγματα.
Η ΔΠΔ είναι σταθερή και καθορισμένη
Τα δείγματα από τη ΔΠΔ πάντα ποικίλλουν λόγω τυχαίας μεταβλητότητας
Παράδειγμα:
Ας υποθέσουμε ότι γνωρίζουμε την πραγματική ΔΠΔ:
Ρίχνουμε ένα δίκαιο ζάρι (η ΔΠΔ είναι γνωστή: κάθε αριθμός 1-6 έχει πιθανότητα 1/6)
Οι εκτιμήσεις μας πλησιάζουν τις πραγματικές τιμές των παραμέτρων
Η αβεβαιότητα μειώνεται (μικρότερη τυπική απόκλιση)
Τι ΔΕΝ είναι αλήθεια:
Δεν μπορούμε ποτέ να γνωρίζουμε με βεβαιότητα την πραγματική ΔΠΔ, ανεξάρτητα από το μέγεθος του δείγματος!
Γιατί;
Πάντα υπάρχει αβεβαιότητα:
Ακόμα και με 1,000,000 παρατηρήσεις, έχουμε μόνο μια εκτίμηση
Η πραγματική τιμή της παραμέτρου μπορεί να είναι \(\mu = 100.000\) ή \(\mu = 100.001\)
Σφάλμα δειγματοληψίας:
Κάθε δείγμα (ακόμα και μεγάλο) έχει τυχαία μεταβλητότητα
\(\bar{X} \neq \mu\) (ο μέσος του δείγματος ≠ μέσος του πληθυσμού)
Θεωρητικά όρια:
Για να γνωρίζουμε τη ΔΠΔ, θα χρειαζόμασταν άπειρες παρατηρήσεις
Ή θα έπρεπε να παρατηρήσουμε ολόκληρο τον πληθυσμό
Μαθηματική διατύπωση:
Με το Νόμο των Μεγάλων Αριθμών:
\[\bar{X}_n \xrightarrow{n \to \infty} \mu\]
Αυτό σημαίνει:
Καθώς το n → ∞ (τείνει στο άπειρο), ο μέσος όρος του δείγματος συγκλίνει στον πραγματικό μέσο όρο, αλλά ποτέ δεν τον φτάνει με βεβαιότητα για πεπερασμένο n.
Πρακτικό παράδειγμα:
Δείγμα n = 1,000 από \(N(100, 15)\)
\(\bar{X}_{1000} = 99.87\) (πολύ κοντά στο 100!)
Αλλά δε γνωρίζουμε ότι το πραγματικό μ είναι 100
Θα μπορούσε να είναι 99.87, ή 100.13, ή 99.95…
Βασικές έννοιες που πρέπει να θυμάστε
1. ΔΠΔ vs Δείγμα:
ΔΠΔ
Δείγμα
Τι είναι
Η πραγματική διαδικασία
Οι παρατηρήσεις που έχουμε
Παράμετροι
Άγνωστες (μ, σ)
Εκτιμώνται (\(\bar{X}\), s)
Πόσα υπάρχουν
Μία (η αλήθεια)
Άπειρα πιθανά δείγματα
Μεταβλητότητα
Σταθερή
Ποικίλλει (sampling variability)
2. Η τυχαία μεταβλητότητα:
Τα δείγματα πάντα ποικίλλουν, είτε γνωρίζουμε τη ΔΠΔ είτε όχι.
3. Η πρόκληση της συμπερασματολογίας:
Πρέπει να συμπεράνουμε την άγνωστη ΔΠΔ από ένα δείγμα που διαφέρει.
4. Ο ρόλος του μεγέθους του δείγματος:
Μεγαλύτερα δείγματα → Καλύτερες εκτιμήσεις, αλλά όχι απόλυτη γνώση.
Το πρόβλημα:
Έχουμε ένα δείγμα, αλλά θα μπορούσαν να υπάρχουν πολλές πιθανές ΔΠΔ που θα μπορούσαν να το παράγουν!
Συμπέρασμα
Η σωστή απάντηση είναι Β:
Είτε γνωρίζουμε τη ΔΠΔ είτε όχι, τα δείγματα που παράγονται από μια ΔΠΔ θα ποικίλουν.
Αυτό συμβαίνει επειδή:
Η τυχαία μεταβλητότητα είναι εγγενής στη δειγματοληψία
Η γνώση της ΔΠΔ δεν εξαλείφει την τυχαιότητα
Κάθε δείγμα είναι μια διαφορετική τυχαία όψη από την ίδια ΔΠΔ
Αυτή η θεμελιώδης αλήθεια είναι η βάση της στατιστικής συμπερασματολογίας:
Επειδή τα δείγματα ποικίλλουν, πρέπει να χρησιμοποιήσουμε στατιστικές μεθόδους για να συμπεράνουμε την άγνωστη ΔΠΔ και να ποσοτικοποιήσουμε την αβεβαιότητα των εκτιμήσεών μας.
Η ομορφιά της στατιστικής:
Παρόλο που δεν μπορούμε ποτέ να γνωρίζουμε την πραγματική ΔΠΔ με βεβαιότητα, μπορούμε να καταλήξουμε με συστηματικό τρόπο σε αξιόπιστα συμπεράσματα για αυτήν!
Μια Νέα Έννοια: Η Δειγματοληπτική Κατανομή
Κλειδί για την επίλυση του προβλήματος της συμπερασματολογίας θα είναι μια νέα και σημαντική έννοια που μας επιτρέπει να παρατηρήσουμε πώς μπορεί να ποικίλλουν διαφορετικά δείγματα που προέρχονται από την ίδια ΔΠΔ και πόσο μπορεί να ποικίλλουν οι εκτιμήσεις των τιμών των παραμέτρων που υπολογίζονται από πολλά διαφορετικά δείγματα. Μπορείτε να σκεφτείτε αυτές τις πολλές εκτιμήσεις των τιμών μιας παραμέτρου ως ένα νέο είδος κατανομής, που ονομάζεται δειγματοληπτική κατανομή (sampling distribution).
Μέχρι αυτό το σημείο, έχουμε εξετάσει δύο ειδών κατανομές: την κατανομή μιας μεταβλητής στο δείγμα και την κατανομή μιας μεταβλητής στη ΔΠΔ (που ονομάζεται και πληθυσμός). Η δειγματοληπτική κατανομή είναι το τρίτο είδος αυτού που αποκαλούμε «Τριάδα των Κατανομών»: η κατανομή των εκτιμήσεων μιας παραμέτρου σε πολλά πιθανά δείγματα, ίδιου μεγέθους, που προέρχονται από μια δεδομένη ΔΠΔ.
Τα δείγματα και οι πληθυσμοί αποτελούνται από υποκείμενα ή αντικείμενα των οποίων τα χαρακτηριστικά μπορούμε να μετρήσουμε (για παράδειγμα, μήκη αντίχειρα ή ύψη μαθητών). Οι δειγματοληπτικές κατανομές, αντιθέτως, αποτελούνται από εκτιμήσεις παραμέτρων που θα μπορούσαμε να υπολογίσουμε για διαφορετικά δείγματα που προέρχονται από την ίδια ΔΠΔ (για παράδειγμα, μια κατανομή μέσων όρων ή μια κατανομή από τιμές \(b_1\)). Σε αυτό το κεφάλαιο, θα εστιάσουμε στη δειγματοληπτική κατανομή του στατιστικού \(b_1\), δηλαδή της εκτίμησης της παραμέτρου \(\beta_1\).
Ποιο από τα παρακάτω ισχύει για τις εκτιμήσεις παραμέτρων;
Επεξήγηση
Σωστή απάντηση: Α — Υπολογίζονται με βάση ένα δείγμα.
Βασικές έννοιες
Παράμετροι (Parameters) vs Εκτιμήσεις Παραμέτρων (Estimates):
Χρησιμοποιούμε αυτά τα στατιστικά ως εκτιμητές των παραμέτρων του πληθυσμού
Παράδειγμα:
# Δείγμα από πληθυσμόsample_data <-data.frame(x =c(2, 5, 7, 9, 12),y =c(3, 8, 10, 14, 18))# Εκτίμηση παραμέτρων από το ΔΕΙΓΜΑmodel <-lm(y ~ x, data = sample_data)coef(model)# (Intercept) x # 0.5238 1.4286 ← Αυτές είναι ΕΚΤΙΜΗΣΕΙΣ των b₀, b₁# Οι ΠΡΑΓΜΑΤΙΚΕΣ παράμετροι (β₀, β₁) του πληθυσμού;# ΑΓΝΩΣΤΕΣ! Χρησιμοποιούμε το δείγμα για να τις εκτιμήσουμε.
Γιατί οι άλλες επιλογές είναι λάθος;
Β. «Υπολογίζονται για κάθε παρατήρηση ξεχωριστά» — ΛΑΘΟΣ
Γιατί είναι λάθος:
Οι εκτιμήσεις παραμέτρων ΔΕΝ υπολογίζονται για κάθε παρατήρηση — υπολογίζονται για ολόκληρο το δείγμα!
Τι υπολογίζεται για κάθε παρατήρηση:
Τιμές πρόβλεψης (\(\hat{y}_i\)): Για κάθε παρατήρηση
Υπόλοιπα (\(e_i = y_i - \hat{y}_i\)): Για κάθε παρατήρηση
Τι εκτιμάται για το δείγμα:
Εκτιμητές παραμέτρων (\(b_0, b_1\)): Μία τιμή για ολόκληρο το δείγμα
Παράδειγμα:
model <-lm(y ~ x, data = data)# ΜΙΑ εκτίμηση για τον σταθερό όρο (για ΟΛΟ το δείγμα)coef(model)[1] # b₀ = 2.5# ΜΙΑ εκτίμηση για την κλίση (για ΟΛΟ το δείγμα)coef(model)[2] # b₁ = 0.8# ΑΛΛΑ: Διαφορετικές προβλέψεις για κάθε παρατήρησηfitted(model)# [1] 3.1 4.7 5.9 8.3 10.1 ← Μία τιμή πρόβλεψης για κάθε παρατήρηση
Γ. «Είναι σχεδόν πάντα ίσες με τις πραγματικές παραμέτρους» — ΛΑΘΟΣ
Γιατί είναι λάθος:
Οι τιμές των εκτιμητών σχεδόν ποτέ δεν είναι ακριβώς ίσες με τις πραγματικές παραμέτρους!
Η πραγματικότητα:
Λόγω δειγματοληπτικής μεταβλητότητας, οι τιμές των εκτιμητών από το δείγμα διαφέρουν από τις πραγματικές παραμέτρους του πληθυσμού.
Οι εκτιμητές παραμέτρων:
Είναι αμερόληπτοι (κατά μέσο όρο ίσοι με την πραγματική τιμή)
Αλλά κάθε μεμονωμένη εκτίμηση διαφέρουν από την πραγματική τιμή
Δ. «Είναι άγνωστες και δεν μπορούν να υπολογιστούν» — ΛΑΘΟΣ
Γιατί είναι λάθος:
Αυτή η δήλωση συγχέει τις τιμές των εκτιμητών παραμέτρων με τις παραμέτρους!
Η σωστή διάκριση:
Παράμετροι πληθυσμού (\(\beta_0, \beta_1, \mu, \sigma\)):
Είναι άγνωστες
Δεν μπορούν να υπολογιστούν (εκτός αν έχουμε ολόκληρο τον πληθυσμό)
Είναι σταθερές
Τιμές εκτιμητών από δείγμα (\(b_0, b_1, \bar{x}, s\)):
Είναι γνωστές
ΜΠΟΡΟΥΝ να υπολογιστούν από το δείγμα
Χρησιμοποιούνται για να προσεγγίσουν τις τιμές των παραμέτρων
Κατά μέσο όρο, οι εκτιμητές ισούνται με την πραγματική παράμετρο.
2. Συνέπεια (Consistency):
Με μεγαλύτερο δείγμα (n → ∞), η τιμή των εκτιμητών πλησιάζει την πραγματική παράμετρο.
3. Αποδοτικότητα (Efficiency):
Η τιμή του εκτιμητή έχει τη μικρότερη δυνατή διακύμανση.
Συμπέρασμα
Οι εκτιμητές παραμέτρων:
Υπολογίζονται με βάση ένα δείγμα και χρησιμοποιούνται για να εκτιμήσουν τις άγνωστες παραμέτρους του πληθυσμού.
Η μεγάλη ιδέα της στατιστικής:
Χρησιμοποιούμε γνωστά στατιστικά από ένα δείγμα για να εξάγουμε συμπεράσματα για άγνωστες παραμέτρους του πληθυσμού.
Απόρριψη του «Κενού» Μοντέλου: Η Βασική Ιδέα
Όταν παρατηρούμε μια διαφορά μεταξύ δύο ομάδων στα δεδομένα μας, μπορεί να μπούμε στον πειρασμό να συμπεράνουμε ότι υπάρχει και διαφορά μεταξύ των δύο ομάδων στην αντίστοιχη ΔΠΔ από την οποία προέρχονται. Δηλαδή, όταν το \(b_1\) είναι διαφορετικό από το μηδέν, μπορεί να οδηγηθούμε στο (εσφαλμένο) συμπέρασμα ότι και το \(\beta_1\) δεν θα είναι μηδέν. Το πρόβλημα με αυτή τη συλλογιστική είναι ότι ακόμα και το «κενό» μοντέλο για τη ΔΠΔ, στο οποίο ισχύει ότι \(\beta_1 = 0\), μπορεί να παράγει δείγματα στα οποία θα υπάρχει διαφορά μεταξύ των δύο ομάδων.
Η βασική ιδέα, που θα αναπτυχθεί σε αυτό το κεφάλαιο, απαιτεί από εσάς να χρησιμοποιήσετε δεξιότητες υποθετικής σκέψης. Χρειάζεται να αναρωτηθείτε: αν υποθέσουμε ότι το «κενό» μοντέλο είναι αυτό που ισχύει στη ΔΠΔ πόσο πιθανό θα ήταν να παρατηρήσουμε το δείγματικό \(b_1\) που βρήκαμε στα δεδομένα μας; Για να απαντήσουμε σε αυτό θα δημιουργήσουμε με την R μια ΔΠΔ όπου \(\beta_1 = 0\), και θα την αφήσουμε να παράγει πολλαπλά πιθανά δείγματα δεδομένων. Θα εξετάσουμε τις τιμές \(b_1\) που προκύπτουν από αυτά τα πολλαπλά δείγματα των προσομοιωμένων δεδομένων και θα διαπιστώσουμε αν τα δικά μας δεδομένα μοιάζουν ή όχι με τα προσομοιωμένα.
Αν μια ΔΠΔ με \(\beta_1 = 0\) παράγει δείγματα που είναι παρόμοια με το δείγμα μας, θα πρέπει να συμπεράνουμε:
Επεξήγηση
Σωστή απάντηση: Α — Ότι η ΔΠΔ με β₁ = 0 θα μπορούσε να έχει παράγει το δειγματικό b₁.
Κατανόηση του συμβολισμού
Πρώτα, ας ξεκαθαρίσουμε τη διαφορά μεταξύ:
β₁: Η πραγματική παράμετρος στη ΔΠΔ (Διαδικασία Παραγωγής Δεδομένων)
Αυτή είναι η πραγματική τιμή που δεν γνωρίζουμε
Σταθερή, αλλά άγνωστη
Παράδειγμα: Η πραγματική επίδραση των ωρών μελέτης στη βαθμολογία σε ένα μάθημα
b₁: Η εκτίμηση της παραμέτρου β₁ από το δείγμα μας
Αυτή είναι η τιμή που υπολογίζουμε από τα δεδομένα μας
Ποικίλλει από δείγμα σε δείγμα
Παράδειγμα: b₁ = 0.45 (η εκτίμηση από το συγκεκριμένο μας δείγμα)
Απλά:
β₁ = Η πραγματικότητα (άγνωστη)
b₁ = Η εκτίμησή μας (γνωστή)
Το πλαίσιο του προβλήματος
Η κατάσταση:
Έχουμε ένα πραγματικό δείγμα από το οποίο υπολογίσαμε b₁ (π.χ., b₁ = 0.45)
Θέλουμε να ελέγξουμε αν η πραγματική παράμετρος στη ΔΠΔ είναι β₁ = 0 (δηλαδή, δεν υπάρχει καμία επίδραση)
Για να το κάνουμε αυτό, προσομοιώνουμε πολλά δείγματα από μια ΔΠΔ όπου β₁ = 0
Η ερώτηση λέει: “Αν είναι εύκολο για αυτή τη ΔΠΔ (με β₁ = 0) να παράγει δείγματα παρόμοια με το δικό μας…”
Τι σημαίνει “εύκολο” και “παρόμοια”;
Εύκολο = Συχνό, πιθανό, όχι σπάνιο
Παρόμοια = Δείγματα που δίνουν τιμές b₁ κοντά στην τιμή που παρατηρήσαμε
Ανάλυση των επιλογών
Α. “Ότι μια ΔΠΔ με β₁ = 0 θα μπορούσε να έχει παράγει το δείγμα μας b₁.” — ΣΩΣΤΟ ✓
Γιατί είναι σωστό:
Αυτή η απάντηση αντικατοπτρίζει την προσεκτική και επιστημονική προσέγγιση:
Χρησιμοποιεί τη λέξη “θα μπορούσε” — δείχνει πιθανότητα, όχι βεβαιότητα
Αναγνωρίζει ότι το β₁ = 0 είναι συμβατό με τα δεδομένα μας
Δεν ισχυρίζεται βεβαιότητα, αλλά δυνατότητα
Η λογική:
Αν είναι εύκολο για τη ΔΠΔ (β₁ = 0) να παράγει παρόμοια δείγματα, τότε:
Η ΔΠΔ αυτή είναι συνεπής με τα δεδομένα μας
Το δείγμα μας θα μπορούσε πιθανώς να προέρχεται από αυτή
Δεν έχουμε αρκετά στοιχεία για να την απορρίψουμε
Β. “Ότι μια ΔΠΔ με β₁ = 0 σίγουρα πρέπει να έχει παράγει το δείγμα μας b₁.” — ΛΑΘΟΣ
Γιατί είναι λάθος:
Αυτή η δήλωση είναι υπερβολικά κατηγορηματική και εσφαλμένη:
Η λέξη “Σίγουρα” είναι πολύ ισχυρή
Δεν μπορούμε ποτέ να είμαστε απόλυτα σίγουροι για την άγνωστη ΔΠΔ
Η λέξη “Πρέπει” υπονοεί αναγκαιότητα
Υπάρχουν πολλές πιθανές ΔΠΔ που θα μπορούσαν να παράγουν το δείγμα μας
Το λογικό σφάλμα:
“Αν μια ΔΠΔ με β₁ = 0 μπορεί να εξηγήσει τα δεδομένα, τότε πρέπει να είναι η αλήθεια.”
Γιατί είναι λάθος:
Πολλές διαφορετικές ΔΠΔ θα μπορούσαν να παράγουν το ίδιο δείγμα
Μια ΔΠΔ με β₁ = 0.1 ή β₁ = 0.2 μπορεί επίσης να είναι συμβατή με τα δεδομένα
Γ. “Ότι είναι αδύνατο μια ΔΠΔ με β₁ = 0 να έχει παράγει το δείγμα μας b₁.” — ΛΑΘΟΣ
Γιατί είναι λάθος:
Αυτή η απάντηση είναι το αντίθετο από αυτό που λέει η ερώτηση!
Η ερώτηση λέει:
“Αν είναι εύκολο για μια ΔΠΔ με β₁ = 0 να παράγει παρόμοια δείγματα…”
Αυτή η απάντηση λέει:
“Είναι αδύνατο για μια ΔΠΔ με β₁ = 0 να έχει παράγει το δείγμα…”
Η αντίφαση:
Αν είναι εύκολο, τότε δεν είναι αδύνατο
Πότε θα ήταν σωστή αυτή η απάντηση;
Αν η εκφώνηση της ερώτησης έλεγε:
“Αν είναι πολύ δύσκολο/σπάνιο για μια ΔΠΔ με β₁ = 0 να παράγει παρόμοια δείγματα…”
Τότε θα συμπεραίναμε:
“Είναι απίθανο (ή ακόμα και ‘σχεδόν αδύνατο’) μια ΔΠΔ με β₁ = 0 να παρήγαγε το δείγμα μας.”
Δ. “Ότι είναι απίθανο μια ΔΠΔ με β₁ = 0 να έχει παράγει το δείγμα μας b₁.” — ΛΑΘΟΣ
Γιατί είναι λάθος:
Όπως και η επιλογή Γ, αυτή η απάντηση αντιφάσκει με την εκφώνηση:
Η εκφώνηση της ερώτησης: “Αν είναι εύκολο…”
Αυτή η απάντηση: “Είναι απίθανο…”
Το λογικό σφάλμα:
Αν κάτι είναι εύκολο (συχνό, πιθανό), δεν μπορεί ταυτόχρονα να είναι απίθανο (σπάνιο)!
Σημείωση για τη λέξη “απίθανο”:
Απίθανο σημαίνει: σπάνιο, χαμηλή πιθανότητα
Αυτό θα ήταν το συμπέρασμα αν η δειγματοληπτική κατανομή έδειχνε ότι το δείγμα μας ήταν σπάνιο
Αλλά η ερώτηση λέει το αντίθετο — ότι είναι εύκολο (συχνό)
Σύνοψη
Η σωστή απάντηση είναι η Α:
“Ότι μια ΔΠΔ με β₁ = 0 θα μπορούσε να έχει παράγει το δείγμα μας b₁.”
Γιατί;
Η ερώτηση λέει ότι είναι εύκολο για ΔΠΔ με β₁ = 0 να παράγει παρόμοια δείγματα
Αν κάτι είναι εύκολο/συχνό, τότε είναι πιθανό και συμβατό
Επομένως, το β₁ = 0 θα μπορούσε (πιθανώς) να είναι η αληθινή παράμετρος
Οι άλλες επιλογές είναι λάθος επειδή:
Β: Είναι υπερβολικά κατηγορηματική (“σίγουρα”, “πρέπει”)
Γ: Αντιφάσκει με την ερώτηση (λέει “αδύνατο” όταν η ερώτηση λέει “εύκολο”)
Δ: Αντιφάσκει με την ερώτηση (λέει “απίθανο” όταν η ερώτηση λέει “εύκολο”)
Το κλειδί:
Η στατιστική συμπερασματολογία αφορά σε πιθανότητα και συμβατότητα, όχι σε απόλυτη βεβαιότητα.
Η μεγάλη εικόνα:
Όπως θα δούμε παρακάτω, χρησιμοποιούμε τη δειγματοληπτική κατανομή για να αξιολογήσουμε αν μια υπόθεση για τη ΔΠΔ είναι εύλογη με βάση τα δεδομένα μας. Αν είναι εύλογη, την κρατάμε ως πιθανή. Αν είναι απίθανη, την απορρίπτουμε και ψάχνουμε για καλύτερες εξηγήσεις.
11.2 Δημιουργία μιας Δειγματοληπτικής Κατανομής
Μια Δεύτερη Ματιά στη Μελέτη για τα Φιλοδωρήματα
Έχουμε εισαγάγει δύο έννοιες που πιθανώς ακούγονται ακόμα αρκετά αφηρημένες: τη δειγματοληπτική κατανομή και την απόρριψη του κενού μοντέλου. Για να γίνουν πιο συγκεκριμένες, ας επιστρέψουμε στη μελέτη για τα φιλοδωρήματα που είχαμε εξετάσει σε προηγούμενο κεφάλαιο.
Στη μελέτη αυτή, οι ερευνητές εξέτασαν αν η προσθήκη ενός ζωγραφισμένου χαμογελαστού προσώπου στην πίσω πλευρά του λογαριασμού θα έκανε τους πελάτες ενός εστιατορίου να αφήνουν μεγαλύτερα φιλοδωρήματα. Κάθε τραπέζι ανατέθηκε τυχαία σε μία από δύο συνθήκες: να λάβει τον λογαριασμό είτε με χαμογελαστό πρόσωπο είτε χωρίς. Η εξαρτημένη μεταβλητή ήταν το ποσό του φιλοδωρήματος που άφησε κάθε τραπέζι.
Ακολουθεί ένα τυχαίο δείγμα έξι παρατηρήσεων από το σύνολο δεδομένων TipExperiment:
sample(TipExperiment, 6)
TableID Tip Condition
20 20 Control
26 44 Smiley Face
19 21 Control
15 25 Control
25 47 Smiley Face
18 21 Control
Ποιες είναι οι παρατηρήσεις σε αυτή τη μελέτη;
Επεξήγηση
Σωστή απάντηση: Α — Τα τραπέζια που ανατέθηκαν τυχαία στη συνθήκη με το χαμογελαστό πρόσωπο ή στην ομάδα ελέγχου.
Τι είναι οι «παρατηρήσεις»;
Στη στατιστική, οι παρατηρήσεις είναι οι μονάδες ανάλυσης — τα αντικείμενα ή οι οντότητες για τις οποίες συλλέγουμε δεδομένα. Κάθε παρατήρηση αντιστοιχεί σε μία γραμμή στο σύνολο δεδομένων μας.
Στη μελέτη για τα φιλοδωρήματα:
Κάθε τραπέζι είναι μία παρατήρηση
Για κάθε τραπέζι καταγράφηκε το φιλοδώρημα που άφησε και η συνθήκη στην οποία ανατέθηκε
Τα τραπέζια ανατέθηκαν τυχαία είτε στην ομάδα με το χαμογελαστό πρόσωπο είτε στην ομάδα ελέγχου
Γιατί οι άλλες επιλογές είναι λάθος:
Β (Σερβιτόροι): Οι σερβιτόροι δεν είναι η μονάδα ανάλυσης. Η μελέτη εξετάζει τα φιλοδωρήματα ανά τραπέζι, όχι ανά σερβιτόρο.
Γ (Οι δύο συνθήκες): Οι συνθήκες είναι τα επίπεδα της ανεξάρτητης μεταβλητής, όχι οι παρατηρήσεις. Έχουμε μόνο 2 συνθήκες, αλλά πολλά τραπέζια.
Δ (Εστιατόρια): Η μελέτη πραγματοποιήθηκε σε ένα ή λίγα εστιατόρια. Τα εστιατόρια δεν είναι η μονάδα στην οποία μετράμε τα φιλοδωρήματα.
Πώς αναγνωρίζουμε τις παρατηρήσεις;
Ρωτήστε: «Για ποιον ή για τι συλλέγω δεδομένα; Τι αντιπροσωπεύει κάθε γραμμή στο σύνολο δεδομένων μου;»
Στο TipExperiment, κάθε γραμμή αντιπροσωπεύει ένα τραπέζι με το δικό του TableID, Tip, και Condition.
Αυτή η μελέτη ήταν ένα πείραμα. Τι σημαίνει αυτό;
Επεξήγηση
Σωστή απάντηση: Β — Οι παρατηρήσεις ανατέθηκαν τυχαία στις συνθήκες.
Τι κάνει μια μελέτη «πείραμα»;
Το βασικό χαρακτηριστικό ενός πειράματος είναι η τυχαία ανάθεση (random assignment). Ο ερευνητής:
Χειρίζεται την ανεξάρτητη μεταβλητή (αποφασίζει ποιες παρατηρήσεις θα λάβουν ποια συνθήκη)
Αναθέτει τυχαία τις παρατηρήσεις στις διάφορες συνθήκες
Γιατί έχει σημασία η τυχαία ανάθεση;
Η τυχαία ανάθεση εξασφαλίζει ότι οι ομάδες είναι συγκρίσιμες πριν την παρέμβαση. Έτσι, αν παρατηρήσουμε διαφορά στα αποτελέσματα, μπορούμε να την αποδώσουμε στην παρέμβαση (το χαμογελαστό πρόσωπο) και όχι σε προϋπάρχουσες διαφορές μεταξύ των ομάδων.
Γιατί οι άλλες επιλογές είναι λάθος:
Α. «Πραγματοποιήθηκε από επαγγελματίες επιστήμονες»
Ο όρος «πείραμα» δεν αναφέρεται στα προσόντα των ερευνητών. Ένα πείραμα ορίζεται από τη μεθοδολογία του, όχι από το ποιος το διεξάγει.
Γ. «Οι παρατηρήσεις με τα υψηλότερα φιλοδωρήματα ανατέθηκαν στη συνθήκη με το χαμογελαστό πρόσωπο»
Αυτό θα ήταν μεροληπτική ανάθεση, όχι τυχαία! Αν οι παρατηρήσεις με υψηλά φιλοδωρήματα τοποθετούνταν σκόπιμα στη μία ομάδα, δεν θα μπορούσαμε να ξέρουμε αν η διαφορά οφείλεται στη ζωγραφιά με το χαμογελαστό πρόσωπο ή στην προϋπάρχουσα τάση για υψηλότερα φιλοδωρήματα.
Δ. «Η ανεξάρτητη μεταβλητή είναι ποιοτική μεταβλητή με δύο ομάδες και μόνο τα πειράματα έχουν τέτοιες μεταβλητές»
Αυτό είναι λάθος. Οι ποιοτικές μεταβλητές υπάρχουν και σε μη πειραματικές μελέτες (μελέτες παρατήρησης ή συσχέτισης).
Πείραμα vs Μελέτη Παρατήρησης
Πείραμα
Μελέτη Παρατήρησης
Ανάθεση
Τυχαία από τον ερευνητή
Φυσική/προϋπάρχουσα
Χειρισμός
Ο ερευνητής ελέγχει τη συνθήκη
Ο ερευνητής απλώς παρατηρεί
Αιτιότητα
Μπορούμε να συμπεράνουμε αιτία-αποτέλεσμα
Μπορούμε να δούμε μόνο συσχέτιση
Παράδειγμα
Μελέτη φιλοδωρημάτων (χαμογελαστό πρόσωπο)
Σύγκριση εισοδήματος ανδρών-γυναικών
Οι ερευνητές θέλουν να διερευνήσουν την υπόθεση ότι τα φιλοδωρήματα εξαρτώνται από τη συνθήκη — δηλαδή, Φιλοδώρημα = Συνθήκη + άλλοι παράγοντες. Η σημειογραφία του Γενικού Γραμμικού Μοντέλου (GLM) για αυτό το μοντέλο δύο ομάδων είναι:
\[Y_i = b_0 + b_1 X_i + e_i\]
όπου:
το \(X_i\) δείχνει αν ένα τραπέζι ήταν στη συνθήκη «Χαμογελαστό Πρόσωπο» ή όχι (κωδικοποιημένο ως 0 για την ομάδα ελέγχου και 1 για την ομάδα με το χαμογελαστό πρόσωπο)
το \(b_1\) αντιπροσωπεύει τη διαφορά στο ποσοστό φιλοδωρήματος, κατά μέσο όρο, μεταξύ των δύο συνθηκών
Η εκτίμηση παραμέτρου \(b_1\) είναι αυτή που μας ενδιαφέρει περισσότερο. Αποτελεί την καλύτερη εκτίμησή μας για την \(\beta_1\), δηλαδή την πραγματική επίδραση της προσθήκης του χαμογελαστού προσώπου στη Διαδικασία Παραγωγής Δεδομένων (ΔΠΔ).
Πριν εξετάσουμε τα αποτελέσματα της μελέτης, ας σκεφτούμε τι θα περιμέναμε να δούμε αν γνωρίζαμε ότι ένα συγκεκριμένο μοντέλο της ΔΠΔ ήταν αληθές. Αν όντως υπάρχει όφελος από τη ζωγραφιά του χαμογελαστού προσώπου (δηλαδή αν το \(\beta_1\) είναι θετικός αριθμός), θα περιμέναμε τα δείγματα που προέρχονται από αυτή τη ΔΠΔ να έχουν θετικές τιμές \(b_1\)κατά μέσο όρο.
Αν η πραγματική ΔΠΔ είναι ότι το χαμογελαστό πρόσωπο προκαλεί τους πελάτες να αφήνουν λιγότερο φιλοδώρημα, τι θα περιμέναμε να δούμε στα δείγματα από αυτή τη ΔΠΔ;
Επεξήγηση
Σωστή απάντηση: Β — Οι τιμές \(b_1\) θα ήταν αρνητικές.
Η βασική αρχή
Οι τιμές \(b_1\) που υπολογίζουμε από δείγματα τείνουν να μοιάζουν με την πραγματική παράμετρο \(\beta_1\) από την οποία προέρχονται:
Αν η πραγματική \(\beta_1\) είναι…
…τότε οι τιμές \(b_1\) τείνουν να είναι…
Θετική (όφελος)
Θετικές κατά μέσο όρο
Αρνητική (βλάβη)
Αρνητικές κατά μέσο όρο
Μηδέν (καμία επίδραση)
Γύρω στο 0 (κάποιες + και κάποιες −)
Γιατί οι άλλες επιλογές είναι λάθος:
Α. «Οι τιμές \(b_1\) θα ήταν θετικές»
Αυτό θα συνέβαινε μόνο αν το χαμογελαστό πρόσωπο αύξανε τα φιλοδωρήματα (δηλαδή αν \(\beta_1 > 0\)). Η ερώτηση όμως λέει το αντίθετο.
Γ. «Οι τιμές \(b_1\) θα ήταν γύρω στο 0»
Αυτό θα συνέβαινε μόνο αν δεν υπήρχε καμία επίδραση (δηλαδή αν \(\beta_1 = 0\), το κενό μοντέλο). Αλλά η ερώτηση υποθέτει ότι υπάρχει αρνητική επίδραση.
Δ. «Δεν θα υπήρχε τρόπος να προβλέψουμε»
Αυτό είναι λάθος. Υπάρχει ξεκάθαρη σχέση μεταξύ \(\beta_1\) και \(b_1\): οι τιμές \(b_1\) κατανέμονται γύρω από την πραγματική τιμή \(\beta_1\). Αυτό είναι θεμελιώδες στη στατιστική — οι εκτιμητές μας τείνουν να πλησιάζουν τις πραγματικές παραμέτρους.
Συμπέρασμα
Αν η πραγματική επίδραση είναι αρνητική (\(\beta_1 < 0\)), τότε τα δείγματα θα τείνουν να δίνουν αρνητικές τιμές \(b_1\). Αυτή η αντιστοιχία μεταξύ της πραγματικής παραμέτρου και των δειγματικών εκτιμήσεων είναι η βάση της στατιστικής συμπερασματολογίας.
Αν η πραγματική ΔΠΔ είναι ότι το χαμογελαστό πρόσωπο δεν έχει καμία επίδραση, τι θα περιμέναμε να δούμε στα δείγματα από αυτή τη ΔΠΔ;
Επεξήγηση
Σωστή απάντηση: Γ — Οι τιμές \(b_1\) θα ήταν γύρω στο 0 — κάποιες θετικές και κάποιες αρνητικές.
Το κενό μοντέλο: \(\beta_1 = 0\)
Όταν λέμε ότι το χαμογελαστό πρόσωπο δεν έχει καμία επίδραση, εννοούμε ότι στην πραγματική ΔΠΔ:
\[\beta_1 = 0\]
Αυτό σημαίνει ότι ο (πληθυσμιακός) μέσος όρος φιλοδωρημάτων είναι ακριβώς ο ίδιος και στις δύο ομάδες:
\[\mu_{\text{χαμογ}} = \mu_{\text{ελέγχου}}\]
Τι συμβαίνει όμως στα δείγματα;
Ακόμα κι αν \(\beta_1 = 0\) στη ΔΠΔ, οι τιμές \(b_1\) που υπολογίζουμε από δείγματα δεν θα είναι ακριβώς μηδέν.
Γιατί;
Λόγω της τυχαίας δειγματοληπτικής μεταβλητότητας:
Κάθε δείγμα είναι διαφορετικό
Ακόμα κι αν δεν υπάρχει πραγματική διαφορά, τυχαίνει μερικές φορές να πέσουν περισσότερα υψηλά φιλοδωρήματα στη μία ομάδα
Έτσι, κάποια \(b_1\) θα είναι λίγο θετικά, κάποια λίγο αρνητικά
Το κλειδί: Οι τιμές \(b_1\) θα κυμαίνονται γύρω από το 0, χωρίς συστηματική τάση προς τη μία ή την άλλη κατεύθυνση.
Αν και δεν μπορούμε να προβλέψουμε την ακριβή τιμή του \(b_1\) που θα προκύψει από ένα συγκεκριμένο δείγμα, μπορούμε να κάνουμε προβλέψεις για το μέσο όρο των \(b_1\) που θα προέκυπταν από πολλά τυχαία δείγματα.
Κατά μέσο όρο, οι τιμές \(b_1\) τείνουν να μοιάζουν με την «γονική» τιμή \(\beta_1\) από την οποία προέρχονται:
Αρνητική τιμή \(\beta_1\) → τείνει να παράγει αρνητικές τιμές \(b_1\)
Θετική τιμή \(\beta_1\) → τείνει να παράγει θετικές τιμές \(b_1\)
Το κενό μοντέλο είναι μια ειδική περίπτωση στην οποία \(\beta_1 = 0\). Αν το κενό μοντέλο είναι αληθές, σημαίνει ότι η ζωγραφιά του χαμογελαστού προσώπου δεν έχει καμία επίδραση στο πόσο του φιλοδωρήματος που αφήνουν τα τραπέζια. Οι τιμές \(b_1\) που θα παράγονταν από πολλά τυχαία δείγματα μιας ΔΠΔ όπου \(\beta_1 = 0\) θα τείνουν να είναι κοντά στο μηδέν, αλλά δεν θα είναι απαραίτητα ακριβώς μηδέν. Μπορούμε να δημιουργήσουμε μια δειγματοληπτική κατανομή για να διαπιστώσουμε αν το δειγματικό μας \(b_1\) θα μπορούσε να έχει παραχθεί από το κενό μοντέλο.
Δημιουργία Δειγματοληπτικής Κατανομής με Βάση το Κενό Μοντέλο
Ας κάνουμε τώρα μια υποθετική σκέψη. Αν δεν υπήρχε καμία επίδραση του χαμογελαστού προσώπου, τότε τα τραπέζια θα είχαν αφήσει το ίδιο ποσοστό φιλοδωρήματος ανεξάρτητα από το σε ποια ομάδα είχαν ανατεθεί τυχαία.
Ένα από τα μεγάλα πλεονεκτήματα της σύγχρονης στατιστικής είναι ότι δεν περιοριζόμαστε στο να φανταζόμαστε απλώς πώς θα έμοιαζαν οι τιμές \(b_1\) αν δεν υπήρχε καμία επίδραση του χαμογελαστού προσώπου στη ΔΠΔ. Μπορούμε να χρησιμοποιήσουμε την R για να προσομοιώσουμε αυτή τη ΔΠΔ, στην οποία \(\beta_1 = 0\).
Υπενθύμιση
Οι όροι «κενό μοντέλο», «\(\beta_1 = 0\)» και «καμία επίδραση» σημαίνουν όλοι το ίδιο πράγμα: κανένα μέρος της μεταβλητότητας στο ποσοστό φιλοδωρήματος των τραπεζιών δεν οφείλεται στο χαμογελαστό πρόσωπο.
Μπορούμε να χρησιμοποιήσουμε τη συνάρτηση shuffle() για να προσομοιώσουμε αυτή την υποθετική κατάσταση. Η συνάρτηση αυτή ανακατανέμει ή ανακατεύει τυχαία κάθε φιλοδώρημα (που αντιπροσωπεύει κάθε τραπέζι) είτε στη συνθήκη «χαμογελαστό πρόσωπο» είτε στην ομάδα ελέγχου.
Το παρακάτω σχήμα δείχνει τα πραγματικά δεδομένα του δείγματος (το διάγραμμα jitter με πράσινο επάνω αριστερά) μαζί με 8 διαφορετικές τυχαίες ανακατανομές των φιλοδωρημάτων στις δύο συνθήκες. Για κάθε ανακατανομή, έχουμε σχεδιάσει το μέσο όρο φιλοδωρήματος (οι μαύρες γραμμές) για κάθε συνθήκη.
Κάθε ένα από αυτά τα διαγράμαμτα αναπαριστά μία τυχαία ανακατανομή των δεδομένων και το μοντέλο που προσαρμόζεται καλύτερα στα ανακατανεμημένα δεδομένα. Πώς αναπαρίστανται οι τιμές \(b_1\) για κάθε τυχαιοποιημένο δείγμα;
Επεξήγηση
Σωστή απάντηση: Γ — Η κατακόρυφη απόσταση μεταξύ των δύο μαύρων γραμμών.
Τι αναπαριστά το \(b_1\);
Στο μοντέλο δύο ομάδων:
\[Y_i = b_0 + b_1 X_i + e_i\]
όπου \(X_i = 0\) για την ομάδα ελέγχου και \(X_i = 1\) για την ομάδα με το χαμόγελαστό πρόσωπο:
\(b_0\) = ο μέσος όρος της ομάδας ελέγχου (όταν \(X = 0\))
\(b_0 + b_1\) = ο μέσος όρος της ομάδας με το χαμογελαστό πρόσωπο (όταν \(X = 1\))
Το \(b_1\) είναι η κατακόρυφη απόσταση μεταξύ των δύο οριζόντιων γραμμών.
Γιατί οι άλλες επιλογές είναι λάθος:
Α. «Η μαύρη γραμμή της ομάδας ελέγχου»
Αυτή η γραμμή αναπαριστά το μέσο όρο της ομάδας ελέγχου, δηλαδή το \(b_0\) (ή \(\bar{Y}_{\text{ελέγχου}}\)), όχι το \(b_1\).
Β. «Η μαύρη γραμμή της ομάδας με το χαμογελαστό πρόσωπο»
Αυτή η γραμμή αναπαριστά το μέσο όρο της ομάδας με το χαμογελαστό πρόσωπο, δηλαδή το \(b_0 + b_1\) (ή \(\bar{Y}_{\text{χαμόγ}}\)), όχι μόνο το \(b_1\).
Σημασία για την κατανόηση της δειγματοληπτικής κατανομής
Όταν κοιτάζουμε τα 9 διαγράμματα:
Κάθε διάγραμμα έχει δύο μαύρες γραμμές (μέσους όρους)
Η απόσταση μεταξύ τους διαφέρει από διάγραμμα σε διάγραμμα
Αυτές οι διαφορετικές αποστάσεις είναι οι διαφορετικές τιμές \(b_1\)
Αν συλλέξουμε όλες αυτές τις αποστάσεις (από 1000 ανακατανομές), παίρνουμε τη δειγματοληπτική κατανομή του \(b_1\)
Επειδή αυτά τα δεδομένα και οι τιμές \(b_1\) δημιουργήθηκαν από το κενό μοντέλο:
Επεξήγηση
Σωστή απάντηση: Α — Οι τιμές \(b_1\) τείνουν να είναι κοντά στο 0.
Τι σημαίνει «κενό μοντέλο»;
Το κενό μοντέλο υποθέτει ότι:
\[\beta_1 = 0\]
Δηλαδή, δεν υπάρχει καμία επίδραση του χαμογελαστού προσώπου στα φιλοδωρήματα. Οι δύο ομάδες έχουν τον ίδιο πραγματικό μέσο όρο στη ΔΠΔ.
Η βασική αρχή
Οι τιμές \(b_1\) από δείγματα τείνουν να συγκεντρώνονται γύρω από την πραγματική παράμετρο \(\beta_1\).
Τι κάνει η συνάρτηση shuffle();
Η shuffle()ανακατανέμει τυχαία τα φιλοδωρήματα στις συνθήκες, σπάζοντας οποιαδήποτε σχέση μεταξύ τους. Αυτό προσομοιώνει ακριβώς έναν κόσμο όπου:
Η συνθήκη δεν επηρεάζει το φιλοδώρημα
\(\beta_1 = 0\)
Οποιαδήποτε διαφορά μεταξύ των ομάδων είναι καθαρά τυχαία
Γιατί οι άλλες επιλογές είναι λάθος:
Οι τιμές 20, 30 και 40 δεν έχουν καμία σχέση με το \(b_1\) στο κενό μοντέλο.
Αυτές οι τιμές μοιάζουν με τιμές φιλοδωρημάτων (η μεταβλητή \(Y\))
Το \(b_1\) όμως είναι η διαφορά μεταξύ μέσων όρων, όχι ένας μέσος όρος
Στο κενό μοντέλο, η αναμενόμενη διαφορά είναι 0, όχι 20, 30 ή 40
Ο παρακάτω κώδικας υπολογίζει τη τιμή \(b_1\) από ένα μόνο τυχαίο ανακάτεμα των δεδομένων. Μπορείτε να τον εκτελέσετε μερικές φορές για να δείτε ότι κάθε ανακάτεμα δίνει διαφορετική τιμή \(b_1\). Έπειτα τροποποιήστε τον κώδικα προσθέτοντας τη συνάρτηση do() για να προσομοιώσετε 1000 τιμές \(b_1\), μία για κάθε ανακάτεμα των δεδομένων.
Αυτές είναι πάρα πολλές τιμές! Ωστόσο, μπορούμε να παρατηρήσουμε κάποια πράγματα ακόμα κι αν απλώς κοιτάξουμε τις πρώτες από αυτές:
Οι τιμές \(b_1\)ποικίλλουν κάθε φορά που ανακατεύουμε και υπολογίζουμε μια νέα τιμή \(b_1\)
Κάποιες τιμές \(b_1\) είναι θετικές και κάποιες αρνητικές
Αν και δεν μπορούσαμε να προβλέψουμε αν η πρώτη τιμή \(b_1\) θα ήταν θετική ή αρνητική, γνωρίζαμε ότι μερικές θα ήταν θετικές και μερικές αρνητικές
Παρόλο που οι 1000 τιμές που παρήγαγε η R μοιάζουν με την κατανομή μιας μεταβλητής για ένα δείγμα παρατηρήσεων, διαφέρουν από αυτήν σε δύο σημαντικά σημεία:
Δε βασίζονται στη μέτρηση μιας μεταβλητής, αλλά σε μια διαδικασία τυχαίας παραγωγής — οι τιμές δημιουργούνται τυχαία από την R
Κάθε τιμή αντιπροσωπεύει μια εκτίμηση παραμέτρου, όχι μια μεμονωμένη παρατήρηση — κάθε τιμή είναι μια τμή \(b_1\)
Ορισμός: Δειγματοληπτική Κατανομή
Οι κατανομές που έχουν αυτά τα χαρακτηριστικά ονομάζονται δειγματοληπτικές κατανομές (sampling distributions).
Μια δειγματοληπτική κατανομή είναι η κατανομή των εκτιμήσεων μιας παραμέτρου (ή ενός στατιστικού του δείγματος) που υπολογίζεται από τυχαία παραγόμενα δείγματα δεδομένου μεγέθους.
Οι δειγματοληπτικές κατανομές δεν είναι δεδομένα, αν και — όπως σε αυτή την περίπτωση — μπορούν να κατασκευαστούν χρησιμοποιώντας δεδομένα. Ενώ έχουμε μόνο ένα δείγμα δεδομένων για μια δεδομένη μελέτη, οι δειγματοληπτικές κατανομές είναι προσομοιώσεις του τι θα μπορούσε να συμβεί αν είχαμε κάνει την ίδια μελέτη πολλές φορές.
Μας επιτρέπουν να δούμε πώς θα μπορούσε να μοιάζει η δειγματική μεταβλητότητα αν επαναλαμβάναμε την ίδια διαδικασία συλλογής δεδομένων (επιλογή ενός τυχαίου δείγματος ή τυχαία ανάθεση σε συνθήκες) πολλές φορές.
11.3 Διερεύνηση της Δειγματοληπτικής Κατανομής του \(b_1\)
Είναι δύσκολο να μελετήσουμε μια μεγάλη λίστα τιμών \(b_1\) και να καταλήξουμε σε κάποιο συμπέρασμα. Αν όμως σκεφτούμε αυτούς τους αριθμούς ως μια κατανομή — μια δειγματοληπτική κατανομή — μπορούμε να χρησιμοποιήσουμε τα ίδια εργαλεία οπτικοποίησης και ανάλυσης που χρησιμοποιούμε για να κατανοήσουμε μια οποιαδήποτε κατανομή. Για παράδειγμα, μπορούμε να χρησιμοποιήσουμε ένα ιστόγραμμα για να εξετάσουμε τη δειγματοληπτική κατανομή των τιμών \(b_1\).
Ο παρακάτω κώδικας αποθηκεύει τις τιμές \(b_1\) (εκτιμήσεις για το \(\\beta_1\)) από 1000 τυχαία ανακατέματα των δεδομένων της μελέτης του φιλοδωρήματος σε ένα πλαίσιο δεδομένων με το όνομα sdob1, που είναι ακρωνύμιο του sampling distribution of b1s (δειγματοληπτική κατανομή των \(b_1\)).
Ποιο είναι το όνομα αυτού του πλαισίου δεδομένων;
Επεξήγηση
Σωστή απάντηση: Δ — sdob1
Ανάλυση του κώδικα
sdob1 <-do(1000) *b1(shuffle(Tip) ~ Condition, data = TipExperiment)
Σε αυτή τη γραμμή κώδικα:
Ο τελεστής <- είναι ο τελεστής ανάθεσης στην R
Ό,τι βρίσκεται στα αριστερά του <- είναι το όνομα που δίνουμε στο αντικείμενο
Ό,τι βρίσκεται στα δεξιά του <- είναι η τιμή που αποθηκεύεται
Επομένως, το sdob1 είναι το όνομα του πλαισίου δεδομένων που δημιουργούμε.
Τι σημαίνει το sdob1;
Το όνομα sdob1 είναι ένα ακρωνύμιο που επιλέξαμε για να θυμόμαστε τι περιέχει:
sampling distribution of b1s
= δειγματοληπτική κατανομή των \(b_1\)
Θα μπορούσατε να επιλέξετε οποιοδήποτε άλλο όνομα προτιμάτε (π.χ., my_distribution, shuffled_b1s, κλπ.).
Γιατί οι άλλες επιλογές είναι λάθος:
Επιλογή
Τι είναι στην πραγματικότητα
Tip
Μια μεταβλητή (στήλη) μέσα στο TipExperiment — το ποσό του φιλοδωρήματος
Condition
Μια μεταβλητή (στήλη) μέσα στο TipExperiment — η συνθήκη (Control ή Smiley Face)
b1
Μια μεταβλητή (στήλη) μέσα στο sdob1 — οι τιμές \(b_1\) από κάθε ανακατανομή
TipExperiment
Το αρχικό πλαίσιο δεδομένων με τα πραγματικά δεδομένα της μελέτης
Ποιο είναι το όνομα της (μοναδικής) μεταβλητής μέσα σε αυτό το πλαίσιο δεδομένων;
Επεξήγηση
Σωστή απάντηση: Γ — b1
Τι περιέχει το sdob1;
Όταν εκτελούμε:
sdob1 <-do(1000) *b1(shuffle(Tip) ~ Condition, data = TipExperiment)head(sdob1)
Για να αναφερθούμε στη μεταβλητή b1 μέσα στο sdob1, χρησιμοποιούμε:
sdob1$b1
Γιατί οι άλλες επιλογές είναι λάθος:
Επιλογή
Τι είναι στην πραγματικότητα
Tip
Μεταβλητή μέσα στο TipExperiment, όχι στο sdob1
Condition
Μεταβλητή μέσα στο TipExperiment, όχι στο sdob1
sdob1
Το όνομα του πλαισίου δεδομένων, όχι της μεταβλητής
TipExperiment
Ένα άλλο πλαίσιο δεδομένων (τα αρχικά δεδομένα)
Αυτή είναι μια εντολή για να δημιουργήσουμε ένα ιστόγραμμα: gf_histogram(~ Thumb, data = Fingers)
Ποια είναι η σύνταξη αυτής της εντολής;
Επεξήγηση
Σωστή απάντηση: Β — gf_histogram(~ variable, data = dataframe)
Ανάλυση του κώδικα
gf_histogram(~ Thumb, data = Fingers)
Στοιχείο
Ρόλος
Παράδειγμα
gf_histogram()
Η συνάρτηση που δημιουργεί το ιστόγραμμα
—
~ Thumb
Η μεταβλητή που θέλουμε να αναπαραστήσουμε
Thumb
data = Fingers
Το πλαίσιο δεδομένων που περιέχει τη μεταβλητή
Fingers
Η γενική σύνταξη
gf_histogram(~ variable, data = dataframe)
Μετά το ~ βάζουμε το όνομα της μεταβλητής (στήλης) που θέλουμε να αναπαραστήσουμε
Μετά το data = βάζουμε το όνομα του πλαισίου δεδομένων που περιέχει αυτή τη μεταβλητή
Εφαρμογή στη δειγματοληπτική κατανομή
Για να δημιουργήσουμε ιστόγραμμα της δειγματοληπτικής κατανομής των \(b_1\):
gf_histogram(~ b1, data = sdob1)
Στοιχείο
Τι είναι
b1
Η μεταβλητή (οι 1000 τιμές \(b_1\))
sdob1
Το πλαίσιο δεδομένων που περιέχει τις τιμές
Γιατί η επιλογή Α είναι λάθος;
Η επιλογή Α (gf_histogram(~ dataframe, data = variable)) έχει τη σειρά ανάποδα:
Βάζει το πλαίσιο δεδομένων μετά το ~ (λάθος)
Βάζει τη μεταβλητή μετά το data = (λάθος)
Αν προσπαθήσετε να εκτελέσετε κώδικα με αυτή τη σειρά, η R θα δώσει σφάλμα.
Μνημονικός κανόνας
«Τι θέλω να δω; Από πού;»
~ variable → Τι θέλω να αναπαραστήσω
data = dataframe → Από πού να πάρω τα δεδομένα
Στο παραπάνω ιστόγραμμα, σε τι αναφέρεται η συχνότητα (count) στον άξονα y (π.χ., 50);
Επεξήγηση
Σωστή απάντηση: Β — Τον αριθμό των ανακατανεμημένων δειγμάτων.
Τι απεικονίζει αυτό το ιστόγραμμα;
Αυτό το ιστόγραμμα δείχνει τη δειγματοληπτική κατανομή των \(b_1\) — δηλαδή, τις 1000 τιμές \(b_1\) που προέκυψαν από 1000 ανακατανομές (shuffles) των δεδομένων.
Άξονας x (b1): Οι τιμές \(b_1\) (διαφορές μέσων όρων)
Άξονας y (count): Πόσες από τις 1000 ανακατανομές έδωσαν τιμή \(b_1\) σε κάθε διάστημα
Γιατί η επιλογή Α είναι λάθος;
Τα τραπέζια είναι οι παρατηρήσεις στα αρχικά δεδομένα (TipExperiment), όχι στη δειγματοληπτική κατανομή.
Αν και το παραπάνω ιστόγραμμα μοιάζει με άλλα που έχετε δει, δεν είναι το ίδιο! Αυτό το ιστόγραμμα απεικονίζει τη δειγματοληπτική κατανομή των τιμών \(b_1\) από 1000 τυχαίες ανακατανομές των δεδομένων.
Υπάρχουν μερικά πράγματα που μπορούμε να παρατηρήσουμε:
Σχήμα: Κάπως κανονικό (συγκεντρωμένο στη μέση και συμμετρικό)
Κέντρο: Φαίνεται να είναι γύρω στο 0
Εύρος: Οι περισσότερες τιμές βρίσκονται μεταξύ -10 και 10
Επειδή η δειγματοληπτική κατανομή βασίζεται στο κενό μοντέλο, όπου \(\beta_1 = 0\), περιμένουμε οι εκτιμήσεις των τιμών της παραμέτρου να συγκεντρώνονται γύρω από το 0. Αλλά περιμένουμε επίσης να ποικίλλουν λόγω της δειγματοληπτικής μεταβλητότητας.
Ακόμα κι αν παράγαμε ένα \(b_1\) τόσο υψηλό όσο 10, θα ήταν απλώς το αποτέλεσμα τυχαίας δειγματοληπτικής μεταβλητότητας.
Από το ιστόγραμμα μπορούμε να δούμε ότι ενώ δεν είναι αδύνατο να παραχθεί ένα \(b_1\) ίσο με 9 ή 10, τέτοιες τιμές είναι πολύ λιγότερο συχνές από τιμές όπως -1 ή 1. Σε αυτή την περίπτωση, το \(b_1\) αναπαριστά τη διαφορά μέσων όρων μεταξύ των δύο συνθηκών. Επομένως, ένας άλλος τρόπος να το πούμε είναι:
Είναι εύκολο να παραχθούν τυχαία μικρές διαφορές μέσων όρων (π.χ., -1 ή 1), αλλά δύσκολο να παραχθούν τυχαία μεγάλες (π.χ., -10 ή 10).
Κοιτάζοντας απλά το ιστόγραμμα μπορούμε να πάρουμε μια ιδέα της πιθανότητας να λάβουμε μια συγκεκριμένη τιμή \(b_1\) από αυτή τη ΔΠΔ για την οποία γνωρίζουμε ότι \(\beta_1 = 0\). Όταν χρησιμοποιούμε αυτές τις συχνότητες για να εκτιμήσουμε μια πιθανότητα, χρησιμοποιούμε αυτή την κατανομή των τυχαίων \(b_1\) ως κατανομή πιθανότητας (probability distribution).
Χρήση της Δειγματοληπτικής Κατανομής για την Αξιολόγηση του Κενού Μοντέλου
Χρησιμοποιήσαμε την R για να προσομοιώσουμε έναν κόσμο όπου το κενό μοντέλο είναι αληθές, ώστε να κατασκευάσουμε μια δειγματοληπτική κατανομή. Τώρα ας επιστρέψουμε στον αρχικό μας στόχο: να δούμε πώς αυτή η δειγματοληπτική κατανομή μπορεί να χρησιμοποιηθεί για να αξιολογήσουμε αν το κενό μοντέλο θα μπορούσε να εξηγήσει τα δεδομένα που συλλέξαμε, ή αν πρέπει να απορριφθεί.
Η βασική ιδέα είναι η εξής: Χρησιμοποιώντας τη δειγματοληπτική κατανομή των δειγματικών τιμών \(b_1\) που θα μπορούσαν πιθανόν να προκύψουν από μια ΔΠΔ στην οποία το κενό μοντέλο είναι αληθές (δηλαδή \(\beta_1 = 0\)), μπορούμε να εξετάσουμε την τιμή \(b_1\) του δείγματός μας και να εκτιμήσουμε πόσο πιθανή θα ήταν μια τέτοια τιμή αν το κενό μοντέλο ήταν, πράγματι, αληθές.
Αν κρίνουμε ότι το \(b_1\) που παρατηρήσαμε είναι απίθανο να έχει προέλθει από το κενό μοντέλο → απορρίπτουμε το κενό μοντέλο ως μοντέλο της ΔΠΔ
Αν κρίνουμε ότι το \(b_1\) που παρατηρήσαμε είναι πιθανό → διατηρούμε το κενό μοντέλο, τουλάχιστον μέχρι να έχουμε περισσότερα στοιχεία που να υποδεικνύουν το αντίθετο
Στη μελέτη του φιλοδωρήματος, το \(b_1\) αναπαριστά τη μέση διαφορά στα φιλοδωρήματα μεταξύ των τραπεζιών που έλαβαν το ζωγραφισμένο χαμογελαστό πρόσωπο και αυτών που δεν το έλαβαν.
Δείγματα που βρίσκονται στα άκρα είτε προς τη θετική κατεύθυνση (π.χ., τα φιλοδωρήματα είναι κατά μέσο όρο 8 δολάρια υψηλότερα στην ομάδα με το χαμογελαστό πρόσωπο) είτε προς την αρνητική (π.χ., -8, που αντιπροσωπεύει πολύ χαμηλότερα φιλοδωρήματα στην ομάδα με το χαμογελαστό πρόσωπο), είναι απίθανο να παραχθούν από μια ΔΠΔ όπου το \(\beta_1 = 0\). Και τα δύο αυτά είδη απίθανων δειγμάτων θα μας έκαναν να αμφισβητήσουμε ότι το κενό μοντέλο παρήγαγε τα δεδομένα μας.
Με άλλα λόγια: αν είχαμε ένα δείγμα που έπεφτε είτε στο άνω άκρο είτε στην κάτω άκρο της δειγματοληπτικής κατανομής, θα μπορούσαμε να απορρίψουμε το κενό μοντέλο ως το πραγματικό μοντέλο της ΔΠΔ.
Στη στατιστική, αυτό αναφέρεται συνήθως ως έλεγχος διπλής κατεύθυνσης (two-tailed test), επειδή είτε το πραγματικό μας δείγμα πέσει στο άνω άκρο είτε στο κάτω άκρο αυτής της δειγματοληπτικής κατανομής, θα έχουμε λόγο να απορρίψουμε το κενό μοντέλο. Απορρίπτοντας το μοντέλο στο οποίο \(\beta_1 = 0\), αποφασίζουμε ότι κάποια εκδοχή του σύνθετου μοντέλου στην οποία \(\beta_1 \neq 0\) πρέπει να είναι αληθής. Δεν θα γνωρίζουμε ακριβώς ποια είναι η πραγματική τιμή του \(\beta_1\). Θα γνωρίζουμε μόνο ότι πιθανότατα δεν είναι 0. Με πιο παραδοσιακούς στατιστικούς όρους, θα είχαμε βρει μια στατιστικά σημαντική διαφορά μεταξύ της ομάδας με το χαμόγελο και της ομάδας ελέγχου.
Φυσικά, ακόμα κι αν παρατηρήσουμε ένα \(b_1\) σε μία από τις ακραίες ουρές και αποφασίσουμε να απορρίψουμε το κενό μοντέλο, θα μπορούσαμε να κάνουμε λάθος. Απλώς λόγω τύχης, κάποιες από τις τιμές \(b_1\) στη δειγματοληπτική κατανομή θα καταλήξουν στις ουρές ακόμα κι αν το κενό μοντέλο είναι αληθές στη ΔΠΔ. Το να εξαπατηθούμε με αυτόν τον τρόπο — δηλαδή να απορρίψουμε το κενό μοντέλο ενώ στην πραγματικότητα είναι αληθές — ονομάζεται Σφάλμα Τύπου Ι.
Το κενό μοντέλο είναι αληθές
Το κενό μοντέλο είναι ψευδές
Απορρίπτουμε το κενό
❌ Σφάλμα Τύπου Ι
✓ Σωστή απόφαση
Δεν απορρίπτουμε
✓ Σωστή απόφαση
❌ Σφάλμα Τύπου ΙΙ
11.4 Τι Θεωρείται Απίθανο;
Όλα αυτά, ωστόσο, εγείρουν το ερώτημα πόσο ακραίο θα πρέπει να είναι το δειγματικό \(b_1\) ώστε να απορρίψουμε το κενό μοντέλο. Αυτό που θεωρείται απίθανο για ένα άτομο μπορεί να μη φαίνεται εξίσου απίθανο σε κάποιο άλλο. Θα ήταν χρήσιμο να υπάρχει ένα κοινά αποδεκτό κριτήριο για το τι συνιστά «απίθανο» πριν εξετάσουμε το πραγματικό δειγματικό μας στατιστικό. Ο ορισμός του «απίθανου» εξαρτάται τόσο από τον σκοπό του στατιστικού μοντέλου όσο και από τις συμβάσεις που υιοθετεί η εκάστοτε επιστημονική κοινότητα.
Ένα κοινό πρότυπο που χρησιμοποιείται στις κοινωνικές επιστήμες είναι ότι ένα δείγμα θεωρείται απίθανο αν υπάρχει λιγότερο από 0.05 (5%) πιθανότητα να παραχθεί ένα τόσο ακραίο (είτε προς την αρνητική είτε προς τη θετική κατεύθυνση) από μια συγκεκριμένη ΔΠΔ. Συμβολίζουμε αυτόν τον αριθμητικό ορισμό του «απίθανου» με το ελληνικό γράμμα \(\alpha\). Ένας επιστήμονας μπορεί να περιγράψει αυτό το κριτήριο γράφοντας ή λέγοντας ότι «όρισε το άλφα ίσο με 0.05». Αν ήθελε να χρησιμοποιήσει έναν αυστηρότερο ορισμό του απίθανου, θα μπορούσε να πει «άλφα ίσο με 0.001», υποδεικνύοντας ότι ένα δείγμα θα έπρεπε να είναι πραγματικά απίθανο για να απορρίψουμε το κενό μοντέλο της ΔΠΔ.
Ένα κοινά αποδεκτό πρότυπο στις κοινωνικές επιστήμες είναι ότι ένα δείγμα θεωρείται απίθανο όταν η πιθανότητα να παραχθεί ένα τόσο ακραίο αποτέλεσμα (είτε προς την αρνητική είτε προς τη θετική κατεύθυνση) από μια συγκεκριμένη ΔΠΔ είναι μικρότερη από 0.05 (5%). Τον αριθμητικό αυτόν ορισμό του “απίθανου” τον συμβολίζουμε με το ελληνικό γράμμα \(\alpha\). Ένας επιστήμονας μπορεί να περιγράψει το κριτήριο αυτό λέγοντας ή γράφοντας ότι “θέτει το \(\alpha\) ίσο με 0.05”. Αν επιθυμεί έναν αυστηρότερο ορισμό του απίθανου, μπορεί να θέσει \(\alpha = 0.001\), υποδηλώνοντας ότι ένα δείγμα θα πρέπει να είναι εξαιρετικά απίθανο προκειμένου να απορριφθεί το κενό μοντέλο της ΔΠΔ.
Ας θέσουμε ένα επίπεδο σημαντικότητας \(\alpha = 0.05\) στη δειγματική κατανομή των \(s\) που δημιουργήσαμε από τυχαία ανακατέματα των δεδομένων της μελέτης για τα φιλοδωρήματα. Αν πάρουμε τα 1000 \(s\) και τα βάλουμε στη σειρά, το κατώτερο 2.5% και το ανώτερο 2.5% των τιμών αντιστοιχούν στο πιο ακραίο 5% της κατανομής και, συνεπώς, στις λιγότερο πιθανές τιμές να έχουν παραχθεί τυχαία.
Ποιο από τα παρακάτω ιστογράμματα αναπαριστά το 5% (0.05) των πιο απίθανων τιμών \(b_1\) στη δειγματοληπτική κατανομή που κατασκευάστηκε από 1000 τυχαία ανακατέματα των δεδομένων του πειράματος του φιλοδωρήματος;
Α.
Β.
Γ.
Επεξήγηση
Σωστή απάντηση: Β
Τι ψάχνουμε;
Το 5% (0.05) των πιο απίθανων τιμών \(b_1\) είναι οι τιμές που βρίσκονται στα δύο άκρα (ουρές) της κατανομής:
2.5% στην αριστερή ουρά (πολύ αρνητικές τιμές)
2.5% στη δεξιά ουρά (πολύ θετικές τιμές)
Αυτές οι ακραίες τιμές είναι απίθανο να παραχθούν τυχαία αν το κενό μοντέλο είναι αληθές.
Ανάλυση των επιλογών:
Α. ΛΑΘΟΣ — Δείχνει μόνο τη δεξιά ουρά χρωματισμένη κόκκινη. Αυτό θα ήταν σωστό για έλεγχο μονής κατεύθυνσης (one-tailed test), αλλά εμείς χρησιμοποιούμε έλεγχο διπλής κατεύθυνσης.
Β. ΣΩΣΤΟ ✓ — Δείχνει και τις δύο ουρές χρωματισμένες κόκκινες (2.5% αριστερά + 2.5% δεξιά = 5% συνολικά). Αυτό είναι το σωστό για έλεγχο διπλής κατεύθυνσης.
Γ. ΛΑΘΟΣ — Δείχνει περίπου το 50% της κατανομής χρωματισμένο κόκκινο, όχι το 5%. Η κόκκινη περιοχή είναι πολύ μεγάλη.
Γιατί έχει σημασία;
Σε έναν έλεγχο διπλής κατεύθυνσης (two-tailed test):
Απορρίπτουμε το κενό μοντέλο αν η τιμή \(b_1\) είναι πολύ θετική Ή πολύ αρνητική
Και οι δύο κατευθύνσεις είναι ενδιαφέρουσες
Επομένως, χρειαζόμαστε κόκκινο χρώμα και στις δύο ουρές
Σε έναν δίπλευρο (two-tailed) έλεγχο, θα απορρίψουμε το κενό μοντέλο της ΔΠΔ αν το δείγμα δεν ανήκει στο κεντρικό 0.95 των τυχαία παραγόμενων τιμών \(s\). Μπορούμε να χρησιμοποιήσουμε τη συνάρτηση middle() για να χρωματίσουμε το κεντρικό 0.95 των τιμών \(s\) με διαφορετικό χρώμα.
gf_histogram(~b1, data = sdob1, fill =~middle(b1, .95))
Η παράμετρος fill = υποδεικνύει στην R ότι θέλουμε οι ράβδοι του ιστογράμματος να γεμίσουν με διαφορετικά χρώματα. Το σύμβολο ~ δηλώνει ότι το χρώμα γεμίσματος θα εξαρτάται από το αν η τιμή του \(b_1\) που απεικονίζεται ανήκει στο κεντρικό 0.95 της κατανομής ή όχι.
Το παρακάτω ιστόγραμμα δείχνει πώς εμφανίζεται η δειγματική κατανομή όταν προσθέτουμε fill = ~middle(b1, .95) στη συνάρτηση gf_histogram().
Μπορεί να αναρωτιέστε γιατί ορισμένες μπάρες του ιστογράμματος περιλαμβάνουν τόσο κόκκινο όσο και μπλε χρώμα. Αυτό συμβαίνει επειδή τα δεδομένα σε ένα ιστόγραμμα ομαδοποιούνται σε διαστήματα (bins). Η τιμή 6.59, για παράδειγμα, ομαδοποιείται στο ίδιο διάστημα με την τιμή 6.68, αλλά ενώ το 6.59 βρίσκεται εντός του μεσαίου 95% (και επομένως χρωματίζεται μπλε), το 6.68 βρίσκεται ακριβώς έξω από το όριο 0.025 για την άνω ουρά (και επομένως χρωματίζεται κόκκινο).
Αν θέλετε να δείτε πιο καθαρά τα όρια, θα μπορούσατε να δοκιμάσετε να κάνετε τα διαστήματά σας μικρότερα, ή με άλλα λόγια, να δημιουργήσετε περισσότερα διαστήματα. Με αυτόν τον τρόπο είναι πιο πιθανό να έχετε μόνο ένα χρώμα σε κάθε διάστημα.
Ξαναδημιουργήσαμε το ιστόγραμμα, αλλά αυτή τη φορά προσθέσαμε το όρισμα bins = 100 στον κώδικα (ο προεπιλεγμένος αριθμός διαστημάτων τιμών είναι 30). Προσθέσαμε επίσης show.legend = FALSE για να αφαιρέσουμε το υπόμνημα και έτσι να αφήσουμε περισσότερο χώρο για το διάγραμμα.
gf_histogram(~b1, data = sdob1, fill =~middle(b1, .95), bins =100, show.legend =FALSE)
Η αύξηση του αριθμού των διαστημάτων είχε ως αποτέλεσμα κάθε διάστημα να αντιπροσωπεύεται από ένα μόνο χρώμα. Αλλά δημιούργησε επίσης κάποια κενά στο ιστόγραμμα, δηλαδή άδεια διαστήματα στα οποία δεν βρέθηκε καμία από τις δειγματικές τιμές \(b_1\). Αυτό δεν είναι πρόβλημα, είναι απλώς μια φυσική συνέπεια της αύξησης του αριθμού των διαστημάτων.
Η κόκκινη μπάρα κάτω από το βέλος αντιπροσωπεύει την τιμή \(b_1\) για ένα μόνο τυχαίο δείγμα από το κενό μοντέλο. Πόσες μεμονωμένες παρατηρήσεις χρησιμοποιήθηκαν για τον υπολογισμό αυτής της τιμής \(b_1\);
Επεξήγηση
Σωστή απάντηση: Γ — 44, ο αριθμός των τραπεζιών στο αρχικό πλαίσιο δεδομένων
Γιατί 44;
Κάθε τιμή \(b_1\) στη δειγματοληπτική κατανομή υπολογίζεται από ένα πλήρες δείγμα — δηλαδή από όλα τα 44 τραπέζια του αρχικού συνόλου δεδομένων TipExperiment.
Η διαδικασία shuffle()ανακατανέμει τα 44 φιλοδωρήματα στις δύο συνθήκες, αλλά ο συνολικός αριθμός των παρατηρήσεων παραμένει 44.
Γιατί οι άλλες επιλογές είναι λάθος:
Α. 1000 — Αυτός είναι ο αριθμός των τιμών \(b_1\) στη δειγματοληπτική κατανομή (πόσες φορές επαναλάβαμε τη διαδικασία), όχι ο αριθμός των παρατηρήσεων που χρησιμοποιήθηκαν για τον υπολογισμό κάθε\(b_1\).
Β. 22 — Αυτός είναι ο αριθμός των τραπεζιών σε κάθε ομάδα, αλλά η τιμή \(b_1\) υπολογίζεται χρησιμοποιώντας και τις δύο ομάδες μαζί (22 + 22 = 44).
Σημαντικό
Θυμηθείτε, αυτό το ιστόγραμμα αναπαριστά μια δειγματοληπτική κατανομή. Όλες αυτές οι τιμές \(b_1\) ήταν το αποτέλεσμα 1000 τυχαίων ανακατανομών των δεδομένων μας. Καμία από αυτές δεν είναι η τιμή \(b_1\) που υπολογίστηκε από τα πραγματικά δεδομένα του πειράματος φιλοδωρημάτων. Όλες αυτές οι τιμές \(b_1\) δημιουργήθηκαν από μια ΔΠΔ όπου το κενό μοντέλο είναι αληθές.
Στο πραγματικό πείραμα, φυσικά, έχουμε μόνο ένα δείγμα. Αν η πραγματική δειγματική τιμή \(b_1\) πέσει στην περιοχή της δειγματοληπτικής κατανομής που είναι χρωματισμένη κόκκινη (με βάση το \(\alpha\) που ορίσαμε), θα αμφιβάλλουμε ότι παράχθηκε από τη ΔΠΔ που υποθέτει \(\beta_1 = 0\). Σε αυτή την περίπτωση, με βάση το κριτήριο \(\alpha\) μας, θα απορρίπταμε το κενό μοντέλο. Αυτό θα μπορούσε να είναι η σωστή απόφαση…
Αλλά μπορεί να είναι λάθος απόφαση. Αν το κενό μοντέλο είναι αληθές, το \(0.05\) (5%) των τιμών \(b_1\) που θα μπορούσαν να προκύψουν από διαφορετικές τυχαιοποιήσεις των τραπεζιών στις συνθήκες θα ήταν αρκετά ακραίες ώστε να μας οδηγήσουν στην απόρριψη του κενού μοντέλου. Αν απορρίπταμε το κενό μοντέλο ενώ, στην πραγματικότητα, είναι αληθές, θα κάναμε ένα Σφάλμα Τύπου Ι. Ορίζοντας το \(\alpha = 0.05\), λέμε ότι είμαστε εντάξει με το να έχουμε ένα ποσοστό Σφάλματος Τύπου Ι 5%.
Ποιο είναι το Αντίθετο του Απίθανου;
Θα μας ενδιαφέρει αν η δειγματική τιμή \(b_1\) πέφτει στις απίθανες ουρές του \(0.05\). Αλλά τι γίνεται αν δεν πέφτει στις ουρές αλλά αντίθετα στο μεσαίο τμήμα της δειγματοληπτικής κατανομής; Θα πρέπει τότε να το αποκαλέσουμε «πιθανό»;
Για να είμαστε ακριβείς, αν το δείγμα πέφτει στο μεσαίο \(0.95\) της δειγματοληπτικής κατανομής, σημαίνει ότι το δείγμα δεν είναι απίθανο. Αλλά το να πούμε ότι είναι «πιθανό» είναι λίγο ατημέλητο και πιθανώς παραπλανητικό.
Στη στατιστική, ακόμα κι αν ένα γεγονός έχει πιθανότητα \(0.06\), θα πούμε ότι δεν είναι απίθανο επειδή ο ορισμός μας για το απίθανο είναι \(0.05\) ή χαμηλότερο. Αλλά ένας απλός άνθρωπος δεν θα αποκαλούσε κάτι με πιθανότητα \(0.06\) «πιθανό».
Αν ένα γεγονός έχει πιθανότητα \(0.051\) και έχουμε ορίσει το \(\alpha\) μας στο \(0.05\), θα ήταν πιο ακριβές να πούμε ότι το γεγονός είναι:
Επεξήγηση
Σωστή απάντηση: Β — Όχι απίθανο
Η λογική:
Με \(\alpha = 0.05\), ο ορισμός μας για το «απίθανο» είναι:
\[p < 0.05 \Rightarrow \text{απίθανο}\]
Επειδή \(0.051 > 0.05\), το γεγονός δεν πληροί το κριτήριο για να θεωρηθεί απίθανο.
Γιατί οι άλλες επιλογές είναι λάθος:
Α. «Απίθανο» — Για να είναι απίθανο, η πιθανότητα θα έπρεπε να είναι μικρότερη από \(0.05\). Το \(0.051\) είναι οριακά μεγαλύτερο.
Γ. «Πιθανό» — Αυτό είναι παραπλανητικό. Στην καθημερινή γλώσσα, κάτι με πιθανότητα μόλις 5,1% δεν θα το λέγαμε «πιθανό». Ο πιο ακριβής όρος είναι «όχι απίθανο» — που σημαίνει απλώς ότι δεν πληροί το κριτήριο για απόρριψη.
Σημαντική διάκριση:
Πιθανότητα
Στατιστικός όρος
\(p < 0.05\)
Απίθανο
\(p \geq 0.05\)
Όχι απίθανο (όχι «πιθανό»)
Γίνεται κουραστικό να λέμε «όχι απίθανο» συνεχώς, και μερικές φορές οι προτάσεις διαβάζονται λίγο πιο εύκολα αν απλώς πούμε «πιθανό». Απλά να θυμάστε ότι όταν λέμε «πιθανό» συνήθως εννοούμε «όχι απίθανο». Αλλά αυτό δεν είναι αυτό που εννοούν οι κανονικοί άνθρωποι με τη λέξη «πιθανό».
11.5 Η Τιμή \(p\)
Εντοπισμός του Δείγματος στη Δειγματοληπτική Κατανομή
Έχουμε πλέον αφιερώσει αρκετό χρόνο εξετάζοντας τη δειγματοληπτική κατανομή των τιμών \(b_1\) υποθέτοντας ότι το κενό μοντέλο είναι αληθές (δηλαδή \(\beta_1 = 0\)). Έχουμε αναπτύξει την ιδέα ότι τα προσομοιωμένα δείγματα, που δημιουργούνται από τυχαίες ανακατανομές των δεδομένων του πειράματος φιλοδωρημάτων, συνήθως συγκεντρώνονται γύρω από το 0. Τα δείγματα που καταλήγουν στις ουρές της κατανομής — το άνω και κάτω \(0.025\) των τιμών — θεωρούνται απίθανα.
Ας τοποθετήσουμε το δείγμα μας ακριβώς πάνω στο ιστόγραμμα της δειγματοληπτικής κατανομής και ας δούμε πού πέφτει. Πέφτει στις ουρές της κατανομής ή στο μεσαίο \(0.95\);
Ακολουθεί κώδικας που θα αποθηκεύσει την τιμή \(b_1\) του δείγματός μας ως sample_b1.
Αν το εκτυπώσουμε, θα δούμε ότι η τιμή του δείγματος είναι \(6.05\): τα τραπέζια στη συνθήκη με το χαμογελαστό πρόσωπο άφησαν, κατά μέσο όρο, \(6.05\) ποσοστιαίες μονάδες υψηλότερο φιλοδώρημα από τα τραπέζια στην ομάδα ελέγχου.
Με βάση το παραπάνω διάγραμμα, πού νομίζετε ότι θα έπεφτε το δείγμα από το πείραμα φιλοδωρημάτων σε αυτή τη δειγματοληπτική κατανομή που υποθέτει ότι το κενό μοντέλο είναι αληθές; Θα έπεφτε στο μεσαίο \(0.95\) ή στις ουρές;
Επεξήγηση
Σωστή απάντηση: Β — Στις ουρές
Γιατί;
Η τιμή \(b_1\) του δείγματός μας είναι \(6.05\). Κοιτάζοντας το ιστόγραμμα:
Το μεσαίο \(0.95\) (μπλε περιοχή) εκτείνεται περίπου από \(-6\) έως \(+6\)
Η τιμή \(6.05\) βρίσκεται στο δεξί άκρο της κατανομής, στην κόκκινη περιοχή
Αυτό σημαίνει ότι το δείγμα μας είναι απίθανο να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\)
Τι σημαίνει αυτό;
Επειδή το δείγμα μας πέφτει στην ουρά της κατανομής, έχουμε λόγο να αμφισβητήσουμε το κενό μοντέλο και να σκεφτούμε ότι ίσως υπάρχει πραγματική επίδραση του χαμογελαστού προσώπου στα φιλοδωρήματα.
Ας το διαπιστώσουμε επικαλύπτοντας το δείγμα στο ιστόγραμμα της δειγματοληπτικής κατανομής. Συνδέοντας τον παρακάτω κώδικα στο ιστόγραμμα (χρησιμοποιώντας τον τελεστή %>%) θα τοποθετήσουμε μια μαύρη κουκκίδα ακριβώς στην τιμή του δείγματος \(6.05\):
gf_point(x =6.05, y =0)
Αν έχετε ήδη αποθηκεύσει την τιμή του \(b_1\) (όπως κάναμε πριν, στο sample_b1), μπορείτε επίσης να γράψετε τον κώδικα ως εξής:
gf_point(x = sample_b1, y =0)
Μπορούμε να δούμε ότι το δείγμα μας δεν βρίσκεται στην απίθανη ζώνη. Βρίσκεται εντός του μεσαίου \(0.95\) των τιμών \(b_1\) που παράγονται από το κενό μοντέλο της ΔΠΔ.
Ανακεφαλαίωση της Λογικής με την Τριάδα των Κατανομών
Το δύσκολο με τη στατιστική συμπερασματολογία είναι ότι πρέπει να έχουμε στο μυαλό μας και τις τρεις κατανομές (δείγμα, ΔΠΔ και δειγματοληπτική κατανομή) ταυτόχρονα. Είναι πολύ εύκολο να χάσουμε τον ειρμό. Θα παρουσιάσουμε ένα νέο είδος εικόνας που δείχνει και τις τρεις αυτές κατανομές μαζί σε σχέση μεταξύ τους.
Η παρακάτω εικόνα αναπαριστά πώς έχουμε χρησιμοποιήσει μέχρι στιγμής τις δειγματοληπτικές κατανομές για να αξιολογήσουμε το κενό μοντέλο (ή μηδενική υπόθεση). Ας ξεκινήσουμε από την κορυφή αυτής της εικόνας. Η επάνω μπλε οριζόντια γραμμή αναπαριστά τις πιθανές τιμές του \(\beta_1\) στη ΔΠΔ. Η πραγματική τιμή του \(\beta_1\) είναι άγνωστη — είναι αυτό που προσπαθούμε να ανακαλύψουμε. Αλλά έχουμε υποθέσει ότι μπορεί να είναι 0, οπότε το έχουμε αναπαραστήσει στο κόκκινο πλαίσιο.
Με βάση αυτή την υποθετική ΔΠΔ, προσομοιώσαμε δείγματα που δημιουργήθηκαν από τυχαίες ανακατανομές των δεδομένων του πειράματος φιλοδωρημάτων. Αυτές οι δειγματικές τιμές \(b_1\) τείνουν να συγκεντρώνονται γύρω από το 0 επειδή προσομοιώναμε το κενό μοντέλο στο οποίο \(\beta_1 = 0\). Τα δείγματα που καταλήγουν στις ουρές της κατανομής — το άνω και κάτω \(0.025\) των τιμών — θεωρούνται απίθανα. Έχουμε σχεδιάσει μαύρες διακεκομμένες γραμμές για να αναπαραστήσουμε τα όρια αποκοπής, τα σύνορα που διαχωρίζουν τις μεσαίες τιμές (που δεν θεωρούνται απίθανες) από τις τιμές στις άνω και κάτω ουρές (που θεωρούνται απίθανες).
Τι σημαίνει το ότι το δείγμα βρίσκεται ανάμεσα στις δύο μαύρες διακεκομμένες γραμμές;
Επεξήγηση
Σωστή απάντηση: Β — Σημαίνει ότι αυτό το δείγμα δεν είναι απίθανο να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\)
Η λογική:
Οι μαύρες διακεκομμένες γραμμές αναπαριστούν τα όρια αποκοπής που διαχωρίζουν:
Το μεσαίο 95% της κατανομής (όχι απίθανο)
Τις ουρές (το ακραίο 5%, που θεωρείται απίθανο)
Αν το δείγμα μας βρίσκεται ανάμεσα στις γραμμές, τότε:
Βρίσκεται στο μεσαίο 95%
Δεν είναι απίθανο να έχει παραχθεί από το κενό μοντέλο
Δεν απορρίπτουμε το κενό μοντέλο
Γιατί οι άλλες επιλογές είναι λάθος:
Α. «Σίγουρα παράχθηκε από ΔΠΔ με \(\beta_1 = 0\)» — Η στατιστική δεν μας δίνει ποτέ βεβαιότητα. Μπορούμε μόνο να πούμε ότι είναι «όχι απίθανο», όχι «σίγουρο».
Γ. «Είναι απίθανο να παράχθηκε» — Αυτό θα ίσχυε αν το δείγμα ήταν έξω από τις διακεκομμένες γραμμές (στις ουρές).
Δ. «Η πραγματική τιμή του \(\beta_1\) είναι \(6.05\)» — Το \(6.05\) είναι η τιμή \(b_1\) του δείγματός μας (εκτίμηση), όχι η πραγματική τιμή \(\beta_1\) της ΔΠΔ που παραμένει άγνωστη.
Η Έννοια της Τιμής \(p\)
Έχουμε εντοπίσει το δείγμα στο πλαίσιο της δειγματοληπτικής κατανομής που δημιουργήθηκε από το κενό μοντέλο, και έχουμε δει ότι πέφτει στο μεσαίο \(0.95\) των τιμών \(b_1\). Αν είχε πέσει σε οποιαδήποτε από τις δύο ουρές, θα το κρίναμε απίθανο να έχει παραχθεί από το κενό μοντέλο, κάτι που θα μπορούσε να μας οδηγήσει στην απόρριψη του κενού μοντέλου.
Αλλά μπορούμε να κάνουμε κάτι καλύτερο από αυτό. Δεν χρειάζεται απλώς να κάνουμε μια ερώτηση ναι/όχι στη δειγματοληπτική κατανομή μας. Αντί να ρωτάμε αν το δείγμα είναι στην απίθανη περιοχή ή όχι (ναι ή όχι), θα μπορούσαμε αντί αυτού να ρωτήσουμε: ποια είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) τόσο ακραία όσο αυτή που παρατηρήθηκε στο πραγματικό πείραμα; Η απάντηση σε αυτή την ερώτηση ονομάζεται τιμή \(p\) (p-value).
Πριν σας δείξουμε πώς να υπολογίζετε μια τιμή \(p\), ας σκεφτούμε λίγο τι σημαίνει αυτή η έννοια.
Παρακάτω είναι το ιστόγραμμα που απεικονίζει τη δειγματοληπτική κατανομή που δημιουργήσαμε με την R. Το έχουμε σχεδιάσει έτσι ώστε το άνω και κάτω \(0.025\) των τιμών \(b_1\) (δηλαδή το πιο ακραίο \(0.05\) των \(b_1\)) να είναι χρωματισμένο κόκκινο, και το μεσαίο \(0.95\) χρωματισμένο μπλε.
Δεδομένου ότι υπάρχουν 1000 τυχαία παραγόμενες τιμές \(b_1\) σε αυτή τη δειγματοληπτική κατανομή, πόσες από αυτές είναι χρωματισμένες κόκκινες;
Επεξήγηση
Σωστή απάντηση: Β — Περίπου 50
Ο υπολογισμός:
Συνολικές τιμές \(b_1\): 1000
Ποσοστό στις ουρές (κόκκινο): \(0.05\) (5%)
Αριθμός κόκκινων: \(1000 \times 0.05 = 50\)
Από αυτές τις 50:
Περίπου 25 στην κάτω ουρά (αριστερά)
Περίπου 25 στην άνω ουρά (δεξιά)
Η μαύρη κουκκίδα αναπαριστά την πραγματική τιμή \(b_1\) που παρατηρήθηκε στο πείραμα φιλοδωρημάτων. Ποια είναι η πιθανότητα να πάρουμε μια τυχαία προσομοιωμένη τιμή \(b_1\) από το κενό μοντέλο που είναι μεγαλύτερη από την παρατηρούμενη τιμή \(b_1\);
Επεξήγηση
Σωστή απάντηση: Γ — Θα ήταν μικρότερη από \(0.025\)
Η λογική:
Η μαύρη κουκκίδα (η παρατηρούμενη τιμή \(b_1 = 6.05\)) βρίσκεται μέσα στην κόκκινη περιοχή της άνω ουράς, όχι ακριβώς στο όριο της.
Το όριο αποκοπής για την άνω ουρά είναι περίπου στο \(6\)
Η παρατηρούμενη τιμή μας είναι \(6.05\), που είναι πιο ακραία από το όριο
Επομένως, η περιοχή δεξιά της μαύρης κουκκίδας είναι μικρότερη από την περιοχή δεξιά του ορίου αποκοπής
Αφού η πιθανότητα να είσαι δεξιά του ορίου αποκοπής είναι \(0.025\), η πιθανότητα να είσαι δεξιά της μαύρης κουκκίδας (που είναι ακόμα πιο δεξιά) πρέπει να είναι μικρότερη από \(0.025\).
Η συνολική επιφάνεια των δύο ουρών που είναι σκιασμένες κόκκινες στο παραπάνω ιστόγραμμα αναπαριστά το επίπεδο άλφα \(0.05\). Αυτές οι περιοχές αναπαριστούν τις τιμές \(b_1\) που δημιουργήθηκαν από το κενό μοντέλο και τις οποίες έχουμε αποφασίσει να κρίνουμε ως απίθανες με βάση το άλφα μας. Αυτό σημαίνει ότι αν το κενό μοντέλο είναι αληθές, όπως υποθέσαμε όταν κατασκευάσαμε τη δειγματοληπτική κατανομή, τότε η πιθανότητα να πάρουμε ένα δείγμα στην κόκκινη περιοχή θα ήταν \(0.05\).
Ενώ γνωρίζουμε ποιο είναι το \(\alpha\) πριν καν κάνουμε μια μελέτη — είναι απλώς μια δήλωση του κριτηρίου μας για το τι θα θεωρήσουμε απίθανο — η τιμή \(p\) υπολογίζεται αφού κάνουμε μια μελέτη, με βάση τα πραγματικά δεδομένα του δείγματος. Μπορούμε να απεικονίσουμε τη διαφορά μεταξύ αυτών των δύο εννοιών στα παρακάτω γραφήματα, τα οποία εστιάζουν μόνο στην άνω ουρά της δειγματοληπτικής κατανομής του \(b_1\).
Άλφα (\(\alpha\))
Αυτό το γράφημα απεικονίζει την έννοια του άλφα. Έχοντας αποφασίσει να ορίσουμε το άλφα στο \(0.05\), η κόκκινη περιοχή στην άνω ουρά της δειγματοληπτικής κατανομής αναπαριστά το \(0.025\) των μεγαλύτερων τιμών \(b_1\) που δημιουργήθηκαν από το κενό μοντέλο.
Η κόκκινη περιοχή αναπαριστά το \(0.025\) των μεγαλύτερων τιμών \(b_1\)
Τιμή \(p\) (p-value)
Αυτό το γράφημα απεικονίζει την έννοια της τιμής \(p\). Ενώ η τιμή \(p\) είναι επίσης μια πιθανότητα, δεν εξαρτάται από το άλφα. Η τιμή \(p\) αναπαρίσταται από τη μοβ περιοχή πέρα από το δειγματικό \(b_1\) μας και είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) μεγαλύτερη από το δειγματικό \(b_1\) μας.
Η μοβ περιοχή αναπαριστά τις τιμές \(b_1\) μεγαλύτερες από το δειγματικό \(b_1\)
Η διακεκομμένη γραμμή στο γράφημα αριστερά έχει προστεθεί για να οριοθετήσει το όριο αποκοπής πέρα από το οποίο θα θεωρούμε απίθανο, και το μεσαίο \(0.95\) της δειγματοληπτικής κατανομής που θεωρούμε όχι απίθανο. Έχουμε κρατήσει τη διακεκομμένη γραμμή στο γράφημα δεξιά για να σας βοηθήσουμε να θυμάστε πού ξεκινούσε η κόκκινη περιοχή του άλφα.
Στις παραπάνω εικόνες, δείξαμε μόνο την άνω ουρά της δειγματοληπτικής κατανομής. Αλλά επειδή μια πολύ χαμηλή τιμή \(b_1\) (για παράδειγμα, \(-9\)) θα μας έκανε επίσης να αμφισβητήσουμε το κενό μοντέλο της ΔΠΔ, θα θέλουμε να κάνουμε έναν έλεγχο διπλής κατεύθυνσης (two-tailed test). Στα παρακάτω γραφήματα έχουμε σμικρύνει για να δείξουμε και τις δύο ουρές της δειγματοληπτικής κατανομής, απεικονίζοντας ξανά το άλφα (με τις κόκκινες ουρές) και την τιμή \(p\) (με τις μοβ ουρές).
Άλφα (διπλής κατεύθυνσης)
Τιμή p (διπλής κατεύθυνσης)
Ποια είναι η πιθανότητα διπλής κατεύθυνσης να πάρουμε μια τυχαία προσομοιωμένη τιμή \(b_1\) από το κενό μοντέλο που είναι πιο ακραία από το δειγματικό \(b_1\);
Επεξήγηση
Σωστή απάντηση: Γ — Θα ήταν μικρότερη από \(0.05\) επειδή οι μοβ ουρές είναι λίγο μικρότερες από τις κόκκινες ουρές.
Η λογική:
Συγκρίνοντας τα δύο γραφήματα:
Κόκκινες ουρές (άλφα): Ξεκινούν από τα όρια αποκοπής (διακεκομμένες γραμμές) και εκτείνονται προς τα άκρα
Μοβ ουρές (τιμή \(p\)): Ξεκινούν από τη θέση του δειγματικού \(b_1\) (μαύρη κουκκίδα στο \(6.05\)) και εκτείνονται προς τα άκρα
Επειδή το δειγματικό \(b_1 = 6.05\) βρίσκεται πιο δεξιά από το όριο αποκοπής της άνω ουράς (και αντίστοιχα το \(-6.05\) πιο αριστερά από το κάτω όριο), οι μοβ ουρές είναι μικρότερες από τις κόκκινες ουρές.
Επομένως, η τιμή \(p\) (η μοβ περιοχή) είναι μικρότερη από \(0.05\) (την κόκκινη περιοχή).
Επειδή οι μοβ ουρές, που αναπαριστούν την περιοχή πέρα από το δειγματικό \(b_1\), είναι λίγο μεγαλύτερες από τις κόκκινες ουρές, που αναπαριστούν το άλφα \(0.05\), θα μαντεύαμε ότι η τιμή \(p\) είναι λίγο μεγαλύτερη από \(0.05\). Αλλά δεν είναι τόσο πολύ μεγαλύτερη — σίγουρα όχι τόσο μεγάλη όσο \(0.40\) ή \(0.80\)!
Αν είχαμε πράγματι κάνει τη μελέτη και είχαμε πάρει δειγματικό \(b_1\) ίσο με 9, πώς θα επηρέαζε αυτό το μέγεθος του α μας (την κόκκινη περιοχή);
Επεξήγηση
Σωστή απάντηση: Γ — Δεν θα είχε καμία επίδραση επειδή το άλφα, ο ορισμός μας για το «απίθανο», αποφασίζεται πριν από τη μελέτη.
Η λογική:
Το άλφα (\(\alpha\)) είναι ένα κριτήριο που ορίζουμε πριν κάνουμε τη μελέτη:
Είναι η απόφασή μας για το τι θα θεωρήσουμε «απίθανο»
Συνήθως ορίζεται στο \(0.05\) (ή \(0.01\), \(0.001\) κλπ.)
Δεν εξαρτάται από τα αποτελέσματα του δείγματος
Ανεξάρτητα από το αν το δειγματικό \(b_1\) είναι \(6.05\) ή \(9\) ή οποιαδήποτε άλλη τιμή, το άλφα παραμένει \(0.05\).
Αν είχαμε πράγματι κάνει τη μελέτη και είχαμε πάρει δειγματικό \(b_1\) ίσο με 9, πώς θα επηρέαζε αυτό το μέγεθος της τιμής \(p\) μας (τη μοβ περιοχή);
Επεξήγηση
Σωστή απάντηση: Α — Θα την έκανε μικρότερη.
Η λογική:
Η τιμή \(p\) υπολογίζεται μετά τη μελέτη και εξαρτάται από το δειγματικό \(b_1\):
Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\)τόσο ακραία ή πιο ακραία από αυτή που παρατηρήσαμε
Αν το δειγματικό \(b_1\) ήταν \(9\) αντί για \(6.05\):
Η μοβ περιοχή θα ξεκινούσε από το \(9\) (και το \(-9\))
Αυτή η περιοχή θα ήταν μικρότερη επειδή το \(9\) είναι πιο ακραίο
Άρα η τιμή \(p\) θα ήταν μικρότερη
Γενικός κανόνας:
Όσο πιο ακραίο το δειγματικό \(b_1\), τόσο μικρότερη η τιμή \(p\).
Ορισμός της Τιμής \(p\)
Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια εκτίμηση παραμέτρου τόσο ακραία ή πιο ακραία από την εκτίμηση του δείγματος, δεδομένης της υπόθεσης ότι το κενό μοντέλο είναι αληθές.
Επομένως, η τιμή \(p\) υπολογίζεται με βάση τόσο την τιμή της δειγματικής εκτίμησης όσο και το σχήμα της δειγματοληπτικής κατανομής της εκτίμησης της παραμέτρου κάτω από το κενό μοντέλο. Αντίθετα, το άλφα δεν εξαρτάται από την τιμή της δειγματικής εκτίμησης.
11.6 Υπολογισμός της Τιμής \(p\) για ένα Δείγμα
Για να υπολογίσουμε την πιθανότητα να πάρουμε μια τιμή \(b_1\) εντός μιας συγκεκριμένης περιοχής (π.χ., μεγαλύτερη από \(6.05\) και μικρότερη από \(-6.05\)) μπορούμε απλώς να υπολογίσουμε την αναλογία των τιμών \(b_1\) στη δειγματοληπτική κατανομή που πέφτουν εντός αυτών των περιοχών. Με αυτόν τον τρόπο, χρησιμοποιούμε την προσομοιωμένη δειγματοληπτική κατανομή των 1000 τιμών \(b_1\) ως κατανομή πιθανότητας.
Μπορούμε να χρησιμοποιήσουμε τη συνάρτηση tally() για να βρούμε πόσα προσομοιωμένα δείγματα είναι πιο ακραία από το δειγματικό μας \(b_1\). Η πρώτη γραμμή κώδικα θα μας πει πόσες τιμές \(b_1\) είναι πιο ακραίες στη θετική πλευρά από το sample_b1 μας (\(6.05\)), η δεύτερη γραμμή, πόσες είναι πιο ακραίες από το δείγμα μας στην αρνητική πλευρά (\(-6.05\)).
Σημείωση για τον κώδικα
Η R ερμηνεύει το <- χωρίς κενό μεταξύ των δύο χαρακτήρων ως τελεστή ανάθεσης — υποτίθεται ότι μοιάζει με βέλος. Για τη δεύτερη γραμμή κώδικα, πρέπει να βάλετε ένα κενό μεταξύ του < και του - ώστε η R να το ερμηνεύσει ως «μικρότερο από το αρνητικό του sample_b1».
Όταν προσθέσουμε τις δύο ουρές (τις ακραίες θετικές και αρνητικές τιμές \(b_1\)), υπάρχουν περίπου 80 τιμές \(b_1\) που είναι πιο ακραίες από το δειγματικό μας \(b_1\).
Τι αντιπροσωπεύουν αυτές οι 80 τιμές \(b_1\); (Επιλέξτε όλα όσα ισχύουν.)
Επεξήγηση
Σωστές απαντήσεις: Α και Γ
Γιατί οι Α και Γ είναι σωστές:
Α: Οι 80 τιμές \(b_1\) είναι αυτές που βρίσκονται πέρα από το δειγματικό μας \(b_1\) (\(6.05\) ή \(-6.05\)). Αυτές θεωρούνται «απίθανες» με βάση τη θέση του δείγματός μας.
Γ: Η δειγματοληπτική κατανομή δημιουργήθηκε υποθέτοντας ότι το κενό μοντέλο είναι αληθές (\(\beta_1 = 0\)). Οι 80 τιμές είναι αυτές που παράχθηκαν από αυτό το μοντέλο και είναι πιο ακραίες από το δείγμα μας.
Γιατί οι Β και Δ είναι λάθος:
Β: Η φράση «τυχαία ΔΠΔ» είναι ασαφής. Η δειγματοληπτική κατανομή δημιουργήθηκε από το κενό μοντέλο, όχι από οποιαδήποτε τυχαία ΔΠΔ.
Δ: Το μοντέλο Condition είναι το σύνθετο μοντέλο, όχι το κενό. Η δειγματοληπτική κατανομή δημιουργήθηκε από το κενό μοντέλο.
Δεδομένου ότι υπάρχουν περίπου 80 τυχαία παραγόμενες τιμές \(b_1\) (από τις 1000) που είναι πιο ακραίες από το δείγμα μας, θα λέγαμε ότι υπάρχει περίπου \(0.08\) πιθανότητα το κενό μοντέλο να δημιουργήσει ένα δείγμα τόσο ακραίο όσο το \(6.05\). Αυτή η πιθανότητα είναι η τιμή \(p\).
Αντί να χρησιμοποιούμε δύο γραμμές κώδικα — μία για να βρούμε τον αριθμό των τιμών \(b_1\) στο άνω άκρο, την άλλη στο κάτω άκρο — μπορούμε να χρησιμοποιήσουμε μία μόνο γραμμή κώδικα ως εξής:
Σημειώστε τη χρήση του τελεστή |, που σημαίνει «ή», για να συνδυάσουμε τα δύο κριτήρια: αυτός ο κώδικας μετράει τον συνολικό αριθμό των τιμών \(b_1\) που είναι είτε μεγαλύτερες από το θετικό \(6.05\) είτε μικρότερες από το αρνητικό \(-6.05\). Μπορείτε να εκτελέσετε τον κώδικα στο παρακάτω παράθυρο. Δοκιμάστε να προσθέσετε το όρισμα format = "proportion" για να πάρετε την αναλογία ή την τιμή \(p\) απευθείας.
Η τιμή \(p\) για το \(b_1\) στο πείραμα φιλοδωρημάτων ήταν \(0.08\), η οποία είναι μεγαλύτερη από το άλφα μας \(0.05\). Επομένως, θα λέγαμε ότι το δείγμα μας δεν είναι απίθανο να έχει δημιουργηθεί από αυτή τη ΔΠΔ. Έτσι, θα θεωρούσαμε το κενό μοντέλο ως ένα εύλογο μοντέλο της ΔΠΔ και επομένως δεν θα απορρίπταμε το κενό μοντέλο. Ακόμα και μια ΔΠΔ όπου δεν υπάρχει επίδραση του χαμογελαστού προσώπου μπορεί να παράγει μια τιμή \(b_1\) τόσο ακραία όσο το δείγμα μας ή πιο ακραία περίπου το \(0.08\) (8%) των περιπτώσεων.
Αν η τιμή \(p\) μας ήταν μικρότερη από \(0.05\), θα μπορούσαμε να δηλώσουμε ότι το δείγμα μας είναι απίθανο να έχει δημιουργηθεί από το κενό μοντέλο της ΔΠΔ, και έτσι να απορρίψουμε το κενό μοντέλο.
Τι Σημαίνει να Απορρίπτουμε — ή Όχι — το Κενό Μοντέλο (ή Μηδενική Υπόθεση)
Η έννοια της τιμής \(p\), και η χρήση της για να αποφασίσουμε αν θα απορρίψουμε ή όχι το κενό μοντέλο υπέρ του πιο σύνθετου μοντέλου που έχουμε προσαρμόσει στα δεδομένα, προέρχεται από μια παράδοση γνωστή ως Έλεγχος Στατιστικής Σημαντικότητας της Μηδενικής Υπόθεσης (Null Hypothesis Significance Testing - NHST). Η μηδενική υπόθεση είναι, στην πραγματικότητα, το ίδιο με αυτό που αποκαλούμε κενό μοντέλο. Αναφέρεται σε έναν κόσμο στον οποίο \(\beta_1 = 0\).
Ενώ θέλουμε να κατανοήσετε τη λογική του NHST, θέλουμε επίσης να είστε προσεκτικοί στην ερμηνεία της τιμής \(p\). Η παράδοση του NHST έχει δεχθεί κριτική τελευταία επειδή συχνά εφαρμόζεται απερίσκεπτα, με έναν ιδιαίτερα τυποποιημένο τρόπο. Άνθρωποι που δεν καταλαβαίνουν πραγματικά τι σημαίνει η τιμή \(p\) μπορεί να καταλήξουν σε εσφαλμένα συμπεράσματα.
Για παράδειγμα, μόλις αποφασίσαμε, με βάση μια τιμή \(p\) ίση με \(0.08\), να μην απορρίψουμε το κενό μοντέλο του Tip. Αλλά σημαίνει αυτό ότι στην πραγματική ΔΠΔ το \(\beta_1\) είναι πράγματι ίσο με 0; Όχι. Αυτό σημαίνει ότι θα μπορούσε να είναι 0, και τα δεδομένα είναι συνεπή με το να είναι 0. Αλλά θα μπορούσε να είναι κάτι άλλο αντί αυτού.
Θα μπορούσε, για παράδειγμα, να είναι \(6.05\), που ήταν η καλύτερα προσαρμοσμένη εκτίμηση του \(\beta_1\) με βάση τα δεδομένα του δείγματος. Αν το πραγματικό \(\beta_1\) ήταν ίσο με \(6.05\), θα μπορούσαμε να είμαστε σίγουροι ότι το \(6.05\) θα ήταν μία από τις πολλές πιθανές τιμές \(b_1\) που θα θεωρούνταν πιθανές.
Αν τόσο το κενό μοντέλο όσο και το σύνθετο «καλύτερα προσαρμοσμένο» μοντέλο είναι πιθανά αληθινά μοντέλα της ΔΠΔ, πώς πρέπει να αποφασίσουμε ποιο μοντέλο να χρησιμοποιήσουμε;
Κάποιοι ερευνητές, προερχόμενοι από την παράδοση του ελέγχου της μηδενικής υπόθεσης, θα υποστήριζαν ότι, εφόσον δεν μπορούμε να απορρίψουμε το κενό μοντέλο, οφείλουμε να το υιοθετήσουμε. Από αυτή την οπτική, η αποφυγή του Σφάλματος Τύπου Ι έχει ύψιστη προτεραιότητα: δεν θέλουμε να ισχυριστούμε ότι υπάρχει επίδραση του χαμογελαστού προσώπου στη ΔΠΔ όταν στην πραγματικότητα δεν υπάρχει. Στο πλαίσιο αυτό, το Σφάλμα Τύπου Ι θεωρείται σοβαρότερο από το Σφάλμα Τύπου ΙΙ, δηλαδή από το να συμπεράνουμε ότι δεν υπάρχει επίδραση ενώ στην πραγματικότητα υπάρχει στη ΔΠΔ.
Ωστόσο, αυτή η στρατηγική δεν αποτελεί κατ’ ανάγκην την ενδεδειγμένη πορεία δράσης σε όλες τις περιπτώσεις. Για παράδειγμα, όταν ο στόχος είναι να γίνουν καλύτερες προβλέψεις, μπορεί κανείς να επιλέξει το σύνθετο μοντέλο, ακόμη και αν δεν είναι δυνατή η απόρριψη του κενού μοντέλου. Αντίθετα, όταν ο σκοπός είναι η βαθύτερη κατανόηση της ΔΠΔ, έχει αξία η υιοθέτηση της απλούστερης θεωρίας που παραμένει συνεπής με τα διαθέσιμα δεδομένα. Οι επιστήμονες αναφέρονται σε αυτή την προτίμηση υπέρ της απλότητας με τον όρο «φειδωλότητα» (parsimony).
Οι Judd, McClelland και Ryan, στατιστικολόγοι τους οποίους εκτιμούμε ιδιαίτερα, έχουν υποστηρίξει ότι το ζητούμενο είναι απλώς να αποφασίσει κανείς αν ένα μοντέλο είναι «αρκετά καλύτερο ώστε να υιοθετηθεί». Ένα μεγάλο μέρος της στατιστικής συμπερασματολογίας συνίσταται στην εύρεση ή σύλληψη ενός συνόλου εναλλακτικών μοντέλων που είναι συμβατά με τα δεδομένα και στην αξιολόγηση του ποια από αυτά εξυπηρετούν αποτελεσματικότερα τον εκάστοτε στόχο.
Προτιμούμε να προσεγγίζουμε το πρόβλημα με όρους σύγκρισης μοντέλων αντί ελέγχου της μηδενικής υπόθεσης. Η υπερβολική έμφαση στον έλεγχο της μηδενικής υπόθεσης μπορεί να δημιουργήσει την εντύπωση ότι η ανάλυση ολοκληρώνεται μόλις είτε απορριφθεί είτε δεν απορριφθεί το κενό μοντέλο. Αντίθετα, στο πλαίσιο της μοντελοποίησης, η αναζήτηση ενός καλύτερου μοντέλου είναι διαρκής: ενός μοντέλου που συμβάλλει ουσιαστικότερα στην κατανόηση της ΔΠΔ ή που παρέχει ακριβέστερες προβλέψεις για μελλοντικά γεγονότα.
11.7 Ένα Μαθηματικό Μοντέλο της Δειγματοληπτικής Κατανομής του \(b_1\)
Οι πρώτοι στατιστικολόγοι που ανέπτυξαν τις ιδέες πίσω από τις δειγματοληπτικές κατανομές και τις τιμές \(p\) δεν είχαν υπολογιστές. Μπορούσαν μόνο να φανταστούν πώς θα ήταν να κάνουν shuffle() στα δεδομένα τους για να μιμηθούν μια τυχαία ΔΠΔ. Αυτό που έχουμε μπορέσει να κάνουμε με την R θα τους φαινόταν σαν θαύμα! Αντί να χρησιμοποιούν υπολογιστικές τεχνικές για να δημιουργήσουν δειγματοληπτικές κατανομές, οι πρώτοι στατιστικολόγοι έπρεπε να αναπτύξουν μαθηματικά μοντέλα για το πώς θα έπρεπε να μοιάζουν οι δειγματοληπτικές κατανομές, και στη συνέχεια να υπολογίσουν πιθανότητες με βάση αυτές τις μαθηματικές κατανομές.
Στην πραγματικότητα, η τιμή \(p\) που βλέπετε στον πίνακα ANOVA που δημιουργείται από τη συνάρτηση supernova() (καθώς και από τα περισσότερα άλλα στατιστικά λογισμικά) υπολογίζεται από ένα μαθηματικό μοντέλο της δειγματοληπτικής κατανομής.
Ο κώδικας στο παρακάτω παράθυρο προσαρμόζει το μοντέλο Condition στα δεδομένα TipExperiment και αποθηκεύει το μοντέλο ως Condition_model. Χρησιμοποιήστε τη συνάρτηση supernova() για να δημιουργήσετε τον πίνακα ANOVA για αυτό το μοντέλο, και κοιτάξτε την τιμή \(p\) (στη δεξιότερη στήλη του πίνακα).
Analysis of Variance Table (Type III SS)Model: Tip ~ Condition SS df MS F PRE p--------------------|---------------------------------Model (error reduced) |402.0231402.0233.3050.0729 .0762Error (from model) |5108.95542121.642--------------------|---------------------------------Total (empty model) |5510.97743128.162
Η τιμή p από τη συνάρτηση supernova(), στρογγυλοποιημένη στο δεύτερο δεκαδικό ψηφίο, είναι περίπου 0.08, πολύ κοντά σε αυτήν που υπολογίσαμε χρησιμοποιώντας την εμπειρική κατανομή δειγματοληψίας από 1.000 αναδιατάξεις. Η προσέγγιση που βασίζεται στο μαθηματικό μοντέλο δεν είναι κατ’ ανάγκην ανώτερη από την προσέγγιση της αναδιάταξης· το ουσιώδες είναι ότι και οι δύο μέθοδοι οδηγούν σε παρόμοιο αποτέλεσμα. (Αν και η εκτέλεση της supernova() είναι ταχύτερη, ορισμένοι βρίσκουν την έννοια της κατανομής δειγματοληψίας πιο κατανοητή όταν τη δημιουργούν ρητά με τη χρήση της shuffle().)
Η κατανομή t
Η μαθηματική συνάρτηση που χρησιμοποιεί η supernova() για να προσεγγίσει την κατανομή δειγματοληψίας του t —καθώς και πολλών άλλων εκτιμητών παραμέτρων— είναι γνωστή ως κατανομή t. Η κατανομή t σχετίζεται στενά με την κανονική κατανομή και, πράγματι, της μοιάζει σε μεγάλο βαθμό.
Στο παρακάτω σχήμα, η κατανομή t (απεικονιζόμενη με κόκκινη γραμμή) έχει επικαλυφθεί με την κατανομή δειγματοληψίας που κατασκευάσαμε με τη χρήση της shuffle(). Όπως φαίνεται, προσεγγίζει πολύ την κανονική κατανομή με την οποία έχετε ήδη εξοικειωθεί.
Χρήση της κατανομής t για τον υπολογισμό πιθανοτήτων
Στην κατανομή δειγματοληψίας που δημιουργήσατε με τη χρήση της shuffle(), μπορούσατε απλώς να μετρήσετε πόσες τιμές του t ήταν πιο ακραίες από την παρατηρούμενη τιμή του δείγματος, προκειμένου να υπολογίσετε την τιμή p. Η κατανομή t λειτουργεί με τον ίδιο βασικό τρόπο, με τη διαφορά ότι ο υπολογισμός των πιθανοτήτων στις άνω και κάτω ουρές απαιτεί πιο σύνθετα μαθηματικά. Ευτυχώς, δεν χρειάζεται να εκτελέσετε αυτούς τους υπολογισμούς χειροκίνητα· το R τους αναλαμβάνει για εσάς, για παράδειγμα όταν χρησιμοποιείτε τη συνάρτηση supernova().
Ακολουθεί μια απεικόνιση της κατανομής \(t\) (αριστερά) που δείχνει την τιμή \(p\) ως δύο λαχανί ουρές, και το ιστόγραμμα των ανακατανεμημένων τιμών \(b_1\) (δεξιά) που δείχνει το ίδιο πράγμα ως μοβ ουρές. Ο άξονας x και στα δύο έχει επισημανθεί με τιμές του \(b_1\) για να είναι ευκολότερη η σύγκρισή τους.
Τι είναι παρόμοιο σε αυτές τις δύο κατανομές; (Επιλέξτε όλα όσα ισχύουν.)
Επεξήγηση
Σωστές απαντήσεις: Α, Β, Ε, ΣΤ, Θ, ΙΑ
Γιατί αυτές είναι σωστές:
Α & Β: Και οι δύο κατανομές έχουν περίπου κανονικό, συμμετρικό σχήμα με καμπάνα.
Ε: Και οι δύο αναπαριστούν τη δειγματοληπτική κατανομή των τιμών \(b_1\) — δηλαδή, την κατανομή των τιμών \(b_1\) που θα μπορούσαν να προκύψουν από πολλά δείγματα.
ΣΤ: Και οι δύο είναι κεντραρισμένες στο 0 επειδή και οι δύο υποθέτουν το κενό μοντέλο (\(\beta_1 = 0\)).
Θ: Και οι δύο κατασκευάστηκαν υποθέτοντας ότι το κενό μοντέλο είναι αληθές, δηλαδή ότι η πραγματική επίδραση είναι 0.
ΙΑ: Και οι δύο μέθοδοι καταλήγουν σε παρόμοιες τιμές \(p\) (περίπου \(0.08\)).
Γιατί οι άλλες είναι λάθος:
Γ & Δ: Δεν αναπαριστούν τη δειγματική κατανομή ή τον πληθυσμό των φιλοδωρημάτων — αναπαριστούν τη δειγματοληπτική κατανομή του \(b_1\).
Ζ: Δεν είναι κεντραρισμένες στο \(6.05\) — είναι κεντραρισμένες στο 0.
Η & Ι: Δεν υποθέτουν θετική ή αρνητική επίδραση — υποθέτουν μηδενική επίδραση.
Ο Έλεγχος t Δύο Δειγμάτων
Αν έχετε παρακολουθήσει μαθήματα στατιστικής στο παρελθόν, πιθανώς μάθατε για τον έλεγχο \(t\) (t-test). Ο έλεγχος \(t\) χρησιμοποιείται για τον υπολογισμό της τιμής \(p\) για τη διαφορά μεταξύ δύο ανεξάρτητων ομάδων. Το πείραμα φιλοδωρημάτων είναι ακριβώς μια τέτοια περίπτωση: το \(b_1\) με το οποίο δουλεύαμε είναι η διαφορά μεταξύ δύο ομάδων τραπεζιών, αυτών που έλαβαν το χαμογελαστό πρόσωπο και αυτών που δεν το έλαβαν.
Μπορείτε να χρησιμοποιήσετε την R για να κάνετε έναν έλεγχο \(t\) στα δεδομένα φιλοδωρημάτων:
Αν εκτελέσετε αυτόν τον κώδικα θα σας δώσει την τιμή \(p\) ίση με \(0.0762\), η οποία είναι ακριβώς αυτή που είδατε στον πίνακα ANOVA που παράχθηκε από τη supernova(). Παρόλο που η έξοδος της supernova() δεν σας δείχνει το στατιστικό \(t\) ή άλλες λεπτομέρειες για το πώς υπολογίζει την τιμή \(p\), στο παρασκήνιο χρησιμοποιεί την κατανομή \(t\) για τον υπολογισμό των τιμών \(p\).
Σημείωση
Αν και θέλουμε να γνωρίζετε τι είναι ο έλεγχος \(t\), δεν συνιστούμε να τον χρησιμοποιείτε. Η τεχνική που έχετε μάθει, της δημιουργίας ενός μοντέλου δύο ομάδων και της σύγκρισής του με το κενό μοντέλο, είναι πολύ πιο ισχυρή και γενικεύσιμη από τον έλεγχο \(t\). Αλλά αν κάποιος σας ρωτήσει αν μάθατε τον έλεγχο \(t\), μπορείτε να πείτε ναι. (Ο έλεγχος που κάνατε χρησιμοποιώντας τη shuffle() ονομάζεται μερικές φορές έλεγχος τυχαιοποίησης ή έλεγχος μεταθέσεων — randomization test ή permutation test.)
11.8 Παράγοντες που Επηρεάζουν την Τιμή \(p\)
Τι θα Γινόταν αν το Δειγματικό \(b_1\) Ήταν 10;
Το δειγματικό \(b_1\) στο πείραμα φιλοδωρημάτων ήταν \(6.05\). Με βάση τη δειγματοληπτική κατανομή που δημιουργήσαμε για το \(b_1\) υποθέτοντας το κενό μοντέλο, υπολογίσαμε την πιθανότητα να πάρουμε ένα δείγμα με \(b_1\) τόσο ακραίο ή πιο ακραίο από το \(6.05\) ως περίπου \(0.08\). Με βάση το κριτήριο άλφα μας \(0.05\), αποφασίσαμε ότι το \(6.05\) δεν ήταν απίθανο να έχει προκύψει από το κενό μοντέλο, και έτσι δεν απορρίψαμε το κενό μοντέλο.
Φανταστείτε, τώρα, ότι η μέση διαφορά μεταξύ των ομάδων με το χαμογελαστό πρόσωπο και της ομάδας ελέγχου ήταν 10 ποσοστιαίες μονάδες. Πώς θα επηρέαζε αυτό την τιμή \(p\), και πώς θα επηρέαζε την απόφασή μας σχετικά με το αν θα απορρίψουμε ή όχι το κενό μοντέλο της ΔΠΔ;
Στο παρακάτω σχήμα έχουμε αναπαράγει τη δειγματοληπτική κατανομή του \(b_1\) υποθέτοντας ότι το κενό μοντέλο της ΔΠΔ είναι αληθές. Οι κόκκινες ουρές μαζί δείχνουν το \(0.05\) των πιο ακραίων τιμών \(b_1\), με κάθε ουρά να περιλαμβάνει \(0.025\), ή το μισό, των ακραίων τιμών.
Αν το δειγματικό \(b_1\) ήταν 10 (αντί για 6), θα είχε πέσει στην πιθανή ή απίθανη ζώνη αυτής της δειγματοληπτικής κατανομής;
Επεξήγηση
Σωστή απάντηση: Β — Απίθανη
Κοιτάζοντας το ιστόγραμμα, η τιμή \(b_1 = 10\) θα βρισκόταν πολύ δεξιά, πέρα από την κόκκινη ουρά. Αυτό σημαίνει ότι θα ήταν στην απίθανη ζώνη — μια τιμή που είναι πολύ σπάνιο να παραχθεί από το κενό μοντέλο.
Ποια θα ήταν η τιμή \(p\);
Επεξήγηση
Σωστή απάντηση: Α — Πολύ μικρή, σίγουρα μικρότερη από \(0.05\)
Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\)τόσο ακραία ή πιο ακραία από αυτή που παρατηρήσαμε.
Με \(b_1 = 6.05\), η τιμή \(p\) ήταν περίπου \(0.08\)
Με \(b_1 = 10\), η τιμή θα ήταν πολύ πιο ακραία
Επομένως, η τιμή \(p\) θα ήταν πολύ μικρότερη — σίγουρα κάτω από \(0.05\)
Γενικός κανόνας: Όσο πιο ακραίο το \(b_1\), τόσο μικρότερη η τιμή \(p\).
Πώς θα επηρέαζε ένα \(b_1\) ίσο με 10 τη σκέψη μας για το κενό μοντέλο;
Επεξήγηση
Σωστή απάντηση: Α — Θα αύξανε την αμφιβολία μας ότι το δείγμα μας παράχθηκε από το κενό μοντέλο.
Αν η τιμή \(b_1 = 10\) είναι απίθανο να παραχθεί από το κενό μοντέλο (τιμή \(p < 0.05\)), τότε:
Αμφισβητούμε ότι το κενό μοντέλο είναι αληθές
Απορρίπτουμε το κενό μοντέλο
Συμπεραίνουμε ότι πιθανώς υπάρχει πραγματική επίδραση του χαμογελαστού προσώπου (\(\beta_1 \neq 0\))
Η τιμή \(p\) επηρεάζεται σίγουρα από το πόσο μακριά είναι το παρατηρούμενο \(b_1\) από το 0. Δεδομένου ότι το 10 είναι πιο μακριά από το 0 από ό,τι το \(6.05\) από το 0, όταν \(b_1 = 10\), παίρνουμε μικρότερη τιμή \(p\). Όσο πιο μακριά είναι το \(b_1\) από το 0, τόσο χαμηλότερη η τιμή \(p\), που σημαίνει τόσο λιγότερο πιθανό είναι το παρατηρούμενο \(b_1\) να έχει παραχθεί από το κενό μοντέλο.
Τυπικό Σφάλμα και Τιμή \(p\)
Η απόσταση μεταξύ του \(b_1\) και του 0 (ή του υποθετικού \(\beta_1\)) δεν είναι το μόνο πράγμα που επηρεάζει την τιμή \(p\). Ο άλλος σημαντικός παράγοντας είναι το πλάτος της δειγματοληπτικής κατανομής, το οποίο μπορεί να ποσοτικοποιηθεί χρησιμοποιώντας το τυπικό σφάλμα.
Ορισμός
Το τυπικό σφάλμα (standard error) είναι η τυπική απόκλιση μιας δειγματοληπτικής κατανομής.
Ρίξτε μια ματιά στις δύο προσομοιωμένες δειγματοληπτικές κατανομές στο παρακάτω σχήμα. Αυτή στα αριστερά είναι αυτή που δημιουργήσαμε χρησιμοποιώντας τη shuffle() για το πείραμα φιλοδωρημάτων. Αυτή στα δεξιά είναι παρόμοια από κάθε άποψη αλλά το εύρος είναι σημαντικά στενότερο. Και οι δύο έχουν περίπου κανονικό σχήμα, και οι δύο αποτελούνται από 1000 τιμές \(b_1\), και οι δύο κατανομές είναι κεντραρισμένες στο 0. Αλλά το τυπικό σφάλμα είναι μικρότερο για την κατανομή στα δεξιά.
Θα ήταν η τιμή \(p\) για το παρατηρούμενο \(b_1\) ίσο με \(6.05\) χαμηλότερη χρησιμοποιώντας την πλατύτερη δειγματοληπτική κατανομή (αριστερά) ή χρησιμοποιώντας τη στενότερη (δεξιά);
Επεξήγηση
Σωστή απάντηση: Β — Η τιμή \(p\) θα ήταν χαμηλότερη για τη στενότερη δειγματοληπτική κατανομή
Η λογική:
Κοιτάζοντας τα δύο γραφήματα:
Πλατύτερη κατανομή (αριστερά): Η τιμή \(b_1 = 6.05\) (μαύρη κουκκίδα) βρίσκεται κοντά στην άκρη της κόκκινης ουράς, αλλά μέσα στην κατανομή. Η τιμή \(p\) είναι περίπου \(0.08\).
Στενότερη κατανομή (δεξιά): Η ίδια τιμή \(b_1 = 6.05\) βρίσκεται πολύ πιο έξω από την κατανομή — είναι πολύ πιο ακραία σε σχέση με αυτή την κατανομή. Η τιμή \(p\) θα ήταν πολύ μικρότερη.
Γενικός κανόνας:
Όσο στενότερη η δειγματοληπτική κατανομή (μικρότερο τυπικό σφάλμα), τόσο μικρότερη η τιμή \(p\) για την ίδια παρατηρούμενη τιμή \(b_1\).
Αυτό συμβαίνει επειδή σε μια στενότερη κατανομή, η ίδια απόσταση από το 0 αντιπροσωπεύει μια πιο ακραία και πιο απίθανη τιμή.
Το τυπικό σφάλμα μπορεί να κάνει μεγάλη διαφορά στην αξιολόγησή μας για το κενό μοντέλο. Αν είναι μικρότερο, θα είναι ευκολότερο να απορρίψουμε το κενό μοντέλο, επειδή οποιαδήποτε εκτίμηση πάρουμε για το \(b_1\), θα είναι πιο πιθανό να βρίσκεται στο άνω ή κάτω \(0.025\) της δειγματοληπτικής κατανομής.
Μέγεθος Δείγματος και Τυπικό Σφάλμα
Έχουμε δείξει πώς η τιμή \(p\) επηρεάζεται από το τυπικό σφάλμα (το πλάτος της δειγματοληπτικής κατανομής). Αλλά και λοιπόν; Έχουμε πραγματικά κάποιο έλεγχο στο πλάτος της δειγματοληπτικής κατανομής; Στην πραγματικότητα, έχουμε, αν είμαστε εμείς αυτοί που σχεδιάζουν τη μελέτη και συλλέγουν τα δεδομένα.
Υπάρχουν δύο κύρια πράγματα που επηρεάζουν το τυπικό σφάλμα: (1) η τυπική απόκλιση της ΔΠΔ και (2) το μέγεθος του δείγματός σας. Ως ερευνητής, δεν έχετε έλεγχο στο πόσο μεταβλητή είναι η ΔΠΔ, αλλά επειδή μπορείτε να αποφασίσετε να συλλέξετε περισσότερα ή λιγότερα δεδομένα, έχετε έλεγχο στο μέγεθος του δείγματός σας.
Ας διερευνήσουμε πώς το μέγεθος του δείγματος μπορεί να επηρεάσει τη δειγματοληπτική κατανομή του \(b_1\). Σκεφτείτε ένα εναλλακτικό σύμπαν όπου οι ερευνητές που έκαναν τη μελέτη φιλοδωρημάτων συνέλεξαν δεδομένα από 88 τραπέζια αντί για μόνο 44. Φανταστείτε ότι το δείγμα είχε την ίδια διαφορά μεταξύ ομάδων (\(b_1\)) και την ίδια τυπική απόκλιση για το Tip με την αρχική μελέτη αλλά απλώς είχε περισσότερα τραπέζια στο δείγμα.
Για να προσομοιώσουμε αυτή τη φανταστική κατάσταση, δημιουργήσαμε ένα νέο πλαίσιο δεδομένων που ονομάζεται TipExp2 που απλώς έχει δύο αντίγραφα κάθε τραπεζιού από το αρχικό TipExperiment. Μπορούμε να εκτελέσουμε τη str() σε αυτό το νέο πλαίσιο δεδομένων για να δούμε πώς μοιάζει.
Χρησιμοποιήστε το παρακάτω παράθυρο κώδικα για να συγκρίνετε το νέο πλαίσιο δεδομένων (TipExp2) με το αρχικό (TipExperiment). Συγκεκριμένα, κοιτάξτε τον συνολικό μέσο όρο και την τυπική απόκλιση της μεταβλητής έκβασης Tip, για κάθε σύνολο δεδομένων, και επίσης προσαρμόστε το μοντέλο Condition για να δείτε ποιο είναι το καλύτερα προσαρμοσμένο \(b_1\) για τα δύο σύνολα δεδομένων.
Μπορείτε να ελέγξετε τα αποτελέσματά σας με τον παρακάτω πίνακα. Αυτοί οι αριθμοί ταιριάζουν πολύ στενά μεταξύ των δύο δειγμάτων για έναν λόγο: και τα δύο πλαίσια δεδομένων περιλαμβάνουν τα ίδια 44 τραπέζια, είτε μία φορά είτε δύο.
Μέγεθος Δείγματος
Μέσος Tip
Τυπ. Απόκλ. Tip
\(b_1\)
n=44
30,0
11,3
6,05
n=88
30,0
11,3
6,05
Αν και το μέγεθος του δείγματος δεν επηρεάζει απαραίτητα τον μέσο όρο, την τυπική απόκλιση ή το \(b_1\) — αυτά είναι όλα χαρακτηριστικά της δειγματικής κατανομής — θα επηρεάσει το πλάτος της δειγματοληπτικής κατανομής. Ας διερευνήσουμε αυτή την ιδέα δημιουργώντας δύο δειγματοληπτικές κατανομές, μία για το δείγμα με n=44, την άλλη για n=88. Θα χρησιμοποιήσουμε ξανά τη συνάρτηση shuffle() για να προσομοιώσουμε το κενό μοντέλο, όπου \(\beta_1 = 0\).
Ακολουθεί κώδικας για να δημιουργήσουμε τις δύο δειγματοληπτικές κατανομές του \(b_1\), μία για το σύνολο δεδομένων με 44 τραπέζια, την άλλη με 88 τραπέζια.
Στη συνέχεια εκτελέσαμε αυτόν τον κώδικα για να παράγουμε ιστογράμματα των δύο δειγματοληπτικών κατανομών του \(b_1\).
Σημειώστε ότι προσθέσαμε αυτόν τον κώδικα (gf_lims(x = c(-12, 12), y = c(-15,120))) για να βεβαιωθούμε ότι οι κλίμακες είναι ίδιες για τα δύο ιστογράμματα ώστε να μπορείτε να τα συγκρίνετε πιο εύκολα. Μπορεί να αναγνωρίζετε αυτά τα ιστογράμματα — είναι τα ίδια με αυτά που παρουσιάσαμε παραπάνω, αλλά τώρα ξέρετε πώς τα δημιουργήσαμε.
Ποιες από τις παρακάτω παρατηρήσεις είναι αληθείς για τις δύο δειγματοληπτικές κατανομές που απεικονίζονται παραπάνω; (Επιλέξτε όλα όσα ισχύουν.)
Επεξήγηση
Σωστές απαντήσεις: Α, Δ, Ε
Γιατί αυτές είναι σωστές:
Α: Με μεγαλύτερο δείγμα (n=88), οι τιμές \(b_1\) συγκεντρώνονται πιο στενά γύρω από το 0, άρα είναι πιο όμοιες μεταξύ τους.
Ε: Όταν η κατανομή είναι στενότερη, η τιμή \(6.05\) πέφτει πιο έξω (στην «απίθανη» κόκκινη περιοχή).
Γιατί οι άλλες είναι λάθος:
Β & Γ: Το αντίθετο είναι αληθές — μεγαλύτερο δείγμα σημαίνει λιγότερη μεταβλητότητα.
ΣΤ: Το αντίθετο — με λιγότερη μεταβλητότητα, το \(6.05\) είναι στην απίθανη περιοχή.
Ζ: Το δειγματικό \(b_1\) παραμένει \(6.05\) και στα δύο — δεν αλλάζει.
Τι είναι παρόμοιο στις δύο δειγματοληπτικές κατανομές; (Επιλέξτε όλα όσα ισχύουν.)
Επεξήγηση
Σωστές απαντήσεις: Α, Β
Γιατί αυτές είναι σωστές:
Α: Και οι δύο κατανομές έχουν περίπου κανονικό σχήμα (καμπάνα).
Β: Και οι δύο είναι κεντραρισμένες στο 0 επειδή και οι δύο προσομοιώνουν το κενό μοντέλο (\(\beta_1 = 0\)).
Γιατί η Γ είναι λάθος:
Το εύρος δεν είναι παρόμοιο — η κατανομή με n=88 είναι σημαντικά στενότερη από αυτή με n=44.
Ποια κατανομή έχει μεγαλύτερο τυπικό σφάλμα;
Επεξήγηση
Σωστή απάντηση: Α — Αυτή που βασίζεται σε δείγματα με n = 44
Η λογική:
Το τυπικό σφάλμα είναι η τυπική απόκλιση της δειγματοληπτικής κατανομής.
Μικρότερο δείγμα (n=44): Πλατύτερη κατανομή → μεγαλύτερο τυπικό σφάλμα
Μεγαλύτερο δείγμα (n=88): Στενότερη κατανομή → μικρότερο τυπικό σφάλμα
Γενικός κανόνας:
Το τυπικό σφάλμα μειώνεται καθώς το μέγεθος του δείγματος αυξάνεται.
Παρατηρήστε πώς η δειγματοληπτική κατανομή ποικίλλει πολύ λιγότερο όταν βασίζεται σε δείγματα 88 τραπεζιών από ό,τι για 44 τραπέζια. Χρησιμοποιήστε το παρακάτω παράθυρο κώδικα για να υπολογίσετε τα τυπικά σφάλματα για τις δύο δειγματοληπτικές κατανομές. (Υπόδειξη: Το τυπικό σφάλμα είναι η τυπική απόκλιση μιας δειγματοληπτικής κατανομής.)
[1] 3.534982
[1] 2.413229
Παρόλο που και οι δύο δειγματοληπτικές κατανομές είναι περίπου κανονικές και κεντραρισμένες στο 0 (άλλωστε, το κενό μοντέλο έχει \(\beta_1 = 0\)), το τυπικό σφάλμα είναι μικρότερο στη δειγματοληπτική κατανομή των τιμών \(b_1\) που βασίζεται σε δείγματα 88 τραπεζιών (περίπου 2,4 έναντι 3,5).
Αποδεικνύεται ότι τα μεγαλύτερα μεγέθη δείγματος παράγουν πάντα μικρότερα τυπικά σφάλματα (στενότερες δειγματοληπτικές κατανομές), επειδή σε μεγαλύτερα δείγματα, είναι πολύ πιο δύσκολο να πάρεις μια ακραία τιμή \(b_1\) μόνο από τύχη. Για να πάρεις μια ακραία τιμή \(b_1\) μόνο από τύχη θα χρειαζόταν πολλά από τα τραπέζια με υψηλά φιλοδωρήματα να ανατεθούν τυχαία σε μία συνθήκη και τα τραπέζια με χαμηλά φιλοδωρήματα στην άλλη. Αν είχατε μόνο δύο τραπέζια, αυτό είναι αρκετά εύκολο να συμβεί! Αν είχατε μόνο 4 τραπέζια, αυτό επίσης δεν είναι πολύ δύσκολο. Αλλά καθώς αυξάνετε τον αριθμό των τραπεζιών, είναι δύσκολο να διατηρηθεί αυτό το μοτίβο. Είναι ο ίδιος λόγος που είναι εύκολο να ρίξεις 2 κορώνες στη σειρά αλλά πολύ δύσκολο να ρίξεις 44 κορώνες στη σειρά. Είναι εύκολο να αναθέσεις τυχαία μερικούς που αφήνουν υψηλά φιλοδωρήματα σε μία συνθήκη αλλά δύσκολο να αναθέσεις τυχαία 40 που αφήνουν υψηλά φιλοδωρήματα σε μία συνθήκη.
Λάβετε υπόψη τις δύο δειγματοληπτικές κατανομές που δημιουργήθηκαν από το κενό μοντέλο της ΔΠΔ για τα δείγματα 44 και 88 τραπεζιών παραπάνω. Ποια δειγματοληπτική κατανομή θα μας οδηγούσε να απορρίψουμε το κενό μοντέλο ως εύλογο μοντέλο της ΔΠΔ που παρήγαγε το δείγμα μας;
Επεξήγηση
Σωστή απάντηση: Β — Η δειγματοληπτική κατανομή όπου το μέγεθος του δείγματος είναι 88.
Η λογική:
Κοιτάζοντας τα δύο ιστογράμματα:
n = 44: Το δειγματικό \(b_1 = 6.05\) (μαύρη κουκκίδα) βρίσκεται στην άκρη της μπλε περιοχής — είναι όχι απίθανο. Δεν απορρίπτουμε το κενό μοντέλο.
n = 88: Το ίδιο \(b_1 = 6.05\) βρίσκεται έξω από την κόκκινη ουρά — είναι απίθανο. Απορρίπτουμε το κενό μοντέλο.
Η στενότερη κατανομή (n=88) κάνει την ίδια τιμή \(b_1\) να φαίνεται πιο ακραία.
Παρόλο που το δειγματικό \(b_1\) είναι το ίδιο και στις δύο περιπτώσεις, όταν το τυπικό σφάλμα είναι μικρότερο, αυτό κάνει το δείγμα μας να φαίνεται λιγότερο πιθανό να έχει παραχθεί από το κενό μοντέλο. Γενικά, η τιμή \(p\) για ένα δειγματικό στατιστικό θα είναι μικρότερη καθώς το μέγεθος του δείγματος γίνεται μεγαλύτερο.
Ας ρίξουμε μια ματιά στην τιμή \(p\), η οποία μπορεί να βρεθεί στον πίνακα ANOVA.
Analysis of Variance Table (Type III SS)
Model: Tip ~ Condition (From TipExperiment)
SS df MS F PRE p
----- ----------------- -------- -- ------- ----- ------ -----
Model (error reduced) | 402.023 1 402.023 3.305 0.0729 .0762
Error (from model) | 5108.955 42 121.642
----- ----------------- -------- -- ------- ----- ------ -----
Total (empty model) | 5510.977 43 128.162
Analysis of Variance Table (Type III SS)
Model: Tip ~ Condition (From TipExp2)
SS df MS F PRE p
----- ----------------- --------- -- ------- ----- ------ -----
Model (error reduced) | 804.045 1 804.045 6.767 0.0729 .0109
Error (from model) | 10217.909 86 118.813
----- ----------------- --------- -- ------- ----- ------ -----
Total (empty model) | 11021.955 87 126.689
Παρατηρήστε ότι η τιμή \(p\) από τα αρχικά δεδομένα είναι \(0.08\) αλλά η τιμή \(p\) από τα διπλάσια δεδομένα είναι \(0.01\). Παρακάτω έχουμε απεικονίσει την τιμή \(p\) (με μοβ χρώμα) χρωματίζοντας τις ουρές πέρα από το δείγμα σε καθεμία από αυτές τις δειγματοληπτικές κατανομές.
Ποια είναι η σχέση ανάμεσα στο τυπικό σφάλμα και την τιμή p;
11.9 Έλεγχοι Υποθέσεων για Μοντέλα Παλινδρόμησης
Έχουμε περάσει από τη λογική του ελέγχου υποθέσεων για μοντέλα ομάδων. Χρησιμοποιήσαμε τη shuffle() για να δημιουργήσουμε μια δειγματοληπτική κατανομή υποθέτοντας ότι \(\beta_1 = 0\), και στη συνέχεια χρησιμοποιήσαμε τη δειγματοληπτική κατανομή για να υπολογίσουμε την πιθανότητα το δειγματικό μας \(b_1\) ή ένα πιο ακραίο να έχει προέλθει από το κενό μοντέλο.
Τώρα ας εφαρμόσουμε τις ίδιες ιδέες σε μοντέλα παλινδρόμησης. Όπως θα δείτε, η στρατηγική είναι ακριβώς η ίδια. Θέλουμε ακόμα να δημιουργήσουμε μια δειγματοληπτική κατανομή των τιμών \(b_1\), αν και αυτή τη φορά το \(b_1\) θα αναπαριστά μια κλίση, όχι μια διαφορά ομάδων. Ας δούμε πώς λειτουργεί αυτό προσθέτοντας μια νέα μεταβλητή στο πλαίσιο δεδομένων του πειράματος φιλοδωρημάτων.
Φιλοδωρήματα = Ποιότητα Φαγητού + Άλλοι Παράγοντες
Έχουμε διερευνήσει την επίδραση ενός χαμογελαστού προσώπου στο πόσο αφήνουν φιλοδώρημα οι άνθρωποι σε ένα εστιατόριο. Αλλά σίγουρα υπάρχουν και άλλοι παράγοντες που μπορούν να μας βοηθήσουν να εξηγήσουμε τη μεταβλητότητα στο ποσοστό φιλοδωρήματος. Ένας από αυτούς μπορεί να είναι η αντιλαμβανόμενη ποιότητα του φαγητού. Μπορούμε να διερευνήσουμε αυτή την υπόθεση κοιτάζοντας μια άλλη μεταβλητή που είναι διαθέσιμη στο πλαίσιο δεδομένων TipExperiment: FoodQuality.
Κάθε ενήλικος δειπνών σε κάθε τραπέζι κλήθηκε να βαθμολογήσει την ποιότητα του φαγητού σε μια κλίμακα 100 βαθμών. Τους είπαν να θεωρήσουν το 50 (τη μέση της κλίμακας) ως «περίπου μέσο όρο για αυτό το είδος εστιατορίου», και στη συνέχεια να ανέβουν ή να κατέβουν στην κλίμακα από εκεί, όπου το 100 θα ήταν το καλύτερο φαγητό που έχουν δοκιμάσει ποτέ στη ζωή τους, και το 0 θα ήταν το χειρότερο. Η μεταβλητή FoodQuality είναι η μέση βαθμολογία για κάθε τραπέζι δειπνούντων.
TableID Tip Condition FoodQuality
1 1 39 Control 54.9
2 2 36 Control 51.7
3 3 34 Control 60.5
4 4 34 Control 56.7
5 5 33 Control 51.0
6 6 31 Control 43.3
Δημιουργήσαμε ένα διάγραμμα διασποράς για να διερευνήσουμε την υπόθεση ότι η FoodQuality μπορεί να εξηγεί κάποια από τη μεταβλητότητα στο Tip.
Κοιτάζοντας αυτό το διάγραμμα διασποράς, φαίνεται ότι το να γνωρίζουμε τη μέση βαθμολογία ποιότητας φαγητού ενός τραπεζιού θα μας βοηθούσε να κάνουμε καλύτερη πρόβλεψη για το φιλοδώρημά τους;
Επεξήγηση
Σωστή απάντηση: Α — Ναι
Κοιτάζοντας το διάγραμμα διασποράς, φαίνεται να υπάρχει μια θετική τάση — καθώς η ποιότητα φαγητού αυξάνεται, το φιλοδώρημα τείνει επίσης να αυξάνεται. Αν και η σχέση δεν είναι πολύ ισχυρή (υπάρχει αρκετή διασπορά), υπάρχει μια γενική ανοδική τάση που υποδηλώνει ότι η FoodQuality θα μπορούσε να βοηθήσει στην πρόβλεψη του Tip.
Μοντελοποίηση της Μεταβλητότητας στα Φιλοδωρήματα ως Συνάρτηση της Ποιότητας Φαγητού
Χρησιμοποιήστε το παρακάτω παράθυρο κώδικα για να προσαρμόσετε ένα μοντέλο παλινδρόμησης στο οποίο η FoodQuality χρησιμοποιείται για να εξηγήσει το Tip.
Call:
lm(formula = Tip ~ FoodQuality, data = TipExperiment)
Coefficients:
(Intercept) FoodQuality
10.1076 0.3776
Ποια είναι η εκτίμηση για το \(b_1\);
Επεξήγηση
Σωστή απάντηση: Β — \(0.38\)
Ανάγνωση της εξόδου:
Στο μοντέλο παλινδρόμησης Tip ~ FoodQuality:
(Intercept) = \(10.11\) → Αυτό είναι το \(b_0\), ο σταθερός όρος
FoodQuality = \(0.38\) → Αυτό είναι το \(b_1\), η κλίση
Ερμηνεία του \(b_1 = 0.38\):
Για κάθε αύξηση 1 μονάδας στη βαθμολογία ποιότητας φαγητού, το φιλοδώρημα αυξάνεται κατά μέσο όρο κατά \(0.38\) ποσοστιαίες μονάδες.
What does the b_1 mean?
Μια αύξηση \(0.38\) ποσοστιαίων μονάδων στο φιλοδώρημα για κάθε επιπλέον μονάδα αύξησης στη FoodQuality δεν φαίνεται να είναι πολύ. Στην πραγματικότητα, φαίνεται αρκετά κοντά στο 0. Είναι πιθανό αυτό να έχει δημιουργηθεί από μια ΔΠΔ στην οποία δεν υπάρχει επίδραση της ποιότητας φαγητού, δηλαδή μια ΔΠΔ όπου \(\beta_1 = 0\); Ή, μπορούμε να απορρίψουμε το κενό μοντέλο υπέρ ενός στο οποίο η FoodQuality επηρεάζει το Tip;
Αξιολόγηση του Κενού Μοντέλου της ΔΠΔ
Ακριβώς όπως κάναμε με το μοντέλο Condition, μπορούμε να χρησιμοποιήσουμε τη shuffle() για να προσομοιώσουμε την περίπτωση όπου το κενό μοντέλο είναι αληθές (δηλαδή όπου η πραγματική τιμή της κλίσης στη ΔΠΔ είναι 0), να δημιουργήσουμε μια δειγματοληπτική κατανομή των τιμών \(b_1\) ανακατεύοντας το Tip, και στη συνέχεια να χρησιμοποιήσουμε τη δειγματοληπτική κατανομή για να υπολογίσουμε την πιθανότητα μια τιμή \(b_1\) τόσο ακραία όσο το \(0.38\) να έχει δημιουργηθεί από το κενό μοντέλο.
Στο παρακάτω παράθυρο κώδικα έχουμε γράψει κώδικα για να δημιουργήσουμε ένα διάγραμμα διασποράς των δεδομένων. Προσθέστε τη shuffle() γύρω από την εξαρτημένη μεταβλητή (Tip) για να δημιουργήσετε ένα δείγμα ανακατανεμημένων δεδομένων από το κενό μοντέλο της ΔΠΔ και σχεδιάστε τα δεδομένα με την καλύτερα προσαρμοσμένη γραμμή παλινδρόμησης. Εκτελέστε το μερικές φορές απλά για να δείτε τι είδους κλίσεις (\(b_1\)) δημιουργούνται από αυτή τη ΔΠΔ.
Τα πραγματικά δεδομένα από τη μελέτη φιλοδωρημάτων εμφανίζονται με μπλε χρώμα (το πλαίσιο επάνω αριστερά) μαζί με την καλύτερα προσαρμοσμένη γραμμή παλινδρόμησης (η κλίση είναι \(0.38\)). Τα 5 άλλα γραφήματα (με κόκκινες κουκκίδες) είναι ανακατανεμημένα δεδομένα, μαζί με τις καλύτερα προσαρμοσμένες γραμμές παλινδρόμησης τους.
Τι παρατηρείτε σχετικά με τις κλίσεις στα ανακατανεμημένα δεδομένα (με κόκκινο) που δημιουργήθηκαν από το κενό μοντέλο όπου \(\beta_1 = 0\); (Επιλέξτε όλα όσα ισχύουν)
Επεξήγηση
Σωστές απαντήσεις: Γ, Δ, Ε
Γιατί αυτές είναι σωστές:
Γ & Δ: Τα ανακατανεμημένα δεδομένα προέρχονται από μια ΔΠΔ όπου \(\beta_1 = 0\). Επομένως, οι κλίσεις τείνουν να είναι κοντά στο 0 (πιο οριζόντιες) σε σύγκριση με τα πραγματικά δεδομένα που έχουν κλίση \(0.38\).
Ε: Λόγω της τυχαίας δειγματοληψίας, ακόμα κι όταν \(\beta_1 = 0\), οι δειγματικές κλίσεις \(b_1\) ποικίλλουν — κάποιες τυχαίνει να είναι θετικές, κάποιες αρνητικές, και κάποιες πολύ κοντά στο μηδέν.
Γιατί οι άλλες είναι λάθος:
Α: Οι κλίσεις δεν είναι όλες ίδιες — υπάρχει δειγματοληπτική μεταβλητότητα.
Β: Οι κλίσεις δεν είναι πιο απότομες — είναι πιο επίπεδες επειδή προέρχονται από μια ΔΠΔ με \(\beta_1 = 0\).
Αν η κλίση είναι μια τέλεια οριζόντια γραμμή (π.χ., επίπεδη), ποιο θα ήταν το \(b_1\);
Επεξήγηση
Σωστή απάντηση: Β — 0
Η λογική:
Η κλίση (\(b_1\)) μετρά πόσο αλλάζει το Y για κάθε μονάδα αλλαγής στο X.
Οριζόντια γραμμή: Το Y δεν αλλάζει καθόλου καθώς το X αλλάζει
Καμία αλλαγή σημαίνει κλίση = 0
Αυτός είναι ακριβώς ο λόγος που το κενό μοντέλο έχει \(\beta_1 = 0\) — υποθέτει ότι η επεξηγηματική μεταβλητή δεν έχει καμία επίδραση στην εξαρτημένη μεταβλητή.
Από τα ανακατανεμημένα δεδομένα, είδαμε ότι πολλές από τις γραμμές παλινδρόμησης είναι πιο επίπεδες από τη γραμμή για τα πραγματικά δεδομένα. Αυτό είναι λογικό δεδομένου ότι προσομοιώνουμε μια ΔΠΔ στην οποία \(\beta_1 = 0\) — θα περιμέναμε πολλές από τις τιμές \(b_1\) να είναι κοντά στο 0. Τώρα ας δημιουργήσουμε μια δειγματοληπτική κατανομή των τιμών \(b_1\) χρησιμοποιώντας τη συνάρτηση b1().
Συμπληρώστε την πρώτη γραμμή κώδικα παρακάτω για να δημιουργήσετε μια δειγματοληπτική κατανομή 1000 τιμών \(b_1\) (sdob1) από το μοντέλο FoodQuality προσαρμοσμένο στα ανακατανεμημένα δεδομένα. Έχουμε προσθέσει επιπλέον κώδικα για να δημιουργήσουμε ένα ιστόγραμμα της δειγματοληπτικής κατανομής των τιμών \(b_1\) και να αναπαραστήσουμε το δειγματικό \(b_1\) ως μαύρη κουκκίδα.
Τι σημαίνει το ότι το δειγματικό μας \(b_1\) (\(0.38\), η μαύρη κουκκίδα) βρίσκεται στην άκρα δεξιά ουρά της δειγματοληπτικής κατανομής; (Επιλέξτε όλα όσα ισχύουν.)
Επεξήγηση
Σωστές απαντήσεις: Α, Β, Γ
Γιατί αυτές είναι σωστές:
Α: Η μαύρη κουκκίδα (\(b_1 = 0.38\)) βρίσκεται στη δεξιά ουρά, πέρα από τις περισσότερες τιμές \(b_1\) που δημιουργήθηκαν από τις ανακατανομές.
Β & Γ: Επειδή το δειγματικό \(b_1\) βρίσκεται στην ακραία περιοχή, είναι απίθανο να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\) (το κενό μοντέλο).
Γιατί η Δ είναι λάθος:
Η δειγματοληπτική κατανομή δεν μας λέει τίποτα για το πού βρίσκεται η «πραγματική ΔΠΔ» — μας δείχνει μόνο τι θα περιμέναμε αν το κενό μοντέλο ήταν αληθές.
Απλά κοιτάζοντας αυτή τη δειγματοληπτική κατανομή, τι νομίζετε ότι μπορεί να είναι η τιμή \(p\) από τη supernova();
Επεξήγηση
Σωστή απάντηση: Α — Κοντά στο 0
Η λογική:
Κοιτάζοντας το ιστόγραμμα:
Η μαύρη κουκκίδα (\(b_1 = 0.38\)) βρίσκεται στην άκρα δεξιά ουρά
Πολύ λίγες τιμές \(b_1\) από τις ανακατανομές είναι τόσο ακραίες
Η τιμή \(p\) είναι η αναλογία των τιμών που είναι τόσο ακραίες ή πιο ακραίες
Αυτή η αναλογία φαίνεται να είναι πολύ μικρή — κοντά στο 0
Αυτό υποδηλώνει ότι θα μπορέσουμε να απορρίψουμε το κενό μοντέλο και να συμπεράνουμε ότι η FoodQuality πιθανώς έχει πραγματική επίδραση στο Tip.
Από αυτή τη δειγματοληπτική κατανομή μπορούμε να δούμε ότι μια τιμή τόσο ακραία όσο το \(0.38\) πέφτει ακριβώς έξω από την περιοχή της δειγματοληπτικής κατανομής που θεωρούμε πιθανή. Μπορεί να νομίζαμε ότι μια αύξηση \(0.38\) ποσοστιαίων μονάδων ανά μία μονάδα αύξησης στην ποιότητα φαγητού ήταν κοντά στο 0, αλλά δεν είναι μία από τις πιθανές τιμές \(b_1\) που δημιουργούνται από μια ΔΠΔ όπου το πραγματικό \(\beta_1\) είναι 0! Αυτό υποδηλώνει ότι η τιμή \(p\) θα είναι σχετικά μικρή.
Για να βεβαιωθούμε, ας ρίξουμε μια ματιά στην τιμή \(p\) από τον πίνακα ANOVA.
Analysis of Variance Table (Type III SS)
Model: Tip ~ FoodQuality
SS df MS F PRE p
----- --------------- | -------- -- ------- ----- ----- -----
Model (error reduced) | 525.576 1 525.576 4.428 .0954 .0414
Error (from model) | 4985.401 42 118.700
----- --------------- | -------- -- ------- ----- ----- -----
Total (empty model) | 5510.977 43 128.162
Η τιμή \(p\) είναι \(0.04\). Υπάρχει μόνο 4% πιθανότητα το παρατηρούμενο \(b_1\) ίσο με \(0.38\) να είχε προκύψει απλώς από τύχη αν το κενό μοντέλο της ΔΠΔ είναι αληθές.
Αυτή η δειγματοληπτική κατανομή των τιμών \(b_1\) μας λέει ότι αν το κενό μοντέλο της ΔΠΔ ήταν αληθές, το δείγμα μας είναι απίθανο. Δεδομένου ότι πράγματι πήραμε το δείγμα μας, θα απορρίπταμε το κενό μοντέλο της ΔΠΔ υπέρ ενός μοντέλου που περιλαμβάνει την ποιότητα φαγητού ως επεξηγηματική μεταβλητή.
11.10 Ασκήσεις Επανάληψης Κεφαλαίου 11
Το πλαίσιο δεδομένων newborns περιέχει πληροφορίες για το βάρος γέννησης και την περίοδο κύησης για 500 νεογνά. Συλλέχθηκε ως μέρος των Μελετών Υγείας και Ανάπτυξης Παιδιών το 1961 και 1962. Καταγράφηκαν επίσης πληροφορίες για τους γονείς του μωρού (ηλικία, εισόδημα, εκπαίδευση) και αν η μητέρα κάπνιζε.
Ένα πλαίσιο δεδομένων με 500 παρατηρήσεις στις ακόλουθες μεταβλητές:
gestation διάρκεια κύησης (σε ημέρες)
wt βάρος γέννησης (σε ουγγιές)
age ηλικία της μητέρας σε έτη στο τέλος της εγκυμοσύνης
ed εκπαίδευση της μητέρας: λιγότερο από 8η τάξη, 8η-12η τάξη - δεν αποφοίτησε, απόφοιτος λυκείου - καμία άλλη εκπαίδευση, λύκειο + τεχνική σχολή, λύκειο + κάποιο πανεπιστήμιο, απόφοιτος πανεπιστημίου, τεχνική σχολή - λύκειο ασαφές
dage ηλικία του πατέρα (σε έτη)
ded εκπαίδευση του πατέρα (ίδια κωδικοποίηση με την εκπαίδευση της μητέρας)
income ετήσιο οικογενειακό εισόδημα σε δύο ομάδες: $0-12.500 ή $12.500-22.500
smoke καπνίζει η μητέρα; (ποτέ, ή τώρα)
1. Ας εξετάσουμε την υπόθεση ότι wt = smoke + άλλοι παράγοντες. Αν το κάπνισμα σχετίζεται με χαμηλότερα βάρη γέννησης, τι θα περιμέναμε;
Επεξήγηση
Σωστή απάντηση: Β — Το \(b_1\) θα ήταν αρνητικό
Η λογική:
Στο μοντέλο wt ~ smoke:
Η μεταβλητή smoke έχει δύο επίπεδα: «ποτέ» και «τώρα»
Το \(b_1\) αναπαριστά τη διαφορά στο μέσο βάρος γέννησης μεταξύ των δύο ομάδων
Αν το κάπνισμα σχετίζεται με χαμηλότερα βάρη γέννησης:
Τα μωρά των καπνιστριών θα έχουν μικρότερο μέσο βάρος
Επομένως, το \(b_1\) (η διαφορά καπνίστριες - μη καπνίστριες) θα είναι αρνητικό
Σημείωση:
Το \(b_0\) αναπαριστά τον μέσο όρο της ομάδας αναφοράς (μη καπνίστριες), ο οποίος θα είναι θετικός (τα μωρά έχουν θετικό βάρος!).
2. Αν το κάπνισμα δεν έχει καμία επίδραση στα βάρη γέννησης στη ΔΠΔ, τι θα περιμέναμε;
Επεξήγηση
Σωστή απάντηση: Α — Το \(\beta_1\) θα ήταν μηδέν
Η λογική:
Αν το κάπνισμα δεν έχει καμία επίδραση στα βάρη γέννησης στη ΔΠΔ:
Δεν θα υπήρχε διαφορά μεταξύ των μέσων βαρών γέννησης των δύο ομάδων
Η παράμετρος \(\beta_1\) (η πραγματική διαφορά στη ΔΠΔ) θα ήταν μηδέν
Αυτό είναι το κενό μοντέλο ή η μηδενική υπόθεση
Γιατί οι άλλες επιλογές είναι λάθος:
Β. \(\beta_0\) θα ήταν μηδέν: Το \(\beta_0\) είναι ο μέσος όρος της ομάδας αναφοράς — τα μωρά έχουν θετικό βάρος, άρα δεν θα ήταν μηδέν.
Γ. \(e_i\) θα ήταν μηδέν: Τα κατάλοιπα (\(e_i\)) αντιπροσωπεύουν την ατομική μεταβλητότητα — πάντα θα υπάρχει κάποια μεταβλητότητα.
Δ. \(b_0\) θα ήταν μηδέν: Το \(b_0\) είναι η δειγματική εκτίμηση του σταθερού όρου — θα είναι θετικό (μέσο βάρος μωρών).
3. Εκτελέστε κώδικα για να προσαρμόσετε ένα μοντέλο που διερευνά την ιδέα ότι wt = smoke + άλλοι παράγοντες. Τι αναπαριστά η τιμή \(-9.76\) στο μοντέλο;
Επεξήγηση
Σωστή απάντηση: Β — \(b_1\)
Η λογική:
Όταν προσαρμόζουμε το μοντέλο wt ~ smoke, η R μας δίνει:
(Intercept): Ο μέσος όρος βάρους γέννησης για την ομάδα αναφοράς (μη καπνίστριες) — αυτό είναι το \(b_0\)
smokenow: Η διαφορά στο μέσο βάρος γέννησης μεταξύ καπνιστριών και μη καπνιστριών — αυτό είναι το \(b_1\)
Η τιμή \(-9.76\) είναι το \(b_1\) (η δειγματική εκτίμηση), που σημαίνει:
Τα μωρά των μητέρων που καπνίζουν έχουν κατά μέσο όρο \(9.76\) ουγγιές λιγότερο βάρος γέννησης από τα μωρά των μη καπνιστριών.
Γιατί όχι \(\beta_1\);
Το \(\beta_1\) είναι η πραγματική παράμετρος στη ΔΠΔ (άγνωστη). Το \(b_1\) είναι η δειγματική εκτίμηση που υπολογίζουμε από τα δεδομένα μας.
4. Σύμφωνα με το καλύτερα προσαρμοσμένο μοντέλο wt = smoke + άλλοι παράγοντες, ποιο θα ήταν το προβλεπόμενο βάρος για ένα νεογνό μιας μητέρας που δεν καπνίζει;
Επεξήγηση
Σωστή απάντηση: Α — 123 ουγγιές
Ο υπολογισμός:
Το μοντέλο είναι:
\[\hat{Y}_i = b_0 + b_1 \cdot X_i\]
Όπου:
\(b_0 = 123\) (το intercept, μέσος όρος για μη καπνίστριες)
\(b_1 = -9.76\) (η διαφορά για τις καπνίστριες)
\(X_i = 0\) για μη καπνίστριες, \(X_i = 1\) για καπνίστριες
Για μια μητέρα που δεν καπνίζει (\(X_i = 0\)):
\[\hat{Y}_i = 123 + (-9.76) \cdot 0 = 123\]
Το προβλεπόμενο βάρος είναι 123 ουγγιές.
Σημείωση:
Για μια μητέρα που καπνίζει (\(X_i = 1\)), το προβλεπόμενο βάρος θα ήταν:
5. Σύμφωνα με το καλύτερα προσαρμοσμένο μοντέλο wt = smoke + άλλοι παράγοντες, ποια θα ήταν η τιμή του \(X_i\) για ένα νεογνό που γεννήθηκε από μια μητέρα που δεν καπνίζει;
Επεξήγηση
Σωστή απάντηση: Δ — \(X_i = 0\)
Η λογική:
Στα μοντέλα ομάδων, η R χρησιμοποιεί ψευδομεταβλητή κωδικοποίηση (dummy coding):
Η ομάδα αναφοράς (μη καπνίστριες / «never») κωδικοποιείται ως \(X_i = 0\)
Η άλλη ομάδα (καπνίστριες / «now») κωδικοποιείται ως \(X_i = 1\)
Επομένως, για μια μητέρα που δεν καπνίζει, \(X_i = 0\).
Γιατί οι άλλες επιλογές είναι λάθος:
Α. \(X_i = 123\): Το 123 είναι το \(b_0\) (ο σταθερός όρος), όχι η τιμή του \(X_i\).
Β. \(X_i = -9.76\): Το \(-9.76\) είναι το \(b_1\) (η κλίση/διαφορά), όχι η τιμή του \(X_i\).
Γ. \(X_i = 1\): Αυτή θα ήταν η τιμή για μια μητέρα που καπνίζει, όχι για μη καπνίστρια.
6. Σύμφωνα με το καλύτερα προσαρμοσμένο μοντέλο wt = smoke + άλλοι παράγοντες, τι αναπαριστά το \(-9.76\);
Επεξήγηση
Σωστή απάντηση: Β — Τη μέση διαφορά στο βάρος των νεογνών που γεννήθηκαν από μητέρες που καπνίζουν σε σχέση με μητέρες που δεν καπνίζουν.
Η λογική:
Στο μοντέλο wt ~ smoke:
\(b_0 = 123\): Ο μέσος όρος βάρους για την ομάδα αναφοράς (μη καπνίστριες)
\(b_1 = -9.76\): Η διαφορά μεταξύ των δύο ομάδων
Το \(-9.76\) σημαίνει:
Τα νεογνά μητέρων που καπνίζουν έχουν κατά μέσο όρο \(9.76\) ουγγιές λιγότερο βάρος από τα νεογνά μητέρων που δεν καπνίζουν.
Γιατί οι άλλες επιλογές είναι λάθος:
Α: Το μέσο βάρος για μη καπνίστριες είναι το \(b_0 = 123\), όχι το \(-9.76\).
Γ: Το μέσο βάρος για καπνίστριες είναι \(b_0 + b_1 = 123 + (-9.76) = 113.24\) ουγγιές.
Δ: Το συνολικό μέσο βάρος όλων των νεογνών δεν είναι το \(-9.76\) (θα ήταν κάπου μεταξύ 113 και 123).
7. Αν οι ερευνητές είχαν συλλέξει ένα διαφορετικό δείγμα 500 νεογνών, ποια τιμή θα ήταν διαφορετική;
Επεξήγηση
Σωστή απάντηση: Δ — Πιθανότατα, όλα τα παραπάνω
Η λογική:
Αν συλλέξουμε ένα διαφορετικό δείγμα από τον ίδιο πληθυσμό:
\(Y_i\) (τα βάρη γέννησης): Κάθε νεογνό στο νέο δείγμα θα έχει διαφορετικό βάρος — διαφορετικά άτομα, διαφορετικές τιμές.
\(b_1\) (η εκτιμώμενη διαφορά): Επειδή έχουμε διαφορετικά δεδομένα, η εκτίμηση της διαφοράς μεταξύ καπνιστριών και μη καπνιστριών θα είναι διαφορετική.
\(b_0\) (ο εκτιμώμενος μέσος της ομάδας αναφοράς): Ομοίως, ο μέσος όρος για τις μη καπνίστριες στο νέο δείγμα θα είναι διαφορετικός.
Σημαντική διάκριση:
Τι αλλάζει με νέο δείγμα
Τι παραμένει σταθερό
\(Y_i\), \(b_0\), \(b_1\) (δειγματικές τιμές)
\(\beta_0\), \(\beta_1\) (παράμετροι της ΔΠΔ)
Οι παράμετροι της ΔΠΔ (\(\beta_0\), \(\beta_1\)) είναι σταθερές — είναι η «αλήθεια» στον πληθυσμό. Οι δειγματικές εκτιμήσεις (\(b_0\), \(b_1\)) αλλάζουν από δείγμα σε δείγμα.
8. Στον παρακάτω κώδικα, τι κάνει η συνάρτηση shuffle() στο wt;
b1(shuffle(wt) ~ smoke, data = newborns)
Επεξήγηση
Σωστή απάντηση: Δ — Ανακατεύει τις τιμές στη στήλη wt.
Τι κάνει η shuffle():
Η συνάρτηση shuffle()ανακατανέμει τυχαία τις τιμές της μεταβλητής που της δίνουμε:
Παίρνει όλες τις υπάρχουσες τιμές του wt (τα βάρη γέννησης)
Τις ανακατεύει τυχαία
Τις αντιστοιχίζει σε διαφορετικές γραμμές
Αποτέλεσμα: Η σύνδεση μεταξύ wt και smokeσπάει — προσομοιώνουμε έναν κόσμο όπου δεν υπάρχει σχέση μεταξύ καπνίσματος και βάρους γέννησης (\(\beta_1 = 0\)).
Γιατί οι άλλες επιλογές είναι λάθος:
Α: Δεν δημιουργεί νέους αριθμούς — χρησιμοποιεί τις υπάρχουσες τιμές, απλώς τις ανακατανέμει.
Β: Το αντίθετο — η shuffle()καταστρέφει οποιαδήποτε σχέση μεταξύ wt και smoke.
Γ: Δεν ανακατεύει τις γραμμές — ανακατεύει μόνο τις τιμές μιας στήλης (wt).
9. Για να πάρουμε το παραπάνω ιστόγραμμα, εκτελέσαμε τον ακόλουθο κώδικα:
sdob1 <-do(1000) *b1(shuffle(wt) ~ smoke, data = newborns)gf_histogram(~b1, data = sdob1, fill =~middle(b1, .95))
Τι αναπαριστά η κατανομή του \(b_1\) παραπάνω; (επιλέξτε όλα όσα ισχύουν)
Επεξήγηση
Σωστές απαντήσεις: Β και Δ
Γιατί η Β είναι σωστή:
Η shuffle() καταστρέφει οποιαδήποτε σχέση μεταξύ wt και smoke, προσομοιώνοντας έναν κόσμο όπου \(\beta_1 = 0\). Το ιστόγραμμα δείχνει τι τιμές \(b_1\) θα περιμέναμε να δούμε τυχαία σε έναν τέτοιο κόσμο.
Γιατί η Δ είναι σωστή:
Ο κώδικας do(1000) * b1(shuffle(wt) ~ smoke, ...) δημιουργεί ακριβώς αυτό: 1000 τιμές \(b_1\), κάθε μία από ένα διαφορετικό ανακατανεμημένο δείγμα. Αυτή είναι η δειγματοληπτική κατανομή του \(b_1\) κάτω από το κενό μοντέλο.
Γιατί οι άλλες είναι λάθος:
Α: Η κατανομή δεν αποδεικνύει ότι \(\beta_1 = 0\) — απλώς δείχνει τι θα συνέβαινε αν\(\beta_1 = 0\). Χρησιμοποιούμε αυτή την κατανομή για να ελέγξουμε αν η υπόθεση \(\beta_1 = 0\) είναι εύλογη.
Γ: Δεν είναι 1000 βάρη μωρών — είναι 1000 τιμές \(b_1\) (διαφορές μεταξύ ομάδων), καθεμία υπολογισμένη από ένα ανακατανεμημένο δείγμα.
10. Τι προσομοιώσαμε με τον κώδικα στην Ερώτηση 9; (επιλέξτε όλα όσα ισχύουν)
Επεξήγηση
Σωστές απαντήσεις: Α, Γ, Ε
Γιατί αυτές είναι σωστές:
Και οι τρεις σωστές απαντήσεις περιγράφουν το ίδιο πράγμα με διαφορετικούς τρόπους:
Α: Περιγράφει το αποτέλεσμα — δεν υπάρχει διαφορά στο μέσο βάρος μεταξύ των δύο ομάδων.
Γ: Περιγράφει τη ΔΠΔ — δεν υπάρχει σχέση μεταξύ smoke και wt.
Ε: Περιγράφει την παράμετρο — \(\beta_1 = 0\) (η πραγματική διαφορά στη ΔΠΔ είναι μηδέν).
Η shuffle()σπάει τη σύνδεση μεταξύ wt και smoke, προσομοιώνοντας το κενό μοντέλο.
Γιατί οι άλλες είναι λάθος:
Β. «ΔΠΔ όπου \(\beta_1 = -9.76\)»: Το \(-9.76\) είναι το δειγματικό\(b_1\) που παρατηρήσαμε στα πραγματικά δεδομένα. Η προσομοίωση υποθέτει \(\beta_1 = 0\), όχι \(-9.76\).
Δ. «Μωρά καπνιστριών πιο πιθανό να έχουν χαμηλότερο βάρος»: Αυτό θα σήμαινε \(\beta_1 < 0\), αλλά η προσομοίωση υποθέτει \(\beta_1 = 0\) (καμία διαφορά).
11. Στο παραπάνω ιστόγραμμα, ποια από τις ακόλουθες τιμές του \(b_1\) θα θεωρούνταν «απίθανη»;
Επεξήγηση
Σωστή απάντηση: Δ — \(b_1 = -5.2\)
Η λογική:
Στο ιστόγραμμα, οι τιμές χρωματίζονται με βάση τη συνάρτηση middle(b1, .95):
Μοβ (TRUE): Το μεσαίο 95% — τιμές που θεωρούνται «όχι απίθανες»
Γαλάζιο (FALSE): Οι ουρές (το ακραίο 5%) — τιμές που θεωρούνται «απίθανες»
Κοιτάζοντας το ιστόγραμμα:
Οι γαλάζιες ουρές ξεκινούν περίπου από \(-5\) και κάτω, και από \(+5\) και πάνω
Η τιμή \(-5.2\) βρίσκεται στην αριστερή γαλάζια ουρά — είναι «απίθανη»
Γιατί οι άλλες επιλογές είναι «όχι απίθανες»:
Α. \(b_1 = 2.5\): Βρίσκεται στη μοβ περιοχή (μεσαίο 95%)
Β. \(b_1 = -2.5\): Βρίσκεται στη μοβ περιοχή
Γ. \(b_1 = 0\): Βρίσκεται στο κέντρο της μοβ περιοχής — η πιο «πιθανή» τιμή!
12. Ποιο είναι το κενό μοντέλο της ΔΠΔ; (επιλέξτε όλα όσα ισχύουν)
Επεξήγηση
Σωστές απαντήσεις: Α και Β
Γιατί αυτές είναι σωστές:
Και οι δύο περιγράφουν το κενό μοντέλο με διαφορετικούς τρόπους:
Α. \(Y_i = \beta_0 + e_i\): Αυτή είναι η εξίσωση του κενού μοντέλου — η εξαρτημένη μεταβλητή εξηγείται μόνο από τον σταθερό όρο (μέσο όρο) και το σφάλμα. Δεν υπάρχει επεξηγηματική μεταβλητή.
Β. \(\beta_1 = 0\): Αυτό σημαίνει ότι η επεξηγηματική μεταβλητή δεν έχει καμία επίδραση — η κλίση/διαφορά είναι μηδέν.
Γιατί οι άλλες είναι λάθος:
Γ. \(\beta_0 = 0\): Το \(\beta_0\) είναι ο μέσος όρος της ομάδας αναφοράς (ή ο σταθερός όρος). Δεν χρειάζεται να είναι μηδέν στο κενό μοντέλο.
Δ. \(\epsilon_i = 0\): Τα σφάλματα δεν είναι ποτέ όλα μηδέν — πάντα υπάρχει κάποια μεταβλητότητα που δεν εξηγείται από το μοντέλο.
13. Τι σημαίνει όταν \(\beta_1 = 0\);
Επεξήγηση
Σωστή απάντηση: Α — Δεν υπάρχει επίδραση της επεξηγηματικής μεταβλητής στην εξαρτημένη μεταβλητή στη ΔΠΔ.
Η λογική:
Το \(\beta_1\) είναι η παράμετρος της ΔΠΔ που αναπαριστά:
Σε μοντέλα ομάδων: την πραγματική διαφορά μεταξύ των ομάδων στον πληθυσμό
Σε μοντέλα παλινδρόμησης: την πραγματική κλίση στον πληθυσμό
Όταν \(\beta_1 = 0\), σημαίνει ότι στη ΔΠΔ (τον «πραγματικό κόσμο») δεν υπάρχει σχέση μεταξύ της επεξηγηματικής και της εξαρτημένης μεταβλητής.
Γιατί οι άλλες είναι λάθος:
Β: Αυτό θα ήταν \(b_1 = 0\) (δειγματική εκτίμηση), όχι \(\beta_1 = 0\) (παράμετρος ΔΠΔ).
Γ: Αυτό αφορά τα κατάλοιπα, όχι το \(\beta_1\).
Δ: Το \(\beta_1 = 0\) δεν είναι λάθος — είναι μια συγκεκριμένη υπόθεση για τη ΔΠΔ.
14. Κοιτάζοντας το παραπάνω ιστόγραμμα, ποια θα ήταν η κατά προσέγγιση τιμή \(p\) για ένα δειγματικό \(b_1\) ίσο με \(-10\);
Επεξήγηση
Σωστή απάντηση: Β — \(p < 0.05\)
Η λογική:
Κοιτάζοντας το ιστόγραμμα:
Η κατανομή εκτείνεται περίπου από \(-6\) έως \(+6\)
Η τιμή \(b_1 = -10\) είναι πολύ πιο αριστερά από οποιαδήποτε τιμή στην κατανομή
Βρίσκεται πολύ πέρα από την αριστερή γαλάζια ουρά (που αντιπροσωπεύει το \(0.025\))
Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) τόσο ακραία ή πιο ακραία από \(-10\). Επειδή το \(-10\) είναι πιο ακραίο από σχεδόν όλες τις προσομοιωμένες τιμές:
\[p < 0.05\]
Στην πραγματικότητα, η τιμή \(p\) θα ήταν πολύ μικρότερη από \(0.05\) — πιθανώς κοντά στο \(0.001\) ή ακόμα μικρότερη.
Τι σημαίνει αυτό;
Μια τιμή \(b_1 = -10\) θα ήταν εξαιρετικά απίθανη να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\). Θα απορρίπταμε σίγουρα το κενό μοντέλο.
15. Το κενό μοντέλο υποθέτει ότι η κατά προσέγγιση τιμή του \(b_1\) θα είναι ποια τιμή;
Επεξήγηση
Σωστή απάντηση: Α — 0
Η λογική:
Το κενό μοντέλο υποθέτει ότι \(\beta_1 = 0\) στη ΔΠΔ — δηλαδή, δεν υπάρχει σχέση μεταξύ της επεξηγηματικής και της εξαρτημένης μεταβλητής.
Αν \(\beta_1 = 0\) είναι αληθές, τότε θα περιμέναμε οι δειγματικές εκτιμήσεις \(b_1\) να είναι κοντά στο 0 (με κάποια τυχαία μεταβλητότητα γύρω από το 0).
Αυτός είναι ο λόγος που η δειγματοληπτική κατανομή που δημιουργούμε με τη shuffle() είναι κεντραρισμένη στο 0.
16. Γιατί περιμένουμε οι εκτιμήσεις \(b_1\) να ποικίλλουν στη δειγματοληπτική κατανομή;
Επεξήγηση
Σωστή απάντηση: Β — Επειδή προέρχονται όλες από μια τυχαία ΔΠΔ.
Η λογική:
Η δειγματοληπτική κατανομή δημιουργείται με τυχαία ανακατανομή (shuffling) των δεδομένων. Κάθε φορά που εκτελούμε τη shuffle(), παίρνουμε μια διαφορετική τυχαία αντιστοίχιση μεταξύ των τιμών wt και smoke.
Αυτή η τυχαιότητα στη διαδικασία παραγωγής δεδομένων (ΔΠΔ) είναι που δημιουργεί τη μεταβλητότητα στις εκτιμήσεις \(b_1\).
Γιατί οι άλλες είναι λάθος:
Α: Το μέγεθος δείγματος παραμένει σταθερό (n = 500) σε κάθε ανακατανομή.
Γ: Σίγουρα περιμένουμε μεταβλητότητα — αυτός είναι ο σκοπός της δειγματοληπτικής κατανομής!
Δ: Η μεταβλητότητα στο wt υπάρχει, αλλά δεν είναι αυτή που εξηγεί τη μεταβλητότητα στις τιμές \(b_1\) — είναι η τυχαία ανακατανομή.
17. Είναι δυνατόν να δημιουργηθεί ένα \(b_1\) τόσο υψηλό όσο το 10 στην παραπάνω δειγματοληπτική κατανομή;
Επεξήγηση
Σωστή απάντηση: Α — Είναι δυνατό, αλλά εξαιρετικά απίθανο.
Η λογική:
Η δειγματοληπτική κατανομή που βλέπουμε βασίζεται σε 1000 προσομοιώσεις. Δείχνει τις τιμές \(b_1\) που παρατηρήθηκαν σε αυτές τις 1000 επαναλήψεις.
Ωστόσο, η θεωρητική δειγματοληπτική κατανομή (με άπειρες επαναλήψεις) θα είχε ουρές που εκτείνονται απεριόριστα. Το ότι δεν βλέπουμε τιμή 10 στις 1000 προσομοιώσεις μας δεν σημαίνει ότι είναι αδύνατο — απλώς είναι εξαιρετικά απίθανο.
Γιατί οι άλλες είναι λάθος:
Β: Το ότι η ουρά του ιστογράμματος δεν φτάνει στο 10 δεν σημαίνει ότι είναι αδύνατο. Με περισσότερες προσομοιώσεις, θα μπορούσαμε να δούμε πιο ακραίες τιμές.
Γ: Σίγουρα δεν είναι «εξαιρετικά πιθανό» — οι περισσότερες τιμές είναι κοντά στο 0.
Δ: Το ότι οι περισσότερες τιμές είναι γύρω από το μηδέν δεν καθιστά τις ακραίες τιμές αδύνατες — απλώς τις καθιστά σπάνιες.
18. Γράψτε κώδικα για να αξιολογήσετε το μοντέλο wt = smoke + άλλοι παράγοντες με έναν πίνακα ANOVA. Ερμηνεύστε την τιμή \(p\).
Επεξήγηση
Σωστή απάντηση: Δ — Υπάρχει λιγότερο από \(0.05\) πιθανότητα το δειγματικό μας \(b_1\) να προέρχεται από μια ΔΠΔ όπου \(\beta_1 = 0\).
Ο κώδικας:
supernova(lm(wt ~ smoke, data = newborns))
Η έξοδος θα δείξει:\(p < 0.05\) (περίπου \(p < 0.001\))
Ερμηνεία της τιμής \(p\):
Η τιμή \(p\) μας λέει την πιθανότητα να παρατηρήσουμε ένα \(b_1\) τόσο ακραίο όσο το \(-9.76\) (ή πιο ακραίο) αν το κενό μοντέλο ήταν αληθές (δηλαδή, αν \(\beta_1 = 0\)).
Επειδή \(p < 0.05\):
Το δειγματικό μας \(b_1\) είναι απίθανο να έχει προκύψει από μια ΔΠΔ όπου \(\beta_1 = 0\)
Απορρίπτουμε το κενό μοντέλο
Συμπεραίνουμε ότι υπάρχει σχέση μεταξύ του καπνίσματος της μητέρας και του βάρους γέννησης
Γιατί οι άλλες είναι λάθος:
Α: Αναφέρεται σε \(\beta_0 = 0\), αλλά ελέγχουμε αν \(\beta_1 = 0\).
Β & Γ: Η τιμή \(p\) δεν είναι η πιθανότητα το μοντέλο να είναι αληθές ή ψευδές — είναι η πιθανότητα των δεδομένων δεδομένης της υπόθεσης.
Το πλαίσιο δεδομένων top_50 περιέχει πληροφορίες για τα κορυφαία 50 τραγούδια του 2019 στο Spotify.
track_name Το όνομα του τραγουδιού
artist_name Το όνομα του καλλιτέχνη
genre Το μουσικό είδος του τραγουδιού
bpm Οι παλμοί ανά λεπτό του τραγουδιού (tempo)
danceability Η χορευτικότητα του τραγουδιού: όσο υψηλότερη η τιμή, τόσο πιο εύκολο είναι να χορέψεις σε αυτό το τραγούδι
length Η διάρκεια του τραγουδιού (σε δευτερόλεπτα)
popularity Η δημοτικότητα του τραγουδιού: όσο υψηλότερη η τιμή, τόσο πιο δημοφιλές είναι το τραγούδι
1. Αν θέλαμε να χρησιμοποιήσουμε αυτά τα δεδομένα για να μαντέψουμε την επίδραση της χορευτικότητας στη μέση δημοτικότητα των τραγουδιών στη Διαδικασία Παραγωγής Δεδομένων (ΔΠΔ), τι θα προσπαθούσαμε να εκτιμήσουμε;
Επεξήγηση
Σωστή απάντηση: Α — \(\beta_1\)
Η λογική:
Στο μοντέλο popularity ~ danceability:
\(\beta_1\) είναι η παράμετρος της ΔΠΔ που αναπαριστά την επίδραση της χορευτικότητας στη δημοτικότητα
Συγκεκριμένα, το \(\beta_1\) μας λέει πόσο αλλάζει η δημοτικότητα για κάθε μονάδα αύξησης στη χορευτικότητα στον πληθυσμό
Χρησιμοποιούμε τα δεδομένα μας για να υπολογίσουμε το \(b_1\) (τη δειγματική εκτίμηση), το οποίο είναι η καλύτερη εκτίμησή μας για το άγνωστο \(\beta_1\).
Γιατί οι άλλες είναι λάθος:
Β. Τυπικό σφάλμα: Το τυπικό σφάλμα μετρά την ακρίβεια της εκτίμησης, όχι την ίδια την επίδραση.
Γ. \(\beta_0\): Το \(\beta_0\) είναι ο σταθερός όρος (η αναμενόμενη δημοτικότητα όταν η χορευτικότητα είναι 0), όχι η επίδραση της χορευτικότητας.
Δ. \(X_i\): Το \(X_i\) είναι η τιμή της χορευτικότητας για κάθε τραγούδι — είναι η επεξηγηματική μεταβλητή, όχι η παράμετρος που εκτιμούμε.
2. Γράψτε κώδικα για να προσαρμόσετε ένα μοντέλο που διερευνά αυτή την υπόθεση: popularity = danceability + άλλοι παράγοντες. Επιλέξτε τη σωστή σημειογραφία GLM για το μοντέλο (στρογγυλοποιημένη σε τρία δεκαδικά).