11  Κεφάλαιο: Η Λογική της Στατιστικής Συμπερασματολογίας

«Όψις γάρ των αδήλων τα φαινόμενα.» — Αναξαγόρας


Έως αυτό το σημείο, έχετε αποκτήσει σημαντικά εφόδια στην ανάλυση δεδομένων. Εξοικειωθήκατε με την έννοια της κατανομής και μελετήσατε δύο από τους τρεις πυλώνες της στατιστικής:

  1. Την κατανομή των δεδομένων του δείγματος (αυτήν που παρατηρούμε).
  2. Την κατανομή του πληθυσμού (αυτήν που εκφράζει την υποκείμενη Διαδικασία Παραγωγής των Δεδομένων - ΔΠΔ).

Μάθατε πώς να ορίζετε και να προσαρμόζετε στατιστικά μοντέλα (όπως το Γενικό Γραμμικό Μοντέλο), πώς να ποσοτικοποιείτε την ποιότητα προσαρμογής τους ελαχιστοποιώντας το σφάλμα, και πώς να συγκρίνετε διαφορετικά μοντέλα για να κάνετε προβλέψεις που βελτιώνουν την κατανόηση της ΔΠΔ.

Ωστόσο, η βέλτιστη προσαρμογή ενός μοντέλου στα δεδομένα μας δεν λύνει το βασικό μας πρόβλημα: δεν γνωρίζουμε με βεβαιότητα πόσο καλά το μοντέλο αυτό αντιπροσωπεύει την πραγματική ΔΠΔ. Γνωρίζουμε πώς συμπεριφέρεται το μοντέλο μας και οι εκτιμήσεις των παραμέτρων του (όπως το \(b_0\) και το \(b_1\)) σε σχέση με το συγκεκριμένο δείγμα που έχουμε στα χέρια μας, αλλά η αβεβαιότητα παραμένει για τον ευρύτερο πληθυσμό και τις πραγματικές παραμέτρους (\(\beta_0\) και \(\beta_1\)) από τις οποίες προήλθαν αυτά τα δεδομένα.

Σε αυτό το μέρος του βιβλίου, περνάμε από την περιγραφή στην συμπερασματολογία. Θα εξετάσουμε πώς οι επιστήμονες αξιολογούν την αξιοπιστία των μοντέλων τους και πώς ποσοτικοποιούν το σφάλμα που περιβάλλει τις εκτιμήσεις των παραμέτρων.

Θα συμπληρώσουμε την «Τριάδα των Κατανομών» με την εισαγωγή της δειγματοληπτικής κατανομής (ή κατανομής των εκτιμήσεων).

Τύπος Κατανομής Αντικείμενο Κατάσταση
Κατανομή Δείγματος Παρατηρήσεις στα δεδομένα μας Πραγματική και Γνωστή
Κατανομή Πληθυσμού (ΔΠΔ) Οι άγνωστες παρατηρήσεις στον πληθυσμό Πραγματική αλλά Άγνωστη
Δειγματοληπτική Κατανομή Στατιστικά (π.χ. μέσος όρος ή \(b_1\)) Υποθετική / «Φανταστική»

Ενώ οι δύο πρώτες κατανομές αφορούν στις γνωστές και άγνωστες παρατηρήσεις, η δειγματοληπτική κατανομή είναι ένα κατασκεύασμα της στατιστικής συλλογιστικής. Απαιτεί από εμάς να κάνουμε υποθετικά σενάρια, ρωτώντας:

«Τι θα συνέβαινε αν επαναλαμβάναμε τη διαδικασία δειγματοληψίας άπειρες φορές;»

11.1 Το Πρόβλημα της Στατιστικής Συμπερασματολογίας

Σε προηγούμενα κεφάλαια, μάθατε πώς να ορίζετε και να προσαρμόζετε στατιστικά μοντέλα σε δεδομένα, και πώς να χρησιμοποιείτε τη σημειογραφία του Γενικού Γραμμικου Μοντέλου (GLM) για να αναπαραστήσετε αυτά τα μοντέλα (π.χ., \(Y_i = b_0 + b_1 X_i + e_i\)). Τέτοια μοντέλα πράγματι μπορεί να είναι τα βέλτιστα που προσαρμόζονται στα δεδομένα μας, αλλά τα δεδομένα μας δεν είναι πάντα αντιπροσωπευτικά της διαδικασίας παραγωγής τους.

Αυτό που μας ενδιαφέρει στην πραγματικότητα είναι να εντοπίσουμε το καλύτερο μοντέλο για τη ΔΠΔ (π.χ., \(Y_i = \beta_0 + \beta_1 X_i + \epsilon_i\)). Ένα πιο σύνθετο μοντέλο είναι πάντα ένα καλύτερο μοντέλο για τα δεδομένα, αλλά είναι και καλύτερο μοντέλο για τη ΔΠΔ συγκριτικά με το κενό μοντέλο; Ποιες είναι οι πραγματικές τιμές των \(\beta_i\) και \(\beta_0\);

Δυστυχώς, δεν μπορούμε να υπολογίσουμε απευθείας τις τιμές των παραμέτρων του μοντέλου στη ΔΠΔ. Μπορούμε φυσικά να τις εκτιμήσουμε με τους συντελεστές \(b_0\) και \(b_1\), αλλά δε γνωρίζουμε πόσο ακριβείς είναι αυτές οι εκτιμήσεις. Στα επόμενα κεφάλαια, θα δούμε πώς να καταλήγουμε σε συμπεράσματα για τη ΔΠΔ, βασιζόμενοι σε μοντέλα που έχουμε εκτιμήσει από ένα δείγμα.

Το πώς γεφυρώνουμε το χάσμα ανάμεσα στα δεδομένα μας και τη ΔΠΔ αναφέρεται συχνά ως το πρόβλημα της στατιστικής συμπερασματολογίας (statistical inference problem). Έχουμε ήδη διερευνήσει άτυπα αυτό το πρόβλημα σε προηγούμενα κεφάλαια. Γνωρίζουμε ότι η ίδια ΔΠΔ μπορεί να παράγει πολλά διαφορετικά δείγματα. Ωστόσο, είναι δύσκολο να γνωρίζουμε ακριβώς από ποια ΔΠΔ προήλθε ένα δείγμα. Στα κεφάλαια που ακολουθούν, διερευνούμε πιθανές λύσεις σε αυτό το πρόβλημα, περιγράφοντας τη λογική της στατιστικής συμπερασματολογίας και τα οφέλη που αποκομίζουμε από αυτήν.

Ποια από τις παρακάτω δηλώσεις είναι αληθής;

Σωστή απάντηση: Β — Είτε γνωρίζουμε τη ΔΠΔ είτε όχι, τα δείγματα που παράγονται από μια ΔΠΔ θα ποικίλουν.


Τι είναι η Διαδικασία Παραγωγής Δεδομένων (ΔΠΔ);

Η ΔΠΔ είναι η πραγματική, υποκείμενη διαδικασία που παράγει τα δεδομένα που παρατηρούμε. Σκεφτείτε την ως:

  • Το πραγματικό μοντέλο που ισχύει για το φαινόμενο που μελετάμε

  • Τη θεωρητική κατανομή από την οποία προέρχονται οι παρατηρήσεις μας

  • Τις πραγματικές τιμές των παραμέτρων που θέλουμε να βρούμε

Παράδειγμα:

Αν μελετάμε το ύψος των ανθρώπων, η ΔΠΔ περιλαμβάνει:

  • Την πραγματική κατανομή του ύψους στον πληθυσμό

  • Τους πραγματικούς παράγοντες που επηρεάζουν το ύψος (γενετική, διατροφή, κλπ.)

  • Τον πραγματικό μέσο όρο και τυπική απόκλιση του πληθυσμού


Το θεμελιώδες πρόβλημα της στατιστικής

Το κεντρικό πρόβλημα:

Δεν γνωρίζουμε ποτέ την πραγματική ΔΠΔ. Έχουμε μόνο ένα δείγμα δεδομένων από αυτήν.

Η πρόκληση της συμπερασματολογίας:

  1. Έχουμε: Ένα δείγμα δεδομένων (π.χ., 100 παρατηρήσεις)

  2. Θέλουμε να μάθουμε: Την πραγματική ΔΠΔ (τις πραγματικές παραμέτρους του πληθυσμού)

  3. Το πρόβλημα: Διαφορετικά δείγματα από την ίδια ΔΠΔ θα δώσουν διαφορετικές εκτιμήσεις!


Ανάλυση των επιλογών

Α. “Αν γνωρίζαμε πραγματικά τη ΔΠΔ, τότε τα δείγματα που παράγονται από αυτή τη ΔΠΔ δεν θα διαφέρουν μεταξύ τους.” — ΛΑΘΟΣ

Γιατί είναι λάθος:

Αυτή η δήλωση συγχέει την ΔΠΔ με τα δείγματα.

  • Η ΔΠΔ είναι σταθερή και καθορισμένη

  • Τα δείγματα από τη ΔΠΔ πάντα ποικίλλουν λόγω τυχαίας μεταβλητότητας

Παράδειγμα:

Ας υποθέσουμε ότι γνωρίζουμε την πραγματική ΔΠΔ:

  • Ρίχνουμε ένα δίκαιο ζάρι (η ΔΠΔ είναι γνωστή: κάθε αριθμός 1-6 έχει πιθανότητα 1/6)

  • Δείγμα 1: Ρίχνουμε 10 φορές → Παίρνουμε: 3, 5, 1, 6, 2, 4, 5, 1, 3, 6

  • Δείγμα 2: Ρίχνουμε άλλες 10 φορές → Παίρνουμε: 2, 2, 4, 6, 5, 3, 1, 4, 6, 2

Παρατήρηση:

Παρόλο που γνωρίζουμε τη ΔΠΔ (δίκαιο ζάρι), τα δείγματα εξακολουθούν να διαφέρουν μεταξύ τους!

Η τυχαία μεταβλητότητα είναι εγγενής στη διαδικασία δειγματοληψίας.


Β. “Είτε γνωρίζουμε τη ΔΠΔ είτε όχι, τα δείγματα που παράγονται από μια ΔΠΔ θα διαφέρουν. μεταξύ τους” — ΣΩΣΤΟ ✓

Γιατί είναι σωστό:

Αυτή είναι θεμελιώδης αρχή της στατιστικής!

Η γνώση της ΔΠΔ δεν εξαλείφει την τυχαία μεταβλητότητα των δειγμάτων.

Γιατί ποικίλλουν τα δείγματα;

  • Κάθε δειγματοληψία είναι μια τυχαία διαδικασία

  • Ακόμα κι αν η ΔΠΔ είναι ντετερμινιστική, το ποιες παρατηρήσεις επιλέγουμε είναι τυχαίο

Παράδειγμα 1: Γνωστή ΔΠΔ

Ας υποθέσουμε ότι γνωρίζουμε:

  • ΔΠΔ: \(Y \sim N(100, 15)\) — Κανονική κατανομή με μέσο 100 και τυπική απόκλιση 15

Τρία δείγματα με n = 5:

  • Δείγμα 1: 98, 105, 92, 110, 88 → \(\bar{Y}_1 = 98.6\)

  • Δείγμα 2: 103, 97, 115, 94, 101 → \(\bar{Y}_2 = 102.0\)

  • Δείγμα 3: 89, 108, 99, 96, 105 → \(\bar{Y}_3 = 99.4\)

Παρατήρηση:

Παρόλο που γνωρίζουμε ότι η πραγματική μέση τιμή είναι 100, κάθε δείγμα δίνει διαφορετική εκτίμηση μέσου όρου!

Παράδειγμα 2: Άγνωστη ΔΠΔ

Τώρα ας υποθέσουμε ότι δεν γνωρίζουμε τη ΔΠΔ:

  • Παίρνουμε ένα δείγμα: 98, 105, 92, 110, 88

  • Υπολογίζουμε: \(\bar{Y} = 98.6\), \(s = 8.73\)

Ένα άλλο δείγμα από την ίδια άγνωστη ΔΠΔ θα έδινε πιθανότατα διαφορετικές τιμές μέσου όρου και τυπικής απόκλισης!

Συμπέρασμα:

Η μεταβλητότητα των δειγμάτων είναι ανεξάρτητη από το αν γνωρίζουμε τη ΔΠΔ ή όχι.


Γ. “Αν είχαμε περισσότερες από 1000 παρατηρήσεις, θα μπορούσαμε να γνωρίζουμε την πραγματική ΔΠΔ που παρήγαγε το δείγμα.” — ΛΑΘΟΣ

Γιατί είναι λάθος:

Αυτή η δήλωση υπερεκτιμά τη δύναμη των μεγάλων δειγμάτων.

Τι είναι αλήθεια για τα μεγάλα δείγματα:

  • Μεγαλύτερα δείγματα δίνουν καλύτερες εκτιμήσεις (πιο ακριβείς)

  • Οι εκτιμήσεις μας πλησιάζουν τις πραγματικές τιμές των παραμέτρων

  • Η αβεβαιότητα μειώνεται (μικρότερη τυπική απόκλιση)

Τι ΔΕΝ είναι αλήθεια:

Δεν μπορούμε ποτέ να γνωρίζουμε με βεβαιότητα την πραγματική ΔΠΔ, ανεξάρτητα από το μέγεθος του δείγματος!

Γιατί;

  1. Πάντα υπάρχει αβεβαιότητα:

    • Ακόμα και με 1,000,000 παρατηρήσεις, έχουμε μόνο μια εκτίμηση

    • Η πραγματική τιμή της παραμέτρου μπορεί να είναι \(\mu = 100.000\) ή \(\mu = 100.001\)

  2. Σφάλμα δειγματοληψίας:

    • Κάθε δείγμα (ακόμα και μεγάλο) έχει τυχαία μεταβλητότητα

    • \(\bar{X} \neq \mu\) (ο μέσος του δείγματος ≠ μέσος του πληθυσμού)

  3. Θεωρητικά όρια:

    • Για να γνωρίζουμε τη ΔΠΔ, θα χρειαζόμασταν άπειρες παρατηρήσεις
    • Ή θα έπρεπε να παρατηρήσουμε ολόκληρο τον πληθυσμό

Συμπέρασμα

Η σωστή απάντηση είναι Β:

Είτε γνωρίζουμε τη ΔΠΔ είτε όχι, τα δείγματα που παράγονται από μια ΔΠΔ θα ποικίλουν.

Αυτό συμβαίνει επειδή:

  1. Η τυχαία μεταβλητότητα είναι εγγενής στη δειγματοληψία

  2. Η γνώση της ΔΠΔ δεν εξαλείφει την τυχαιότητα

  3. Κάθε δείγμα είναι μια διαφορετική τυχαία όψη από την ίδια ΔΠΔ

Αυτή η θεμελιώδης αλήθεια είναι η βάση της στατιστικής συμπερασματολογίας:

Επειδή τα δείγματα ποικίλλουν, πρέπει να χρησιμοποιήσουμε στατιστικές μεθόδους για να συμπεράνουμε την άγνωστη ΔΠΔ και να ποσοτικοποιήσουμε την αβεβαιότητα των εκτιμήσεών μας.

Η ομορφιά της στατιστικής:

Παρόλο που δεν μπορούμε ποτέ να γνωρίζουμε την πραγματική ΔΠΔ με βεβαιότητα, μπορούμε να καταλήξουμε με συστηματικό τρόπο σε αξιόπιστα συμπεράσματα για αυτήν!

Μια Νέα Έννοια: Η Δειγματοληπτική Κατανομή

Κλειδί για την επίλυση του προβλήματος της συμπερασματολογίας θα είναι μια νέα και σημαντική έννοια που μας επιτρέπει να παρατηρήσουμε πώς μπορεί να ποικίλλουν διαφορετικά δείγματα που προέρχονται από την ίδια ΔΠΔ και πόσο μπορεί να ποικίλλουν οι εκτιμήσεις των τιμών των παραμέτρων που υπολογίζονται από πολλά διαφορετικά δείγματα. Μπορείτε να σκεφτείτε αυτές τις πολλές εκτιμήσεις των τιμών μιας παραμέτρου ως ένα νέο είδος κατανομής, που ονομάζεται δειγματοληπτική κατανομή (sampling distribution).

Μέχρι αυτό το σημείο, έχουμε εξετάσει δύο ειδών κατανομές: την κατανομή μιας μεταβλητής στο δείγμα και την κατανομή μιας μεταβλητής στη ΔΠΔ (που ονομάζεται και πληθυσμός). Η δειγματοληπτική κατανομή είναι το τρίτο είδος αυτού που αποκαλούμε «Τριάδα των Κατανομών»: η κατανομή των εκτιμήσεων μιας παραμέτρου σε πολλά πιθανά δείγματα, ίδιου μεγέθους, που προέρχονται από μια δεδομένη ΔΠΔ.

Τα δείγματα και οι πληθυσμοί αποτελούνται από υποκείμενα ή αντικείμενα των οποίων τα χαρακτηριστικά μπορούμε να μετρήσουμε (για παράδειγμα, μήκη αντίχειρα ή ύψη μαθητών). Οι δειγματοληπτικές κατανομές, αντιθέτως, αποτελούνται από εκτιμήσεις τιμών παραμέτρων που θα μπορούσαμε να υπολογίσουμε για διαφορετικά δείγματα που προέρχονται από την ίδια ΔΠΔ (για παράδειγμα, μια κατανομή μέσων όρων ή μια κατανομή τιμών \(b_1\)). Σε αυτό το κεφάλαιο, θα εστιάσουμε στη δειγματοληπτική κατανομή του στατιστικού \(b_1\), δηλαδή της εκτίμησης της παραμέτρου \(\beta_1\).

Ποιο από τα παρακάτω ισχύει για τα στατιστικά;

Σωστή απάντηση: Α — Υπολογίζονται με βάση ένα δείγμα.


Βασικές έννοιες

Παράμετροι (Parameters) vs Στατιστικά ή Εκτιμήσεις Παραμέτρων (Estimates):

Έννοια Πληθυσμός Δείγμα
Ονομασία Παράμετρος (Parameter) Στατιστικό / Εκτίμηση (Statistic / Estimate)
Σύμβολο Ελληνικά γράμματα: \(\mu, \sigma, \beta\) Λατινικά γράμματα: \(\bar{x}, s, b\)
Χαρακτηριστικό Σταθερό (αλλά άγνωστο) Μεταβλητό (διαφέρει από δείγμα σε δείγμα)
Προσβασιμότητα Άγνωστο (συνήθως) Γνωστό (υπολογίζεται)

Παραδείγματα:

Στατιστικό Παράμετρος πληθυσμού Υπολογισμός από δείγμα
Μέσος όρος \(\mu\) (άγνωστο) \(\bar{x}\) (υπολογίζεται)
Τυπική απόκλιση \(\sigma\) (άγνωστο) \(s\) (υπολογίζεται)
Κλίση παλινδρόμησης \(\beta_1\) (άγνωστο) \(b_1\) (υπολογίζεται)
Σταθερός όρος \(\beta_0\) (άγνωστο) \(b_0\) (υπολογίζεται)

Γιατί η Α είναι σωστή

«Υπολογίζονται με βάση ένα δείγμα»

Η διαδικασία:

  1. Συλλέγουμε ένα δείγμα από τον πληθυσμό

  2. Υπολογίζουμε στατιστικά από το δείγμα:

    • Μέσος όρος: \(\bar{x} = \frac{\sum x_i}{n}\)

    • Κλίση ευθείας παλινδρόμησης: \(b_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}\)

  3. Χρησιμοποιούμε αυτά τα στατιστικά ως εκτιμήσεις των παραμέτρων του πληθυσμού

Παράδειγμα:

# Δείγμα από πληθυσμό
sample_data <- data.frame(
  x = c(2, 5, 7, 9, 12),
  y = c(3, 8, 10, 14, 18)
)

# Εκτίμηση παραμέτρων από το ΔΕΙΓΜΑ
model <- lm(y ~ x, data = sample_data)
coef(model)
# (Intercept)         x 
#     0.5238     1.4286  ← Αυτές είναι ΕΚΤΙΜΗΣΕΙΣ των b₀, b₁

# Οι ΠΡΑΓΜΑΤΙΚΕΣ παράμετροι (β₀, β₁) του πληθυσμού;
# ΑΓΝΩΣΤΕΣ! Χρησιμοποιούμε το δείγμα για να τις εκτιμήσουμε.

Γιατί οι άλλες επιλογές είναι λάθος;

Β. «Υπολογίζονται για κάθε παρατήρηση ξεχωριστά» — ΛΑΘΟΣ

Γιατί είναι λάθος:

Τα στατιστικά ΔΕΝ υπολογίζονται για κάθε παρατήρηση — υπολογίζονται για ολόκληρο το δείγμα!

Τι υπολογίζεται για κάθε παρατήρηση:

  • Τιμές πρόβλεψης (\(\hat{y}_i\)): Για κάθε παρατήρηση

  • Υπόλοιπα (\(e_i = y_i - \hat{y}_i\)): Για κάθε παρατήρηση

Τι υπολογίζεται για το δείγμα:

  • Εκτιμήσεις παραμέτρων (\(b_0, b_1\)): Μία τιμή για ολόκληρο το δείγμα

Παράδειγμα:

model <- lm(y ~ x, data = data)

# ΜΙΑ εκτίμηση για τον σταθερό όρο (για ΟΛΟ το δείγμα)
coef(model)[1]  # b₀ = 2.5

# ΜΙΑ εκτίμηση για την κλίση (για ΟΛΟ το δείγμα)
coef(model)[2]  # b₁ = 0.8

# ΑΛΛΑ: Διαφορετικές προβλέψεις για κάθε παρατήρηση
fitted(model)
# [1] 3.1 4.7 5.9 8.3 10.1  ← Μία τιμή πρόβλεψης για κάθε παρατήρηση

Γ. «Οι τιμές τους είναι σχεδόν πάντα ίσες με τις τιμές των παραμέτρων» — ΛΑΘΟΣ

Γιατί είναι λάθος:

Οι τιμές των στατιστικών σχεδόν ποτέ δεν είναι ακριβώς ίσες με τις πραγματικές παραμέτρους!

Η πραγματικότητα:

Λόγω δειγματοληπτικής μεταβλητότητας, οι τιμές των στατιστικών από το δείγμα αναμένεται να διαφέρουν από τις πραγματικές παραμέτρους του πληθυσμού.

Τα στατιστικά:

  • Είναι αμερόληπτοι εκτιμητές (η τιμή τους θα είναι, κατά μέσο όρο, ίση με την πραγματική τιμή)

  • Αλλά κάθε μεμονωμένη εκτίμηση θα διαφέρει από την πραγματική τιμή


Δ. «Είναι άγνωστες και δεν μπορούν να υπολογιστούν» — ΛΑΘΟΣ

Γιατί είναι λάθος:

Αυτή η δήλωση συγχέει τις τιμές των στατιστικών με τις τιμές των παραμέτρων!

Η σωστή διάκριση:

Παράμετροι πληθυσμού (\(\beta_0, \beta_1, \mu, \sigma\)):

  • Είναι άγνωστες

  • Δεν μπορούν να υπολογιστούν (εκτός αν έχουμε ολόκληρο τον πληθυσμό)

  • Είναι σταθερές

Τιμές στατιστικών από δείγμα (\(b_0, b_1, \bar{x}, s\)):

  • Είναι γνωστές

  • ΜΠΟΡΟΥΝ να υπολογιστούν από το δείγμα

  • Χρησιμοποιούνται για να προσεγγίσουν τις τιμές των παραμέτρων


Η διαδικασία της στατιστικής συμπερασματολογίας

ΠΛΗΘΥΣΜΟΣ (Population)
┌─────────────────────────────┐
│ Παράμετροι (Parameters)     │
│ • μ (μέσος)                 │
│ • σ (τυπική απόκλιση)       │
│ • β₀, β₁ (παλινδρόμηση)     │
│                             │
│ ΑΓΝΩΣΤΕΣ & ΣΤΑΘΕΡΕΣ         │
└─────────────────────────────┘
         ↓
   Δειγματοληψία
         ↓
ΔΕΙΓΜΑ (Sample)
┌─────────────────────────────┐
│ Στατιστικά / Εκτιμητές      │
│ • x̄ (μέσος δείγματος)       │
│ • s (τυπ. απόκλ. δείγματος )│
│ • b₀, b₁ (εκτιμητές)        │
│                             │
│ ΓΝΩΣΤΕΣ & ΜΕΤΑΒΛΗΤΕΣ        │
│ (από δείγμα σε δείγμα)      │
└─────────────────────────────┘
         ↓
  Συμπερασματολογία
         ↓
Χρησιμοποιούμε τις τιμές των εκτιμητών
για να εξάγουμε συμπεράσματα
για τις παραμέτρους

Συμπέρασμα

Τα στατιστικά:

Υπολογίζονται με βάση ένα δείγμα και χρησιμοποιούνται για να εκτιμήσουν τις άγνωστες παραμέτρους του πληθυσμού.

Η μεγάλη ιδέα της στατιστικής:

Χρησιμοποιούμε γνωστά στατιστικά από ένα δείγμα για να εξάγουμε συμπεράσματα για άγνωστες παραμέτρους του πληθυσμού.

Απόρριψη του «Κενού» Μοντέλου: Η Βασική Ιδέα

Όταν παρατηρούμε μια διαφορά μεταξύ δύο ομάδων στα δεδομένα μας, μπορεί να μπούμε στον πειρασμό να συμπεράνουμε ότι υπάρχει και διαφορά μεταξύ των δύο ομάδων στον αντίστοιχο πληθυσμό (ΔΠΔ) από τον οποίο προέρχονται. Δηλαδή, όταν το \(b_1\) είναι διαφορετικό από το μηδέν, μπορεί να οδηγηθούμε στο (εσφαλμένο) συμπέρασμα ότι και το \(\beta_1\) δεν θα είναι μηδέν. Το πρόβλημα με αυτόν τον συλλογισμό είναι ότι ακόμα και το «κενό» μοντέλο μιας ΔΠΔ, στο οποίο ισχύει ότι \(\beta_1 = 0\), μπορεί να παράγει δείγματα στα οποία θα υπάρχει διαφορά μεταξύ των δύο ομάδων.

Η βασική ιδέα, που θα αναπτυχθεί σε αυτό το κεφάλαιο, απαιτεί από εσάς να χρησιμοποιήσετε δεξιότητες υποθετικής σκέψης. Χρειάζεται να αναρωτηθείτε: αν υποθέσουμε ότι το «κενό» μοντέλο είναι αυτό που ισχύει για τη ΔΠΔ πόσο πιθανό θα ήταν να παρατηρήσουμε το \(b_1\) που υπολογίσαμε από τα δεδομένα μας; Για να απαντήσουμε σε αυτό θα προσομοιώσουμε με την R μια ΔΠΔ για την οποία ισχύει ότι \(\beta_1 = 0\), και θα δημιουργήσουμε από αυτήν πολλαπλά πιθανά δείγματα. Θα εξετάσουμε τις τιμές \(b_1\) που θα προκύψουν από αυτά τα πολλαπλά δείγματα των προσομοιωμένων δεδομένων και θα διαπιστώσουμε αν τα δικά μας δεδομένα μοιάζουν ή όχι με τα προσομοιωμένα.

Αν μια ΔΠΔ για την οποία ισχύει ότι \(\beta_1 = 0\) συχνά παράγει δείγματα που είναι παρόμοια με το δείγμα μας, τότε μπορούμε να συμπεράνουμε:

Σωστή απάντηση: Α — Ότι η ΔΠΔ με β₁ = 0 θα μπορούσε να έχει παράγει το δειγματικό b₁.


Κατανόηση του συμβολισμού

Πρώτα, ας ξεκαθαρίσουμε τη διαφορά μεταξύ:

  • β₁: Η πραγματική παράμετρος στη ΔΠΔ (Διαδικασία Παραγωγής Δεδομένων)

    • Αυτή είναι η πραγματική τιμή που δεν γνωρίζουμε

    • Σταθερή, αλλά άγνωστη

    • Παράδειγμα: Η πραγματική επίδραση των ωρών μελέτης στη βαθμολογία σε ένα μάθημα

  • b₁: Η εκτίμηση της παραμέτρου β₁ από το δείγμα μας

    • Αυτή είναι η τιμή που υπολογίζουμε από τα δεδομένα μας

    • Ποικίλλει από δείγμα σε δείγμα

    • Παράδειγμα: b₁ = 0.45 (η εκτίμηση από το συγκεκριμένο μας δείγμα)

Απλά:

  • β₁ = Η πραγματικότητα (άγνωστη)
  • b₁ = Η εκτίμησή μας (γνωστή)

Το πλαίσιο του προβλήματος

Η κατάσταση:

  1. Έχουμε ένα πραγματικό δείγμα από το οποίο υπολογίσαμε b₁ (π.χ., b₁ = 0.45)

  2. Θέλουμε να ελέγξουμε αν η πραγματική παράμετρος στη ΔΠΔ είναι β₁ = 0 (δηλαδή, δεν υπάρχει κανένα αποτέλεσμα)

  3. Για να το κάνουμε αυτό, προσομοιώνουμε πολλά δείγματα από μια ΔΠΔ όπου β₁ = 0

  4. Η ερώτηση λέει: “Αν ισχύει ότι αυτή η ΔΠΔ (με β₁ = 0) παράγει δείγματα παρόμοια με το δικό μας…”

Ανάλυση των επιλογών

Α. “Ότι μια ΔΠΔ με β₁ = 0 θα μπορούσε να έχει παράγει το δείγμα μας b₁.” — ΣΩΣΤΟ ✓

Γιατί είναι σωστό:

  • Χρησιμοποιεί τη λέξη “θα μπορούσε” — δείχνει πιθανότητα, όχι βεβαιότητα

  • Αναγνωρίζει ότι το β₁ = 0 είναι συμβατό με τα δεδομένα μας

  • Δεν ισχυρίζεται βεβαιότητα, αλλά δυνατότητα

Η λογική:

Αν συχνά η ΔΠΔ (β₁ = 0) παράγει παρόμοια δείγματα, τότε:

  • Η ΔΠΔ αυτή είναι συνεπής με τα δεδομένα μας
  • Το δείγμα μας θα μπορούσε πιθανώς να προέρχεται από αυτή
  • Δεν έχουμε αρκετές ενδείξεις για να την απορρίψουμε

Β. “Ότι μια ΔΠΔ με β₁ = 0 σίγουρα πρέπει να έχει παράγει το δείγμα μας b₁.” — ΛΑΘΟΣ

Γιατί είναι λάθος:

Αυτή η δήλωση είναι υπερβολικά κατηγορηματική και εσφαλμένη:

  1. Η λέξη “Σίγουρα” είναι πολύ ισχυρή

    • Δεν μπορούμε ποτέ να είμαστε απόλυτα σίγουροι για την άγνωστη ΔΠΔ
  2. Η λέξη “Πρέπει” υπονοεί αναγκαιότητα

    • Υπάρχουν πολλές πιθανές ΔΠΔ που θα μπορούσαν να παράγουν το δείγμα μας

Το λογικό σφάλμα:

“Αν μια ΔΠΔ με β₁ = 0 μπορεί να εξηγήσει τα δεδομένα, τότε πρέπει να είναι η αλήθεια.”

Γιατί είναι λάθος:

  • Πολλές διαφορετικές ΔΠΔ θα μπορούσαν να παράγουν το ίδιο δείγμα

  • Μια ΔΠΔ με β₁ = 0.1 ή β₁ = 0.2 μπορεί επίσης να είναι συμβατή με τα δεδομένα

Γ. “Ότι είναι αδύνατο μια ΔΠΔ με β₁ = 0 να έχει παράγει το δείγμα μας b₁.” — ΛΑΘΟΣ

Γιατί είναι λάθος:

Αυτή η απάντηση λέει:

“Είναι αδύνατο για μια ΔΠΔ με β₁ = 0 να έχει παράγει το δείγμα…”

Η αντίφαση με την εκφώνηση:

  • Αν συχνά παράγει δείγματα παρόμοια με το δείγμα μας, τότε δεν είναι αδύνατο

Δ. “Ότι είναι απίθανο μια ΔΠΔ με β₁ = 0 να έχει παράγει το δείγμα μας b₁.” — ΛΑΘΟΣ

Γιατί είναι λάθος:

Όπως και η επιλογή Γ, αυτή η απάντηση αντιφάσκει με την εκφώνηση:

  • Η εκφώνηση της ερώτησης: “Αν συχνά παράγει…”

  • Αυτή η απάντηση: “Είναι απίθανο…”

Το λογικό σφάλμα:

Αν κάτι είναι συχνό, πιθανό, δεν μπορεί ταυτόχρονα να είναι απίθανο (σπάνιο)!

Σημείωση για τη λέξη “απίθανο”:

  • Απίθανο σημαίνει: σπάνιο, χαμηλή πιθανότητα

  • Αυτό θα ήταν το συμπέρασμα αν η δειγματοληπτική κατανομή έδειχνε ότι το δείγμα μας ήταν σπάνιο

  • Αλλά η ερώτηση λέει το αντίθετο — ότι είναι συχνό


Η μεγάλη εικόνα:

Όπως θα δούμε παρακάτω, χρησιμοποιούμε τη δειγματοληπτική κατανομή για να αξιολογήσουμε αν μια υπόθεση για τη ΔΠΔ είναι εύλογη με βάση τα δεδομένα μας. Αν είναι εύλογη, την κρατάμε ως πιθανή. Αν είναι απίθανη, την απορρίπτουμε και ψάχνουμε για καλύτερες εξηγήσεις.

11.2 Δημιουργία μιας Δειγματοληπτικής Κατανομής

Μια Δεύτερη Ματιά στη Μελέτη για τα Φιλοδωρήματα

Έχουμε παρουσιάσει δύο έννοιες που ίσως σας φαίνονται ακόμα αρκετά αφηρημένες: τη δειγματοληπτική κατανομή και την απόρριψη του κενού μοντέλου. Για να γίνουν πιο συγκεκριμένες, ας επιστρέψουμε στη μελέτη για τα φιλοδωρήματα που είχαμε εξετάσει σε προηγούμενο κεφάλαιο.

Στη μελέτη αυτή, οι ερευνητές εξέτασαν αν η προσθήκη ενός ζωγραφισμένου χαμογελαστού προσώπου στην πίσω πλευρά του λογαριασμού θα έκανε τους πελάτες ενός εστιατορίου να αφήνουν μεγαλύτερα φιλοδωρήματα. Κάθε τραπέζι ανατέθηκε τυχαία σε μία από δύο συνθήκες/ομάδες: να λάβει τον λογαριασμό είτε με χαμογελαστό πρόσωπο είτε χωρίς. Η εξαρτημένη μεταβλητή ήταν το ποσό του φιλοδωρήματος που άφησε κάθε τραπέζι.

Ακολουθεί ένα τυχαίο δείγμα έξι παρατηρήσεων από το σύνολο δεδομένων TipExperiment:

sample(TipExperiment, 6)
      TableID Tip       Condition
           20  20         Control
           26  44     Smiley Face
           19  21         Control
           15  25         Control
           25  47     Smiley Face
           18  21         Control

Ποιες είναι οι παρατηρήσεις σε αυτή τη μελέτη;

Σωστή απάντηση: Α — Τα τραπέζια που ανατέθηκαν τυχαία στη συνθήκη με το χαμογελαστό πρόσωπο ή στην ομάδα ελέγχου.


Τι είναι οι «παρατηρήσεις»;

Στη στατιστική, οι παρατηρήσεις είναι οι μονάδες ανάλυσης — τα αντικείμενα ή οι οντότητες για τις οποίες συλλέγουμε δεδομένα. Κάθε παρατήρηση αντιστοιχεί σε μία γραμμή στο σύνολο δεδομένων μας.

Στη μελέτη για τα φιλοδωρήματα:

  • Κάθε τραπέζι είναι μία παρατήρηση

  • Για κάθε τραπέζι καταγράφηκε το φιλοδώρημα που άφησε και η συνθήκη στην οποία ανατέθηκε

  • Τα τραπέζια ανατέθηκαν τυχαία είτε στην ομάδα με το χαμογελαστό πρόσωπο είτε στην ομάδα ελέγχου

Γιατί οι άλλες επιλογές είναι λάθος:

  • Β (Σερβιτόροι): Οι σερβιτόροι δεν είναι η μονάδα ανάλυσης. Η μελέτη εξετάζει τα φιλοδωρήματα ανά τραπέζι, όχι ανά σερβιτόρο.

  • Γ (Οι δύο συνθήκες): Οι συνθήκες είναι τα επίπεδα της ανεξάρτητης μεταβλητής, όχι οι παρατηρήσεις. Έχουμε μόνο 2 συνθήκες, αλλά πολλά τραπέζια.

  • Δ (Εστιατόρια): Η μελέτη πραγματοποιήθηκε σε ένα ή λίγα εστιατόρια. Τα εστιατόρια δεν είναι η μονάδα στην οποία μετράμε τα φιλοδωρήματα.


Πώς αναγνωρίζουμε τις παρατηρήσεις;

Ρωτήστε: «Για ποιον ή για τι συλλέγω δεδομένα; Τι αντιπροσωπεύει κάθε γραμμή στο σύνολο δεδομένων μου;»

Στο TipExperiment, κάθε γραμμή αντιπροσωπεύει ένα τραπέζι με το δικό του TableID, Tip, και Condition.

Αυτή η μελέτη ήταν ένα πείραμα. Τι σημαίνει αυτό;

Σωστή απάντηση: Β — Οι παρατηρήσεις ανατέθηκαν τυχαία στις συνθήκες.


Τι κάνει μια μελέτη «πείραμα»;

Το βασικό χαρακτηριστικό ενός πειράματος είναι η τυχαία ανάθεση (random assignment). Ο ερευνητής:

  1. Χειρίζεται την ανεξάρτητη μεταβλητή (αποφασίζει ποιες παρατηρήσεις θα λάβουν ποια συνθήκη)

  2. Αναθέτει τυχαία τις παρατηρήσεις στις διάφορες συνθήκες

Γιατί έχει σημασία η τυχαία ανάθεση;

Η τυχαία ανάθεση εξασφαλίζει ότι οι ομάδες είναι συγκρίσιμες πριν την παρέμβαση. Έτσι, αν παρατηρήσουμε διαφορά στα αποτελέσματα, μπορούμε να την αποδώσουμε στην παρέμβαση (το χαμογελαστό πρόσωπο) και όχι σε προϋπάρχουσες διαφορές μεταξύ των ομάδων.


Γιατί οι άλλες επιλογές είναι λάθος:

Α. «Πραγματοποιήθηκε από επαγγελματίες επιστήμονες»

Ο όρος «πείραμα» δεν αναφέρεται στα προσόντα των ερευνητών. Ένα πείραμα ορίζεται από τη μεθοδολογία του, όχι από το ποιος το διεξάγει.

Γ. «Οι παρατηρήσεις με τα υψηλότερα φιλοδωρήματα ανατέθηκαν στη συνθήκη με το χαμογελαστό πρόσωπο»

Αυτό θα ήταν μεροληπτική ανάθεση, όχι τυχαία! Αν οι παρατηρήσεις με υψηλά φιλοδωρήματα τοποθετούνταν σκόπιμα στη μία ομάδα, δεν θα μπορούσαμε να ξέρουμε αν η διαφορά οφείλεται στη ζωγραφιά με το χαμογελαστό πρόσωπο ή στην προϋπάρχουσα τάση για υψηλότερα φιλοδωρήματα.

Δ. «Η ανεξάρτητη μεταβλητή είναι ποιοτική μεταβλητή με δύο ομάδες και μόνο τα πειράματα έχουν τέτοιες μεταβλητές»

Αυτό είναι λάθος. Οι ποιοτικές μεταβλητές υπάρχουν και σε μη πειραματικές μελέτες (μελέτες παρατήρησης ή συσχέτισης).


Πείραμα vs Μελέτη Παρατήρησης

Πείραμα Μελέτη Παρατήρησης
Ανάθεση Τυχαία από τον ερευνητή Φυσική/προϋπάρχουσα
Χειρισμός Ο ερευνητής ελέγχει τη συνθήκη Ο ερευνητής απλώς παρατηρεί
Αιτιότητα Μπορούμε να συμπεράνουμε αιτία-αποτέλεσμα Μπορούμε να δούμε μόνο συσχέτιση
Παράδειγμα Μελέτη φιλοδωρημάτων (χαμογελαστό πρόσωπο) Σύγκριση εισοδήματος ανδρών-γυναικών

Οι ερευνητές θέλουν να διερευνήσουν την υπόθεση ότι τα φιλοδωρήματα εξαρτώνται από τη συνθήκη (ομάδα) — δηλαδή, Φιλοδώρημα = Συνθήκη + άλλοι παράγοντες. Η σημειογραφία του Γενικού Γραμμικού Μοντέλου (GLM) για αυτό το μοντέλο δύο ομάδων είναι:

\[Y_i = b_0 + b_1 X_i + e_i\] όπου:

  • το \(X_i\) δείχνει αν ένα τραπέζι ήταν στη συνθήκη «Χαμογελαστό Πρόσωπο» ή όχι (κωδικοποιημένο με 0 για την ομάδα ελέγχου και 1 για την ομάδα με το χαμογελαστό πρόσωπο)
  • το \(b_1\) αντιπροσωπεύει τη διαφορά στο ποσοστό φιλοδωρήματος, κατά μέσο όρο, μεταξύ των δύο συνθηκών

Η τιμή του \(b_1\) είναι αυτή που μας ενδιαφέρει περισσότερο. Αποτελεί την καλύτερη εκτίμησή μας για το \(\beta_1\), δηλαδή την πραγματική επίδραση της προσθήκης του χαμογελαστού προσώπου στη Διαδικασία Παραγωγής Δεδομένων (ΔΠΔ).

Πριν εξετάσουμε τα αποτελέσματα της μελέτης, ας σκεφτούμε τι θα περιμέναμε να δούμε αν γνωρίζαμε ότι ένα συγκεκριμένο μοντέλο της ΔΠΔ ήταν αληθές. Αν όντως υπάρχει όφελος από τη ζωγραφιά του χαμογελαστού προσώπου (δηλαδή αν το \(\beta_1\) είναι θετικός αριθμός), θα περιμέναμε τα δείγματα που προέρχονται από αυτή τη ΔΠΔ να έχουν θετικές τιμές \(b_1\) κατά μέσο όρο.

Αν η πραγματική ΔΠΔ είναι ότι το χαμογελαστό πρόσωπο οδηγεί τους πελάτες στο να αφήνουν μικρότερο φιλοδώρημα, τι θα περιμέναμε να δούμε στα δείγματα από αυτή τη ΔΠΔ;

Σωστή απάντηση: Β — Οι τιμές \(b_1\) θα ήταν αρνητικές.


Η βασική αρχή

Οι τιμές \(b_1\) που υπολογίζουμε από δείγματα τείνουν να μοιάζουν με την πραγματική παράμετρο \(\beta_1\) από την οποία προέρχονται:

Αν η πραγματική \(\beta_1\) είναι… …τότε οι τιμές \(b_1\) τείνουν να είναι…
Θετική (όφελος) Θετικές κατά μέσο όρο
Αρνητική (απώλεια) Αρνητικές κατά μέσο όρο
Μηδέν (καμία επίδραση) Γύρω στο 0 (κάποιες + και κάποιες −)

Γιατί οι άλλες επιλογές είναι λάθος:

Α. «Οι τιμές \(b_1\) θα ήταν θετικές»

Αυτό θα συνέβαινε μόνο αν το χαμογελαστό πρόσωπο αύξανε τα φιλοδωρήματα (δηλαδή αν \(\beta_1 > 0\)). Η ερώτηση όμως λέει το αντίθετο.

Γ. «Οι τιμές \(b_1\) θα ήταν γύρω από το 0»

Αυτό θα συνέβαινε μόνο αν δεν υπήρχε καμία επίδραση (δηλαδή αν \(\beta_1 = 0\), δηλαδή ίσχυε το κενό μοντέλο). Αλλά η ερώτηση υποθέτει ότι υπάρχει αρνητική επίδραση.

Δ. «Δεν θα υπήρχε τρόπος να προβλέψουμε»

Αυτό είναι λάθος. Υπάρχει ξεκάθαρη σχέση μεταξύ \(\beta_1\) και \(b_1\): οι τιμές \(b_1\) κατανέμονται γύρω από την πραγματική τιμή \(\beta_1\). Αυτό είναι θεμελιώδες στη στατιστική — τα στατιστικά μας τείνουν να πλησιάζουν τις πραγματικές παραμέτρους.


Συμπέρασμα

Αν η πραγματική επίδραση είναι αρνητική (\(\beta_1 < 0\)), τότε τα δείγματα θα τείνουν να δίνουν αρνητικές τιμές \(b_1\). Αυτή η αντιστοιχία μεταξύ της πραγματικής παραμέτρου και των δειγματικών εκτιμήσεων είναι η βάση της στατιστικής συμπερασματολογίας.

Αν η πραγματική ΔΠΔ είναι ότι το χαμογελαστό πρόσωπο δεν έχει καμία επίδραση, τι θα περιμέναμε να δούμε στα δείγματα από αυτή τη ΔΠΔ;

Σωστή απάντηση: Γ — Οι τιμές \(b_1\) θα ήταν γύρω από το 0 — κάποιες θετικές και κάποιες αρνητικές.


Το κενό μοντέλο: \(\beta_1 = 0\)

Όταν λέμε ότι το χαμογελαστό πρόσωπο δεν έχει καμία επίδραση, εννοούμε ότι στην πραγματική ΔΠΔ:

\[\beta_1 = 0\]

Αυτό σημαίνει ότι ο (πληθυσμιακός) μέσος όρος φιλοδωρημάτων είναι ακριβώς ο ίδιος και στις δύο ομάδες:

\[\mu_{\text{χαμογ}} = \mu_{\text{ελέγχου}}\]


Τι συμβαίνει όμως στα δείγματα;

Ακόμα κι αν \(\beta_1 = 0\) στη ΔΠΔ, οι τιμές \(b_1\) που υπολογίζουμε από δείγματα δεν θα είναι ακριβώς μηδέν.

Γιατί;

Λόγω της τυχαίας δειγματοληπτικής μεταβλητότητας:

  • Κάθε δείγμα είναι διαφορετικό

  • Ακόμα κι αν δεν υπάρχει πραγματική διαφορά, τυχαίνει μερικές φορές να πέσουν περισσότερα υψηλά φιλοδωρήματα στη μία ομάδα

  • Έτσι, κάποια \(b_1\) θα είναι λίγο θετικά, κάποια λίγο αρνητικά

Το κλειδί: Οι τιμές \(b_1\) θα κυμαίνονται γύρω από το 0, χωρίς συστηματική τάση προς τη μία ή την άλλη κατεύθυνση.

Αν και δεν μπορούμε να προβλέψουμε την ακριβή τιμή του \(b_1\) που θα προκύψει από ένα συγκεκριμένο δείγμα, μπορούμε να κάνουμε προβλέψεις για το μέσο όρο των \(b_1\) που θα προέκυπταν από πολλά τυχαία δείγματα.

Κατά μέσο όρο, οι τιμές \(b_1\) τείνουν να μοιάζουν με την «γονική» τιμή \(\beta_1\) από την οποία προέρχονται:

  • Αρνητική τιμή \(\beta_1\) → τείνει να παράγει αρνητικές τιμές \(b_1\)
  • Θετική τιμή \(\beta_1\) → τείνει να παράγει θετικές τιμές \(b_1\)

Το κενό μοντέλο είναι μια ειδική περίπτωση στην οποία \(\beta_1 = 0\). Αν το κενό μοντέλο είναι αληθές, σημαίνει ότι η ζωγραφιά του χαμογελαστού προσώπου δεν έχει καμία επίδραση στο πόσο του φιλοδωρήματος που αφήνουν τα τραπέζια. Οι τιμές \(b_1\) που θα παράγονταν από πολλά τυχαία δείγματα μιας ΔΠΔ όπου \(\beta_1 = 0\) θα τείνουν να είναι κοντά στο μηδέν, αλλά δεν θα είναι απαραίτητα ακριβώς μηδέν. Μπορούμε να δημιουργήσουμε μια δειγματοληπτική κατανομή για να διαπιστώσουμε αν το δειγματικό μας \(b_1\) θα μπορούσε να έχει παραχθεί από το κενό μοντέλο.

Δημιουργία Δειγματοληπτικής Κατανομής με Βάση το Κενό Μοντέλο

Ας κάνουμε τώρα μια υποθετική σκέψη. Αν δεν υπήρχε καμία επίδραση του χαμογελαστού προσώπου στο ποσοστό του φιλοδωρήματος, τότε τα τραπέζια θα είχαν αφήσει το ίδιο ποσοστό φιλοδωρήματος ανεξάρτητα από τη συνθήκη στην οποία είχαν ανατεθεί τυχαία.

Ένα από τα μεγάλα πλεονεκτήματα στις μέρες μας είναι ότι δεν περιοριζόμαστε στο να φανταζόμαστε απλώς πώς θα έμοιαζαν οι τιμές \(b_1\) αν δεν υπήρχε καμία επίδραση του χαμογελαστού προσώπου στη ΔΠΔ. Μπορούμε να χρησιμοποιήσουμε τον υπολογιστή μας (εδώ την R) για να προσομοιώσουμε τη ΔΠΔ στην οποία ισχύει ότι \(\beta_1 = 0\).

ΣυμβουλήΥπενθύμιση

Οι όροι «κενό μοντέλο», «\(\beta_1 = 0\)» και «καμία επίδραση» σημαίνουν όλοι το ίδιο πράγμα: κανένα μέρος της μεταβλητότητας στο ποσοστό φιλοδωρήματος των τραπεζιών δεν οφείλεται στο χαμογελαστό πρόσωπο.

Μπορούμε να χρησιμοποιήσουμε τη συνάρτηση shuffle() για να προσομοιώσουμε αυτή την υποθετική κατάσταση. Η συνάρτηση αυτή ανακατανέμει ή ανακατεύει τυχαία κάθε φιλοδώρημα (που αντιπροσωπεύει κάθε τραπέζι) είτε στη συνθήκη «χαμογελαστό πρόσωπο» είτε στην ομάδα ελέγχου.

Το παρακάτω διάγραμμα δείχνει τα πραγματικά δεδομένα του δείγματος (το διάγραμμα με πράσινο χρώμα επάνω αριστερά) μαζί με 8 διαφορετικές τυχαίες ανακατανομές των φιλοδωρημάτων στις δύο συνθήκες. Για κάθε ανακατανομή, έχουμε σχεδιάσει το μέσο όρο φιλοδωρήματος (οι μαύρες γραμμές) για κάθε συνθήκη.

Κάθε ένα από αυτά τα διαγράμαμτα αναπαριστά μία τυχαία ανακατανομή των δεδομένων και το μοντέλο που προσαρμόζεται καλύτερα στα ανακατανεμημένα δεδομένα. Ας θυμηθούμε, πώς αναπαρίστανται οι τιμές \(b_1\) σε κάθε διάγραμμα;

Σωστή απάντηση: Γ — Η κατακόρυφη απόσταση μεταξύ των δύο μαύρων γραμμών.


Τι αναπαριστά το \(b_1\);

Στο μοντέλο δύο ομάδων:

\[Y_i = b_0 + b_1 X_i + e_i\]

όπου \(X_i = 0\) για την ομάδα ελέγχου και \(X_i = 1\) για την ομάδα με το χαμόγελαστό πρόσωπο:

  • \(b_0\) = ο μέσος όρος της ομάδας ελέγχου (όταν \(X = 0\))

  • \(b_0 + b_1\) = ο μέσος όρος της ομάδας με το χαμογελαστό πρόσωπο (όταν \(X = 1\))

  • \(b_1\) = η διαφορά μεταξύ των δύο μέσων όρων

\[b_1 = \bar{Y}_{\text{χαμoγελ}} - \bar{Y}_{\text{ελέγχου}}\]

Το \(b_1\) είναι η κατακόρυφη απόσταση μεταξύ των δύο οριζόντιων γραμμών.


Γιατί οι άλλες επιλογές είναι λάθος:

Α. «Η μαύρη γραμμή της ομάδας ελέγχου»

Αυτή η γραμμή αναπαριστά το μέσο όρο της ομάδας ελέγχου, δηλαδή το \(b_0\)\(\bar{Y}_{\text{ελέγχου}}\)), όχι το \(b_1\).

Β. «Η μαύρη γραμμή της ομάδας με το χαμογελαστό πρόσωπο»

Αυτή η γραμμή αναπαριστά το μέσο όρο της ομάδας με το χαμογελαστό πρόσωπο, δηλαδή το \(b_0 + b_1\)\(\bar{Y}_{\text{χαμόγ}}\)), όχι μόνο το \(b_1\).


Σημασία για την κατανόηση της δειγματοληπτικής κατανομής

Όταν κοιτάζουμε τα 9 διαγράμματα:

  • Κάθε διάγραμμα έχει δύο μαύρες γραμμές (μέσους όρους)

  • Η απόσταση μεταξύ τους διαφέρει από διάγραμμα σε διάγραμμα

  • Αυτές οι διαφορετικές αποστάσεις είναι οι διαφορετικές τιμές \(b_1\)

  • Όπως θα δούμε παρακάτω, αν συλλέξουμε όλες αυτές τις αποστάσεις (π.χ. από 1000 τυχαία ανακατέματα), παίρνουμε τη δειγματοληπτική κατανομή του \(b_1\)

Επειδή αυτά τα δεδομένα και οι τιμές \(b_1\) δημιουργήθηκαν από το κενό μοντέλο:

Σωστή απάντηση: Α — Οι τιμές \(b_1\) τείνουν να είναι κοντά στο 0.


Τι σημαίνει «κενό μοντέλο»;

Το κενό μοντέλο υποθέτει ότι:

\[\beta_1 = 0\]

Δηλαδή, δεν υπάρχει καμία επίδραση του χαμογελαστού προσώπου στα φιλοδωρήματα. Οι δύο ομάδες έχουν τον ίδιο πραγματικό μέσο όρο στη ΔΠΔ.


Η βασική αρχή

Οι τιμές \(b_1\) από δείγματα τείνουν να συγκεντρώνονται γύρω από την πραγματική παράμετρο \(\beta_1\).

Τι κάνει η συνάρτηση shuffle();

Η shuffle() ανακατανέμει τυχαία τα φιλοδωρήματα στις συνθήκες, σπάζοντας οποιαδήποτε σχέση μεταξύ τους. Αυτό προσομοιώνει ακριβώς έναν κόσμο όπου:

  • Η συνθήκη δεν επηρεάζει το φιλοδώρημα

  • \(\beta_1 = 0\)

  • Οποιαδήποτε διαφορά μεταξύ των ομάδων είναι καθαρά τυχαία


Γιατί οι άλλες επιλογές είναι λάθος:

Οι τιμές 20, 30 και 40 δεν έχουν καμία σχέση με το \(b_1\) στο κενό μοντέλο.

  • Αυτές οι τιμές μοιάζουν με τιμές φιλοδωρημάτων (η μεταβλητή \(Y\))

  • Το \(b_1\) όμως είναι η διαφορά μεταξύ μέσων όρων, όχι ένας μέσος όρος

  • Στο κενό μοντέλο, η αναμενόμενη διαφορά είναι 0, όχι 20, 30 ή 40

Ο παρακάτω κώδικας υπολογίζει τη τιμή \(b_1\) από ένα μόνο τυχαίο ανακάτεμα των δεδομένων. Μπορείτε να τον εκτελέσετε μερικές φορές για να δείτε ότι κάθε ανακάτεμα δίνει διαφορετική τιμή \(b_1\). Έπειτα τροποποιήστε τον κώδικα προσθέτοντας τη συνάρτηση do() για να προσομοιώσετε 1000 τιμές \(b_1\), μία για κάθε ανακάτεμα των δεδομένων.

Αυτές είναι πάρα πολλές τιμές! Ωστόσο, μπορούμε να παρατηρήσουμε κάποια πράγματα ακόμα κι αν απλώς κοιτάξουμε τις πρώτες από αυτές:

  • Οι τιμές \(b_1\) ποικίλλουν κάθε φορά που ανακατεύουμε και υπολογίζουμε μια νέα τιμή \(b_1\)
  • Κάποιες τιμές \(b_1\) είναι θετικές και κάποιες αρνητικές
  • Αν και δεν μπορούσαμε να προβλέψουμε αν η πρώτη τιμή \(b_1\) θα ήταν θετική ή αρνητική, γνωρίζαμε ήδη ότι μερικές θα ήταν θετικές και μερικές αρνητικές

Παρόλο που οι 1000 τιμές που παρήγαγε η R μοιάζουν με την κατανομή μιας μεταβλητής για ένα δείγμα παρατηρήσεων, διαφέρουν από αυτήν σε δύο σημαντικά σημεία:

  1. Δε βασίζονται στη μέτρηση μιας ακόμη μεταβλητής, αλλά σε μια διαδικασία τυχαίας παραγωγής — οι τιμές δημιουργούνται τυχαία από την R

  2. Κάθε τιμή αντιπροσωπεύει ένα στατιστικό ή εκτίμηση παραμέτρου, όχι μια μεμονωμένη παρατήρηση — κάθε τιμή είναι μια υποθετική τιμή \(b_1\)

ΣημαντικόΟρισμός: Δειγματοληπτική Κατανομή

Οι κατανομές που έχουν αυτά τα χαρακτηριστικά ονομάζονται δειγματοληπτικές κατανομές (sampling distributions).

Μια δειγματοληπτική κατανομή είναι η κατανομή των εκτιμήσεων μιας παραμέτρου (ή ενός στατιστικού) που υπολογίζεται από τυχαία παραγόμενα δείγματα ίδιου μεγέθους.

Οι δειγματοληπτικές κατανομές δεν είναι τα δεδομένα που συλλέξαμε, αλλά μπορούν να κατασκευαστούν χρησιμοποιώντας τα δεδομένα μας. Ενώ έχουμε συλλέξει μόνο ένα δείγμα παρατηρήσεων για μια δεδομένη μελέτη, οι δειγματοληπτικές κατανομές είναι προσομοιώσεις του τι θα μπορούσε να συμβεί αν είχαμε κάνει την ίδια μελέτη πολλές φορές.

Οι δειγματοληπτικές κατανομές μας επιτρέπουν να δούμε πώς θα μπορούσε να μοιάζει η δειγματική μεταβλητότητα αν επαναλαμβάναμε την ίδια διαδικασία συλλογής δεδομένων (επιλογή ενός τυχαίου δείγματος ή τυχαία ανάθεση σε συνθήκες) πολλές φορές.

11.3 Διερεύνηση της Δειγματοληπτικής Κατανομής του \(b_1\)

Είναι δύσκολο να μελετήσουμε μια μεγάλη λίστα τιμών \(b_1\) και να καταλήξουμε σε κάποιο συμπέρασμα. Αν όμως σκεφτούμε αυτούς τους αριθμούς ως μια κατανομή — μια δειγματοληπτική κατανομή — μπορούμε να χρησιμοποιήσουμε τα ίδια εργαλεία οπτικοποίησης και ανάλυσης που χρησιμοποιούμε για να κατανοήσουμε μια οποιαδήποτε κατανομή. Για παράδειγμα, μπορούμε να χρησιμοποιήσουμε ένα ιστόγραμμα για να εξετάσουμε τη δειγματοληπτική κατανομή των τιμών \(b_1\).

Ο παρακάτω κώδικας αποθηκεύει τις τιμές \(b_1\) (εκτιμήσεις της παραμέτρου \(\\beta_1\)) από 1000 τυχαία ανακατέματα των δεδομένων της μελέτης του φιλοδωρήματος σε ένα πλαίσιο δεδομένων με το όνομα sdob1, που είναι ακρωνύμιο του sampling distribution of b1s (δειγματοληπτική κατανομή των τιμών \(b_1\)).

Ποιο είναι το όνομα αυτού του πλαισίου δεδομένων;

Σωστή απάντηση: Δ — sdob1


Ανάλυση του κώδικα

sdob1 <- do(1000) * b1(shuffle(Tip) ~ Condition, data = TipExperiment)

Σε αυτή τη γραμμή κώδικα:

  • Ο τελεστής <- είναι ο τελεστής ανάθεσης στην R
  • Ό,τι βρίσκεται στα αριστερά του <- είναι το όνομα που δίνουμε στο αντικείμενο
  • Ό,τι βρίσκεται στα δεξιά του <- είναι η τιμή που αποθηκεύεται

Επομένως, το sdob1 είναι το όνομα του πλαισίου δεδομένων που δημιουργούμε.


Τι σημαίνει το sdob1;

Το όνομα sdob1 είναι ένα ακρωνύμιο που επιλέξαμε για να θυμόμαστε τι περιέχει:

  • sampling distribution of b1s
  • = δειγματοληπτική κατανομή των \(b_1\)

Θα μπορούσατε να επιλέξετε οποιοδήποτε άλλο όνομα προτιμάτε (π.χ., my_distribution, shuffled_b1s, κλπ.).


Γιατί οι άλλες επιλογές είναι λάθος:

Επιλογή Τι είναι στην πραγματικότητα
Tip Μια μεταβλητή (στήλη) μέσα στο TipExperiment — το ποσό του φιλοδωρήματος
Condition Μια μεταβλητή (στήλη) μέσα στο TipExperiment — η συνθήκη (Control ή Smiley Face)
b1 Μια μεταβλητή (στήλη) μέσα στο sdob1 — οι τιμές \(b_1\) από κάθε ανακατανομή
TipExperiment Το αρχικό πλαίσιο δεδομένων με τα πραγματικά δεδομένα της μελέτης

Ποιο είναι το όνομα της (μοναδικής) μεταβλητής μέσα σε αυτό το πλαίσιο δεδομένων;

Σωστή απάντηση: Γ — b1


Τι περιέχει το sdob1;

Όταν εκτελούμε:

sdob1 <- do(1000) * b1(shuffle(Tip) ~ Condition, data = TipExperiment)
head(sdob1)

Παίρνουμε π.χ.:

          b1
1 -0.1363636
2  6.7727273
3  0.6818182
4 -0.5909091
5 -5.7727273
6  7.5000000

Το πλαίσιο δεδομένων sdob1 έχει:

  • 1000 γραμμές (μία για κάθε τυχαίο ανακάτεμα)
  • 1 στήλη με το όνομα b1

Για να αναφερθούμε στη μεταβλητή b1 μέσα στο sdob1, χρησιμοποιούμε:

sdob1$b1

Γιατί οι άλλες επιλογές είναι λάθος:

Επιλογή Τι είναι στην πραγματικότητα
Tip Μεταβλητή μέσα στο TipExperiment, όχι στο sdob1
Condition Μεταβλητή μέσα στο TipExperiment, όχι στο sdob1
sdob1 Το όνομα του πλαισίου δεδομένων, όχι της μεταβλητής
TipExperiment Ένα άλλο πλαίσιο δεδομένων (τα αρχικά δεδομένα)

Αυτή είναι μια εντολή για να δημιουργήσουμε ένα ιστόγραμμα: gf_histogram(~ Thumb, data = Fingers)

Ποια είναι η γενική σύνταξη αυτής της εντολής;

Σωστή απάντηση: Β — gf_histogram(~ μεταβλητή, data = πλαίσιο δεδομένων)


Ανάλυση του κώδικα

gf_histogram(~ Thumb, data = Fingers)
Στοιχείο Ρόλος Παράδειγμα
gf_histogram() Η συνάρτηση που δημιουργεί το ιστόγραμμα
~ Thumb Η μεταβλητή που θέλουμε να αναπαραστήσουμε Thumb
data = Fingers Το πλαίσιο δεδομένων που περιέχει τη μεταβλητή Fingers

Η γενική σύνταξη

gf_histogram(~ μεταβλητή, data = πλαίσιο δεδομένων)
  • Μετά το ~ βάζουμε το όνομα της μεταβλητής (στήλης) που θέλουμε να αναπαραστήσουμε

  • Μετά το data = βάζουμε το όνομα του πλαισίου δεδομένων που περιέχει αυτή τη μεταβλητή


Γιατί η επιλογή Α είναι λάθος;

Η επιλογή Α (gf_histogram(~ πλαίσιο δεδομένων, data = μεταβλητή)) έχει τη σειρά ανάποδα:

  • Βάζει το πλαίσιο δεδομένων μετά το ~ (λάθος)

  • Βάζει τη μεταβλητή μετά το data = (λάθος)

Αν προσπαθήσετε να εκτελέσετε κώδικα με αυτή τη σειρά, η R θα δώσει σφάλμα.


Μνημονικός κανόνας

«Τι θέλω να δω; Από πού;»

  • ~ μεταβλητήΤι θέλω να αναπαραστήσω
  • data = πλαίσιο δεδομένωνΑπό πού να πάρω τα δεδομένα

Στο παραπάνω ιστόγραμμα, σε τι αναφέρεται η συχνότητα (count) στον άξονα y (π.χ., 50);

Σωστή απάντηση: Β — Στον αριθμό των ανακατανεμημένων δειγμάτων.


Τι αναπαριστά αυτό το ιστόγραμμα;

Αυτό το ιστόγραμμα δείχνει τη δειγματοληπτική κατανομή των \(b_1\) — δηλαδή, τις 1000 τιμές \(b_1\) που προέκυψαν από 1000 ανακατανομές (shuffles) των δεδομένων.

  • Άξονας x (b1): Οι τιμές \(b_1\) (διαφορές μέσων όρων)

  • Άξονας y (count): Πόσες από τις 1000 ανακατανομές έδωσαν τιμή \(b_1\) σε κάθε διάστημα


Γιατί η επιλογή Α είναι λάθος;

Τα τραπέζια είναι οι παρατηρήσεις στα αρχικά δεδομένα (TipExperiment), όχι στη δειγματοληπτική κατανομή.

Αν προσθέτατε τα ύψη όλων των ράβδων, ποιο θα ήταν το άθροισμα;

Σωστή απάντηση: Γ — 1000.


Τι αναπαριστά αυτό το ιστόγραμμα;

Αυτό το ιστόγραμμα δείχνει τη δειγματοληπτική κατανομή των \(b_1\) — δηλαδή, τις 1000 τιμές \(b_1\) που προέκυψαν από 1000 ανακατανομές (shuffles) των δεδομένων.

  • Άξονας x (b1): Οι τιμές \(b_1\) (διαφορές μέσων όρων)

  • Άξονας y (count): Πόσες από τις 1000 ανακατανομές έδωσαν τιμή \(b_1\) σε κάθε διάστημα

Αν και το παραπάνω ιστόγραμμα μοιάζει με άλλα που έχετε δει, δεν είναι το ίδιο! Αυτό το ιστόγραμμα αναπαριστά τη δειγματοληπτική κατανομή των τιμών \(b_1\) από 1000 τυχαία ανακατέματα των δεδομένων.

Υπάρχουν μερικά πράγματα που μπορούμε να παρατηρήσουμε:

  • Σχήμα: Κάπως κανονικό (συγκεντρωμένο στη μέση και συμμετρικό)
  • Κέντρο: Φαίνεται να είναι γύρω στο 0
  • Εύρος: Οι περισσότερες τιμές βρίσκονται μεταξύ -10 και 10

Επειδή η δειγματοληπτική κατανομή βασίζεται στο κενό μοντέλο, για το οποίο ισχύει ότι \(\beta_1 = 0\), περιμένουμε ότι οι εκτιμήσεις των τιμών της παραμέτρου θα συγκεντρώνονται γύρω από το 0. Αλλά περιμένουμε επίσης να ποικίλλουν λόγω της δειγματοληπτικής μεταβλητότητας. Ακόμα κι αν παρατηρούσαμε μια τιμή \(b_1\) τόσο υψηλή όσο τα $10, θα μπορούσε να είναι απλώς το αποτέλεσμα τυχαίας δειγματοληπτικής μεταβλητότητας.

Από το ιστόγραμμα μπορούμε να δούμε ότι ενώ δεν είναι αδύνατο να παραχθεί μια τιμή \(b_1\) ίση με 9 ή 10, τέτοιες τιμές είναι πολύ λιγότερο συχνές από τιμές όπως -1 ή 1. Σε αυτή την περίπτωση, το \(b_1\) αναπαριστά τη διαφορά των μέσων όρων μεταξύ των δύο συνθηκών/ομάδων. Επομένως, ένας άλλος τρόπος να το διατυπώσουμε αυτό είναι:

Είναι εύκολο να παραχθούν τυχαία μικρές διαφορές μέσων όρων (π.χ., -1 ή 1), αλλά δύσκολο να παραχθούν τυχαία μεγάλες διαφορές (π.χ., -10 ή 10).

Κοιτάζοντας απλά το ιστόγραμμα μπορούμε να πάρουμε μια ιδέα της πιθανότητας να λάβουμε μια συγκεκριμένη τιμή \(b_1\) από αυτή τη ΔΠΔ για την οποία γνωρίζουμε ότι \(\beta_1 = 0\). Όταν χρησιμοποιούμε αυτές τις συχνότητες για να εκτιμήσουμε μια πιθανότητα, χρησιμοποιούμε αυτή την κατανομή των τυχαίων \(b_1\) ως μια κατανομή πιθανότητας.

Χρήση της Δειγματοληπτικής Κατανομής για την Αξιολόγηση του Κενού Μοντέλου

Χρησιμοποιήσαμε την R για να προσομοιώσουμε έναν κόσμο όπου το κενό μοντέλο είναι αληθές, ώστε να κατασκευάσουμε μια δειγματοληπτική κατανομή. Τώρα ας επιστρέψουμε στον αρχικό μας στόχο: να δούμε πώς αυτή η δειγματοληπτική κατανομή μπορεί να χρησιμοποιηθεί για να αξιολογήσουμε αν το κενό μοντέλο θα μπορούσε να εξηγήσει τα δεδομένα που συλλέξαμε, ή αν πρέπει να απορριφθεί.

Η βασική ιδέα είναι η εξής: Χρησιμοποιώντας τη δειγματοληπτική κατανομή των δειγματικών τιμών \(b_1\) που θα μπορούσαν πιθανόν να προκύψουν από μια ΔΠΔ στην οποία το κενό μοντέλο είναι αληθές (δηλαδή στην οποία \(\beta_1 = 0\)), μπορούμε να εξετάσουμε την τιμή \(b_1\) του δείγματός μας και να εκτιμήσουμε πόσο πιθανή θα ήταν μια τέτοια τιμή αν το κενό μοντέλο ήταν, πράγματι, αληθές.

  • Αν κρίνουμε ότι η τιμή \(b_1\) που παρατηρήσαμε στο δείγμα μας είναι απίθανο να έχει προέλθει από το κενό μοντέλο τότε απορρίπτουμε το κενό μοντέλο ως μοντέλο της ΔΠΔ

  • Αν κρίνουμε ότι η τιμή \(b_1\) που παρατηρήσαμε στο δείγμα μας είναι πιθανό να έχει προέλθει από το κενό μοντέλο τότε αποδεχόμαστε το κενό μοντέλο, τουλάχιστον μέχρι να έχουμε περισσότερες ενδείξεις που να υποδεικνύουν το αντίθετο

Στη μελέτη του φιλοδωρήματος, η τιμή \(b_1\) αναπαριστά τη μέση διαφορά στα φιλοδωρήματα μεταξύ των τραπεζιών που έλαβαν το ζωγραφισμένο χαμογελαστό πρόσωπο και αυτών που δεν το έλαβαν.

Στατιστικά που βρίσκονται στα άκρα (στις ουρές) της δειγματοληπτικής κατανομής (βλ. παραπάνω ιστόγραμμα) είτε προς τη θετική κατεύθυνση (π.χ., τα φιλοδωρήματα είναι κατά μέσο όρο 8 δολάρια μεγαλύτερα στην ομάδα με το χαμογελαστό πρόσωπο) είτε προς την αρνητική (π.χ., -8 δολάρια, που αντιπροσωπεύει πολύ μικρότερα φιλοδωρήματα στην ομάδα με το χαμογελαστό πρόσωπο), είναι απίθανο να έχουν προέλθει από μια ΔΠΔ όπου \(\beta_1\) = 0. Και τα δύο αυτά είδη απίθανων δειγμάτων θα μας έκαναν να αμφισβητήσουμε ότι το κενό μοντέλο παρήγαγε τα δεδομένα μας.

Με άλλα λόγια: αν είχαμε ένα στατιστικό που πέφτει είτε στο άνω άκρο είτε στο κάτω άκρο της δειγματοληπτικής κατανομής, θα μπορούσαμε να απορρίψουμε το κενό μοντέλο ως το πραγματικό μοντέλο της ΔΠΔ.

Στη στατιστική, αυτό αναφέρεται συνήθως ως έλεγχος διπλής κατεύθυνσης (two-tailed test), επειδή αν το πραγματικό μας στατιστικό βρίσκεται είτε στο άνω είτε στο κάτω άκρο αυτής της δειγματοληπτικής κατανομής, θα έχουμε λόγο να απορρίψουμε το κενό μοντέλο. Απορρίπτοντας το μοντέλο στο οποίο \(\beta_1 = 0\), αποφασίζουμε ότι κάποια εκδοχή του σύνθετου μοντέλου, όπου \(\beta_1 \neq 0\), πρέπει να είναι αληθής. Δεν θα γνωρίζουμε ακριβώς ποια είναι η πραγματική τιμή του \(\beta_1\). Θα γνωρίζουμε μόνο ότι πιθανότατα αυτή η τιμή δεν είναι 0. Με πιο παραδοσιακούς στατιστικούς όρους, θα έχουμε βρει μια στατιστικά σημαντική διαφορά μεταξύ των μέσων όρων της ομάδας του χαμογελαστού προσώπου και της ομάδας ελέγχου.

Φυσικά, ακόμα κι αν παρατηρήσουμε μια δειγματική τιμή \(b_1\) σε κάποια από τις ουρές της δειγματοληπτικής κατανομής και αποφασίσουμε να απορρίψουμε το κενό μοντέλο, θα μπορούσαμε να κάνουμε λάθος. Απλώς λόγω τυχαιότητας, κάποιες από τις δειγματικές τιμές \(b_1\) θα τύχει να βρίσκονται στις ουρές της δειγματοληπτικής κατανομής ακόμα κι αν το κενό μοντέλο είναι πράγματι αληθές. Το να εξαπατηθούμε με αυτόν τον τρόπο — δηλαδή να οδηγηθούμε στο να απορρίψουμε το κενό μοντέλο ενώ στην πραγματικότητα είναι αληθές — ονομάζεται Σφάλμα Τύπου Ι.

11.4 Τι Θεωρείται Απίθανο;

Όλα αυτά, ωστόσο, εγείρουν το ερώτημα πόσο ακραία θα πρέπει να είναι η δειγματική τιμή \(b_1\) ώστε να απορρίψουμε το κενό μοντέλο. Αυτό που θεωρείται απίθανο για ένα άτομο μπορεί να μη φαίνεται εξίσου απίθανο σε κάποιο άλλο. Θα ήταν χρήσιμο να υπάρχει ένα κοινά αποδεκτό κριτήριο για το τι συνιστά «απίθανο» πριν εξετάσουμε το πραγματικό δειγματικό μας στατιστικό. Ο ορισμός του «απίθανου» εξαρτάται τόσο από τον σκοπό του στατιστικού μοντέλου όσο και από τις συμβάσεις που υιοθετεί η εκάστοτε επιστημονική κοινότητα.

Στις κοινωνικές επιστήμες, ένα σύνηθες κριτήριο είναι το εξής: ένα στατιστικό του δείγματος θεωρείται απίθανο όταν η πιθανότητα να προκύψει μια τόσο ακραία τιμή (είτε προς την αρνητική είτε προς τη θετική κατεύθυνση) από μια συγκεκριμένη ΔΠΔ είναι μικρότερη από 0.05 (5%). Τον αριθμητικό αυτόν ορισμό του «απίθανου» τον συμβολίζουμε με το ελληνικό γράμμα \(\alpha\). Έτσι, όταν οι επιστήμονες αναφέρουν ότι «όρισαν το \(\alpha\) = 0.05», εννοούν ακριβώς αυτό το κριτήριο. Αν επιθυμούν έναν αυστηρότερο ορισμό του απίθανου, μπορούν να θέσουν το \(\alpha = 0.001\), υποδηλώνοντας ότι η τιμή του στατιστικού θα πρέπει να είναι εξαιρετικά απίθανη προκειμένου να απορριφθεί το κενό μοντέλο της ΔΠΔ.

Για τη δειγματοληπτική κατανομή των \(b_1\) που δημιουργήσαμε από τυχαία ανακατέματα των δεδομένων της μελέτης για τα φιλοδωρήματα ας θέσουμε το επίπεδο σημαντικότητας \(\alpha\) = 0.05. Αν πάρουμε τις 1000 τιμές \(b_1\) και τις βάλουμε στη σειρά, το κατώτερο 2.5% και το ανώτερο 2.5% των τιμών αντιστοιχούν στο πιο ακραίο 5% της δειγματοληπτικής κατανομής και, συνεπώς, στις λιγότερο πιθανές τιμές να έχουν παραχθεί λόγω τυχαιότητας.

Ποιο από τα παρακάτω ιστογράμματα αναπαριστά το 5% (0.05) των πιο απίθανων τιμών \(b_1\) στη δειγματοληπτική κατανομή που κατασκευάστηκε από 1000 τυχαία ανακατέματα των δεδομένων του πειράματος του φιλοδωρήματος;

Σωστή απάντηση: Β


Τι ψάχνουμε;

Το 5% (0.05) των πιο απίθανων τιμών \(b_1\) είναι οι τιμές που βρίσκονται στα δύο άκρα (ουρές) της κατανομής:

  • 2.5% στην αριστερή ουρά (πολύ αρνητικές τιμές)
  • 2.5% στη δεξιά ουρά (πολύ θετικές τιμές)

Αυτές οι ακραίες τιμές είναι απίθανο να παραχθούν τυχαία αν το κενό μοντέλο είναι αληθές.


Ανάλυση των επιλογών:

Α. ΛΑΘΟΣ — Δείχνει μόνο τη δεξιά ουρά χρωματισμένη κόκκινη. Αυτό θα ήταν σωστό για έλεγχο μονής κατεύθυνσης (one-tailed test), αλλά εμείς χρησιμοποιούμε έλεγχο διπλής κατεύθυνσης.

Β. ΣΩΣΤΟ ✓ — Δείχνει και τις δύο ουρές χρωματισμένες κόκκινες (2.5% αριστερά + 2.5% δεξιά = 5% συνολικά). Αυτό είναι το σωστό για έλεγχο διπλής κατεύθυνσης.

Γ. ΛΑΘΟΣ — Δείχνει περίπου το 50% της κατανομής χρωματισμένο κόκκινο, όχι το 5%. Η κόκκινη περιοχή είναι πολύ μεγάλη.


Γιατί έχει σημασία;

Σε έναν έλεγχο διπλής κατεύθυνσης (two-tailed test):

  • Απορρίπτουμε το κενό μοντέλο αν η τιμή \(b_1\) είναι πολύ θετική ή πολύ αρνητική

  • Και οι δύο κατευθύνσεις είναι ενδιαφέρουσες

  • Επομένως, χρειαζόμαστε κόκκινο χρώμα και στις δύο ουρές

Σε έναν έλεγχο διπλής κατεύθυνσης, θα απορρίψουμε το κενό μοντέλο της ΔΠΔ αν η τιμή του \(b_1\) του δείγματός μας βρίσκεται έξω από την κεντρική περιοχή του 0.95 των τυχαία παραγόμενων τιμών \(b_1\). Μπορούμε να χρησιμοποιήσουμε τη συνάρτηση middle() για να χρωματίσουμε το μεσαίο 0.95 των τιμών \(b_1\) με διαφορετικό χρώμα.

gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95))

Η παράμετρος fill = υποδεικνύει στην R ότι θέλουμε οι ράβδοι του ιστογράμματος να γεμίσουν με διαφορετικά χρώματα. Το σύμβολο ~ δηλώνει ότι το χρώμα γεμίσματος θα εξαρτάται από το αν η τιμή του \(b_1\) που απεικονίζεται βρίσκεται στο κεντρικό 0.95 της δειγματοληπτικής κατανομής ή όχι.

Το παρακάτω ιστόγραμμα δείχνει πώς εμφανίζεται η δειγματοληπτική κατανομή όταν προσθέτουμε την παράμετρο fill = ~middle(b1, .95) στη συνάρτηση gf_histogram().

Μπορεί να αναρωτιέστε γιατί ορισμένες ράβδοι του ιστογράμματος περιλαμβάνουν τόσο κόκκινο όσο και πράσινο χρώμα. Αυτό συμβαίνει επειδή τα δεδομένα σε ένα ιστόγραμμα ομαδοποιούνται σε διαστήματα τιμών (bins). Η τιμή 6.59, για παράδειγμα, ομαδοποιείται στο ίδιο διάστημα με την τιμή 6.68, αλλά ενώ η τιμή 6.59 βρίσκεται εντός του κεντρικού 95% (και επομένως χρωματίζεται με πράσινο), η τιμή 6.68 βρίσκεται λίγο έξω από το άνω όριο, στην περιοχή του 0.025 (και επομένως χρωματίζεται με κόκκινο).

Αν θέλετε να δείτε πιο καθαρά τα όρια, θα μπορούσατε να δοκιμάσετε να κάνετε τα διαστήματα τιμών μικρότερα, ή με άλλα λόγια, να δημιουργήσετε περισσότερα διαστήματα τιμών στο ιστόγραμμα. Έτσι θα είναι πιο πιθανό να έχετε μόνο ένα χρώμα σε κάθε διάστημα τιμών.

Ξαναδημιουργήσαμε το ιστόγραμμα, αλλά αυτή τη φορά ορίσαμε το bins = 100 (ο προεπιλεγμένος αριθμός διαστημάτων τιμών είναι 30). Προσθέσαμε επίσης την παράμετρο show.legend = FALSE για να αφαιρέσουμε το υπόμνημα και έτσι να αφήσουμε περισσότερο χώρο για το ιστόγραμμα.

gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95), bins = 100, show.legend = FALSE)

Η αύξηση του αριθμού των διαστημάτων τιμών είχε ως αποτέλεσμα κάθε διάστημα να αντιπροσωπεύεται από ένα μόνο χρώμα. Αλλά δημιούργησε και κάποια κενά στο ιστόγραμμα, δηλαδή άδεια διαστήματα τιμών στα οποία δεν βρέθηκε καμία από τις τιμές \(b_1\). Αυτό δεν είναι πρόβλημα, είναι απλώς μια φυσική συνέπεια της αύξησης του αριθμού των διαστημάτων.

Η κόκκινη μπάρα κάτω από το βέλος αντιπροσωπεύει την τιμή \(b_1\) για ένα μόνο τυχαίο δείγμα από το κενό μοντέλο. Πόσες μεμονωμένες παρατηρήσεις χρησιμοποιήθηκαν για τον υπολογισμό αυτής της τιμής \(b_1\);

Σωστή απάντηση: Γ — 44, ο αριθμός των τραπεζιών στο αρχικό πλαίσιο δεδομένων


Γιατί 44;

Κάθε τιμή \(b_1\) στη δειγματοληπτική κατανομή υπολογίζεται από ένα πλήρες δείγμα — δηλαδή από όλα τα 44 τραπέζια του αρχικού συνόλου δεδομένων TipExperiment.

Η διαδικασία shuffle() ανακατανέμει τα 44 φιλοδωρήματα στις δύο συνθήκες, αλλά ο συνολικός αριθμός των παρατηρήσεων παραμένει 44.


Γιατί οι άλλες επιλογές είναι λάθος:

Α. 1000 — Αυτός είναι ο αριθμός των τιμών \(b_1\) στη δειγματοληπτική κατανομή (πόσες φορές επαναλάβαμε τη διαδικασία), όχι ο αριθμός των παρατηρήσεων που χρησιμοποιήθηκαν για τον υπολογισμό κάθε \(b_1\).

Β. 22 — Αυτός είναι ο αριθμός των τραπεζιών σε κάθε ομάδα, αλλά η τιμή \(b_1\) υπολογίζεται χρησιμοποιώντας και τις δύο ομάδες μαζί (22 + 22 = 44).

Βρίσκεται η τιμή \(b_1\) του δείγματός μας επάνω σε αυτό το ιστόγραμμα;

Σωστή απάντηση: Β — Όχι, όλες αυτές είναι τυχαία δημιουργημένες τιμές \(b_1\)


Τι περιέχει το ιστόγραμμα;

Το ιστόγραμμα δείχνει τη δειγματοληπτική κατανομή — δηλαδή 1000 τιμές \(b_1\) που δημιουργήθηκαν με τυχαία ανακατανομή (shuffle) των δεδομένων, προσομοιώνοντας έναν κόσμο όπου το κενό μοντέλο είναι αληθές.


Πού βρίσκεται η τιμή \(b_1\) του δείγματός μας;

Η πραγματική τιμή \(b_1\) που υπολογίσαμε από τα αρχικά δεδομένα του πειράματος δεν περιλαμβάνεται σε αυτό το ιστόγραμμα με την έννοια ότι δεν είναι μία από τις τιμές που χρησιμοποιήθηκαν για να δημιουργηθεί. Αυτή είναι η τιμή που θέλουμε να συγκρίνουμε με τη δειγματοληπτική κατανομή, για να δούμε αν είναι αρκετά ακραία ώστε να απορρίψουμε το κενό μοντέλο.


Με λίγα λόγια:

  • Ιστόγραμμα: 1000 τιμές \(b_1\) από προσομοιώσεις (κενό μοντέλο)
  • Δείγμα μας: 1 τιμή \(b_1\) από τα πραγματικά δεδομένα (δεν χρησιμοποιήθηκε για τη δημιουργία του ιστογράμματος)
ΣημαντικόΣημαντικό

Θυμηθείτε ότι αυτό το ιστόγραμμα αναπαριστά μια δειγματοληπτική κατανομή. Όλες αυτές οι τιμές \(b_1\) ήταν το αποτέλεσμα 1000 τυχαίων ανακατεμάτων των δεδομένων μας. Καμία από αυτές δεν είναι η τιμή \(b_1\) που υπολογίστηκε από τα πραγματικά δεδομένα του πειράματος φιλοδωρημάτων. Όλες αυτές οι τιμές \(b_1\) δημιουργήθηκαν από μια ΔΠΔ για την οποία ισχύει ότι το κενό μοντέλο είναι αληθές.

Στο πραγματικό πείραμα, φυσικά, έχουμε στη διάθεσή μας μόνο ένα δείγμα. Αν η πραγματική δειγματική τιμή \(b_1\) βρεθεί στην περιοχή της δειγματοληπτικής κατανομής που είναι χρωματισμένη κόκκινη (με βάση το \(\alpha\) που ορίσαμε), θα αμφιβάλλουμε ότι παράχθηκε από τη ΔΠΔ που υποθέτει ότι \(\beta_1 = 0\). Σε αυτή την περίπτωση, με βάση το επίπεδο σημαντικότητας \(\alpha\) που έχουμε θέσει, θα απορρίπταμε το κενό μοντέλο. Αυτή η απόφασή μας θα μπορούσε να είναι σωστή…

Αλλά θα μπορούσε να είναι και λάθος. Με δεδομένο ότι το κενό μοντέλο είναι αληθές, το 0.05 (5%) των τιμών \(b_1\) που θα μπορούσαν να προκύψουν από διαφορετικές τυχαιοποιήσεις των τραπεζιών στις συνθήκες θα ήταν αρκετά ακραίες ώστε να μας οδηγήσουν (εσφαλμένα) στην απόρριψη του κενού μοντέλου. Αν απορρίπταμε το κενό μοντέλο ενώ, στην πραγματικότητα, αυτό είναι αληθές, θα κάναμε ένα Σφάλμα Τύπου Ι. Ορίζοντας το \(\alpha\) ίσο με 0.05, δηλώνουμε στην ουσία ότι σε όλη αυτή τη διαδικασία είμαστε εντάξει με το να έχουμε ένα ποσοστό Σφάλματος Τύπου Ι ίσο με 5%.

Ποιο είναι το Αντίθετο του Απίθανου;

Μας ενδιαφέρει αν το δειγματικό \(b_1\) βρίσκεται στα άκρα του 5%. Αλλά τι γίνεται αν δεν βρίσκεται στα άκρα αλλά αντίθετα βρίσκεται στο κεντρικό τμήμα της δειγματοληπτικής κατανομής; Θα πρέπει στην περίπτωση αυτή να το αποκαλέσουμε «πιθανό»;

Για να είμαστε ακριβείς, αν το στατιστικό μας βρίσκεται στο μεσαίο 0.95 της δειγματοληπτικής κατανομής, σημαίνει ότι δεν είναι απίθανο να έχει προκύψει από μια ΔΠΔ όπου \(\beta_1 = 0\). Αλλά το να ισχυριστούμε ότι είναι «πιθανό» να έχει προκύψει από αυτήν τη ΔΠΔ είναι κάπως προβληματικό και πιθανώς παραπλανητικό. Επειδή ο ορισμός μας για το απίθανο είναι οτιδήποτε έχει πιθανότητα 0.05 ή μικρότερη, ακόμα κι αν ένα ενδεχόμενο έχει πιθανότητα 0.06 (6%) θα αναφέρουμε ότι δεν είναι απίθανο. Αλλά δύσκολα κάποιος θα αποκαλούσε κάτι που έχει πιθανότητα να συμβεί 6% ως «πιθανό».

Αν ένα ενδεχόμενο έχει πιθανότητα να συμβεί 0.051 (5.1%) και έχουμε ορίσει το \(\alpha\) μας ίσο με 0.05, θα ήταν πιο ακριβές να πούμε ότι το ενδεχόμενο είναι:

Σωστή απάντηση: Β — Όχι απίθανο


Η λογική:

Με \(\alpha\) = 0.05, ο ορισμός μας για το «απίθανο» είναι οτιδήποτε έχει πιθανότητα να συμβεί μικρότερη από 5% (0.05).

Επειδή 0.051 > 0.05, το ενδεχόμενο δεν πληροί το κριτήριο για να θεωρηθεί απίθανο.


Γιατί οι άλλες επιλογές είναι λάθος:

Α. «Απίθανο» — Για να είναι απίθανο, η πιθανότητα θα έπρεπε να είναι μικρότερη από 0.05. Το 0.051 είναι οριακά μεγαλύτερο.

Γ. «Πιθανό» — Αυτό είναι παραπλανητικό. Στην καθημερινή γλώσσα, κάτι με πιθανότητα να συμβεί μόλις 5.1% δεν θα το λέγαμε «πιθανό». Ο πιο ακριβής όρος είναι «όχι απίθανο» — που σημαίνει απλώς ότι δεν πληροί το κριτήριο για απόρριψη.

Γίνεται κουραστικό να αναφέρουμε συνεχώς τη φράση «όχι απίθανο», και μερικές φορές ένα κείμενο διαβάζεται ευκολότερα αν απλώς γράφουμε «πιθανό». Απλά να θυμάστε ότι όταν λέμε «πιθανό» συνήθως εννοούμε «όχι απίθανο», αν και αυτό δεν είναι αυτό που στην καθημερινή επικοινωνία εννοούμε με τη λέξη «πιθανό».

11.5 Η Τιμή \(p\)

Εντοπίζοντας το Δειγματικό \(b_1\) στη Δειγματοληπτική Κατανομή

Έχουμε πλέον αφιερώσει αρκετό χρόνο εξετάζοντας τη δειγματοληπτική κατανομή των τιμών \(b_1\) με την παραδοχή ότι το κενό μοντέλο είναι αληθές (δηλαδή ότι \(\beta_1 = 0\)). Έχουμε αναπτύξει την ιδέα ότι οι τιμές των προσομοιωμένων στατιστικών, όπως αυτά που δημιουργήσαμε από τυχαία ανακατέματα των δεδομένων του πειράματος των φιλοδωρημάτων, συνήθως συγκεντρώνονται γύρω από το 0. Τα στατιστικά του δείγματος που καταλήγουν στις ουρές της κατανομής — δηλαδή στο ανώτερο και κατώτερο 0.025 (ή 2.5%) των τιμών — θεωρούνται απίθανα.

Ας τοποθετήσουμε το δειγματικό μας στατιστικό επάνω στο ιστόγραμμα της δειγματοληπτικής κατανομής που δημιουργήσαμε και ας δούμε πού βρίσκεται. Θα βρίσκεται στις ουρές της κατανομής ή στο μεσαίο 0.95 (ή 95%);

Ο παρακάτω κώδικας αποθηκεύει την τιμή \(b_1\) του δείγματός μας στο αντικείμενο sample_b1.

Αν εκτελέσουμε τον κώδικα, θα δούμε ότι η τιμή του δειγματικού \(b_1\) είναι περίπου 6.05: τα τραπέζια στη συνθήκη με το χαμογελαστό πρόσωπο άφησαν, κατά μέσο όρο, 6.05 ποσοστιαίες μονάδες υψηλότερο φιλοδώρημα από τα τραπέζια στην ομάδα ελέγχου.

Με βάση το παραπάνω διάγραμμα, πού νομίζετε ότι θα βρίσκεται η τιμή του δειγματικού \(b_1\) από το πείραμα των φιλοδωρημάτων σε αυτή τη δειγματοληπτική κατανομή που υποθέτει ότι το κενό μοντέλο είναι αληθές; Θα βρίσκεται στο μεσαίο 0.95 ή στις ουρές της κατανομής;

Ας σχεδιάσουμε την τιμή του δειγματικού \(b_1\) στο ιστόγραμμα της δειγματοληπτικής κατανομής. Προσθέτοντας τον παρακάτω κώδικα στη συνάρτηση δημιουργίας του ιστογράμματος (με χρήση του τελεστή %>%) θα τοποθετήσουμε μια μαύρη κουκκίδα ακριβώς στο σημείο που βρίσκεται το δειγματικό \(b_1\), δηλαδή στο 6.05:

gf_point(x = 6.05, y = 0)

Αν έχετε ήδη αποθηκεύσει την τιμή του \(b_1\) (όπως κάναμε προηγουμένως, στο sample_b1), μπορείτε να γράψετε τον παραπάνω κώδικα και ως εξής:

gf_point(x = sample_b1, y = 0)

Μπορούμε εύκολα να διαπιστώσουμε ότι το στατιστικό του δείγματός μας δεν βρίσκεται στην περιοχή των απίθανων τιμών (δηλαδή στις ουρές της δειγματοληπτικής κατανομής). Βρίσκεται οριακά εντός του μεσαίου 0.95 (ή 95%) των τιμών \(b_1\) που παράγονται από το κενό μοντέλο της ΔΠΔ.

Ανακεφαλαίωση της Τριάδας των Κατανομών

Το δύσκολο με τη στατιστική συμπερασματολογία είναι ότι πρέπει να έχουμε στο μυαλό μας ταυτόχρονα και τις τρεις κατανομές που αναφέραμε παραπάνω (δείγματος, ΔΠΔ και δειγματοληπτική κατανομή). Θα παρουσιάσουμε ένα νέο διάγραμμα που δείχνει και τις τρεις αυτές κατανομές μαζί σε σύγκριση μεταξύ τους.

Το παρακάτω διάγραμα αναπαριστά με ποιο τρόπο έχουμε χρησιμοποιήσει μέχρι στιγμής τη δειγματοληπτική κατανομή για να αξιολογήσουμε το κενό μοντέλο (γνωστό και ως μηδενική υπόθεση). Ας ξεκινήσουμε από την κορυφή αυτού του διαγράμματος. Η μπλε οριζόντια γραμμή στο επάνω μέρος αναπαριστά τις πιθανές τιμές του \(\beta_1\) στη ΔΠΔ (ή πληθυσμό από τον οποίο προέρχονται τα δεδομένα). Η πραγματική τιμή του \(\beta_1\) είναι άγνωστη — είναι αυτή που προσπαθούμε να εκτιμήσουμε. Αλλά έχουμε κάνει την υπόθεση ότι είναι 0, οπότε έχουμε βάλει την τιμή 0 μέσα σε κόκκινο πλαίσιο.

Με βάση αυτή την υποθετική ΔΠΔ, προσομοιώσαμε δείγματα που δημιουργήθηκαν από τυχαία ανακατέματα των δεδομένων του πειράματος των φιλοδωρημάτων. Αυτές οι δειγματικές τιμές \(b_1\) τείνουν να συγκεντρώνονται γύρω από το 0 επειδή έχουμε προσομοιώσει το κενό μοντέλο στο οποίο ισχύει ότι \(\beta_1 = 0\). Τα δείγματα που καταλήγουν στις ουρές της κατανομής — το άνω και κάτω 0.025 (ή 2.5%) των τιμών — θεωρείται απίθανο να παρατηρηθούν αν ισχύει το κενό μοντέλο. Έχουμε σχεδιάσει μαύρες διακεκομμένες γραμμές για να αναπαραστήσουμε τα όρια που διαχωρίζουν τις κεντρικές τιμές (που δεν θεωρούνται απίθανες) από τις τιμές που βρίσκονται στο άνω και κάτω άκρο (που θεωρούνται απίθανες).

Τι σημαίνει ότι το δειγματικό \(b_1 = 6.05\) βρίσκεται ανάμεσα στις δύο μαύρες διακεκομμένες γραμμές;

Σωστή απάντηση: Β — Σημαίνει ότι αυτό το δείγμα δεν είναι απίθανο να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\)


Η λογική:

Οι μαύρες διακεκομμένες γραμμές αναπαριστούν τα όρια που διαχωρίζουν:

  • Το μεσαίο 95% της κατανομής (όχι απίθανο)
  • Τις ουρές (το ακραίο 5%, που θεωρείται απίθανο)

Αν το στατιστικό μας βρίσκεται ανάμεσα στις γραμμές, τότε:

  • Βρίσκεται στο μεσαίο 95% των τιμών
  • Δεν είναι απίθανο να έχει παραχθεί από το κενό μοντέλο
  • Δεν απορρίπτουμε το κενό μοντέλο

Γιατί οι άλλες επιλογές είναι λάθος:

Α. «Σίγουρα παράχθηκε από ΔΠΔ με \(\beta_1 = 0\)» — Η στατιστική δεν μας δίνει ποτέ βεβαιότητα. Μπορούμε μόνο να ισχυριστούμε ότι κάτι είναι «όχι απίθανο», αλλά ποτέ «βέβαιο».

Γ. «Είναι απίθανο να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\)» — Αυτό θα ίσχυε αν το στατιστικό μας βρισκόταν έξω από τις διακεκομμένες γραμμές (δηλαδή στις ουρές).

Δ. «Η πραγματική τιμή του \(\beta_1\) είναι \(6.05\)» — Το \(6.05\) είναι η τιμή \(b_1\) του δείγματός μας (εκτίμηση), όχι η πραγματική τιμή \(\beta_1\) της ΔΠΔ. Αυτή η τιμή παραμένει άγνωστη.

Η Έννοια της Τιμής \(p\)

Έχουμε εντοπίσει διαγραμματικά τη δειγματική τιμή \(b_1\) στο πλαίσιο της δειγματοληπτικής κατανομής που δημιουργήθηκε από το κενό μοντέλο, και έχουμε δει ότι βρίσκεται στο μεσαίο 0.95 των προσομοιωμένων τιμών \(b_1\). Αν είχε βρεθεί σε οποιοδήποτε από τα δύο άκρα, θα θεωρούσαμε απίθανο να έχει παραχθεί από το κενό μοντέλο, κάτι που θα μπορούσε να μας οδηγήσει στην απόρριψη του κενού μοντέλου.

Αλλά μπορούμε να κάνουμε κάτι καλύτερο. Δεν χρειάζεται απλώς να θέσουμε μια ερώτηση τύπου ναι/όχι για τη δειγματοληπτική κατανομή μας. Αντί να θέτουμε την ερώτηση αν το δειγματικό \(b_1\) βρίσκεται στην απίθανη περιοχή (ναι ή όχι), θα μπορούσαμε να ρωτήσουμε: ποια είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) τόσο ακραία ή πιο ακραία από αυτή που παρατηρήθηκε στο πραγματικό πείραμα; Η απάντηση σε αυτή την ερώτηση ονομάζεται τιμή \(p\) (p-value).

Πριν σας δείξουμε πώς υπολογίζεται η τιμή \(p\), ας δούμε λίγο τι σημαίνει αυτή η έννοια.

Το παρακάτω ιστόγραμμα αναπαριστά τη δειγματοληπτική κατανομή που δημιουργήσαμε με την R. Το έχουμε σχεδιάσει έτσι ώστε το άνω και κάτω 0.025 (2.5%) των τιμών \(b_1\) (δηλαδή το πιο ακραίο 5% των τιμών \(b_1\)) να είναι χρωματισμένο με κόκκινο, και το μεσαίο 0.95 με πράσινο.

Δεδομένου ότι υπάρχουν συνολικά 1000 τυχαία δημιουργημένες τιμές \(b_1\) σε αυτή τη δειγματοληπτική κατανομή, πόσες περίπου από αυτές είναι χρωματισμένες με κόκκινο;

Σωστή απάντηση: Β — Περίπου 50


Ο υπολογισμός:

  • Συνολικές τιμές \(b_1\): 1000

  • Ποσοστό στις ουρές (κόκκινο): 0.05 (5%)

  • Αριθμός τιμών με κόκκινο: \(1000 \times 0.05 = 50\)

Από αυτές τις 50:

  • Περίπου 25 στην κάτω ουρά (αριστερά)

  • Περίπου 25 στην άνω ουρά (δεξιά)

Ποια είναι η πιθανότητα να πάρουμε μια δειγματική τιμή \(b_1\) που να βρίσκεται στο άνω άκρο (κόκκινη περιοχή), αν το κενό μοντέλο είναι αληθές;

Σωστή απάντηση: Β — 0.025


Πώς κατανέμεται το \(\alpha\) = 0.05;

Σε έναν έλεγχο διπλής κατεύθυνσης (two-tailed test), το συνολικό επίπεδο σημαντικότητας \(\alpha\) = 0.05 μοιράζεται εξίσου στις δύο ουρές:

  • Κάτω ουρά (αριστερά): 0.025 (2.5%)
  • Άνω ουρά (δεξιά): 0.025 (2.5%)
  • Σύνολο: 0.025 + 0.025 = 0.05 (5%)

Γιατί οι άλλες επιλογές είναι λάθος;

Επιλογή Γιατί είναι λάθος
0.05 Αυτό είναι το συνολικό \(\alpha\) και στις δύο ουρές μαζί, όχι μόνο στην άνω
0.95 Αυτή είναι η πιθανότητα να βρεθεί μια τιμή εντός της κεντρικής περιοχής (το πράσινο)

Ποια είναι η πιθανότητα μια τυχαία προσομοιωμένη τιμή \(b_1\) από το κενό μοντέλο να βρίσκεται στο άνω άκρο της δειγματοληπτικής κατανομής (περιοχή με κόκκινο χρώμα);

Σωστή απάντηση: Β — 0.025


Η μαύρη κουκκίδα αναπαριστά την πραγματική τιμή \(b_1\) που παρατηρήθηκε στο πείραμα των φιλοδωρημάτων. Ποια είναι η πιθανότητα να πάρουμε μια τυχαία προσομοιωμένη τιμή \(b_1\) από το κενό μοντέλο που είναι μεγαλύτερη από την παρατηρούμενη τιμή \(b_1\);

Σωστή απάντηση: Β — Θα είναι μεγαλύτερη από 0.025


Η λογική:

Η μαύρη κουκκίδα (η παρατηρούμενη τιμή \(b_1\)) βρίσκεται αριστερά του ορίου της άνω ουράς, δηλαδή μέσα στην πράσινη περιοχή.

  • Το όριο για την άνω ουρά ορίζει το σημείο όπου το 2.5% των τιμών βρίσκεται δεξιά του
  • Η παρατηρούμενη τιμή μας βρίσκεται αριστερά από αυτό το όριο
  • Επομένως, η περιοχή δεξιά της μαύρης κουκκίδας περιλαμβάνει όλη την κόκκινη ουρά (2.5%) συν ένα επιπλέον κομμάτι της πράσινης περιοχής

Αφού η πιθανότητα να βρεθεί μια τιμή δεξιά του ορίου είναι 0.025, η πιθανότητα να βρεθεί μια τιμή δεξιά της μαύρης κουκκίδας (που είναι πιο αριστερά) πρέπει να είναι μεγαλύτερη από 0.025.

Η συνολική επιφάνεια των δύο ουρών που είναι χρωματισμένες με κόκκινο στο παραπάνω ιστόγραμμα αναπαριστά το επίπεδο σημαντικότητας \(\alpha\) = 0.05. Αυτές οι περιοχές αναπαριστούν τις τιμές \(b_1\) που δημιουργήθηκαν από το κενό μοντέλο και τις οποίες έχουμε αποφασίσει να κρίνουμε ως απίθανες με βάση το \(\alpha\) μας. Αυτό σημαίνει ότι αν το κενό μοντέλο είναι αληθές, όπως υποθέσαμε όταν κατασκευάσαμε τη δειγματοληπτική κατανομή, τότε η πιθανότητα να πάρουμε ένα δείγμα στην κόκκινη περιοχή θα είναι 0.05 ή 5%.

Ενώ γνωρίζουμε/ορίζουμε ποια είναι η τιμή \(\alpha\) πριν καν πραγματοποιήσουμε μια μελέτη (είναι το κριτήριο που εμείς έχουμε προκαθορίσει για το τι θα θεωρήσουμε ως απίθανο), η τιμή \(p\) υπολογίζεται αφότου πραγματοποιήσουμε μια μελέτη, με βάση τα δεδομένα του δείγματος. Μπορούμε να αναπαραστήσουμε τη διαφορά μεταξύ αυτών των δύο εννοιών στα παρακάτω διαγράμματα, τα οποία εστιάζουν μόνο στην άνω ουρά της δειγματοληπτικής κατανομής του \(b_1\).

Τιμή \(\alpha\)

Αυτό το διάγραμμα αναπαριστά την έννοια του \(\alpha\). Έχοντας αποφασίσει να ορίσουμε το \(\alpha\) ίσο με 0.05, η κόκκινη περιοχή στην άνω ουρά της δειγματοληπτικής κατανομής αναπαριστά το 0.025 των μεγαλύτερων τιμών \(b_1\) που δημιουργήθηκαν με βάση το κενό μοντέλο.

Τιμή \(p\) (p-value)

Αυτό το διάγραμμα αναπαριστά την έννοια της τιμής \(p\). Ενώ η τιμή \(p\) είναι κι αυτή μια πιθανότητα, αυτή δεν εξαρτάται από την τιμή του \(\alpha\). Στο παρακάτω διάγραμμα, η τιμή \(p\) αναπαρίσταται από τη μοβ περιοχή που βρίσκεται δεξιά από τη δειγματική μας τιμή \(b_1\) και είναι η πιθανότητα να παρατηρήσουμε μια τιμή \(b_1\) ίση ή μεγαλύτερη από τη τιμή \(b_1\) του δείγματός μας, υπό την προϋπόθεση ότι το κενό μοντέλο είναι αληθές.

Η διακεκομμένη γραμμή στο διάγραμμα αριστερά έχει προστεθεί για να οριοθετήσει την τιμή πέρα από την οποία θα θεωρούμε το δειγματικό μας στατιστικό απίθανο, και το μεσαίο 0.95 της δειγματοληπτικής κατανομής που θεωρούμε όχι απίθανο. Έχουμε προσθέσει αυτή τη διακεκομμένη γραμμή και στο διάγραμμα δεξιά για να δείτε από που ξεκινά η περιοχή του \(\alpha\).

Στα παραπάνω διαγράμματα, παρουσιάζουμε μόνο το άνω άκρο της δειγματοληπτικής κατανομής. Αλλά επειδή και μια πολύ χαμηλή τιμή \(b_1\) (για παράδειγμα, η τιμή \(-9\)) θα μας έκανε να αμφισβητήσουμε ότι ισχύει το κενό μοντέλο της ΔΠΔ, θέλουμε να κάνουμε έναν έλεγχο διπλής κατεύθυνσης (two-tailed test). Παρακάτω βάλει τα ίδια διαγράμματα το ένα δίπλα στο άλλο για να δείξουμε και τις δύο ουρές της δειγματοληπτικής κατανομής, αναπαριστώντας ξανά τις περιοχές του \(\alpha\) (με κόκκινο χρώμα) και τις τιμής \(p\) (με μοβ χρώμα).

Ποια είναι η πιθανότητα να πάρουμε μια τυχαία προσομοιωμένη τιμή \(b_1\) από το κενό μοντέλο που είναι πιο ακραία από τη δειγματική τιμή \(b_1\); Να γίνει έλεγχος διπλής κατεύθυνσης.

Σωστή απάντηση: Β — Θα είναι μεγαλύτερη από 0.05 επειδή οι μοβ περιοχές είναι λίγο μεγαλύτερες από τις κόκκινες περιοχές.


Η λογική:

Συγκρίνοντας τα δύο διαγράμματα:

  • Κόκκινες περιοχές (τιμή \(\alpha\) = 0.05): Ξεκινούν από τα όρια του 0.025 (διακεκομμένες γραμμές) και εκτείνονται προς τα άκρα

  • Μοβ περιοχές (τιμή \(p\)): Ξεκινούν από τη θέση του δειγματικού \(b_1\) (μαύρη κουκκίδα) και εκτείνονται προς τα άκρα

Επειδή το δειγματικό \(b_1\) βρίσκεται πιο αριστερά από το όριο της άνω ουράς (δηλαδή πιο κοντά στο κέντρο της κατανομής), οι μοβ ουρές είναι μεγαλύτερες από τις κόκκινες ουρές.

Επομένως, η τιμή \(p\) (με μοβ) είναι μεγαλύτερη από 0.05 (με κόκκινο). Ωστόσο, όπως βλέπουμε δεν είναι πολύ μεγαλύτερη — σίγουρα όχι τόσο μεγάλη όσο θα ήταν μια τιμή ίση με 0.40 ή 0.80!

Επειδή οι μοβ περιοχές, που αναπαριστούν τις τιμές πάνω ή κάτω από τη δειγματική τιμή \(b_1\), είναι λίγο μεγαλύτερες από τις κόκκινες περιοχές, που αναπαριστούν το \(\alpha\) = 0.05, διαπιστώνουμε ότι η τιμή \(p\) είναι μεγαλύτερη από το 0.05. Αλλά δεν είναι πολύ μεγαλύτερη — σίγουρα όχι τόσο μεγάλη όσο μια τιμή ίση με 0.40 ή 0.80!

Αν στη μελέτη μας είχαμε υπολογίσει δειγματική τιμή \(b_1\) ίση με 9, πώς αυτό θα επηρέαζε το μέγεθος της τιμής του \(\alpha\) (τις κόκκινες περιοχές στο ιστόγραμμα);

Σωστή απάντηση: Γ — Δεν θα είχε καμία επίδραση στο \(\alpha\), επειδή αυτό είναι το κριτήριο που ορίζουμε για το «απίθανο» και αποφασίζεται πριν γίνει η μελέτη.


Η λογική:

Το \(\alpha\) είναι ένα κριτήριο που ορίζουμε πριν κάνουμε τη μελέτη:

  • Είναι η απόφασή μας για το τι θα θεωρήσουμε «απίθανο»
  • Συνήθως ορίζεται στο 0.05 (ή πιο σπάνια στο 0.01, το 0.001 κλπ.)
  • Δεν εξαρτάται από τα αποτελέσματα του δείγματος

Ανεξάρτητα από το αν το δειγματικό \(b_1\) είναι 6.05 ή 9 ή οποιαδήποτε άλλη τιμή, το \(\alpha\) παραμένει ίσο με 0.05.

Αν στη μελέτη μας είχαμε υπολογίσει δειγματική τιμή \(b_1\) ίση με 9, πώς αυτό θα επηρέαζε το μέγεθος της τιμής \(p\) (τις μοβ περιοχές στο ιστόγραμμα);

Σωστή απάντηση: Α — Θα την έκανε μικρότερη.


Η λογική:

Η τιμή \(p\) υπολογίζεται μετά τη μελέτη και εξαρτάται από το δειγματικό \(b_1\):

  • Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) τόσο ακραία ή πιο ακραία από αυτή που παρατηρήσαμε στο δείγμα

  • Αν το δειγματικό \(b_1\) ήταν \(9\) αντί για \(6.05\):

    • Η μοβ περιοχή θα ξεκινούσε από το \(9\) στο άνω άκρο (και το \(-9\) στο κάτω άκρο)
    • Αυτή η περιοχή θα ήταν μικρότερη επειδή το \(9\) είναι πιο ακραία τιμή από το 6.05
    • Άρα η τιμή \(p\) θα ήταν μικρότερη

Γενικός κανόνας:

Όσο πιο ακραίο το δειγματικό \(b_1\), τόσο μικρότερη η τιμή \(p\).

ΣημαντικόΟρισμός της Τιμής \(p\)

Η τιμή \(p\) είναι η πιθανότητα να παρατηρήσουμε ένα στατιστικό του δείγματος τόσο ακραίο ή πιο ακραίο όσο αυτό που παρατηρήσαμε, υπό την προϋπόθεση ότι το κενό μοντέλο είναι αληθές.

Επομένως, η τιμή \(p\) υπολογίζεται με βάση τόσο την τιμή ενός στατιστικού του δείγματος όσο και το σχήμα της δειγματοληπτικής κατανομής της αντίστοιχης παραμέτρου υπό το κενό μοντέλο. Αντίθετα, η τιμή \(\alpha\) δεν εξαρτάται από την τιμή του στατιστικού του δείγματος.

11.6 Υπολογισμός της Τιμής \(p\) για ένα Δείγμα

Για να υπολογίσουμε την πιθανότητα να πάρουμε μια τιμή \(b_1\) εντός μιας συγκεκριμένης περιοχής (π.χ., μεγαλύτερης από \(6.05\) ή μικρότερη από \(-6.05\)) μπορούμε απλώς να υπολογίσουμε το ποσοστό των τιμών \(b_1\) στη δειγματοληπτική κατανομή που βρίσκεται εντός αυτής της περιοχής. Με αυτόν τον τρόπο, χρησιμοποιούμε την προσομοιωμένη δειγματοληπτική κατανομή των 1000 τιμών \(b_1\) ως μια κατανομή πιθανότητας.

Μπορούμε να χρησιμοποιήσουμε τη συνάρτηση tally() για να βρούμε πόσα προσομοιωμένα δείγματα είναι πιο ακραία από το δειγματικό μας \(b_1\). Η πρώτη γραμμή κώδικα της tally() θα υπολογίσει πόσες τιμές \(b_1\) είναι πιο ακραίες προς τη θετική πλευρά από το δειγματικό μας \(b_1\) (sample_b1 = 6.05), ενώ η δεύτερη γραμμή, πόσες είναι πιο ακραίες προς την αρνητική πλευρά (-6.05).

tally(~ b1 > sample_b1, data = sdob1)
tally(~ b1 < -sample_b1, data = sdob1)

Οι δύο γραμμές κώδικα θα δώσουν ένα αποτέλεσμα παρόμοιο με το παρακάτω:

b1 > sample_b1
 TRUE FALSE
   38   962

b1 < -sample_b1
 TRUE FALSE
   41   959

Αν προσθέσουμε τις τιμές στις δύο ουρές (δηλαδή τις 38 ακραίες θετικές και τις 41 ακραίες αρνητικές τιμές \(b_1\)), διαπιστώνουμε ότι υπάρχουν περίπου 80 τιμές \(b_1\) που είναι πιο ακραίες από τη δειγματική μας τιμή \(b_1\).

Τι αντιπροσωπεύουν αυτές οι περίπου 80 τιμές \(b_1\); (Επιλέξτε όλα όσα ισχύουν.)

Σωστές απαντήσεις: Α και Γ


Γιατί οι Α και Γ είναι σωστές:

  • Α: Οι 80 τιμές \(b_1\) είναι αυτές που βρίσκονται πιο μακριά από τη δειγματική μας τιμή \(b_1\) (πάνω από \(6.05\) ή κάτω από \(-6.05\)). Αυτές θεωρούνται «απίθανες» με βάση τη θέση του δείγματός μας.

  • Γ: Η δειγματοληπτική κατανομή δημιουργήθηκε υποθέτοντας ότι το κενό μοντέλο είναι αληθές (\(\beta_1 = 0\)). Οι 80 τιμές είναι αυτές που παράχθηκαν από αυτό το μοντέλο και είναι πιο ακραίες από το δείγμα μας.


Γιατί οι Β και Δ είναι λάθος:

  • Β: Η δειγματοληπτική κατανομή δημιουργήθηκε από μια ΔΠΔ για την οποία ισχύει το κενό μοντέλο, όχι από οποιαδήποτε ΔΠΔ.

  • Δ: Η δειγματοληπτική κατανομή δημιουργήθηκε με την παραδοχή ότι ισχύει το κενό μοντέλο, όχι το σύνθετο.

Τι μας λένε αυτές οι 80 τιμές \(b_1\) για την πιθανότητα το δείγμα μας ή ένα πιο ακραίο από αυτό να έχει δημιουργηθεί από μια ΔΠΔ στην οποία δεν υπάρχει επίδραση του χαμογελαστού προσώπου (δηλαδή, στην οποία ισχύει ότι \(\beta_1 = 0\));

Σωστή απάντηση: Β


Γιατί η Β είναι σωστή:

Δημιουργούμε μια δειγματοληπτική κατανομή υποθέτοντας ότι το κενό μοντέλο είναι αληθές (\(\beta_1 = 0\)). Αν 80 από τις 1.000 προσομοιωμένες τιμές \(b_1\) είναι τόσο ακραίες ή πιο ακραίες από την παρατηρούμενη τιμή \(b_1\) του δείγματός μας, τότε:

\[p = \frac{80}{1000} = 0.08\]

Αυτό σημαίνει ότι υπάρχει περίπου 8% πιθανότητα να παρατηρήσουμε μια τιμή \(b_1\) τόσο ακραία όσο η δική μας (ή πιο ακραία) αν υποθέσουμε ότι το κενό μοντέλο είναι αληθές.


Γιατί η Α είναι λάθος:

Αυτό θα σήμαινε 800 από τις 1.000, όχι 80. Η υποδιαστολή είναι σε λάθος θέση.


Γιατί η Γ είναι λάθος:

Αυτή είναι μια συνηθισμένη παρερμηνεία της τιμής \(p\). Η τιμή \(p\) μας δίνει την πιθανότητα να παρατηρήσουμε τα δεδομένα μας αν ισχύει η υπόθεση του κενού μοντέλου, ΟΧΙ την πιθανότητα το κενό μοντέλο να είναι αληθές. Αυτό είναι ένα πολύ συνηθισμένο λάθος στην ερμηνεία των τιμών \(p\).

Δεδομένου ότι υπάρχουν περίπου 80 τυχαία παραγόμενες τιμές \(b_1\) (από τις 1000) που είναι πιο ακραίες από αυτή στο δείγμα μας, θα λέγαμε ότι υπάρχει πιθανότητα περίπου 0.08 (ή 8%) το κενό μοντέλο να δημιουργήσει ένα δείγμα με τιμή \(b_1\) τόσο ακραία όσο η 6.05. Αυτή η πιθανότητα είναι η τιμή \(p\).

Αντί να χρησιμοποιούμε δύο γραμμές κώδικα — μία για να βρούμε τον αριθμό των τιμών \(b_1\) στο άνω άκρο, και την άλλη στο κάτω άκρο — μπορούμε να χρησιμοποιήσουμε μία μόνο γραμμή ως εξής:

tally(sdob1$b1 > sample_b1 | sdob1$b1 < -sample_b1)

Σημειώστε τη χρήση του τελεστή |, που σημαίνει «ή», για να συνδυάσουμε τα δύο κριτήρια: αυτός ο κώδικας μετράει τον συνολικό αριθμό των τιμών \(b_1\) που είναι είτε μεγαλύτερες από τη θετική τιμή 6.05 είτε μικρότερες από την αρνητική -6.05. Μπορείτε να εκτελέσετε τον κώδικα παρακάτω. Έχουμε προσθέσει στη συνάρτηση tally() την παράμετρο format = "proportion" για να υπολογιστεί απευθείας το ποσοστό ή την τιμή \(p\).

Η τιμή \(p\) για το \(b_1\) στο πείραμα του φιλοδωρήματος βρέθηκε περίπου ίση με 0.08 και συνεπώς είναι μεγαλύτερη από την τιμή \(\alpha\) = 0.05. Επομένως, μπορούμε να ισχυριστούμε ότι το δείγμα μας δεν είναι απίθανο να έχει δημιουργηθεί από μια ΔΠΔ στην οποία ισχύει το κενό μοντέλο. Με άλλα λόγια, θεωρούμε το κενό μοντέλο ως ένα εύλογο μοντέλο για τη ΔΠΔ και επομένως δεν το απορρίπτουμε. Με άλλα λόγια, ακόμα και μια ΔΠΔ στην οποία δεν υπάρχει επίδραση του χαμογελαστού προσώπου μπορεί να παράγει μια τιμή \(b_1\) τόσο ακραία ή πιο ακραία από αυτή που παρατηρήσαμε στο δείγμα μας περίπου στο 0.08 (8%) των περιπτώσεων.

Αν η τιμή \(p\) που βρήκαμε ήταν μικρότερη από 0.05, θα μπορούσαμε να ισχυριστούμε ότι το δείγμα μας είναι απίθανο να έχει δημιουργηθεί από μια ΔΠΔ στην οποία ισχύει το κενό μοντέλο, και έτσι θα απορρίπταμε το κενό μοντέλο ως ένα εύλογο μοντέλο για τη ΔΠΔ.

Τι Σημαίνει να Απορρίπτουμε — ή Όχι — το Κενό Μοντέλο (ή τη Μηδενική Υπόθεση)

Η έννοια της τιμής \(p\), και η χρήση της για να αποφασίσουμε αν θα απορρίψουμε ή όχι το κενό μοντέλο υπέρ του πιο σύνθετου μοντέλου που έχουμε προσαρμόσει στα δεδομένα, προέρχεται από μια παράδοση στη στατιστική συμπερασματολογία γνωστή ως Έλεγχος Στατιστικής Σημαντικότητας της Μηδενικής Υπόθεσης (Null Hypothesis Significance Testing - NHST). Η μηδενική υπόθεση είναι, στην πραγματικότητα, το ίδιο με αυτό που αποκαλούμε κενό μοντέλο. Αναφέρεται σε έναν κόσμο στον οποίο ισχύει ότι \(\beta_1 = 0\).

Ενώ στόχος μας είναι να κατανοήσετε τη λογική του NHST, θέλουμε παράλληλα να είστε προσεκτικοί κατά την ερμηνεία της τιμής \(p\). Η παράδοση του NHST έχει δεχθεί κριτική επειδή συχνά εφαρμόζεται απερίσκεπτα, με έναν ιδιαίτερα τυποποιημένο τρόπο. Άτομα που δεν καταλαβαίνουν πραγματικά τι σημαίνει η τιμή \(p\) μπορεί να καταλήξουν σε εσφαλμένα συμπεράσματα.

Για παράδειγμα, μόλις αποφασίσαμε με βάση μια τιμή \(p\) ίση με 0.08, να μην απορρίψουμε το κενό μοντέλο του ποσοστού φιλοδωρήματος (Tip). Αλλά τι σημαίνει αυτό; Σημαίνει ότι η τιμή της παραμέτρου \(\beta_1\) είναι ίση με 0; Όχι. Σημαίνει ότι θα μπορούσε να είναι ίση με 0 και ότι τα δεδομένα που παρατηρήσαμε είναι συνεπή με το να είναι ίση με 0. Αλλά θα μπορούσε στην πραγματικότητα να είναι ίση και με κάποια άλλη τιμή.

Θα μπορούσε, για παράειγμα, να είναι ίση με 6.05, που ήταν η εκτίμηση της \(\beta_1\) με βάση τα δεδομένα του δείγματος μας. Αν η πραγματική τιμή της \(\beta_1\) ήταν ίση με 6.05, θα μπορούσαμε να είμαστε βέβαιοι ότι το 6.05 θα ήταν μία από τις πολλές πιθανές τιμές της \(\beta_1\) που θα θεωρούνταν εύλογες με βάση τα δεδομένα.

Αν, όμως, τόσο το κενό μοντέλο όσο και το σύνθετο «καλύτερα προσαρμοσμένο» μοντέλο είναι πιθανά αληθινά μοντέλα της ΔΠΔ, πώς πρέπει να αποφασίσουμε ποιο μοντέλο να χρησιμοποιήσουμε;

Κάποιοι ερευνητές, προερχόμενοι από την παράδοση του ελέγχου της μηδενικής υπόθεσης, θα υποστήριζαν ότι, εφόσον δεν μπορούμε να απορρίψουμε το κενό μοντέλο, οφείλουμε να το υιοθετήσουμε. Από αυτή την οπτική, η αποφυγή του Σφάλματος Τύπου Ι έχει ύψιστη προτεραιότητα: δεν θέλουμε να ισχυριστούμε ότι υπάρχει επίδραση του χαμογελαστού προσώπου στη ΔΠΔ όταν στην πραγματικότητα δεν υπάρχει. Στο πλαίσιο αυτό, το Σφάλμα Τύπου Ι θεωρείται σοβαρότερο από το Σφάλμα Τύπου ΙΙ, δηλαδή από το να συμπεράνουμε ότι δεν υπάρχει επίδραση ενώ στην πραγματικότητα υπάρχει στη ΔΠΔ.

Ωστόσο, αυτή η στρατηγική δεν αποτελεί κατ’ ανάγκην την ενδεδειγμένη πορεία δράσης σε όλες τις περιπτώσεις. Για παράδειγμα, όταν ο στόχος είναι να γίνουν καλύτερες προβλέψεις, μπορεί κανείς να επιλέξει το σύνθετο μοντέλο, ακόμη και αν δεν είναι δυνατή η απόρριψη του κενού μοντέλου. Αντίθετα, όταν ο σκοπός είναι η βαθύτερη κατανόηση της ΔΠΔ, έχει αξία η υιοθέτηση της απλούστερης θεωρίας που παραμένει συνεπής με τα διαθέσιμα δεδομένα. Οι επιστήμονες αναφέρονται σε αυτή την προτίμηση υπέρ της απλότητας με τον όρο «φειδωλότητα» (parsimony).

Οι Judd, McClelland και Ryan, στατιστικολόγοι τους οποίους εκτιμούμε ιδιαίτερα, έχουν υποστηρίξει ότι το ζητούμενο είναι απλώς να αποφασίσει κανείς αν ένα μοντέλο είναι «αρκετά καλύτερο ώστε να υιοθετηθεί». Ένα μεγάλο μέρος της στατιστικής συμπερασματολογίας συνίσταται στον εντοπισμό ενός συνόλου εναλλακτικών μοντέλων που είναι συμβατά με τα δεδομένα και στην αξιολόγηση του ποια από αυτά εξυπηρετούν καλύτερα τον εκάστοτε στόχο.

Προτιμούμε να προσεγγίζουμε το πρόβλημα με όρους σύγκρισης μοντέλων αντί ελέγχου της μηδενικής υπόθεσης. Η υπερβολική έμφαση στον έλεγχο της μηδενικής υπόθεσης μπορεί να δημιουργήσει την εντύπωση ότι η ανάλυση ολοκληρώνεται μόλις είτε απορριφθεί είτε δεν απορριφθεί το κενό μοντέλο. Αντίθετα, στο πλαίσιο της μοντελοποίησης, η αναζήτηση του καλύτερου μοντέλου είναι διαρκής: ενός μοντέλου που συμβάλλει ουσιαστικότερα στην κατανόηση της ΔΠΔ ή που δίνει ακριβέστερες προβλέψεις για μελλοντικά γεγονότα.

11.7 Ένα Μαθηματικό Μοντέλο της Δειγματοληπτικής Κατανομής του \(b_1\)

Οι πρώτοι στατιστικολόγοι που ανέπτυξαν τις ιδέες πίσω από τις δειγματοληπτικές κατανομές και τις τιμές \(p\) δεν είχαν υπολογιστές. Μπορούσαν μόνο να φανταστούν πώς θα ήταν να ανακατεύουν τυχαία τα δεδομένα τους για να μιμηθούν μια ΔΠΔ. Αυτό που μπορούμε σήμερα να κάνουμε με την R θα τους φαινόταν σαν θαύμα! Αντί να χρησιμοποιούν υπολογιστικές τεχνικές για να δημιουργήσουν δειγματοληπτικές κατανομές, οι πρώτοι στατιστικολόγοι έπρεπε να αναπτύξουν μαθηματικά μοντέλα για το πώς θα έπρεπε να μοιάζουν οι δειγματοληπτικές κατανομές, και στη συνέχεια να υπολογίσουν πιθανότητες με βάση αυτές τις μαθηματικές κατανομές.

Στην πραγματικότητα, η τιμή \(p\) που βλέπετε στον πίνακα ANOVA που δημιουργείται από τη συνάρτηση supernova() (καθώς και από τα περισσότερα άλλα στατιστικά λογισμικά) υπολογίζεται από ένα μαθηματικό μοντέλο της δειγματοληπτικής κατανομής.

Ο παρακάτω κώδικας προσαρμόζει το μοντέλο της Condition στα δεδομένα TipExperiment και αποθηκεύει το μοντέλο ως Condition_model. Χρησιμοποιήστε τη συνάρτηση supernova() για να δημιουργήσετε τον πίνακα ANOVA για αυτό το μοντέλο, και κοιτάξτε την τιμή \(p\) (στη δεξιότερη στήλη του πίνακα).

Analysis of Variance Table (Type III SS)
Model: Tip ~ Condition

                              SS df      MS     F    PRE     p
----- --------------- | -------- -- ------- ----- ------ -----
Model (error reduced) |  402.023  1 402.023 3.305 0.0729 .0762
Error (from model)    | 5108.955 42 121.642
----- --------------- | -------- -- ------- ----- ------ -----
Total (empty model)   | 5510.977 43 128.162

Η τιμή \(p\) από τη συνάρτηση supernova(), στρογγυλοποιημένη στο δεύτερο δεκαδικό ψηφίο, είναι περίπου 0.08, πολύ κοντά σε αυτήν που υπολογίσαμε χρησιμοποιώντας την εμπειρική δειγματοληπτική κατανομή μετά από 1000 τυχαία ανακατέματα. Η προσέγγιση που βασίζεται στο μαθηματικό μοντέλο δεν είναι κατ’ ανάγκην καλύτερη από την προσέγγιση με το τυχαίο ανακάτεμα· το σημαντικό είναι ότι και οι δύο μέθοδοι οδηγούν σε παρόμοιο αποτέλεσμα. (Αν και η εκτέλεση της supernova() είναι ταχύτερη, αρκετοί θεωρούν την έννοια της δειγματοληπτικής κατανομής πιο κατανοητή όταν τη δημιουργούν από την αρχή με τη χρήση της συνάρτησης shuffle().)

Η κατανομή \(t\)

Η μαθηματική συνάρτηση που χρησιμοποιεί η supernova() για να προσεγγίσει τη δειγματοληπτική κατανομή του \(b_1\) —καθώς και πολλών άλλων εκτιμητών παραμέτρων— είναι γνωστή ως κατανομή \(t\). Η κατανομή \(t\) σχετίζεται με την κανονική κατανομή και, πράγματι, της μοιάζει αρκετά.

Στο παρακάτω σχήμα, η κατανομή \(t\) (με κόκκινη γραμμή) προβάλλεται επάνω στη δειγματοληπτική κατανομή που κατασκευάσαμε με τη χρήση της shuffle(). Όπως φαίνεται, προσεγγίζει πολύ την κανονική κατανομή, την οποία γνωρίζετε ήδη.

Όπως φαίνεται στο παραπάνω ιστόγραμμα, ενώ η δειγματοληπτική κατανομή που δημιουργήσαμε με τη συνάρτηση shuffle() είναι μη ομαλή (διότι αποτελείται από 1000 μόλις επιμέρους τιμές \(b_1\)), η κατανομή \(t\) είναι μια εξομαλυμένη καμπύλη, μια συνεχής μαθηματική συνάρτηση. Αν θέλετε να δείτε την εξίσωση που περιγράφει αυτή την συνάρτηση, μπορείτε να την βρείτε εδώ.

Ενώ το σχήμα της κανονικής κατανομής καθορίζεται μόνο από το μέσο όρο και την τυπική απόκλιση, η κατανομή \(t\) αλλάζει ελαφρώς σχήμα ανάλογα με το πόσες παρατηρήσεις περιλαμβάνονται στα δείγματα που απαρτίζουν τη δειγματοληπτική κατανομή. (Στην πράξη, εξαρτάται από τους βαθμούς ελευθερίας (df) εντός της κάθε ομάδας, οι οποίοι όπως έχετε μάθει είναι ίσοι με \(n-1\). Για τη μελέτη των φιλοδωρημάτων, οι βαθμοί ελευθερίας είναι 42, δηλαδή 21 για κάθε ομάδα.)

Στο παρακάτω διάγραμμα, μπορείτε να δείτε πώς αλλάζει το σχήμα της κατανομής \(t\) όταν αλλάζουν οι βαθμοί ελευθερίας (df). Παρατηρήστε ότι όταν οι βαθμοί ελευθερίας φτάσουν την τιμή 30, η κατανομή \(t\) μοιάζει πολύ με την κανονική κατανομή (καμπύλη με μαύρο χρώμα).

Χρήση της κατανομής \(t\) για τον υπολογισμό πιθανοτήτων

Στη δειγματοληπτική κατανομή που δημιουργήσατε με τη χρήση της shuffle(), μπορούσατε απλώς να μετρήσετε πόσες τιμές \(b_1\) ήταν πιο ακραίες από την παρατηρούμενη τιμή \(b_1\) του δείγματος, προκειμένου να υπολογίσετε την τιμή \(p\). Η κατανομή \(t\) λειτουργεί με τον ίδιο τρόπο, με τη διαφορά ότι ο υπολογισμός των πιθανοτήτων στις άνω και κάτω ουρές απαιτεί πιο σύνθετες μαθηματικές πράξεις. Ευτυχώς, δεν χρειάζεται να κάνετε αυτούς τους υπολογισμούς με το χέρι· η R τους κάνει για εσάς, για παράδειγμα όταν χρησιμοποιείτε τη συνάρτηση supernova().

Ακολουθεί ένα διάγραμμα της κατανομής \(t\) (αριστερά) που αναπαριστά την τιμή \(p\) ως τη συνολική περιοχή που βρίσκεται στις δύο ουρές με ανοιχτό πράσινο χρώμα, και το ιστόγραμμα των τιμών \(b_1\) της δειγματοληπτικής κατανομής (δεξιά) που δείχνει το ίδιο πράγμα αλλά με μοβ χρώμα. Ο οριζόντιος άξονας και στα δύο διαγράμματα έχει επισημανθεί με τιμές του \(b_1\) για να είναι ευκολότερη η σύγκρισή τους.

Τι είναι παρόμοιο σε αυτές τις δύο κατανομές; (Επιλέξτε όλα όσα ισχύουν.)

Σωστές απαντήσεις: Α, Β, Ε, ΣΤ, Θ, ΙΑ


Γιατί αυτές είναι σωστές:

  • Α & Β: Και οι δύο κατανομές έχουν περίπου κανονικό, συμμετρικό σχήμα καμπάνας.

  • Ε: Και οι δύο αναπαριστούν τη δειγματοληπτική κατανομή των τιμών \(b_1\) — δηλαδή, την κατανομή των τιμών \(b_1\) που θα μπορούσαν να προκύψουν από πολλά δείγματα.

  • ΣΤ: Και οι δύο έχουν κέντρο το 0 επειδή και οι δύο υποθέτουν ότι ισχύει το κενό μοντέλο (\(\beta_1 = 0\)).

  • Θ: Και οι δύο κατασκευάστηκαν υποθέτοντας ότι το κενό μοντέλο είναι αληθές, δηλαδή ότι η πραγματική επίδραση είναι 0.

  • ΙΑ: Και οι δύο μέθοδοι καταλήγουν σε παρόμοιες τιμές \(p\) (περίπου 0.08).


Γιατί οι άλλες είναι λάθος:

  • Γ & Δ: Δεν αναπαριστούν τη δειγματοληπτική κατανομή ή τον πληθυσμό των φιλοδωρημάτων — αναπαριστούν τη δειγματοληπτική κατανομή του \(b_1\).

  • Ζ: Δεν έχουν κέντρο το \(6.05\) — είναι κεντραρισμένες στο 0.

  • Η & Ι: Δεν υποθέτουν θετική ή αρνητική επίδραση — υποθέτουν μηδενική επίδραση.

Τι είναι διαφορετικό σε αυτές τις δύο κατανομές;

Σωστή απάντηση: Α


Γιατί είναι σωστή:

  • Α: Η κατανομή \(t\) είναι ένα μαθηματικό μοντέλο — μια θεωρητική κατανομή που ορίζεται από εξισώσεις. Το ιστόγραμμα, αντίθετα, προέκυψε από προσομοίωση: επαναλαμβάνοντας πολλές φορές τυχαίο ανακάτεμα των δεδομένων και υπολογίζοντας κάθε φορά την τιμή \(b_1\).

Γιατί οι άλλες είναι λάθος:

  • Β: Το αντίστροφο — το ιστόγραμμα δεν είναι μαθηματικό μοντέλο.

  • Γ & Δ: Και οι δύο μέθοδοι είναι έγκυρες για αυτή την περίπτωση — καμία δεν είναι «λανθασμένη».

  • Ε & ΣΤ: Και οι δύο κατανομές αναπαριστούν τη δειγματοληπτική κατανομή του \(b_1\), όχι την κατανομή των φιλοδωρημάτων στη ΔΓΠ.

Ο Έλεγχος \(t\) Δύο Δειγμάτων

Αν έχετε παρακολουθήσει μαθήματα στατιστικής στο παρελθόν, πιθανώς να έχετε ακουσει για τον έλεγχο \(t\) (t-test). Ο έλεγχος \(t\) χρησιμοποιείται για τον υπολογισμό της τιμής \(p\) για τη διαφορά μεταξύ δύο ομάδων με ανεξάρτητες παρατηρήσεις. Το πείραμα των φιλοδωρημάτων είναι ακριβώς μια τέτοια περίπτωση: το \(b_1\) με το οποίο δουλεύαμε μέχρι τώρα είναι η διαφορά των μέσων όρων φιλοδωρήματος μεταξύ των δύο ομάδων τραπεζιών, αυτών που έλαβαν το χαμογελαστό πρόσωπο και αυτών που δεν το έλαβαν.

Μπορείτε να χρησιμοποιήσετε την R για να κάνετε εφαρμόσετε έναν έλεγχο \(t\) στα δεδομένα του πειράματος με τα φιλοδωρήματα:

Αν εκτελέσετε αυτόν τον κώδικα θα σας δώσει τιμή \(p\) ίση με 0.0762, η οποία είναι ακριβώς αυτή που είδατε στον πίνακα ANOVA που παράχθηκε από τη συνάρτηση supernova(). Παρόλο που το αποτέλεσμα της supernova() δεν σας δείχνει το στατιστικό \(t\) ή άλλες λεπτομέρειες για το πώς υπολογίζει την τιμή \(p\), στο παρασκήνιο χρησιμοποιεί την κατανομή \(t\) για τον υπολογισμό των τιμών \(p\).

ΣυμβουλήΣημείωση

Η μέθοδος που έχετε μάθει, δηλαδή αυτή της δημιουργίας ενός μοντέλου δύο ομάδων και της σύγκρισής του με το κενό μοντέλο, είναι πολύ πιο ισχυρή και γενικεύσιμη από τον έλεγχο \(t\). Αλλά αν κάποιος σας ρωτήσει αν γνωρίζετε τον έλεγχο \(t\), μπορείτε να απαντήσετε θετικά. Είναι ένας παραδοσιακός, μαθηματικός τρόπος να κάνετε ακριβώς αυτό που ήδη έχετε μάθει να κάνετε — να συγκρίνετε ένα μοντέλο με το κενό μοντέλο — απλώς χρησιμοποιεί θεωρητικές κατανομές αντί για προσομοίωση. (Η μέθοδος που έχετε μάθει με τη χρήση της shuffle() ονομάζεται μερικές φορές και έλεγχος τυχαιοποίησης ή έλεγχος μεταθέσεων — randomization test ή permutation test.)

11.8 Παράγοντες που Επηρεάζουν την Τιμή \(p\)

Τι θα Γινόταν αν το Δειγματικό \(b_1\) Ήταν 10;

Η δειγματική τιμή του \(b_1\) στο πείραμα των φιλοδωρημάτων ήταν ίση με \(6.05\). Με βάση τη δειγματοληπτική κατανομή που δημιουργήσαμε για το \(b_1\) υποθέτοντας ότι ισχύει το κενό μοντέλο, υπολογίσαμε την πιθανότητα να πάρουμε ένα δείγμα με \(b_1\) τόσο ακραίο ή πιο ακραίο από το 6.05 ως περίπου ίση με 0.08. Με βάση το επίπεδο σημαντικότητας \(\\alpha\) που ορίσαμε ίσο με 0.05, αποφασίσαμε ότι το 6.05 δεν είναι απίθανο να έχει προκύψει από το κενό μοντέλο, και έτσι δεν απορρίψαμε το κενό μοντέλο.

Φανταστείτε, τώρα, η μέση διαφορά ανάμεσα στην ομάδα με το χαμογελαστό πρόσωπο και την ομάδα ελέγχου να ήταν ίση με 10 ποσοστιαίες μονάδες. Πώς θα επηρέαζε αυτό την τιμή \(p\), και πώς θα επηρέαζε την απόφασή μας σχετικά με το αν θα απορρίψουμε ή όχι το κενό μοντέλο της ΔΠΔ;

Στο παρακάτω σχήμα έχουμε αναπαράγει τη δειγματοληπτική κατανομή του \(b_1\) υποθέτοντας ότι το κενό μοντέλο της ΔΠΔ είναι αληθές. Οι κόκκινες ουρές μαζί δείχνουν το 0.05 (5%) των πιο ακραίων τιμών \(b_1\), με κάθε ουρά να περιλαμβάνει το 0.025 (2.5%), ή το μισό, των ακραίων τιμών.

Αν το δειγματικό \(b_1\) ήταν 10 (αντί για 6), θα βρισκόταν στην πιθανή ή στην απίθανη περιοχή αυτής της δειγματοληπτικής κατανομής;

Σωστή απάντηση: Β — Στην απίθανη


Κοιτάζοντας το ιστόγραμμα, η τιμή \(b_1 = 10\) θα βρισκόταν πολύ δεξιά, πέρα από την κόκκινη ουρά. Αυτό σημαίνει ότι θα έπεφτε στην απίθανη περιοχή — μια τιμή που είναι πολύ σπάνιο να παραχθεί από το κενό μοντέλο.

Ποια θα ήταν η τιμή \(p\);

Σωστή απάντηση: Α — Πολύ μικρή, σίγουρα μικρότερη από 0.05


Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) τόσο ακραία ή πιο ακραία από αυτή που παρατηρήσαμε.

  • Με \(b_1 = 6.05\), η τιμή \(p\) ήταν περίπου 0.08
  • Με \(b_1 = 10\), η τιμή θα ήταν πολύ πιο ακραία
  • Επομένως, η τιμή \(p\) θα ήταν πολύ μικρότερη — σίγουρα κάτω από 0.05

Γενικός κανόνας: Όσο πιο ακραίο το \(b_1\), τόσο μικρότερη η τιμή \(p\).

Πώς θα επηρέαζε μια τιμή \(b_1\) ίσο με 10 τη σκέψη μας για το κενό μοντέλο;

Σωστή απάντηση: Α — Θα αύξανε την αμφιβολία μας ότι το δείγμα μας παράχθηκε από το κενό μοντέλο.


Αν η τιμή \(b_1 = 10\) είναι απίθανο να παραχθεί από το κενό μοντέλο (τιμή \(p < 0.05\)), τότε:

  • Αμφισβητούμε ότι το κενό μοντέλο είναι αληθές
  • Απορρίπτουμε το κενό μοντέλο
  • Συμπεραίνουμε ότι πιθανώς υπάρχει πραγματική επίδραση του χαμογελαστού προσώπου (\(\beta_1 \neq 0\))

Η τιμή \(p\) επηρεάζεται σίγουρα από το πόσο μακριά είναι η παρατηρούμενη τιμή \(b_1\) από το 0. Δεδομένου ότι το 10 είναι πιο μακριά από το 0 από ό,τι το \(6.05\) από το 0, όταν \(b_1 = 10\), η τιμή \(p\) θα είναι μικρότερη. Όσο πιο μακριά είναι το \(b_1\) από το 0, τόσο μικρότερη η τιμή \(p\), που σημαίνει ότι είναι τόσο λιγότερο πιθανό η παρατηρούμενη τιμή \(b_1\) να έχει παραχθεί από το κενό μοντέλο.

Τυπικό Σφάλμα και Τιμή \(p\)

Η απόσταση μεταξύ του \(b_1\) και του 0 (ή του υποθετικού \(\beta_1\)) δεν είναι το μόνο πράγμα που επηρεάζει την τιμή \(p\). Ο άλλος σημαντικός παράγοντας είναι το πλάτος της δειγματοληπτικής κατανομής, το οποίο μπορεί να ποσοτικοποιηθεί χρησιμοποιώντας το τυπικό σφάλμα.

ΣημαντικόΟρισμός

Το τυπικό σφάλμα (standard error) είναι η τυπική απόκλιση μιας δειγματοληπτικής κατανομής.

Ρίξτε μια ματιά στις δύο προσομοιωμένες δειγματοληπτικές κατανομές στο παρακάτω σχήμα. Αυτή στα αριστερά είναι αυτή που δημιουργήσαμε χρησιμοποιώντας τη shuffle() για το πείραμα φιλοδωρημάτων. Αυτή στα δεξιά είναι παρόμοια από κάθε άποψη αλλά το εύρος είναι σημαντικά στενότερο. Και οι δύο έχουν περίπου κανονικό σχήμα, και οι δύο αποτελούνται από 1000 τιμές \(b_1\), και οι δύο κατανομές είναι κεντραρισμένες στο 0. Αλλά το τυπικό σφάλμα είναι μικρότερο για την κατανομή στα δεξιά.

Θα ήταν η τιμή \(p\) για το παρατηρούμενο \(b_1\) ίσο με \(6.05\) χαμηλότερη χρησιμοποιώντας την πλατύτερη δειγματοληπτική κατανομή (αριστερά) ή χρησιμοποιώντας τη στενότερη (δεξιά);

Σωστή απάντηση: Β — Η τιμή \(p\) θα ήταν χαμηλότερη για τη στενότερη δειγματοληπτική κατανομή


Η λογική:

Κοιτάζοντας τα δύο γραφήματα:

  • Πλατύτερη κατανομή (αριστερά): Η τιμή \(b_1 = 6.05\) (μαύρη κουκκίδα) βρίσκεται κοντά στην άκρη της κόκκινης ουράς, αλλά μέσα στην κατανομή. Η τιμή \(p\) είναι περίπου 0.08.

  • Στενότερη κατανομή (δεξιά): Η ίδια τιμή \(b_1 = 6.05\) βρίσκεται πολύ πιο έξω από την κατανομή — είναι πολύ πιο ακραία σε σχέση με αυτή την κατανομή. Η τιμή \(p\) θα ήταν πολύ μικρότερη.


Γενικός κανόνας:

Όσο στενότερη η δειγματοληπτική κατανομή (μικρότερο τυπικό σφάλμα), τόσο μικρότερη η τιμή \(p\) για την ίδια παρατηρούμενη τιμή \(b_1\).

Αυτό συμβαίνει επειδή σε μια στενότερη κατανομή, η ίδια απόσταση από το 0 αντιπροσωπεύει μια πιο ακραία και πιο απίθανη τιμή.

Το τυπικό σφάλμα μπορεί να κάνει μεγάλη διαφορά στην αξιολόγησή μας για το κενό μοντέλο. Αν είναι μικρότερο, θα είναι ευκολότερο να απορρίψουμε το κενό μοντέλο, επειδή οποιαδήποτε εκτίμηση πάρουμε για το \(b_1\), θα είναι πιο πιθανό να βρίσκεται στο άνω ή κάτω 0.025 της δειγματοληπτικής κατανομής.

Μέγεθος Δείγματος και Τυπικό Σφάλμα

Έχουμε δείξει πώς η τιμή \(p\) επηρεάζεται από το τυπικό σφάλμα (το πλάτος της δειγματοληπτικής κατανομής). Αλλά και λοιπόν; Έχουμε πραγματικά κάποιο έλεγχο στο πλάτος της δειγματοληπτικής κατανομής; Στην πραγματικότητα, έχουμε, αν είμαστε εμείς αυτοί που σχεδιάζουν τη μελέτη και συλλέγουν τα δεδομένα.

Υπάρχουν δύο κύρια πράγματα που επηρεάζουν το τυπικό σφάλμα: (1) η τυπική απόκλιση της ΔΠΔ και (2) το μέγεθος του δείγματός σας. Ως ερευνητής, δεν έχετε έλεγχο στο πόσο μεταβλητή είναι η ΔΠΔ, αλλά επειδή μπορείτε να αποφασίσετε να συλλέξετε περισσότερα ή λιγότερα δεδομένα, έχετε έλεγχο στο μέγεθος του δείγματός σας.

Ας διερευνήσουμε πώς το μέγεθος του δείγματος μπορεί να επηρεάσει τη δειγματοληπτική κατανομή του \(b_1\). Σκεφτείτε ένα εναλλακτικό σύμπαν όπου οι ερευνητές που έκαναν τη μελέτη φιλοδωρημάτων συνέλεξαν δεδομένα από 88 τραπέζια αντί για μόνο 44. Φανταστείτε ότι το δείγμα είχε την ίδια διαφορά μεταξύ ομάδων (\(b_1\)) και την ίδια τυπική απόκλιση για το Tip με την αρχική μελέτη αλλά απλώς είχε περισσότερα τραπέζια στο δείγμα.

Για να προσομοιώσουμε αυτή τη φανταστική κατάσταση, δημιουργήσαμε ένα νέο πλαίσιο δεδομένων που ονομάζεται TipExp2 που απλώς έχει δύο αντίγραφα κάθε τραπεζιού από το αρχικό TipExperiment. Μπορούμε να εκτελέσουμε τη str() σε αυτό το νέο πλαίσιο δεδομένων για να δούμε πώς μοιάζει.

'data.frame':  88 obs. of  3 variables:
 $ ServerID : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Tip      : atomic  39 36 34 34 33 31 31 30 30 28 ...
  ..- attr(*, "format.spss")= chr "F8.0"
 $ Condition: Factor w/ 2 levels "Control","Smiley Face": 1 1 1 1 1 1 1 1 1 1 ...

Χρησιμοποιήστε το παρακάτω τμήμα κώδικα για να συγκρίνετε το νέο πλαίσιο δεδομένων (TipExp2) με το αρχικό (TipExperiment). Συγκεκριμένα, κοιτάξτε τον συνολικό μέσο όρο και την τυπική απόκλιση της μεταβλητής έκβασης Tip, για κάθε σύνολο δεδομένων, και επίσης προσαρμόστε το μοντέλο Condition για να δείτε ποιο είναι το καλύτερα προσαρμοσμένο \(b_1\) για τα δύο σύνολα δεδομένων.

Μπορείτε να ελέγξετε τα αποτελέσματά σας με τον παρακάτω πίνακα. Αυτοί οι αριθμοί ταιριάζουν πολύ στενά μεταξύ των δύο δειγμάτων για έναν λόγο: και τα δύο πλαίσια δεδομένων περιλαμβάνουν τα ίδια 44 τραπέζια, είτε μία φορά είτε δύο.

Μέγεθος Δείγματος Μέσος Tip Τυπ. Απόκλ. Tip \(b_1\)
n=44 30,0 11,3 6,05
n=88 30,0 11,3 6,05

Αν και το μέγεθος του δείγματος δεν επηρεάζει απαραίτητα τον μέσο όρο, την τυπική απόκλιση ή το \(b_1\) — αυτά είναι όλα χαρακτηριστικά της δειγματικής κατανομής — θα επηρεάσει το πλάτος της δειγματοληπτικής κατανομής. Ας διερευνήσουμε αυτή την ιδέα δημιουργώντας δύο δειγματοληπτικές κατανομές, μία για το δείγμα με n=44, την άλλη για n=88. Θα χρησιμοποιήσουμε ξανά τη συνάρτηση shuffle() για να προσομοιώσουμε το κενό μοντέλο, όπου \(\beta_1 = 0\).

Ακολουθεί κώδικας για να δημιουργήσουμε τις δύο δειγματοληπτικές κατανομές του \(b_1\), μία για το σύνολο δεδομένων με 44 τραπέζια, την άλλη με 88 τραπέζια.

Στη συνέχεια εκτελέσαμε αυτόν τον κώδικα για να παράγουμε ιστογράμματα των δύο δειγματοληπτικών κατανομών του \(b_1\).

Σημειώστε ότι προσθέσαμε αυτόν τον κώδικα (gf_lims(x = c(-12, 12), y = c(-15,120))) για να βεβαιωθούμε ότι οι κλίμακες είναι ίδιες για τα δύο ιστογράμματα ώστε να μπορείτε να τα συγκρίνετε πιο εύκολα. Μπορεί να αναγνωρίζετε αυτά τα ιστογράμματα — είναι τα ίδια με αυτά που παρουσιάσαμε παραπάνω, αλλά τώρα ξέρετε πώς τα δημιουργήσαμε.

Ποιες από τις παρακάτω παρατηρήσεις είναι αληθείς για τις δύο δειγματοληπτικές κατανομές που απεικονίζονται παραπάνω; (Επιλέξτε όλα όσα ισχύουν.)

Σωστές απαντήσεις: Α, Δ, Ε


Γιατί αυτές είναι σωστές:

  • Α: Με μεγαλύτερο δείγμα (n=88), οι τιμές \(b_1\) συγκεντρώνονται πιο στενά γύρω από το 0, άρα είναι πιο όμοιες μεταξύ τους.

  • Δ: Μεγαλύτερο δείγμα → στενότερη δειγματοληπτική κατανομή → μικρότερο τυπικό σφάλμα.

  • Ε: Όταν η κατανομή είναι στενότερη, η τιμή \(6.05\) πέφτει πιο έξω (στην «απίθανη» κόκκινη περιοχή).


Γιατί οι άλλες είναι λάθος:

  • Β & Γ: Το αντίθετο είναι αληθές — μεγαλύτερο δείγμα σημαίνει λιγότερη μεταβλητότητα.

  • ΣΤ: Το αντίθετο — με λιγότερη μεταβλητότητα, το \(6.05\) είναι στην απίθανη περιοχή.

  • Ζ: Το δειγματικό \(b_1\) παραμένει \(6.05\) και στα δύο — δεν αλλάζει.

Τι είναι παρόμοιο στις δύο δειγματοληπτικές κατανομές; (Επιλέξτε όλα όσα ισχύουν.)

Σωστές απαντήσεις: Α, Β


Γιατί αυτές είναι σωστές:

  • Α: Και οι δύο κατανομές έχουν περίπου κανονικό σχήμα (καμπάνα).

  • Β: Και οι δύο είναι κεντραρισμένες στο 0 επειδή και οι δύο προσομοιώνουν το κενό μοντέλο (\(\beta_1 = 0\)).


Γιατί η Γ είναι λάθος:

Το εύρος δεν είναι παρόμοιο — η κατανομή με n=88 είναι σημαντικά στενότερη από αυτή με n=44.

Ποια κατανομή έχει μεγαλύτερο τυπικό σφάλμα;

Σωστή απάντηση: Α — Αυτή που βασίζεται σε δείγματα με n = 44


Η λογική:

Το τυπικό σφάλμα είναι η τυπική απόκλιση της δειγματοληπτικής κατανομής.

  • Μικρότερο δείγμα (n=44): Πλατύτερη κατανομή → μεγαλύτερο τυπικό σφάλμα
  • Μεγαλύτερο δείγμα (n=88): Στενότερη κατανομή → μικρότερο τυπικό σφάλμα

Γενικός κανόνας:

Το τυπικό σφάλμα μειώνεται καθώς το μέγεθος του δείγματος αυξάνεται.

Παρατηρήστε πώς η δειγματοληπτική κατανομή ποικίλλει πολύ λιγότερο όταν βασίζεται σε δείγματα 88 τραπεζιών από ό,τι για 44 τραπέζια. Χρησιμοποιήστε το παρακάτω τμήμα κώδικα για να υπολογίσετε τα τυπικά σφάλματα για τις δύο δειγματοληπτικές κατανομές. (Υπόδειξη: Το τυπικό σφάλμα είναι η τυπική απόκλιση μιας δειγματοληπτικής κατανομής.)

[1] 3.534982
[1] 2.413229

Παρόλο που και οι δύο δειγματοληπτικές κατανομές είναι περίπου κανονικές και κεντραρισμένες στο 0 (άλλωστε, το κενό μοντέλο έχει \(\beta_1 = 0\)), το τυπικό σφάλμα είναι μικρότερο στη δειγματοληπτική κατανομή των τιμών \(b_1\) που βασίζεται σε δείγματα 88 τραπεζιών (περίπου 2,4 έναντι 3,5).

Αποδεικνύεται ότι τα μεγαλύτερα μεγέθη δείγματος παράγουν πάντα μικρότερα τυπικά σφάλματα (στενότερες δειγματοληπτικές κατανομές), επειδή σε μεγαλύτερα δείγματα, είναι πολύ πιο δύσκολο να πάρεις μια ακραία τιμή \(b_1\) μόνο από τύχη. Για να πάρεις μια ακραία τιμή \(b_1\) μόνο από τύχη θα χρειαζόταν πολλά από τα τραπέζια με υψηλά φιλοδωρήματα να ανατεθούν τυχαία σε μία συνθήκη και τα τραπέζια με χαμηλά φιλοδωρήματα στην άλλη. Αν είχατε μόνο δύο τραπέζια, αυτό είναι αρκετά εύκολο να συμβεί! Αν είχατε μόνο 4 τραπέζια, αυτό επίσης δεν είναι πολύ δύσκολο. Αλλά καθώς αυξάνετε τον αριθμό των τραπεζιών, είναι δύσκολο να διατηρηθεί αυτό το μοτίβο. Είναι ο ίδιος λόγος που είναι εύκολο να ρίξεις 2 κορώνες στη σειρά αλλά πολύ δύσκολο να ρίξεις 44 κορώνες στη σειρά. Είναι εύκολο να αναθέσεις τυχαία μερικούς που αφήνουν υψηλά φιλοδωρήματα σε μία συνθήκη αλλά δύσκολο να αναθέσεις τυχαία 40 που αφήνουν υψηλά φιλοδωρήματα σε μία συνθήκη.

Λάβετε υπόψη τις δύο δειγματοληπτικές κατανομές που δημιουργήθηκαν από το κενό μοντέλο της ΔΠΔ για τα δείγματα 44 και 88 τραπεζιών παραπάνω. Ποια δειγματοληπτική κατανομή θα μας οδηγούσε να απορρίψουμε το κενό μοντέλο ως εύλογο μοντέλο της ΔΠΔ που παρήγαγε το δείγμα μας;

Σωστή απάντηση: Β — Η δειγματοληπτική κατανομή όπου το μέγεθος του δείγματος είναι 88.


Η λογική:

Κοιτάζοντας τα δύο ιστογράμματα:

  • n = 44: Το δειγματικό \(b_1 = 6.05\) (μαύρη κουκκίδα) βρίσκεται στην άκρη της μπλε περιοχής — είναι όχι απίθανο. Δεν απορρίπτουμε το κενό μοντέλο.

  • n = 88: Το ίδιο \(b_1 = 6.05\) βρίσκεται έξω από την κόκκινη ουρά — είναι απίθανο. Απορρίπτουμε το κενό μοντέλο.

Η στενότερη κατανομή (n=88) κάνει την ίδια τιμή \(b_1\) να φαίνεται πιο ακραία.

Παρόλο που το δειγματικό \(b_1\) είναι το ίδιο και στις δύο περιπτώσεις, όταν το τυπικό σφάλμα είναι μικρότερο, αυτό κάνει το δείγμα μας να φαίνεται λιγότερο πιθανό να έχει παραχθεί από το κενό μοντέλο. Γενικά, η τιμή \(p\) για ένα δειγματικό στατιστικό θα είναι μικρότερη καθώς το μέγεθος του δείγματος γίνεται μεγαλύτερο.

Ας ρίξουμε μια ματιά στην τιμή \(p\), η οποία μπορεί να βρεθεί στον πίνακα ANOVA.

Analysis of Variance Table (Type III SS)
Model: Tip ~ Condition (From TipExperiment)

                              SS df      MS     F    PRE     p
----- ----------------- -------- -- ------- ----- ------ -----
Model (error reduced) |  402.023  1 402.023 3.305 0.0729 .0762
Error (from model)    | 5108.955 42 121.642
----- ----------------- -------- -- ------- ----- ------ -----
Total (empty model)   | 5510.977 43 128.162                   
Analysis of Variance Table (Type III SS)
Model: Tip ~ Condition (From TipExp2)

                               SS df      MS     F    PRE     p
----- ----------------- --------- -- ------- ----- ------ -----
Model (error reduced) |   804.045  1 804.045 6.767 0.0729 .0109
Error (from model)    | 10217.909 86 118.813
----- ----------------- --------- -- ------- ----- ------ -----
Total (empty model)   | 11021.955 87 126.689                   

Παρατηρήστε ότι η τιμή \(p\) από τα αρχικά δεδομένα είναι 0.08 αλλά η τιμή \(p\) από τα διπλάσια δεδομένα είναι 0.01. Παρακάτω έχουμε απεικονίσει την τιμή \(p\) (με μοβ χρώμα) χρωματίζοντας τις ουρές πέρα από το δείγμα σε καθεμία από αυτές τις δειγματοληπτικές κατανομές.

Ποια είναι η σχέση ανάμεσα στο τυπικό σφάλμα και την τιμή p;

11.9 Έλεγχοι Υποθέσεων για Μοντέλα Παλινδρόμησης

Έχουμε περάσει από τη λογική του ελέγχου υποθέσεων για μοντέλα ομάδων. Χρησιμοποιήσαμε τη shuffle() για να δημιουργήσουμε μια δειγματοληπτική κατανομή υποθέτοντας ότι \(\beta_1 = 0\), και στη συνέχεια χρησιμοποιήσαμε τη δειγματοληπτική κατανομή για να υπολογίσουμε την πιθανότητα το δειγματικό μας \(b_1\) ή ένα πιο ακραίο να έχει προέλθει από το κενό μοντέλο.

Τώρα ας εφαρμόσουμε τις ίδιες ιδέες σε μοντέλα παλινδρόμησης. Όπως θα δείτε, η στρατηγική είναι ακριβώς η ίδια. Θέλουμε ακόμα να δημιουργήσουμε μια δειγματοληπτική κατανομή των τιμών \(b_1\), αν και αυτή τη φορά το \(b_1\) θα αναπαριστά μια κλίση, όχι μια διαφορά ομάδων. Ας δούμε πώς λειτουργεί αυτό προσθέτοντας μια νέα μεταβλητή στο πλαίσιο δεδομένων του πειράματος φιλοδωρημάτων.

Φιλοδωρήματα = Ποιότητα Φαγητού + Άλλοι Παράγοντες

Έχουμε διερευνήσει την επίδραση ενός χαμογελαστού προσώπου στο πόσο αφήνουν φιλοδώρημα οι άνθρωποι σε ένα εστιατόριο. Αλλά σίγουρα υπάρχουν και άλλοι παράγοντες που μπορούν να μας βοηθήσουν να εξηγήσουμε τη μεταβλητότητα στο ποσοστό φιλοδωρήματος. Ένας από αυτούς μπορεί να είναι η αντιλαμβανόμενη ποιότητα του φαγητού. Μπορούμε να διερευνήσουμε αυτή την υπόθεση κοιτάζοντας μια άλλη μεταβλητή που είναι διαθέσιμη στο πλαίσιο δεδομένων TipExperiment: FoodQuality.

Κάθε ενήλικος δειπνών σε κάθε τραπέζι κλήθηκε να βαθμολογήσει την ποιότητα του φαγητού σε μια κλίμακα 100 βαθμών. Τους είπαν να θεωρήσουν το 50 (τη μέση της κλίμακας) ως «περίπου μέσο όρο για αυτό το είδος εστιατορίου», και στη συνέχεια να ανέβουν ή να κατέβουν στην κλίμακα από εκεί, όπου το 100 θα ήταν το καλύτερο φαγητό που έχουν δοκιμάσει ποτέ στη ζωή τους, και το 0 θα ήταν το χειρότερο. Η μεταβλητή FoodQuality είναι η μέση βαθμολογία για κάθε τραπέζι δειπνούντων.

  TableID Tip Condition  FoodQuality
1       1  39   Control         54.9
2       2  36   Control         51.7
3       3  34   Control         60.5
4       4  34   Control         56.7
5       5  33   Control         51.0
6       6  31   Control         43.3

Δημιουργήσαμε ένα διάγραμμα διασποράς για να διερευνήσουμε την υπόθεση ότι η FoodQuality μπορεί να εξηγεί κάποια από τη μεταβλητότητα στο Tip.

Κοιτάζοντας αυτό το διάγραμμα διασποράς, φαίνεται ότι το να γνωρίζουμε τη μέση βαθμολογία ποιότητας φαγητού ενός τραπεζιού θα μας βοηθούσε να κάνουμε καλύτερη πρόβλεψη για το φιλοδώρημά τους;

Σωστή απάντηση: Α — Ναι


Κοιτάζοντας το διάγραμμα διασποράς, φαίνεται να υπάρχει μια θετική τάση — καθώς η ποιότητα φαγητού αυξάνεται, το φιλοδώρημα τείνει επίσης να αυξάνεται. Αν και η σχέση δεν είναι πολύ ισχυρή (υπάρχει αρκετή διασπορά), υπάρχει μια γενική ανοδική τάση που υποδηλώνει ότι η FoodQuality θα μπορούσε να βοηθήσει στην πρόβλεψη του Tip.

Μοντελοποίηση της Μεταβλητότητας στα Φιλοδωρήματα ως Συνάρτηση της Ποιότητας Φαγητού

Χρησιμοποιήστε το παρακάτω τμήμα κώδικα για να προσαρμόσετε ένα μοντέλο παλινδρόμησης στο οποίο η FoodQuality χρησιμοποιείται για να εξηγήσει το Tip.

Call:
lm(formula = Tip ~ FoodQuality, data = TipExperiment)

Coefficients:
 (Intercept)   FoodQuality  
     10.1076        0.3776  

Ποια είναι η εκτίμηση για το \(b_1\);

Σωστή απάντηση: Β — 0.38


Ανάγνωση της εξόδου:

Στο μοντέλο παλινδρόμησης Tip ~ FoodQuality:

  • (Intercept) = 10.11 → Αυτό είναι το \(b_0\), ο σταθερός όρος
  • FoodQuality = 0.38 → Αυτό είναι το \(b_1\), η κλίση

Ερμηνεία του \(b_1 = 0.38\):

Για κάθε αύξηση 1 μονάδας στη βαθμολογία ποιότητας φαγητού, το φιλοδώρημα αυξάνεται κατά μέσο όρο κατά 0.38 ποσοστιαίες μονάδες.

What does the b_1 mean?

Μια αύξηση 0.38 ποσοστιαίων μονάδων στο φιλοδώρημα για κάθε επιπλέον μονάδα αύξησης στη FoodQuality δεν φαίνεται να είναι πολύ. Στην πραγματικότητα, φαίνεται αρκετά κοντά στο 0. Είναι πιθανό αυτό να έχει δημιουργηθεί από μια ΔΠΔ στην οποία δεν υπάρχει επίδραση της ποιότητας φαγητού, δηλαδή μια ΔΠΔ όπου \(\beta_1 = 0\); Ή, μπορούμε να απορρίψουμε το κενό μοντέλο υπέρ ενός στο οποίο η FoodQuality επηρεάζει το Tip;

Αξιολόγηση του Κενού Μοντέλου της ΔΠΔ

Ακριβώς όπως κάναμε με το μοντέλο Condition, μπορούμε να χρησιμοποιήσουμε τη shuffle() για να προσομοιώσουμε την περίπτωση όπου το κενό μοντέλο είναι αληθές (δηλαδή όπου η πραγματική τιμή της κλίσης στη ΔΠΔ είναι 0), να δημιουργήσουμε μια δειγματοληπτική κατανομή των τιμών \(b_1\) ανακατεύοντας το Tip, και στη συνέχεια να χρησιμοποιήσουμε τη δειγματοληπτική κατανομή για να υπολογίσουμε την πιθανότητα μια τιμή \(b_1\) τόσο ακραία όσο το 0.38 να έχει δημιουργηθεί από το κενό μοντέλο.

Στο παρακάτω τμήμα κώδικα έχουμε γράψει κώδικα για να δημιουργήσουμε ένα διάγραμμα διασποράς των δεδομένων. Προσθέστε τη shuffle() γύρω από την εξαρτημένη μεταβλητή (Tip) για να δημιουργήσετε ένα δείγμα ανακατανεμημένων δεδομένων από το κενό μοντέλο της ΔΠΔ και σχεδιάστε τα δεδομένα με την καλύτερα προσαρμοσμένη γραμμή παλινδρόμησης. Εκτελέστε το μερικές φορές απλά για να δείτε τι είδους κλίσεις (\(b_1\)) δημιουργούνται από αυτή τη ΔΠΔ.

Τα πραγματικά δεδομένα από τη μελέτη φιλοδωρημάτων εμφανίζονται με μπλε χρώμα (το πλαίσιο επάνω αριστερά) μαζί με την καλύτερα προσαρμοσμένη γραμμή παλινδρόμησης (η κλίση είναι 0.38). Τα 5 άλλα γραφήματα (με κόκκινες κουκκίδες) είναι ανακατανεμημένα δεδομένα, μαζί με τις καλύτερα προσαρμοσμένες γραμμές παλινδρόμησης τους.

Τι παρατηρείτε σχετικά με τις κλίσεις στα ανακατανεμημένα δεδομένα (με κόκκινο) που δημιουργήθηκαν από το κενό μοντέλο όπου \(\beta_1 = 0\); (Επιλέξτε όλα όσα ισχύουν)

Σωστές απαντήσεις: Γ, Δ, Ε


Γιατί αυτές είναι σωστές:

  • Γ & Δ: Τα ανακατανεμημένα δεδομένα προέρχονται από μια ΔΠΔ όπου \(\beta_1 = 0\). Επομένως, οι κλίσεις τείνουν να είναι κοντά στο 0 (πιο οριζόντιες) σε σύγκριση με τα πραγματικά δεδομένα που έχουν κλίση 0.38.

  • Ε: Λόγω της τυχαίας δειγματοληψίας, ακόμα κι όταν \(\beta_1 = 0\), οι δειγματικές κλίσεις \(b_1\) ποικίλλουν — κάποιες τυχαίνει να είναι θετικές, κάποιες αρνητικές, και κάποιες πολύ κοντά στο μηδέν.


Γιατί οι άλλες είναι λάθος:

  • Α: Οι κλίσεις δεν είναι όλες ίδιες — υπάρχει δειγματοληπτική μεταβλητότητα.

  • Β: Οι κλίσεις δεν είναι πιο απότομες — είναι πιο επίπεδες επειδή προέρχονται από μια ΔΠΔ με \(\beta_1 = 0\).

Αν η κλίση είναι μια τέλεια οριζόντια γραμμή (π.χ., επίπεδη), ποιο θα ήταν το \(b_1\);

Σωστή απάντηση: Β — 0


Η λογική:

Η κλίση (\(b_1\)) μετρά πόσο αλλάζει το Y για κάθε μονάδα αλλαγής στο X.

  • Οριζόντια γραμμή: Το Y δεν αλλάζει καθόλου καθώς το X αλλάζει
  • Καμία αλλαγή σημαίνει κλίση = 0

Αυτός είναι ακριβώς ο λόγος που το κενό μοντέλο έχει \(\beta_1 = 0\) — υποθέτει ότι η επεξηγηματική μεταβλητή δεν έχει καμία επίδραση στην εξαρτημένη μεταβλητή.

Από τα ανακατανεμημένα δεδομένα, είδαμε ότι πολλές από τις γραμμές παλινδρόμησης είναι πιο επίπεδες από τη γραμμή για τα πραγματικά δεδομένα. Αυτό είναι λογικό δεδομένου ότι προσομοιώνουμε μια ΔΠΔ στην οποία \(\beta_1 = 0\) — θα περιμέναμε πολλές από τις τιμές \(b_1\) να είναι κοντά στο 0. Τώρα ας δημιουργήσουμε μια δειγματοληπτική κατανομή των τιμών \(b_1\) χρησιμοποιώντας τη συνάρτηση b1().

Συμπληρώστε την πρώτη γραμμή κώδικα παρακάτω για να δημιουργήσετε μια δειγματοληπτική κατανομή 1000 τιμών \(b_1\) (sdob1) από το μοντέλο FoodQuality προσαρμοσμένο στα ανακατανεμημένα δεδομένα. Έχουμε προσθέσει επιπλέον κώδικα για να δημιουργήσουμε ένα ιστόγραμμα της δειγματοληπτικής κατανομής των τιμών \(b_1\) και να αναπαραστήσουμε το δειγματικό \(b_1\) ως μαύρη κουκκίδα.

Τι σημαίνει το ότι το δειγματικό μας \(b_1\) (0.38, η μαύρη κουκκίδα) βρίσκεται στην άκρα δεξιά ουρά της δειγματοληπτικής κατανομής; (Επιλέξτε όλα όσα ισχύουν.)

Σωστές απαντήσεις: Α, Β, Γ


Γιατί αυτές είναι σωστές:

  • Α: Η μαύρη κουκκίδα (\(b_1 = 0.38\)) βρίσκεται στη δεξιά ουρά, πέρα από τις περισσότερες τιμές \(b_1\) που δημιουργήθηκαν από τις ανακατανομές.

  • Β & Γ: Επειδή το δειγματικό \(b_1\) βρίσκεται στην ακραία περιοχή, είναι απίθανο να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\) (το κενό μοντέλο).


Γιατί η Δ είναι λάθος:

Η δειγματοληπτική κατανομή δεν μας λέει τίποτα για το πού βρίσκεται η «πραγματική ΔΠΔ» — μας δείχνει μόνο τι θα περιμέναμε αν το κενό μοντέλο ήταν αληθές.

Απλά κοιτάζοντας αυτή τη δειγματοληπτική κατανομή, τι νομίζετε ότι μπορεί να είναι η τιμή \(p\) από τη supernova();

Σωστή απάντηση: Α — Κοντά στο 0


Η λογική:

Κοιτάζοντας το ιστόγραμμα:

  • Η μαύρη κουκκίδα (\(b_1 = 0.38\)) βρίσκεται στην άκρα δεξιά ουρά
  • Πολύ λίγες τιμές \(b_1\) από τις ανακατανομές είναι τόσο ακραίες
  • Η τιμή \(p\) είναι η αναλογία των τιμών που είναι τόσο ακραίες ή πιο ακραίες
  • Αυτή η αναλογία φαίνεται να είναι πολύ μικρή — κοντά στο 0

Αυτό υποδηλώνει ότι θα μπορέσουμε να απορρίψουμε το κενό μοντέλο και να συμπεράνουμε ότι η FoodQuality πιθανώς έχει πραγματική επίδραση στο Tip.

Από αυτή τη δειγματοληπτική κατανομή μπορούμε να δούμε ότι μια τιμή τόσο ακραία όσο το 0.38 πέφτει ακριβώς έξω από την περιοχή της δειγματοληπτικής κατανομής που θεωρούμε πιθανή. Μπορεί να νομίζαμε ότι μια αύξηση 0.38 ποσοστιαίων μονάδων ανά μία μονάδα αύξησης στην ποιότητα φαγητού ήταν κοντά στο 0, αλλά δεν είναι μία από τις πιθανές τιμές \(b_1\) που δημιουργούνται από μια ΔΠΔ όπου το πραγματικό \(\beta_1\) είναι 0! Αυτό υποδηλώνει ότι η τιμή \(p\) θα είναι σχετικά μικρή.

Για να βεβαιωθούμε, ας ρίξουμε μια ματιά στην τιμή \(p\) από τον πίνακα ANOVA.

Analysis of Variance Table (Type III SS)
Model: Tip ~ FoodQuality

                              SS df      MS     F   PRE     p
----- --------------- | -------- -- ------- ----- ----- -----
Model (error reduced) |  525.576  1 525.576 4.428 .0954 .0414
Error (from model)    | 4985.401 42 118.700                  
----- --------------- | -------- -- ------- ----- ----- -----
Total (empty model)   | 5510.977 43 128.162 

Η τιμή \(p\) είναι 0.04. Υπάρχει μόνο 4% πιθανότητα το παρατηρούμενο \(b_1\) ίσο με 0.38 να είχε προκύψει απλώς από τύχη αν το κενό μοντέλο της ΔΠΔ είναι αληθές.

Αυτή η δειγματοληπτική κατανομή των τιμών \(b_1\) μας λέει ότι αν το κενό μοντέλο της ΔΠΔ ήταν αληθές, το δείγμα μας είναι απίθανο. Δεδομένου ότι πράγματι πήραμε το δείγμα μας, θα απορρίπταμε το κενό μοντέλο της ΔΠΔ υπέρ ενός μοντέλου που περιλαμβάνει την ποιότητα φαγητού ως επεξηγηματική μεταβλητή.

11.10 Ασκήσεις Επανάληψης Κεφαλαίου 11

Το πλαίσιο δεδομένων newborns περιέχει πληροφορίες για το βάρος γέννησης και την περίοδο κύησης για 500 νεογνά. Συλλέχθηκε ως μέρος των Μελετών Υγείας και Ανάπτυξης Παιδιών το 1961 και 1962. Καταγράφηκαν επίσης πληροφορίες για τους γονείς του μωρού (ηλικία, εισόδημα, εκπαίδευση) και αν η μητέρα κάπνιζε.

Ένα πλαίσιο δεδομένων με 500 παρατηρήσεις στις ακόλουθες μεταβλητές:

  • gestation διάρκεια κύησης (σε ημέρες)
  • wt βάρος γέννησης (σε ουγγιές)
  • age ηλικία της μητέρας σε έτη στο τέλος της εγκυμοσύνης
  • ed εκπαίδευση της μητέρας: λιγότερο από 8η τάξη, 8η-12η τάξη - δεν αποφοίτησε, απόφοιτος λυκείου - καμία άλλη εκπαίδευση, λύκειο + τεχνική σχολή, λύκειο + κάποιο πανεπιστήμιο, απόφοιτος πανεπιστημίου, τεχνική σχολή - λύκειο ασαφές
  • dage ηλικία του πατέρα (σε έτη)
  • ded εκπαίδευση του πατέρα (ίδια κωδικοποίηση με την εκπαίδευση της μητέρας)
  • income ετήσιο οικογενειακό εισόδημα σε δύο ομάδες: $0-12.500 ή $12.500-22.500
  • smoke καπνίζει η μητέρα; (ποτέ, ή τώρα)

1. Ας εξετάσουμε την υπόθεση ότι wt = smoke + άλλοι παράγοντες. Αν το κάπνισμα σχετίζεται με χαμηλότερα βάρη γέννησης, τι θα περιμέναμε;

Σωστή απάντηση: Β — Το \(b_1\) θα ήταν αρνητικό


Η λογική:

Στο μοντέλο wt ~ smoke:

  • Η μεταβλητή smoke έχει δύο επίπεδα: «ποτέ» και «τώρα»
  • Το \(b_1\) αναπαριστά τη διαφορά στο μέσο βάρος γέννησης μεταξύ των δύο ομάδων

Αν το κάπνισμα σχετίζεται με χαμηλότερα βάρη γέννησης:

  • Τα μωρά των καπνιστριών θα έχουν μικρότερο μέσο βάρος
  • Επομένως, το \(b_1\) (η διαφορά καπνίστριες - μη καπνίστριες) θα είναι αρνητικό

Σημείωση:

Το \(b_0\) αναπαριστά τον μέσο όρο της ομάδας αναφοράς (μη καπνίστριες), ο οποίος θα είναι θετικός (τα μωρά έχουν θετικό βάρος!).

2. Αν το κάπνισμα δεν έχει καμία επίδραση στα βάρη γέννησης στη ΔΠΔ, τι θα περιμέναμε;

Σωστή απάντηση: Α — Το \(\beta_1\) θα ήταν μηδέν


Η λογική:

Αν το κάπνισμα δεν έχει καμία επίδραση στα βάρη γέννησης στη ΔΠΔ:

  • Δεν θα υπήρχε διαφορά μεταξύ των μέσων βαρών γέννησης των δύο ομάδων
  • Η παράμετρος \(\beta_1\) (η πραγματική διαφορά στη ΔΠΔ) θα ήταν μηδέν
  • Αυτό είναι το κενό μοντέλο ή η μηδενική υπόθεση

Γιατί οι άλλες επιλογές είναι λάθος:

  • Β. \(\beta_0\) θα ήταν μηδέν: Το \(\beta_0\) είναι ο μέσος όρος της ομάδας αναφοράς — τα μωρά έχουν θετικό βάρος, άρα δεν θα ήταν μηδέν.

  • Γ. \(e_i\) θα ήταν μηδέν: Τα κατάλοιπα (\(e_i\)) αντιπροσωπεύουν την ατομική μεταβλητότητα — πάντα θα υπάρχει κάποια μεταβλητότητα.

  • Δ. \(b_0\) θα ήταν μηδέν: Το \(b_0\) είναι η δειγματική εκτίμηση του σταθερού όρου — θα είναι θετικό (μέσο βάρος μωρών).

3. Εκτελέστε κώδικα για να προσαρμόσετε ένα μοντέλο που διερευνά την ιδέα ότι wt = smoke + άλλοι παράγοντες. Τι αναπαριστά η τιμή \(-9.76\) στο μοντέλο;

Σωστή απάντηση: Β — \(b_1\)


Η λογική:

Όταν προσαρμόζουμε το μοντέλο wt ~ smoke, η R μας δίνει:

  • (Intercept): Ο μέσος όρος βάρους γέννησης για την ομάδα αναφοράς (μη καπνίστριες) — αυτό είναι το \(b_0\)
  • smokenow: Η διαφορά στο μέσο βάρος γέννησης μεταξύ καπνιστριών και μη καπνιστριών — αυτό είναι το \(b_1\)

Η τιμή \(-9.76\) είναι το \(b_1\) (η δειγματική εκτίμηση), που σημαίνει:

Τα μωρά των μητέρων που καπνίζουν έχουν κατά μέσο όρο \(9.76\) ουγγιές λιγότερο βάρος γέννησης από τα μωρά των μη καπνιστριών.


Γιατί όχι \(\beta_1\);

Το \(\beta_1\) είναι η πραγματική παράμετρος στη ΔΠΔ (άγνωστη). Το \(b_1\) είναι η δειγματική εκτίμηση που υπολογίζουμε από τα δεδομένα μας.

4. Σύμφωνα με το καλύτερα προσαρμοσμένο μοντέλο wt = smoke + άλλοι παράγοντες, ποιο θα ήταν το προβλεπόμενο βάρος για ένα νεογνό μιας μητέρας που δεν καπνίζει;

Σωστή απάντηση: Α — 123 ουγγιές


Ο υπολογισμός:

Το μοντέλο είναι:

\[\hat{Y}_i = b_0 + b_1 \cdot X_i\]

Όπου:

  • \(b_0 = 123\) (το intercept, μέσος όρος για μη καπνίστριες)
  • \(b_1 = -9.76\) (η διαφορά για τις καπνίστριες)
  • \(X_i = 0\) για μη καπνίστριες, \(X_i = 1\) για καπνίστριες

Για μια μητέρα που δεν καπνίζει (\(X_i = 0\)):

\[\hat{Y}_i = 123 + (-9.76) \cdot 0 = 123\]

Το προβλεπόμενο βάρος είναι 123 ουγγιές.


Σημείωση:

Για μια μητέρα που καπνίζει (\(X_i = 1\)), το προβλεπόμενο βάρος θα ήταν:

\[\hat{Y}_i = 123 + (-9.76) \cdot 1 = 113.24 \text{ ουγγιές}\]

5. Σύμφωνα με το καλύτερα προσαρμοσμένο μοντέλο wt = smoke + άλλοι παράγοντες, ποια θα ήταν η τιμή του \(X_i\) για ένα νεογνό που γεννήθηκε από μια μητέρα που δεν καπνίζει;

Σωστή απάντηση: Δ — \(X_i = 0\)


Η λογική:

Στα μοντέλα ομάδων, η R χρησιμοποιεί ψευδομεταβλητή κωδικοποίηση (dummy coding):

  • Η ομάδα αναφοράς (μη καπνίστριες / «never») κωδικοποιείται ως \(X_i = 0\)
  • Η άλλη ομάδα (καπνίστριες / «now») κωδικοποιείται ως \(X_i = 1\)

Επομένως, για μια μητέρα που δεν καπνίζει, \(X_i = 0\).


Γιατί οι άλλες επιλογές είναι λάθος:

  • Α. \(X_i = 123\): Το 123 είναι το \(b_0\) (ο σταθερός όρος), όχι η τιμή του \(X_i\).

  • Β. \(X_i = -9.76\): Το \(-9.76\) είναι το \(b_1\) (η κλίση/διαφορά), όχι η τιμή του \(X_i\).

  • Γ. \(X_i = 1\): Αυτή θα ήταν η τιμή για μια μητέρα που καπνίζει, όχι για μη καπνίστρια.

6. Σύμφωνα με το καλύτερα προσαρμοσμένο μοντέλο wt = smoke + άλλοι παράγοντες, τι αναπαριστά το \(-9.76\);

Σωστή απάντηση: Β — Τη μέση διαφορά στο βάρος των νεογνών που γεννήθηκαν από μητέρες που καπνίζουν σε σχέση με μητέρες που δεν καπνίζουν.


Η λογική:

Στο μοντέλο wt ~ smoke:

  • \(b_0 = 123\): Ο μέσος όρος βάρους για την ομάδα αναφοράς (μη καπνίστριες)
  • \(b_1 = -9.76\): Η διαφορά μεταξύ των δύο ομάδων

Το \(-9.76\) σημαίνει:

Τα νεογνά μητέρων που καπνίζουν έχουν κατά μέσο όρο \(9.76\) ουγγιές λιγότερο βάρος από τα νεογνά μητέρων που δεν καπνίζουν.


Γιατί οι άλλες επιλογές είναι λάθος:

  • Α: Το μέσο βάρος για μη καπνίστριες είναι το \(b_0 = 123\), όχι το \(-9.76\).

  • Γ: Το μέσο βάρος για καπνίστριες είναι \(b_0 + b_1 = 123 + (-9.76) = 113.24\) ουγγιές.

  • Δ: Το συνολικό μέσο βάρος όλων των νεογνών δεν είναι το \(-9.76\) (θα ήταν κάπου μεταξύ 113 και 123).

7. Αν οι ερευνητές είχαν συλλέξει ένα διαφορετικό δείγμα 500 νεογνών, ποια τιμή θα ήταν διαφορετική;

Σωστή απάντηση: Δ — Πιθανότατα, όλα τα παραπάνω


Η λογική:

Αν συλλέξουμε ένα διαφορετικό δείγμα από τον ίδιο πληθυσμό:

  • \(Y_i\) (τα βάρη γέννησης): Κάθε νεογνό στο νέο δείγμα θα έχει διαφορετικό βάρος — διαφορετικά άτομα, διαφορετικές τιμές.

  • \(b_1\) (η εκτιμώμενη διαφορά): Επειδή έχουμε διαφορετικά δεδομένα, η εκτίμηση της διαφοράς μεταξύ καπνιστριών και μη καπνιστριών θα είναι διαφορετική.

  • \(b_0\) (ο εκτιμώμενος μέσος της ομάδας αναφοράς): Ομοίως, ο μέσος όρος για τις μη καπνίστριες στο νέο δείγμα θα είναι διαφορετικός.


Σημαντική διάκριση:

Τι αλλάζει με νέο δείγμα Τι παραμένει σταθερό
\(Y_i\), \(b_0\), \(b_1\) (δειγματικές τιμές) \(\beta_0\), \(\beta_1\) (παράμετροι της ΔΠΔ)

Οι παράμετροι της ΔΠΔ (\(\beta_0\), \(\beta_1\)) είναι σταθερές — είναι η «αλήθεια» στον πληθυσμό. Οι δειγματικές εκτιμήσεις (\(b_0\), \(b_1\)) αλλάζουν από δείγμα σε δείγμα.

8. Στον παρακάτω κώδικα, τι κάνει η συνάρτηση shuffle() στο wt;

b1(shuffle(wt) ~ smoke, data = newborns)

Σωστή απάντηση: Δ — Ανακατεύει τις τιμές στη στήλη wt.


Τι κάνει η shuffle():

Η συνάρτηση shuffle() ανακατανέμει τυχαία τις τιμές της μεταβλητής που της δίνουμε:

  • Παίρνει όλες τις υπάρχουσες τιμές του wt (τα βάρη γέννησης)
  • Τις ανακατεύει τυχαία
  • Τις αντιστοιχίζει σε διαφορετικές γραμμές

Αποτέλεσμα: Η σύνδεση μεταξύ wt και smoke σπάει — προσομοιώνουμε έναν κόσμο όπου δεν υπάρχει σχέση μεταξύ καπνίσματος και βάρους γέννησης (\(\beta_1 = 0\)).


Γιατί οι άλλες επιλογές είναι λάθος:

  • Α: Δεν δημιουργεί νέους αριθμούς — χρησιμοποιεί τις υπάρχουσες τιμές, απλώς τις ανακατανέμει.

  • Β: Το αντίθετο — η shuffle() καταστρέφει οποιαδήποτε σχέση μεταξύ wt και smoke.

  • Γ: Δεν ανακατεύει τις γραμμές — ανακατεύει μόνο τις τιμές μιας στήλης (wt).

9. Για να πάρουμε το παραπάνω ιστόγραμμα, εκτελέσαμε τον ακόλουθο κώδικα:

sdob1 <- do(1000) * b1(shuffle(wt) ~ smoke, data = newborns)
gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95))

Τι αναπαριστά η κατανομή του \(b_1\) παραπάνω; (επιλέξτε όλα όσα ισχύουν)

Σωστές απαντήσεις: Β και Δ


Γιατί η Β είναι σωστή:

Η shuffle() καταστρέφει οποιαδήποτε σχέση μεταξύ wt και smoke, προσομοιώνοντας έναν κόσμο όπου \(\beta_1 = 0\). Το ιστόγραμμα δείχνει τι τιμές \(b_1\) θα περιμέναμε να δούμε τυχαία σε έναν τέτοιο κόσμο.

Γιατί η Δ είναι σωστή:

Ο κώδικας do(1000) * b1(shuffle(wt) ~ smoke, ...) δημιουργεί ακριβώς αυτό: 1000 τιμές \(b_1\), κάθε μία από ένα διαφορετικό ανακατανεμημένο δείγμα. Αυτή είναι η δειγματοληπτική κατανομή του \(b_1\) κάτω από το κενό μοντέλο.


Γιατί οι άλλες είναι λάθος:

  • Α: Η κατανομή δεν αποδεικνύει ότι \(\beta_1 = 0\) — απλώς δείχνει τι θα συνέβαινε αν \(\beta_1 = 0\). Χρησιμοποιούμε αυτή την κατανομή για να ελέγξουμε αν η υπόθεση \(\beta_1 = 0\) είναι εύλογη.

  • Γ: Δεν είναι 1000 βάρη μωρών — είναι 1000 τιμές \(b_1\) (διαφορές μεταξύ ομάδων), καθεμία υπολογισμένη από ένα ανακατανεμημένο δείγμα.

10. Τι προσομοιώσαμε με τον κώδικα στην Ερώτηση 9; (επιλέξτε όλα όσα ισχύουν)

Σωστές απαντήσεις: Α, Γ, Ε


Γιατί αυτές είναι σωστές:

Και οι τρεις σωστές απαντήσεις περιγράφουν το ίδιο πράγμα με διαφορετικούς τρόπους:

  • Α: Περιγράφει το αποτέλεσμα — δεν υπάρχει διαφορά στο μέσο βάρος μεταξύ των δύο ομάδων.

  • Γ: Περιγράφει τη ΔΠΔ — δεν υπάρχει σχέση μεταξύ smoke και wt.

  • Ε: Περιγράφει την παράμετρο — \(\beta_1 = 0\) (η πραγματική διαφορά στη ΔΠΔ είναι μηδέν).

Η shuffle() σπάει τη σύνδεση μεταξύ wt και smoke, προσομοιώνοντας το κενό μοντέλο.


Γιατί οι άλλες είναι λάθος:

  • Β. «ΔΠΔ όπου \(\beta_1 = -9.76\)»: Το \(-9.76\) είναι το δειγματικό \(b_1\) που παρατηρήσαμε στα πραγματικά δεδομένα. Η προσομοίωση υποθέτει \(\beta_1 = 0\), όχι \(-9.76\).

  • Δ. «Μωρά καπνιστριών πιο πιθανό να έχουν χαμηλότερο βάρος»: Αυτό θα σήμαινε \(\beta_1 < 0\), αλλά η προσομοίωση υποθέτει \(\beta_1 = 0\) (καμία διαφορά).

11. Στο παραπάνω ιστόγραμμα, ποια από τις ακόλουθες τιμές του \(b_1\) θα θεωρούνταν «απίθανη»;

Σωστή απάντηση: Δ — \(b_1 = -5.2\)


Η λογική:

Στο ιστόγραμμα, οι τιμές χρωματίζονται με βάση τη συνάρτηση middle(b1, .95):

  • Μοβ (TRUE): Το μεσαίο 95% — τιμές που θεωρούνται «όχι απίθανες»
  • Γαλάζιο (FALSE): Οι ουρές (το ακραίο 5%) — τιμές που θεωρούνται «απίθανες»

Κοιτάζοντας το ιστόγραμμα:

  • Οι γαλάζιες ουρές ξεκινούν περίπου από \(-5\) και κάτω, και από \(+5\) και πάνω
  • Η τιμή \(-5.2\) βρίσκεται στην αριστερή γαλάζια ουρά — είναι «απίθανη»

Γιατί οι άλλες επιλογές είναι «όχι απίθανες»:

  • Α. \(b_1 = 2.5\): Βρίσκεται στη μοβ περιοχή (μεσαίο 95%)
  • Β. \(b_1 = -2.5\): Βρίσκεται στη μοβ περιοχή
  • Γ. \(b_1 = 0\): Βρίσκεται στο κέντρο της μοβ περιοχής — η πιο «πιθανή» τιμή!

12. Ποιο είναι το κενό μοντέλο της ΔΠΔ; (επιλέξτε όλα όσα ισχύουν)

Σωστές απαντήσεις: Α και Β


Γιατί αυτές είναι σωστές:

Και οι δύο περιγράφουν το κενό μοντέλο με διαφορετικούς τρόπους:

  • Α. \(Y_i = \beta_0 + e_i\): Αυτή είναι η εξίσωση του κενού μοντέλου — η εξαρτημένη μεταβλητή εξηγείται μόνο από τον σταθερό όρο (μέσο όρο) και το σφάλμα. Δεν υπάρχει επεξηγηματική μεταβλητή.

  • Β. \(\beta_1 = 0\): Αυτό σημαίνει ότι η επεξηγηματική μεταβλητή δεν έχει καμία επίδραση — η κλίση/διαφορά είναι μηδέν.


Γιατί οι άλλες είναι λάθος:

  • Γ. \(\beta_0 = 0\): Το \(\beta_0\) είναι ο μέσος όρος της ομάδας αναφοράς (ή ο σταθερός όρος). Δεν χρειάζεται να είναι μηδέν στο κενό μοντέλο.

  • Δ. \(\epsilon_i = 0\): Τα σφάλματα δεν είναι ποτέ όλα μηδέν — πάντα υπάρχει κάποια μεταβλητότητα που δεν εξηγείται από το μοντέλο.

13. Τι σημαίνει όταν \(\beta_1 = 0\);

Σωστή απάντηση: Α — Δεν υπάρχει επίδραση της επεξηγηματικής μεταβλητής στην εξαρτημένη μεταβλητή στη ΔΠΔ.


Η λογική:

Το \(\beta_1\) είναι η παράμετρος της ΔΠΔ που αναπαριστά:

  • Σε μοντέλα ομάδων: την πραγματική διαφορά μεταξύ των ομάδων στον πληθυσμό
  • Σε μοντέλα παλινδρόμησης: την πραγματική κλίση στον πληθυσμό

Όταν \(\beta_1 = 0\), σημαίνει ότι στη ΔΠΔ (τον «πραγματικό κόσμο») δεν υπάρχει σχέση μεταξύ της επεξηγηματικής και της εξαρτημένης μεταβλητής.


Γιατί οι άλλες είναι λάθος:

  • Β: Αυτό θα ήταν \(b_1 = 0\) (δειγματική εκτίμηση), όχι \(\beta_1 = 0\) (παράμετρος ΔΠΔ).

  • Γ: Αυτό αφορά τα κατάλοιπα, όχι το \(\beta_1\).

  • Δ: Το \(\beta_1 = 0\) δεν είναι λάθος — είναι μια συγκεκριμένη υπόθεση για τη ΔΠΔ.

14. Κοιτάζοντας το παραπάνω ιστόγραμμα, ποια θα ήταν η κατά προσέγγιση τιμή \(p\) για ένα δειγματικό \(b_1\) ίσο με \(-10\);

Σωστή απάντηση: Β — \(p < 0.05\)


Η λογική:

Κοιτάζοντας το ιστόγραμμα:

  • Η κατανομή εκτείνεται περίπου από \(-6\) έως \(+6\)
  • Η τιμή \(b_1 = -10\) είναι πολύ πιο αριστερά από οποιαδήποτε τιμή στην κατανομή
  • Βρίσκεται πολύ πέρα από την αριστερή γαλάζια ουρά (που αντιπροσωπεύει το 0.025)

Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) τόσο ακραία ή πιο ακραία από -10. Επειδή το \(-10\) είναι πιο ακραίο από σχεδόν όλες τις προσομοιωμένες τιμές:

$\(p\) <$ 0.05

Στην πραγματικότητα, η τιμή \(p\) θα ήταν πολύ μικρότερη από 0.05 — πιθανώς κοντά στο 0.001 ή ακόμα μικρότερη.


Τι σημαίνει αυτό;

Μια τιμή \(b_1 = -10\) θα ήταν εξαιρετικά απίθανη να έχει παραχθεί από μια ΔΠΔ όπου \(\beta_1 = 0\). Θα απορρίπταμε σίγουρα το κενό μοντέλο.

15. Το κενό μοντέλο υποθέτει ότι η κατά προσέγγιση τιμή του \(b_1\) θα είναι ποια τιμή;

Σωστή απάντηση: Α — 0


Η λογική:

Το κενό μοντέλο υποθέτει ότι \(\beta_1 = 0\) στη ΔΠΔ — δηλαδή, δεν υπάρχει σχέση μεταξύ της επεξηγηματικής και της εξαρτημένης μεταβλητής.

Αν \(\beta_1 = 0\) είναι αληθές, τότε θα περιμέναμε οι δειγματικές εκτιμήσεις \(b_1\) να είναι κοντά στο 0 (με κάποια τυχαία μεταβλητότητα γύρω από το 0).

Αυτός είναι ο λόγος που η δειγματοληπτική κατανομή που δημιουργούμε με τη shuffle() είναι κεντραρισμένη στο 0.

16. Γιατί περιμένουμε οι εκτιμήσεις \(b_1\) να ποικίλλουν στη δειγματοληπτική κατανομή;

Σωστή απάντηση: Β — Επειδή προέρχονται όλες από μια τυχαία ΔΠΔ.


Η λογική:

Η δειγματοληπτική κατανομή δημιουργείται με τυχαία ανακατανομή (shuffling) των δεδομένων. Κάθε φορά που εκτελούμε τη shuffle(), παίρνουμε μια διαφορετική τυχαία αντιστοίχιση μεταξύ των τιμών wt και smoke.

Αυτή η τυχαιότητα στη διαδικασία παραγωγής δεδομένων (ΔΠΔ) είναι που δημιουργεί τη μεταβλητότητα στις εκτιμήσεις \(b_1\).


Γιατί οι άλλες είναι λάθος:

  • Α: Το μέγεθος δείγματος παραμένει σταθερό (n = 500) σε κάθε ανακατανομή.

  • Γ: Σίγουρα περιμένουμε μεταβλητότητα — αυτός είναι ο σκοπός της δειγματοληπτικής κατανομής!

  • Δ: Η μεταβλητότητα στο wt υπάρχει, αλλά δεν είναι αυτή που εξηγεί τη μεταβλητότητα στις τιμές \(b_1\) — είναι η τυχαία ανακατανομή.

17. Είναι δυνατόν να δημιουργηθεί ένα \(b_1\) τόσο υψηλό όσο το 10 στην παραπάνω δειγματοληπτική κατανομή;

Σωστή απάντηση: Α — Είναι δυνατό, αλλά εξαιρετικά απίθανο.


Η λογική:

Η δειγματοληπτική κατανομή που βλέπουμε βασίζεται σε 1000 προσομοιώσεις. Δείχνει τις τιμές \(b_1\) που παρατηρήθηκαν σε αυτές τις 1000 επαναλήψεις.

Ωστόσο, η θεωρητική δειγματοληπτική κατανομή (με άπειρες επαναλήψεις) θα είχε ουρές που εκτείνονται απεριόριστα. Το ότι δεν βλέπουμε τιμή 10 στις 1000 προσομοιώσεις μας δεν σημαίνει ότι είναι αδύνατο — απλώς είναι εξαιρετικά απίθανο.


Γιατί οι άλλες είναι λάθος:

  • Β: Το ότι η ουρά του ιστογράμματος δεν φτάνει στο 10 δεν σημαίνει ότι είναι αδύνατο. Με περισσότερες προσομοιώσεις, θα μπορούσαμε να δούμε πιο ακραίες τιμές.

  • Γ: Σίγουρα δεν είναι «εξαιρετικά πιθανό» — οι περισσότερες τιμές είναι κοντά στο 0.

  • Δ: Το ότι οι περισσότερες τιμές είναι γύρω από το μηδέν δεν καθιστά τις ακραίες τιμές αδύνατες — απλώς τις καθιστά σπάνιες.

18. Γράψτε κώδικα για να αξιολογήσετε το μοντέλο wt = smoke + άλλοι παράγοντες με έναν πίνακα ANOVA. Ερμηνεύστε την τιμή \(p\).

Σωστή απάντηση: Δ — Υπάρχει λιγότερο από 0.05 πιθανότητα το δειγματικό μας \(b_1\) να προέρχεται από μια ΔΠΔ όπου \(\beta_1 = 0\).


Ο κώδικας:

supernova(lm(wt ~ smoke, data = newborns))

Η έξοδος θα δείξει: \(p < 0.05\) (περίπου \(p < 0.001\))


Ερμηνεία της τιμής \(p\):

Η τιμή \(p\) μας λέει την πιθανότητα να παρατηρήσουμε ένα \(b_1\) τόσο ακραίο όσο το \(-9.76\) (ή πιο ακραίο) αν το κενό μοντέλο ήταν αληθές (δηλαδή, αν \(\beta_1 = 0\)).

Επειδή \(p < 0.05\):

  • Το δειγματικό μας \(b_1\) είναι απίθανο να έχει προκύψει από μια ΔΠΔ όπου \(\beta_1 = 0\)
  • Απορρίπτουμε το κενό μοντέλο
  • Συμπεραίνουμε ότι υπάρχει σχέση μεταξύ του καπνίσματος της μητέρας και του βάρους γέννησης

Γιατί οι άλλες είναι λάθος:

  • Α: Αναφέρεται σε \(\beta_0 = 0\), αλλά ελέγχουμε αν \(\beta_1 = 0\).

  • Β & Γ: Η τιμή \(p\) δεν είναι η πιθανότητα το μοντέλο να είναι αληθές ή ψευδές — είναι η πιθανότητα των δεδομένων δεδομένης της υπόθεσης.

Το πλαίσιο δεδομένων top_50 περιέχει πληροφορίες για τα κορυφαία 50 τραγούδια του 2019 στο Spotify.

  • track_name Το όνομα του τραγουδιού
  • artist_name Το όνομα του καλλιτέχνη
  • genre Το μουσικό είδος του τραγουδιού
  • bpm Οι παλμοί ανά λεπτό του τραγουδιού (tempo)
  • danceability Η χορευτικότητα του τραγουδιού: όσο υψηλότερη η τιμή, τόσο πιο εύκολο είναι να χορέψεις σε αυτό το τραγούδι
  • length Η διάρκεια του τραγουδιού (σε δευτερόλεπτα)
  • popularity Η δημοτικότητα του τραγουδιού: όσο υψηλότερη η τιμή, τόσο πιο δημοφιλές είναι το τραγούδι

1. Αν θέλαμε να χρησιμοποιήσουμε αυτά τα δεδομένα για να μαντέψουμε την επίδραση της χορευτικότητας στη μέση δημοτικότητα των τραγουδιών στη Διαδικασία Παραγωγής Δεδομένων (ΔΠΔ), τι θα προσπαθούσαμε να εκτιμήσουμε;

Σωστή απάντηση: Α — \(\beta_1\)


Η λογική:

Στο μοντέλο popularity ~ danceability:

  • \(\beta_1\) είναι η παράμετρος της ΔΠΔ που αναπαριστά την επίδραση της χορευτικότητας στη δημοτικότητα
  • Συγκεκριμένα, το \(\beta_1\) μας λέει πόσο αλλάζει η δημοτικότητα για κάθε μονάδα αύξησης στη χορευτικότητα στον πληθυσμό

Χρησιμοποιούμε τα δεδομένα μας για να υπολογίσουμε το \(b_1\) (τη δειγματική εκτίμηση), το οποίο είναι η καλύτερη εκτίμησή μας για το άγνωστο \(\beta_1\).


Γιατί οι άλλες είναι λάθος:

  • Β. Τυπικό σφάλμα: Το τυπικό σφάλμα μετρά την ακρίβεια της εκτίμησης, όχι την ίδια την επίδραση.

  • Γ. \(\beta_0\): Το \(\beta_0\) είναι ο σταθερός όρος (η αναμενόμενη δημοτικότητα όταν η χορευτικότητα είναι 0), όχι η επίδραση της χορευτικότητας.

  • Δ. \(X_i\): Το \(X_i\) είναι η τιμή της χορευτικότητας για κάθε τραγούδι — είναι η επεξηγηματική μεταβλητή, όχι η παράμετρος που εκτιμούμε.

2. Γράψτε κώδικα για να προσαρμόσετε ένα μοντέλο που διερευνά αυτή την υπόθεση: popularity = danceability + άλλοι παράγοντες. Επιλέξτε τη σωστή σημειογραφία GLM για το μοντέλο (στρογγυλοποιημένη σε τρία δεκαδικά).

Σωστή απάντηση: Γ — \(Y_i = 89.419 + 0.027X_i + e_i\)


Ο κώδικας:

lm(popularity ~ danceability, data = top_50)

Η έξοδος:

Coefficients:
 (Intercept)  danceability
      89.419         0.027

Ερμηνεία:

Η εξίσωση του μοντέλου είναι:

\[Y_i = b_0 + b_1 \cdot X_i + e_i\]

Όπου:

  • \(b_0 = 89.419\) (το intercept / σταθερός όρος)
  • \(b_1 = 0.027\) (η κλίση)
  • \(X_i\) = η χορευτικότητα του τραγουδιού \(i\)
  • \(Y_i\) = η δημοτικότητα του τραγουδιού \(i\)

Ερμηνεία του \(b_1 = 0.027\):

Για κάθε αύξηση 1 μονάδας στη χορευτικότητα, η δημοτικότητα αυξάνεται κατά μέσο όρο κατά 0.027 μονάδες.

3. Ερμηνεύστε το \(b_1\) στο μοντέλο.

Σωστή απάντηση: Δ — Το ποσό κατά το οποίο προσαρμόζουμε τη μέση δημοτικότητα ενός τραγουδιού καθώς η χορευτικότητα αυξάνεται.


Η λογική:

Στο μοντέλο παλινδρόμησης popularity ~ danceability:

  • Η δημοτικότητα (popularity) είναι η εξαρτημένη μεταβλητή (\(Y\))
  • Η χορευτικότητα (danceability) είναι η επεξηγηματική μεταβλητή (\(X\))

Το \(b_1\) είναι η κλίση της γραμμής παλινδρόμησης, που μας λέει:

Πόσο αλλάζει η δημοτικότητα για κάθε μονάδα αύξησης στη χορευτικότητα.

Με \(b_1\) = 0.027, για κάθε αύξηση 1 μονάδας στη χορευτικότητα, η δημοτικότητα αυξάνεται κατά 0.027 μονάδες.


Γιατί οι άλλες είναι λάθος:

  • Α: Αυτό περιγράφει το \(b_0\) (σταθερός όρος), όχι το \(b_1\).

  • Β: Αυτό αντιστρέφει τις μεταβλητές — η χορευτικότητα είναι η επεξηγηματική, όχι η εξαρτημένη.

  • Γ: Αυτό επίσης αντιστρέφει τη σχέση — προβλέπουμε τη δημοτικότητα από τη χορευτικότητα, όχι το αντίστροφο.

4. Είναι το δειγματικό \(b_1\) το πραγματικό \(\beta_1\) στη ΔΠΔ;

Σωστή απάντηση: Α — Δεν μπορούμε να είμαστε σίγουροι για το πραγματικό \(\beta_1\) στη ΔΠΔ.


Η λογική:

Η θεμελιώδης διάκριση είναι:

Σύμβολο Τι είναι Γνωστό;
\(b_1\) Δειγματική εκτίμηση Ναι — το υπολογίζουμε από τα δεδομένα
\(\beta_1\) Παράμετρος της ΔΠΔ Όχι — είναι άγνωστη

Το \(b_1\) είναι η καλύτερη εκτίμησή μας για το \(\beta_1\), αλλά:

  • Κάθε δείγμα θα έδινε διαφορετικό \(b_1\)
  • Δεν μπορούμε ποτέ να ξέρουμε με βεβαιότητα το πραγματικό \(\beta_1\)
  • Μπορούμε μόνο να κάνουμε συμπερασματολογία για το \(\beta_1\) με βάση το \(b_1\)

Γιατί οι άλλες είναι λάθος:

  • Β & Γ: Το μέγεθος δείγματος και το τυπικό σφάλμα επηρεάζουν την ακρίβεια της εκτίμησης, αλλά ακόμα και με τέλειο δείγμα, το \(b_1\) δεν είναι ακριβώς ίσο με το \(\beta_1\).

  • Δ: Ακόμα και με μεγάλο δείγμα, δεν μπορούμε να είμαστε σίγουροι — μπορούμε μόνο να είμαστε πιο ακριβείς.

5. Γιατί μπορεί να είναι χρήσιμο να υπολογίσουμε τιμές \(b_1\) από πολλά τυχαία δείγματα που προέρχονται από το κενό μοντέλο της ΔΠΔ;

Σωστή απάντηση: Δ — Επειδή η δειγματοληπτική κατανομή που προκύπτει θα μας δώσει μια ιδέα για το πόσο θα μπορούσαν να ποικίλλουν οι δειγματικές τιμές \(b_1\) από μια τυχαία ΔΠΔ.


Η λογική:

Η δειγματοληπτική κατανομή από το κενό μοντέλο (όπου \(\beta_1 = 0\)) μας δείχνει:

  • Τι τιμές \(b_1\) θα περιμέναμε να δούμε μόνο από τύχη
  • Πόσο μεταβλητές είναι αυτές οι τιμές
  • Αν το πραγματικό μας \(b_1\) είναι ασυνήθιστο σε σχέση με αυτές τις τυχαίες τιμές

Αυτό μας επιτρέπει να αποφασίσουμε αν το δειγματικό μας \(b_1\) θα μπορούσε να έχει προκύψει από τύχη ή αν υποδηλώνει πραγματική σχέση.


Γιατί οι άλλες είναι λάθος:

  • Α: Ο μέσος της κατανομής από το κενό μοντέλο θα είναι περίπου 0 — δεν μας λέει το πραγματικό \(\beta_1\).

  • Β: Η κανονικότητα της δειγματοληπτικής κατανομής δεν αποδεικνύει τίποτα για τον πληθυσμό.

  • Γ: Δεν προσπαθούμε να προσαρμόσουμε καμπύλη στη δειγματική κατανομή.

Το παραπάνω ιστόγραμμα δημιουργήθηκε με τον ακόλουθο κώδικα:

sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)
gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95))

6. Ποια από τις παρακάτω είναι αληθής δήλωση;

Σωστή απάντηση: Δ — Το τυπικό σφάλμα αυτής της κατανομής είναι μικρότερο από την τυπική απόκλιση του popularity.


Η λογική:

Υπάρχει μια σημαντική διάκριση μεταξύ:

Μέτρο Τι μετρά Τυπικό μέγεθος
Τυπική απόκλιση του popularity Μεταβλητότητα των ατομικών τιμών δημοτικότητας Μεγαλύτερο
Τυπικό σφάλμα του \(b_1\) Μεταβλητότητα των εκτιμήσεων \(b_1\) Μικρότερο

Κοιτάζοντας το ιστόγραμμα:

  • Οι τιμές \(b_1\) κυμαίνονται περίπου από -0.15 έως +0.20
  • Το τυπικό σφάλμα είναι περίπου 0.05 έως 0.07

Η τυπική απόκλιση του popularity (μετρημένη σε μονάδες δημοτικότητας 0-100) θα είναι πολύ μεγαλύτερη — πιθανώς γύρω στο 5-15.


Γενικός κανόνας:

Το τυπικό σφάλμα μιας εκτίμησης είναι σχεδόν πάντα μικρότερο από την τυπική απόκλιση της αρχικής μεταβλητής, επειδή οι μέσοι όροι (και οι κλίσεις) είναι λιγότερο μεταβλητοί από τις ατομικές τιμές.

7. Αν στοιβάζατε όλες τις μπάρες του ιστογράμματος, ποιο θα ήταν το συνολικό πλήθος;

Σωστή απάντηση: Δ — 1.000


Η λογική:

Κοιτάζοντας τον κώδικα:

sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)

Η συνάρτηση do(1000) εκτελεί την ανακατανομή 1000 φορές, δημιουργώντας 1000 τιμές \(b_1\).

Κάθε μπάρα στο ιστόγραμμα αναπαριστά ένα bin που περιέχει κάποιες από αυτές τις 1000 τιμές. Αν στοιβάξουμε όλες τις μπάρες:

\[\text{Συνολικό πλήθος} = \text{Αριθμός προσομοιώσεων} = 1000\]


Γιατί οι άλλες είναι λάθος:

  • Α: Το ιστόγραμμα μετρά πόσες τιμές \(b_1\) υπάρχουν σε κάθε bin, όχι το άθροισμα των τιμών τους.

  • Β. 50: Το 50 είναι ο αριθμός των τραγουδιών στο αρχικό σύνολο δεδομένων (top_50), όχι ο αριθμός των προσομοιώσεων.

  • Γ. 95: Το 95 σχετίζεται με το middle(b1, .95) που χρωματίζει το μεσαίο 95% της κατανομής, αλλά δεν είναι το πλήθος.

8. Παρόλο που το δειγματικό \(b_1\) δεν είναι μηδέν, είναι ακόμα δυνατό να προήλθε από μια ΔΠΔ όπου \(\beta_1 = 0\);

Σωστή απάντηση: Α — Ναι, επειδή ακόμα κι αν \(\beta_1 = 0\), η ΔΠΔ μπορεί να παράγει δείγματα όπου το \(b_1\) δεν είναι μηδέν.


Η λογική:

Αυτή είναι η θεμελιώδης ιδέα της δειγματοληπτικής μεταβλητότητας!

Ακόμα κι όταν η πραγματική παράμετρος \(\beta_1 = 0\) στη ΔΠΔ:

  • Κάθε δείγμα θα δώσει μια διαφορετική εκτίμηση \(b_1\)
  • Αυτές οι εκτιμήσεις θα ποικίλλουν γύρω από το 0
  • Μερικές θα είναι θετικές, μερικές αρνητικές
  • Σπάνια θα είναι ακριβώς 0

Αυτός είναι ο λόγος που δημιουργούμε τη δειγματοληπτική κατανομή — για να δούμε τι τιμές \(b_1\) είναι «φυσιολογικές» όταν \(\beta_1 = 0\), ώστε να μπορούμε να κρίνουμε αν η δική μας τιμή \(b_1\) είναι ασυνήθιστη.


Παράδειγμα από το ιστόγραμμα:

Κοιτάζοντας το ιστόγραμμα της ερώτησης 6, βλέπουμε ότι ακόμα κι όταν το κενό μοντέλο (\(\beta_1 = 0\)) είναι αληθές, οι τιμές \(b_1\) κυμαίνονται από περίπου \(-0.15\) έως \(+0.20\). Καμία από αυτές δεν είναι ακριβώς 0!

Το παραπάνω ιστόγραμμα δημιουργήθηκε με τον ακόλουθο κώδικα:

sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)
gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95))

9. Εκτελέστε κώδικα για να πάρετε το δειγματικό \(b_1\) για το μοντέλο popularity = danceability + άλλοι παράγοντες. Θα θεωρούνταν το δειγματικό \(b_1\) μία από τις «πιθανές» τιμές \(b_1\) στο παραπάνω ιστόγραμμα;

Σωστή απάντηση: Β — Ναι, πέφτει μέσα στο μεσαίο 95% των τιμών \(b_1\).


Η λογική:

Από την ερώτηση 2, γνωρίζουμε ότι το δειγματικό \(b_1 = 0.027\).

Κοιτάζοντας το ιστόγραμμα:

  • Η μοβ περιοχή (μεσαίο 95%) εκτείνεται περίπου από -0.10 έως +0.12
  • Η τιμή 0.027 βρίσκεται μέσα σε αυτό το εύρος
  • Επομένως, το δειγματικό \(b_1\) θεωρείται «πιθανό» ή «όχι απίθανο»

Τι σημαίνει αυτό;

  • Η τιμή \(b_1 = 0.027\) θα μπορούσε να έχει προκύψει από μια ΔΠΔ όπου \(\beta_1 = 0\)
  • Δεν μπορούμε να απορρίψουμε το κενό μοντέλο
  • Η χορευτικότητα μπορεί να μην έχει πραγματική επίδραση στη δημοτικότητα

10. Αν το δειγματικό \(b_1\) είναι μία από τις «πιθανές» τιμές \(b_1\) στη δειγματοληπτική κατανομή, τι υποδηλώνει αυτό για τη ΔΠΔ; (επιλέξτε όλα όσα ισχύουν)

Σωστές απαντήσεις: Α, Β, Γ


Γιατί αυτές είναι σωστές:

Και οι τρεις πρώτες επιλογές λένε το ίδιο πράγμα με διαφορετικούς τρόπους:

  • Α: «Δεν υπάρχει επίδραση της χορευτικότητας στη δημοτικότητα» = \(\beta_1 = 0\)
  • Β: Απευθείας αναφορά στο \(\beta_1 = 0\)
  • Γ: «Το κενό μοντέλο είναι αληθές» = \(\beta_1 = 0\)

Αν το δειγματικό μας \(b_1\) πέφτει στο μεσαίο 95% της δειγματοληπτικής κατανομής που δημιουργήθηκε υποθέτοντας \(\beta_1 = 0\), τότε:

Το δείγμα μας είναι συμβατό με την υπόθεση ότι \(\beta_1 = 0\).


Γιατί η Δ είναι λάθος:

Η δειγματοληπτική κατανομή δημιουργήθηκε υποθέτοντας ότι δεν υπάρχει επίδραση (\(\beta_1 = 0\)). Αν το δείγμα μας ταιριάζει σε αυτή την κατανομή, δεν έχουμε λόγο να πιστεύουμε ότι υπάρχει επίδραση.


Σημαντική σημείωση:

Αυτό δεν αποδεικνύει ότι \(\beta_1 = 0\). Απλώς σημαίνει ότι το κενό μοντέλο παραμένει εύλογο — δεν μπορούμε να το απορρίψουμε με βάση τα δεδομένα μας.

11. Όταν χρησιμοποιούμε τη συνάρτηση shuffle() για να δημιουργήσουμε μια δειγματοληπτική κατανομή τιμών \(b_1\), γιατί η κατανομή είναι κεντραρισμένη γύρω από το μηδέν;

Σωστή απάντηση: Β — Επειδή προσομοιώνουμε μια ΔΠΔ όπου δεν υπάρχει επίδραση της χορευτικότητας στη δημοτικότητα.


Η λογική:

Η συνάρτηση shuffle() ανακατεύει τις τιμές της εξαρτημένης μεταβλητής (popularity), σπάζοντας οποιαδήποτε σύνδεση με την επεξηγηματική μεταβλητή (danceability).

Αυτό προσομοιώνει μια ΔΠΔ όπου:

  • \(\beta_1 = 0\) (το κενό μοντέλο είναι αληθές)
  • Η χορευτικότητα δεν έχει καμία επίδραση στη δημοτικότητα
  • Οποιαδήποτε παρατηρούμενη σχέση οφείλεται μόνο στην τύχη

Επειδή \(\beta_1 = 0\), οι τιμές \(b_1\) που υπολογίζονται από τα ανακατανεμημένα δεδομένα θα κυμαίνονται γύρω από το 0.


Γιατί οι άλλες είναι λάθος:

  • Α: Αν προσομοιώναμε το σύνθετο μοντέλο (όπου \(\beta_1 \neq 0\)), η κατανομή θα ήταν κεντραρισμένη σε μια μη μηδενική τιμή.

  • Γ: Δεν προσομοιώνουμε τα δειγματικά μας δεδομένα — προσομοιώνουμε μια υποθετική ΔΠΔ χωρίς επίδραση.

  • Δ: Η ΔΠΔ που προσομοιώνουμε δεν έχει «μηδενική πιθανότητα» — είναι απλώς μια υπόθεση που ελέγχουμε.

12. Γράψτε κώδικα για να αξιολογήσετε το μοντέλο popularity = danceability + άλλοι παράγοντες με έναν πίνακα ANOVA. Ερμηνεύστε την τιμή \(p\).

Σωστή απάντηση: Γ — Υπάρχει περισσότερο από 0.05 πιθανότητα το δειγματικό μας \(b_1\) να είναι πιθανό να προέρχεται από μια ΔΠΔ όπου \(\beta_1 = 0\).


Ο πίνακας ANOVA θα δείξει: \(p \approx 0.62\)

Ερμηνεία:

Η τιμή \(p\) = 0.62 σημαίνει:

  • Υπάρχει 62% πιθανότητα να παρατηρήσουμε ένα \(b_1\) τόσο ακραίο (ή πιο ακραίο) από το 0.027 αν το κενό μοντέλο (\(\beta_1\) = 0) είναι αληθές
  • Επειδή \(p\) = 0.62 > 0.05$, το δειγματικό μας \(b_1\) είναι «όχι απίθανο»
  • Δεν απορρίπτουμε το κενό μοντέλο
  • Δεν έχουμε αρκετά στοιχεία για να πούμε ότι η χορευτικότητα επηρεάζει τη δημοτικότητα

Γιατί οι άλλες είναι λάθος:

  • Α: Αυτό θα ίσχυε αν \(p < 0.05\), αλλά \(p = 0.62\).

  • Β & Δ: Η τιμή \(p\) δεν είναι η πιθανότητα ένα μοντέλο να είναι αληθές. Είναι η πιθανότητα των δεδομένων δεδομένης της υπόθεσης.

Το παραπάνω ιστόγραμμα δημιουργήθηκε με τον ακόλουθο κώδικα:

sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)
gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95))

13. Τι αναπαριστά η χρωματισμένη περιοχή στις δύο εξωτερικές ουρές;

Σωστή απάντηση: Α — Το alpha (άλφα)


Η λογική:

Ο κώδικας fill = ~middle(b1, .95) χρωματίζει:

  • Μοβ: Το μεσαίο 95% της κατανομής (τιμές «όχι απίθανες»)
  • Γαλάζιο (ουρές): Το εξωτερικό 5% της κατανομής (τιμές «απίθανες»)

Οι δύο ουρές μαζί αναπαριστούν το \(\alpha\) (alpha) = 0.05:

  • Αριστερή ουρά: 0.025 (2,5%)
  • Δεξιά ουρά: 0.025 (2,5%)
  • Σύνολο: 0.05 (5%)

Το \(\alpha\) είναι το προκαθορισμένο κριτήριο που χρησιμοποιούμε για να αποφασίσουμε αν μια τιμή είναι «απίθανη».


Διάκριση alpha vs p-value:

Alpha (\(\alpha\)) Τιμή \(p\)
Τι είναι Προκαθορισμένο κριτήριο Υπολογισμένη πιθανότητα
Πότε ορίζεται Πριν τη μελέτη Μετά τη μελέτη
Τυπική τιμή 0.05 Εξαρτάται από τα δεδομένα
Στο ιστόγραμμα Οι σταθερές ουρές Η περιοχή πέρα από το δειγματικό \(b_1\)

Τα παραπάνω ιστογράμματα δημιουργήθηκαν με τον παρακάτω κώδικα:

sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)

# Ιστόγραμμα 1
gf_histogram(~b1, data = sdob1, bins = 80, fill = ~middle(b1, .95)) %>%
  gf_labs(title = "Histogram 1")

# Ιστόγραμμα 2
gf_histogram(~b1, data = sdob1, bins = 80, fill = ~middle(b1, .80)) %>%
  gf_labs(title = "Histogram 2")

14. Ποιο ιστόγραμμα έχει το μεγαλύτερο επίπεδο alpha;

Σωστή απάντηση: Γ — Ιστόγραμμα 2


Η λογική:

Η συνάρτηση middle(b1, x) χρωματίζει το μεσαίο x% της κατανομής με μοβ. Οι ουρές (γαλάζιο) αναπαριστούν το \(\alpha\).

Ιστόγραμμα middle() Μεσαίο (μοβ) Ουρές (alpha)
1 middle(b1, .95) 95% 5% (\(\alpha = 0.05\))
2 middle(b1, .80) 80% 20% (\(\alpha = 0.20\))

Το Ιστόγραμμα 2 έχει \(\alpha = 0.20\), που είναι μεγαλύτερο από το \(\alpha = 0.05\) του Ιστογράμματος 1.


Οπτική επιβεβαίωση:

Κοιτάζοντας τα ιστογράμματα, το Ιστόγραμμα 2 έχει περισσότερη γαλάζια περιοχή στις ουρές — αυτό αντιστοιχεί σε μεγαλύτερο \(\alpha\).

15. Ποιο είναι το επίπεδο alpha για το Ιστόγραμμα 2;

Σωστή απάντηση: Ε — 0.20


Η λογική:

Στο Ιστόγραμμα 2, ο κώδικας χρησιμοποιεί middle(b1, .80):

  • Η μοβ περιοχή = το μεσαίο 80% της κατανομής
  • Οι γαλάζιες ουρές = το υπόλοιπο = 20%

\[\alpha = 1 - 0.80 = 0.20\]


Γενικός κανόνας:

Αν middle(b1, x) χρωματίζει το μεσαίο x% με μοβ, τότε:

\[\alpha = 1 - x\]

middle() Μεσαίο Alpha (\(\alpha\))
middle(b1, .95) 95% \(1 - 0.95 = 0.05\)
middle(b1, .90) 90% \(1 - 0.90 = 0.10\)
middle(b1, .80) 80% \(1 - 0.80 = 0.20\)

Το παραπάνω ιστόγραμμα δημιουργήθηκε με τον ακόλουθο κώδικα:

sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)
gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95))

16. Ποιο δειγματικό \(b_1\) θα είχε μεγαλύτερη τιμή \(p\): \(b_1 = 0.05\) ή \(b_1 = 0.5\);

Σωστή απάντηση: Δ — Το \(b_1 = 0.05\) θα είχε μεγαλύτερη τιμή \(p\).


Η λογική:

Η τιμή \(p\) είναι η πιθανότητα να πάρουμε μια τιμή \(b_1\) τόσο ακραία ή πιο ακραία από την παρατηρούμενη, αν το κενό μοντέλο είναι αληθές.

Κοιτάζοντας το ιστόγραμμα:

  • \(b_1 = 0.05\): Βρίσκεται κοντά στο κέντρο της κατανομής (κοντά στο 0). Πολλές τιμές από την προσομοίωση είναι τόσο ακραίες ή πιο ακραίες → μεγάλη τιμή \(p\).

  • \(b_1 = 0.5\): Βρίσκεται πολύ μακριά από το κέντρο, πέρα από τη δεξιά ουρά. Σχεδόν καμία τιμή από την προσομοίωση δεν είναι τόσο ακραία → πολύ μικρή τιμή \(p\).


Γενικός κανόνας:

Όσο πιο κοντά στο 0 είναι το \(b_1\), τόσο μεγαλύτερη η τιμή \(p\). Όσο πιο μακριά από το 0 είναι το \(b_1\), τόσο μικρότερη η τιμή \(p\).

Το παραπάνω ιστόγραμμα δημιουργήθηκε με τον ακόλουθο κώδικα:

sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)
gf_histogram(~b1, data = sdob1, fill = ~middle(b1, .95))

17. Αν παίρναμε ένα δείγμα μόνο 25 τραγουδιών από το πλαίσιο δεδομένων top_50 και δημιουργούσαμε ένα νέο ιστόγραμμα, τι θα άλλαζε στο ιστόγραμμα;

Σωστή απάντηση: Β — Το τυπικό σφάλμα θα ήταν μεγαλύτερο.


Η λογική:

Το μέγεθος δείγματος επηρεάζει το τυπικό σφάλμα (το πλάτος της δειγματοληπτικής κατανομής):

Μέγεθος δείγματος Τυπικό σφάλμα Πλάτος κατανομής
Μεγαλύτερο (π.χ. 50) Μικρότερο Στενότερη
Μικρότερο (π.χ. 25) Μεγαλύτερο Πλατύτερη

Με μικρότερο δείγμα (25 αντί για 50 τραγούδια):

  • Οι τιμές \(b_1\) θα ποικίλλουν περισσότερο από δείγμα σε δείγμα
  • Το ιστόγραμμα θα είναι πλατύτερο (μεγαλύτερο τυπικό σφάλμα)
  • Θα ήταν πιο δύσκολο να απορρίψουμε το κενό μοντέλο

Γιατί οι άλλες είναι λάθος:

  • Α: Το ιστόγραμμα θα παραμείνει κεντραρισμένο στο 0 — αυτό δεν αλλάζει επειδή ακόμα προσομοιώνουμε το κενό μοντέλο (\(\beta_1 = 0\)).

  • Γ: Το μέγεθος δείγματος σίγουρα επηρεάζει το τυπικό σφάλμα.

  • Δ: Το αντίθετο — μικρότερο δείγμα σημαίνει μεγαλύτερο τυπικό σφάλμα.

Τα παραπάνω ιστογράμματα δημιουργήθηκαν με τον παρακάτω κώδικα:

# Ιστόγραμμα 1
sdob1 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_50)
gf_histogram(~b1, data = sdob1, bins=100, fill = ~middle(b1, .95)) %>%
  gf_labs(title = "top_50")

# Ιστόγραμμα 2
top_10 <- sample(top_50, 10)
sdob1_2 <- do(1000) * b1(shuffle(popularity) ~ danceability, data = top_10)
gf_histogram(~b1, data = sdob1_2, bins = 100, fill = ~middle(b1, .95)) %>%
  gf_labs(title = "top_10")

18. Το Ιστόγραμμα 2 είναι μια δειγματοληπτική κατανομή που δημιουργήθηκε από ένα δείγμα 10 τραγουδιών από το πλαίσιο δεδομένων top_50. Τι ισχύει για τα ιστογράμματα;

Σωστή απάντηση: Β — Το τυπικό σφάλμα είναι μικρότερο για το ιστόγραμμα top_50 από ό,τι για το ιστόγραμμα top_10.


Η λογική:

Κοιτάζοντας τα δύο ιστογράμματα:

  • top_50 (n = 50): Η κατανομή είναι στενότερη — εκτείνεται περίπου από \(-0.15\) έως \(+0.15\)
  • top_10 (n = 10): Η κατανομή είναι πλατύτερη — εκτείνεται περίπου από \(-0.25\) έως \(+0.25\)

Γενικός κανόνας:

Μέγεθος δείγματος Τυπικό σφάλμα Πλάτος κατανομής
Μεγαλύτερο (50) Μικρότερο Στενότερη
Μικρότερο (10) Μεγαλύτερο Πλατύτερη

Γιατί οι επιλογές Γ και Δ είναι λάθος:

Το επίπεδο alpha είναι το ίδιο και για τα δύο ιστογράμματα (\(\alpha = 0.05\)), επειδή και τα δύο χρησιμοποιούν middle(b1, .95). Το alpha είναι επιλογή του ερευνητή, όχι κάτι που επηρεάζεται από το μέγεθος δείγματος.

19. Ποια από αυτές τις κατανομές θα μπορούσε να σας οδηγήσει να κάνετε Σφάλμα Τύπου Ι για ένα δείγμα με \(b_1\) ίσο με \(0{,}11\);

Σωστή απάντηση: Α — Η κατανομή top_50


Τι είναι το Σφάλμα Τύπου Ι;

Σφάλμα Τύπου Ι συμβαίνει όταν απορρίπτουμε το κενό μοντέλο ενώ είναι αληθές. Αυτό μπορεί να συμβεί μόνο αν το δειγματικό \(b_1\) πέφτει στην «απίθανη» περιοχή (τις γαλάζιες ουρές).


Ανάλυση για \(b_1 = 0{,}11\):

Κοιτάζοντας τα δύο ιστογράμματα:

  • top_50 (στενότερη κατανομή): Η τιμή \(0{,}11\) βρίσκεται στη γαλάζια ουρά (εκτός του μεσαίου 95%). Θα απορρίψουμε το κενό μοντέλο → μπορεί να γίνει Σφάλμα Τύπου Ι.

  • top_10 (πλατύτερη κατανομή): Η τιμή \(0{,}11\) βρίσκεται μέσα στη μοβ περιοχή (μεσαίο 95%). Δεν θα απορρίψουμε το κενό μοντέλο → δεν μπορεί να γίνει Σφάλμα Τύπου Ι.


Γιατί αυτό έχει σημασία:

Το μεγαλύτερο δείγμα (top_50) έχει στενότερη κατανομή, που σημαίνει:

  • Είναι πιο εύκολο να απορρίψουμε το κενό μοντέλο
  • Αλλά αν το κενό μοντέλο είναι αληθές, υπάρχει κίνδυνος Σφάλματος Τύπου Ι