Örnekleme Yöntemi Neden Bu Kadar Önemlidir?
Araştırmanın istatistiksel gücü yalnızca örneklem büyüklüğüne değil, örnekleme yöntemine de bağlıdır. Yanlış seçilmiş bir örnekleme tasarımı aynı n ile çok daha az hassas tahminler üretir ya da önemli alt grupları temsil edemez. Tez ve makale jürilerinin örnekleme bölümünde özellikle dikkat ettiği üç soru vardır: Neden bu yöntem? Örneklem büyüklüğü nasıl belirlendi? Hedef kitleyi temsil ediyor mu?
Basit Rastgele Örnekleme Neden Yetmez?
Basit rastgele örnekleme (BRÖ) her birimin eşit seçilme olasılığına sahip olduğu klasik yöntemdir. Homojen popülasyonlarda iyi çalışır; ancak popülasyonun içinde birbirinden belirgin biçimde ayrışan alt gruplar (tabakalar) varsa verimsizleşir. Örneğin, öğrenci refahını inceleyen bir çalışmada yalnızca BRÖ kullanıldığında küçük bölümlerdeki öğrenciler örnekleme hiç girmeyebilir.
Tabakalı Örnekleme Nedir?
Tabakalı örnekleme (stratified sampling), popülasyonu birbirini dışlayan ve birbirini kapsayan tabakalara (stratum) bölerek her tabakadan bağımsız örneklem çekilen bir yöntemdir. Doğru uygulandığında:
- Her alt grubun yeterli temsili sağlanır
- Popülasyon parametresi daha hassas tahmin edilir
- Örneklem büyüklüğü etkin biçimde tahsis edilir
Orantılı Tahsisat
Her tabakaya popülasyon içindeki büyüklüğüyle orantılı örneklem düşürülür:
Burada toplam örneklem büyüklüğü, j. tabakanın büyüklüğü, toplam popülasyon büyüklüğüdür.
# Örnek: 3 tabaka, N = 500, hedef n = 60
N_toplam <- 500
N_tabaka <- c(200, 150, 150) # N_1, N_2, N_3
n_hedef <- 60
# Orantılı tahsisat
n_tabaka <- round(n_hedef * N_tabaka / N_toplam)
n_tabaka
# [1] 24 18 18
# Tabaka ağırlıkları
w <- N_tabaka / N_toplam
w
# [1] 0.40 0.30 0.30Tabakalı ortalama tahmincisi ağırlıklı bir ortalamadır:
# Her tabaka için örnek ortalama (örnekten elde edildi)
y_ort <- c(78.5, 82.1, 69.4)
# Tabakalı ortalama
y_strat <- sum(w * y_ort)
y_strat
# [1] 77.35Optimal Tahsisat (Neyman Tahsisatı)
Tabakalar arası varyans birbirinden çok farklıysa orantılı tahsisat verimsiz kalabilir. Optimal tahsisat, her tabakaya hem büyüklüğüne hem de içsel varyansına göre örneklem düşürür:
Yüksek varyanslı tabakalara daha fazla örneklem düşer. Bu, belirli bir hata payı için gereken toplam örneklem büyüklüğünü minimize eder.
# Tabaka standart sapmaları önceki araştırmalardan tahmin edildi
sigma <- c(15.2, 22.8, 11.5)
# Optimal tahsisat
pay <- N_tabaka * sigma
n_opt <- round(n_hedef * pay / sum(pay))
n_opt
# [1] 18 21 11
# Karşılaştırma
data.frame(
Tabaka = paste0("T", 1:3),
N_j = N_tabaka,
Orantili_n = n_tabaka,
Optimal_n = n_opt
)Optimal tahsisatın orantılı tahsisata kıyasla anlamlı bir kazanım sağlayıp sağlamadığını değerlendirmek için iki tahmin varyansını karşılaştırın.
Sonradan Tabakalandırma (Post-stratification)
Bazen örnekleme öncesinde tabaka üyeliğini bilmek mümkün değildir — örneğin yaş grubu veya cinsiyet bilgisi yalnızca anket tamamlandıktan sonra elde edilebilir. Bu durumda basit rastgele örneklem çekildikten sonra gözlemler tabakalara atanır. Buna sonradan tabakalandırma (post-stratification) denir.
Klasik tabakalı örneklemeden farkı şudur: tabaka örneklem büyüklükleri n_j sabit değil, rastgele değişkendir. Bu nedenle varyans formülüne bir düzeltme terimi eklenir.
library(survey)
# Veri setinde tabaka değişkeni survey sonrası oluşturuldu
veri$tabaka <- cut(veri$yas, breaks = c(18, 35, 55, 80),
labels = c("Genc", "Orta", "Yasli"))
# Popülasyondaki her tabaka büyüklüğü biliniyor
pop_buyukluk <- c(Genc = 12000, Orta = 18000, Yasli = 8000)
# Survey tasarımı
tasarim <- svydesign(
ids = ~1,
data = veri,
weights = ~1
)
# Post-stratification
ps_tasarim <- postStratify(
design = tasarim,
strata = ~tabaka,
population = data.frame(tabaka = names(pop_buyukluk),
Freq = pop_buyukluk)
)
# Ağırlıklı ortalama
svymean(~puan, ps_tasarim)Güven Aralığı Hesaplama
Tabakalı örnekleme varyansı basit rastgele örneklemeye göre genellikle daha küçüktür. Bu da daha dar güven aralıkları demektir:
# Tabakalı ortalama için %95 GA
y_bar <- 77.35 # tabakalı ortalama
SE_strat <- 2.14 # tabakalı standart hata (hesaplandı)
n_total <- 60
CI_alt <- y_bar - qt(0.975, df = n_total - 1) * SE_strat
CI_ust <- y_bar + qt(0.975, df = n_total - 1) * SE_strat
cat("95% GA: [", round(CI_alt, 2), ",", round(CI_ust, 2), "]")Yöntem Bölümünde Raporlama
"Çalışmada tabakalı rastgele örnekleme yöntemi kullanılmıştır. Örneklem; yaş grubu (18–35, 36–55, 56–80) temel alınarak üç tabakaya ayrılmış, her tabakaya Neyman optimal tahsisatı uygulanmıştır. Örneklem büyüklüğü ±5 hata payı ve %95 güven düzeyi için literatürdeki ön çalışma varyans tahminleri esas alınarak n = 60 olarak belirlenmiştir."
Kaynaklar
- Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Wiley.
- Lohr, S. L. (2021). Sampling: Design and Analysis (3rd ed.). Chapman & Hall.
- Lumley, T. (2010). Complex Surveys: A Guide to Analysis Using R. Wiley.
Bu analizi tezinizde kullanmakta zorlanıyor musunuz?
Veri setinizi paylaşın, teorik gerekçesiyle birlikte APA 7 formatında analiz edip raporlayalım.