Tez için istatistik analizi ne kadar sürer?

Proje kapsamına göre 24–72 saat arasında değişir. Teslim tarihi proje başında netleştirilir.

Hangi istatistik yazılımları kullanılıyor?

Tüm analizler R ve Python ile yürütülür. Talep edilirse SPSS çıktı formatında tablo ve şekil teslim edilebilir.

Verilerimin gizliliği nasıl sağlanıyor?

Paylaşılan veri seti ve bulgular yalnızca projeniz için kullanılır. Proje tesliminin ardından verileriniz kalıcı olarak silinir. Talep edilmesi durumunda Gizlilik Sözleşmesi imzalanabilir.

Danışman revizyonu talep ederse ek ücret alınır mı?

Danışman kaynaklı istatistik revizyonları kapsama dahildir, ek ücret alınmaz.

APA 7 formatında rapor teslim ediliyor mu?

Evet. Tüm tablolar, şekiller ve metin içi istatistikler APA 7 formatına uygun olarak hazırlanır.

Tabakalı Örnekleme: Yöntem Seçimi ve Örneklem Büyüklüğü Hesaplama

Örnekleme Yöntemi Neden Bu Kadar Önemlidir?

Araştırmanın istatistiksel gücü yalnızca örneklem büyüklüğüne değil, örnekleme yöntemine de bağlıdır. Yanlış seçilmiş bir örnekleme tasarımı aynı n ile çok daha az hassas tahminler üretir ya da önemli alt grupları temsil edemez. Tez ve makale jürilerinin örnekleme bölümünde özellikle dikkat ettiği üç soru vardır: Neden bu yöntem? Örneklem büyüklüğü nasıl belirlendi? Hedef kitleyi temsil ediyor mu?

Basit Rastgele Örnekleme Neden Yetmez?

Basit rastgele örnekleme (BRÖ) her birimin eşit seçilme olasılığına sahip olduğu klasik yöntemdir. Homojen popülasyonlarda iyi çalışır; ancak popülasyonun içinde birbirinden belirgin biçimde ayrışan alt gruplar (tabakalar) varsa verimsizleşir. Örneğin, öğrenci refahını inceleyen bir çalışmada yalnızca BRÖ kullanıldığında küçük bölümlerdeki öğrenciler örnekleme hiç girmeyebilir.

Tabakalı Örnekleme Nedir?

Tabakalı örnekleme (stratified sampling), popülasyonu birbirini dışlayan ve birbirini kapsayan tabakalara (stratum) bölerek her tabakadan bağımsız örneklem çekilen bir yöntemdir. Doğru uygulandığında:

Her alt grubun yeterli temsili sağlanır
Popülasyon parametresi daha hassas tahmin edilir
Örneklem büyüklüğü etkin biçimde tahsis edilir

Orantılı Tahsisat

Her tabakaya popülasyon içindeki büyüklüğüyle orantılı örneklem düşürülür:

n_j = n cdot rac{N_j}{N}

Burada $n$ toplam örneklem büyüklüğü, $N_j$ j. tabakanın büyüklüğü, $N$ toplam popülasyon büyüklüğüdür.

# Örnek: 3 tabaka, N = 500, hedef n = 60
N_toplam  <- 500
N_tabaka  <- c(200, 150, 150)   # N_1, N_2, N_3
n_hedef   <- 60

# Orantılı tahsisat
n_tabaka  <- round(n_hedef * N_tabaka / N_toplam)
n_tabaka
# [1] 24 18 18

# Tabaka ağırlıkları
w <- N_tabaka / N_toplam
w
# [1] 0.40 0.30 0.30

Tabakalı ortalama tahmincisi ağırlıklı bir ortalamadır:

# Her tabaka için örnek ortalama (örnekten elde edildi)
y_ort <- c(78.5, 82.1, 69.4)

# Tabakalı ortalama
y_strat <- sum(w * y_ort)
y_strat
# [1] 77.35

Optimal Tahsisat (Neyman Tahsisatı)

Tabakalar arası varyans birbirinden çok farklıysa orantılı tahsisat verimsiz kalabilir. Optimal tahsisat, her tabakaya hem büyüklüğüne hem de içsel varyansına göre örneklem düşürür:

n_j = n cdot rac{N_j sigma_j}{sum_{k=1}^{K} N_k sigma_k}

Yüksek varyanslı tabakalara daha fazla örneklem düşer. Bu, belirli bir hata payı için gereken toplam örneklem büyüklüğünü minimize eder.

# Tabaka standart sapmaları önceki araştırmalardan tahmin edildi
sigma <- c(15.2, 22.8, 11.5)

# Optimal tahsisat
pay    <- N_tabaka * sigma
n_opt  <- round(n_hedef * pay / sum(pay))
n_opt
# [1] 18 21 11

# Karşılaştırma
data.frame(
  Tabaka      = paste0("T", 1:3),
  N_j         = N_tabaka,
  Orantili_n  = n_tabaka,
  Optimal_n   = n_opt
)

Optimal tahsisatın orantılı tahsisata kıyasla anlamlı bir kazanım sağlayıp sağlamadığını değerlendirmek için iki tahmin varyansını karşılaştırın.

Sonradan Tabakalandırma (Post-stratification)

Bazen örnekleme öncesinde tabaka üyeliğini bilmek mümkün değildir — örneğin yaş grubu veya cinsiyet bilgisi yalnızca anket tamamlandıktan sonra elde edilebilir. Bu durumda basit rastgele örneklem çekildikten sonra gözlemler tabakalara atanır. Buna sonradan tabakalandırma (post-stratification) denir.

Klasik tabakalı örneklemeden farkı şudur: tabaka örneklem büyüklükleri n_j sabit değil, rastgele değişkendir. Bu nedenle varyans formülüne bir düzeltme terimi eklenir.

library(survey)

# Veri setinde tabaka değişkeni survey sonrası oluşturuldu
veri$tabaka <- cut(veri$yas, breaks = c(18, 35, 55, 80),
                   labels = c("Genc", "Orta", "Yasli"))

# Popülasyondaki her tabaka büyüklüğü biliniyor
pop_buyukluk <- c(Genc = 12000, Orta = 18000, Yasli = 8000)

# Survey tasarımı
tasarim <- svydesign(
  ids    = ~1,
  data   = veri,
  weights = ~1
)

# Post-stratification
ps_tasarim <- postStratify(
  design  = tasarim,
  strata  = ~tabaka,
  population = data.frame(tabaka = names(pop_buyukluk),
                          Freq   = pop_buyukluk)
)

# Ağırlıklı ortalama
svymean(~puan, ps_tasarim)

Güven Aralığı Hesaplama

Tabakalı örnekleme varyansı basit rastgele örneklemeye göre genellikle daha küçüktür. Bu da daha dar güven aralıkları demektir:

# Tabakalı ortalama için %95 GA
y_bar    <- 77.35   # tabakalı ortalama
SE_strat <- 2.14    # tabakalı standart hata (hesaplandı)
n_total  <- 60

CI_alt <- y_bar - qt(0.975, df = n_total - 1) * SE_strat
CI_ust <- y_bar + qt(0.975, df = n_total - 1) * SE_strat

cat("95% GA: [", round(CI_alt, 2), ",", round(CI_ust, 2), "]")

Yöntem Bölümünde Raporlama

"Çalışmada tabakalı rastgele örnekleme yöntemi kullanılmıştır. Örneklem; yaş grubu (18–35, 36–55, 56–80) temel alınarak üç tabakaya ayrılmış, her tabakaya Neyman optimal tahsisatı uygulanmıştır. Örneklem büyüklüğü ±5 hata payı ve %95 güven düzeyi için literatürdeki ön çalışma varyans tahminleri esas alınarak n = 60 olarak belirlenmiştir."

Kaynaklar

Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Wiley.
Lohr, S. L. (2021). Sampling: Design and Analysis (3rd ed.). Chapman & Hall.
Lumley, T. (2010). Complex Surveys: A Guide to Analysis Using R. Wiley.