← Blog'a Dön
Regresyon9 dk okuma2026-06-18

Regresyon Varsayımları Nasıl Sınanır? Tanılama Testleri Rehberi

Varsayım İhlali Neden Bu Kadar Kritiktir?

Çoklu doğrusal regresyon modelinin güvenilir sonuç vermesi dört temel varsayıma bağlıdır: artıkların beklenti değerinin sıfır olması, sabit varyanslı (homoskedastik) olması, birbirleriyle korelasyonsuz olması ve normal dağılması. Bu varsayımlardan herhangi biri sağlanmadığında iki ciddi sonuç ortaya çıkar: katsayı tahminleri BLUE (Best Linear Unbiased Estimator) özelliğini yitirir; standart hatalar yanlı hesaplanır ve dolayısıyla t-testleri ve p değerleri güvenilmez hale gelir.

Bir tez veya makalede "varsayımlar kontrol edildi" demek yetmez. Hangi testin kullanıldığı, test istatistiği ve p değeri, varsayımın karşılanıp karşılanmadığı ve ihlal durumunda alınan önlem açıkça raporlanmalıdır. Bu rehber dört varsayımı birer birer ele alır.

1. Değişen Varyans (Heteroskedastisite)

Heteroskedastisite, artık varyansının tüm gözlemler için sabit olmaması durumudur. Yani V( arepsilon_i) = sigma_i^2 olur ve sigmai2sigma_i^2 gözlemden gözleme değişir. Sonuç olarak katsayı standart hataları yanlı hesaplanır; F ve t testleri geçersiz hale gelir.

Görsel Tanılama: Artık Grafiği

İlk adım her zaman görsel kontroldür. Tahmin değerlerine (fitted values) karşı artıkları (residuals) çizin. Yatay bant örüntüsü homoskedastisteye, genişleyen veya daralan bir huni örüntüsü heteroskedastisiteye işaret eder:

r
# Model kurma
model <- lm(bagimli ~ x1 + x2 + x3, data = veri)

# Artık vs. Tahmin grafiği
plot(fitted(model), residuals(model),
     xlab = "Tahmin Değerleri",
     ylab = "Artıklar",
     main = "Artık Grafiği",
     pch  = 16, col = "gray40", cex = 0.8)
abline(h = 0, col = "red", lty = 2, lwd = 1.5)

Breusch-Pagan Testi

Görsel muğlak kalırsa Breusch-Pagan testi kesin yanıt verir:

  • H0H_0: Artıklar homoskedastik (sabit varyans)
  • H1H_1: Artıklar heteroskedastik
r
library(lmtest)
bptest(model)
# p > .05 → H₀ kabul → homoskedastisite sağlanmıştır
# p < .05 → H₀ red → heteroskedastisite sorunu var

Heteroskedastisite Varsa Ne Yapılır?

En yaygın çözüm, standart hataları robustlaştırmaktır. Bu yöntem katsayıları değiştirmez; yalnızca standart hata hesabını düzeltir:

r
library(sandwich)
library(lmtest)

# White düzeltmeli (HC3) standart hatalar
coeftest(model, vcov = vcovHC(model, type = "HC3"))

Alternatif olarak bağımlı değişkene logaritmik dönüşüm uygulamak veya ağırlıklı en küçük kareler (WLS) kullanmak da tercih edilebilir. Yöntem seçimi ve gerekçesi makalede raporlanmalıdır.

2. Otokorelasyon

Otokorelasyon, artıkların birbiriyle korelasyonlu olması durumudur: $ ext{Corr}( arepsilon_i, arepsilon_j)

eq 0for for i

eq j.Zamanserisiverilerivetekrarlıo¨lc\cu¨mtasarımlarındasıkc\cakars\cılas\cılır.Sonuc\clarıo¨zellikletehlikelidir:. Zaman serisi verileri ve tekrarlı ölçüm tasarımlarında sıkça karşılaşılır. Sonuçları özellikle tehlikelidir: R^2$ değeri şişebilir ve model gerçekte olduğundan çok daha iyi görünür; X değişkenlerinin önemi olduğundan fazla veya az tahmin edilir.

Görsel Tanılama

Ardışık artıkları birbirine karşı çizin: arepsilon_i'ye karşı arepsilon_{i-1}. Rastgele örüntü otokorelasyon olmadığına, sistematik bir örüntü otokorelasyon olduğuna işaret eder:

r
n <- length(residuals(model))
e     <- residuals(model)
e_lag <- c(NA, e[-n])

plot(e_lag, e,
     xlab = "Artık (i-1)",
     ylab = "Artık (i)",
     main = "Otokorelasyon Tanılama Grafiği",
     pch = 16, col = "gray40", cex = 0.8)
abline(h = 0, v = 0, col = "red", lty = 2)

Durbin-Watson Testi

r
library(lmtest)
dwtest(model)
# DW istatistiği ~2 ise otokorelasyon yok
# DW < 1.5 → pozitif otokorelasyon
# DW > 2.5 → negatif otokorelasyon

Durbin-Watson testi yalnızca birinci dereceden otokorelasyonu sınar. Daha yüksek mertebeli otokorelasyon için Breusch-Godfrey testi kullanılabilir:

r
bgtest(model, order = 2)

3. Normallik

Artıkların normal dağılması varsayımı, özellikle küçük örneklemlerde t ve F testlerinin geçerliliği için kritiktir. Büyük örneklemlerde (n > 100) Merkezi Limit Teoremi devreye girer ve bu varsayım daha az belirleyici olur.

Q-Q Grafiği

Artıkların normallik aksiyomuna uyup uymadığını görsel olarak en hızlı yargılamak için Quantile-Quantile (Q-Q) grafiği kullanılır. Noktalar referans doğrusu üzerindeyse normallik sağlanmıştır:

r
qqnorm(residuals(model),
       main = "Normal Q-Q Grafiği",
       pch = 16, col = "gray40", cex = 0.8)
qqline(residuals(model), col = "red", lwd = 1.5)

Shapiro-Wilk Testi

Küçük örneklemlerde (n < 50) Shapiro-Wilk testi ile desteklenmelidir:

r
shapiro.test(residuals(model))
# p > .05 → normallik varsayımı sağlanmıştır
# p < .05 → normallik ihlali

Büyük örneklemlerde Kolmogorov-Smirnov testi veya Lilliefors düzeltmesi tercih edilebilir:

r
library(nortest)
lillie.test(residuals(model))

Normallik İhlalinde Ne Yapılır?

Uç değer (outlier) kaynaklıysa: ilgili gözlemleri inceleyin, sebebini raporlayın. Yapısal ise bağımlı değişkene log veya karekök dönüşümü deneyin. Çok ciddi sapmalarda parametrik olmayan alternatifler (Kruskal-Wallis, Spearman) düşünülebilir.

4. Çoklu Doğrusallık (Multicollinearity)

Bağımsız değişkenler arasındaki yüksek korelasyon katsayıları kararsız ve yorumlanamaz hale getirir. Bu durum varsayım değil bir model sorunu olmakla birlikte, regresyon tanılamasının ayrılmaz parçasıdır.

r
library(car)
vif(model)
# VIF < 5  → sorun yok
# 5 < VIF < 10 → dikkat
# VIF > 10 → ciddi çoklu doğrusallık sorunu

Sorun varsa çözüm seçenekleri: ilişkili değişkenlerden birini modelden çıkarmak, Ridge regresyon uygulamak veya temel bileşen analizi (PCA) ile boyut azaltmak.

APA 7'de Varsayım Testlerini Raporlama

Yöntem bölümünün veri analizi alt başlığında şu biçimde raporlayın:

"Model kurulmadan önce regresyon varsayımları sınanmıştır. Artıkların normalliği Shapiro-Wilk testi ile (W = 0.97, p = .312) ve Q-Q grafiği incelenerek doğrulanmıştır. Breusch-Pagan testi heteroskedastisite bulgusuna yol açmamıştır (χ² = 3.14, df = 4, p = .534). Durbin-Watson istatistiği otokorelasyon olmadığına işaret etmiştir (DW = 1.94). Çoklu doğrusallık VIF değerleri incelenerek değerlendirilmiş (en yüksek VIF = 2.87) ve sorun saptanmamıştır."

Tüm Tanılama Grafikleri Tek Seferde

r
# R'ın yerleşik dört tanılama grafiği
par(mfrow = c(2, 2))
plot(model)
par(mfrow = c(1, 1))

Bu dört grafik sırasıyla heteroskedastisite, normallik, standardize artıklar ve etki (Cook's distance) bilgisi verir. Tez savunmasında veya makale ek dosyasında bu grafikler sunulmalıdır.

Kaynaklar

  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). Sage.
  • Fox, J., & Weisberg, S. (2019). An R Companion to Applied Regression (3rd ed.). Sage.
  • Breusch, T. S., & Pagan, A. R. (1979). A simple test for heteroscedasticity. Econometrica, 47(5), 1287–1294.

Bu analizi tezinizde kullanmakta zorlanıyor musunuz?

Veri setinizi paylaşın, teorik gerekçesiyle birlikte APA 7 formatında analiz edip raporlayalım.

Proje Talebi Oluştur →

Başlayalım

Projenizi doğru temelde kuralım.

  • Teorik gerekçesiyle birlikte analiz
  • APA 7 uyumlu rapor ve R/Python kodu
  • 48 saat içinde ilk yanıt

%100 uzaktan · Türkiye genelinde