Türkiye İstatistik Kurumu’nun (TÜİK) enflasyon hesaplamasında kullandığı tepki uyandıran verilerin açığa çıkmasından sonra ortalık karıştı. Sosyal medyada “Veriler açıklansın” kampanyası başlatılırken TÜİK Başkanı Erhan Çetinkaya gazetecileri toplayarak yüksek enflasyonun faturasını şirketlere çıkardı ve “Enflasyon dünyada hasıl hesaplanıyorsa bizde de öyle hesaplanıyor” dedi. Ancak verilerin toplanma yöntemiyle ilgili detaylı bilgi vermedi.
Peki TÜİK fiyatların pek de yüksek olmadığı, 34 TL’ye uzman doktora görünebildiğimiz, hemen hemen tüm ürünlere makul fiyatlarla erişebildiğimiz “harikalar diyarı”nda enflasyon hesaplamasında kullandığı verileri nasıl topluyor?
TÜİK’in web sitesinde metodoloji başlığı altında tüketici fiyatları endeksi (TÜFE) sepetinde kapsanan mal ve hizmet fiyatları 2022 yılından itibaren üç farklı yöntemle derlendiği anlatılıyor.
İkinci fiyat derleme yöntemi barkod (satış) verilerinin kullanımı. TÜİK barkod verilerinin TÜFE veri derleme süreçlerine entegre edilmesi çalışmalarını 2018 yılından beri devam ettirdiğini belirtiyor. Bu kapsamda perakende ticaret sektöründe önemli paya sahip zincir marketlerden sağlanan verilerin 2020 yılında analiz süreçleri gerçekleştirilmiş ve verinin TÜFE hesaplamaları için kullanıma hazır hale getirilebilmesine yönelik diğer çalışmalar (sınıflama, kod eşleştirmeleri vb.) tamamlanmış. Perakende ticaret sektöründe önemli paya sahip zincir marketlerden sağlanan barkod verileri TÜFE hesaplamalarında ilk olarak 2021 yılında kullanılmaya başlanmış ve derlenen toplam fiyat sayısının yaklaşık yüzde 21’i zincir marketlerden doğrudan temin edilmiş. 2021 yılında barkod verilerinin TÜFE hesaplamalarına dahil edilmesine yönelik çalışmalar sürdürülmüş, farklı sektörlerde faaliyet gösteren firmalarla ikili protokoller imzalanarak barkod verisi kullanılarak fiyat derlenebilecek işyeri kapsamı yerel firmaları da kapsayacak şekilde genişletilmiş. Analiz süreçleri tamamlanan işyeri barkod verilerinin TÜFE hesaplamalarına dahil edilmesiyle birlikte 2024 yılında bu yöntemle derlenen fiyat sayısı toplam fiyat sayısının yüzde 42,6’sini oluşturuyor. Barkod verisi derlenen işyerlerinin seçiminde de ciro kriteri dikkate alınıyor. Barkod sisteminden her ayın 1’i ile 24’ü arasına ilişkin ürün bazında günlük satış ve miktar verisi elde ediliyor. Geleneksel yöntemde ayın belirli günlerinde alandan derlenen fiyatlar yerine bu yöntemden gelen tüm fiyatlar için veri derleme sıklığı günlük oluyor ve anlaşmalı firmalardan elde edilen barkod verileri satışı gerçekleşen (kasadan geçen) ürün fiyatlarını içeriyor. Bununla birlikte, firmalardan şube detayında ve her barkod bazında alınan toplam satış değeri ve satış miktarı bilgileri kullanılarak aylık birim fiyat hesaplanıyor.
Fiyat derlemede kullanılan üçüncü yöntem ise web scraping (veri kazıma). Otomatik olarak bir web kaynağından (internet sitelerinden) veri derlemeye web scraping deniyor. Bir kazıyıcı (scraper) yardımıyla yapılan işlemde ham veri derlenip temizleniyor. Yani sistem başta online satış siteleri olmak üzere enflasyon incelemesine konu olan malları satan web sitelerini düzenli olarak tarıyor ve buradaki fiyat hareketlerine bakıyor. Otomatik web scraping teknolojilerini kullanarak günlük, saatlik ve hatta daha yüksek sıklıkta veri derlemek mümkün. Bu yöntemde amaç web sitesinde yer alan HTML formatındaki bilgiyi analiz ve hesaplamalar için daha uygun yapılara dönüştürmek.
Web scraping çalışmaları kapsamında 2020 yılında kurumda TÜBİTAK ile ortaklaşa TÜİK Büyük Veri İleri Analitik Projesi gerçekleştirilmiş. Veri kaynakları olan firmalardan gerekli izinler alınmış ve böylece web scraping ile fiyat derleme yönteminin altyapısı hazırlanmış. İnternet fiyatı derlenecek işyerleri, geleneksel yöntemde ciro örneklemesi ile seçilmiş olan ve fiziki mağazaları mevcut olan işyerleri arasından internet sitesi aşağıda yer alan kriterleri sağlayanlar dikkate alınarak belirlenmiş.
Madde tanımları ve yapısı gereği web scraping ile fiyat derlenmesi uygun olan beyaz eşya, elektronik ürünler, giyim, mobilya, sıfır otomobil ve otobüs bileti fiyatları için ilk kez 2022 yılında internet üzerinden derlenen fiyatlar endeks hesaplamalarında kullanılmış. 2024 yılı itibariyle bu yöntemle elde edilen fiyat sayısı toplam fiyat sayısının yaklaşık olarak yüzde 5,1’ini oluşturuyor. İnternet üzerinden web scraping yöntemi ile derlenen fiyatlardan ilgili ayın 1’i ile 24’ü arasında olan kısmı hesaplamalarda kullanılıyor.
Otomobil fiyatlarının derlenmesinde de 2021 Aralık ayından başlamak üzere anketörlerin bayi ziyaretlerine dayalı fiyat derleme yöntemi yerine Gelir İdaresi Başkanlığı verilerinden ay içinde satışı gerçekleştiği teyit edilen otomobil fiyatlarının web scraping yöntemi ile doğrudan derlenmesine başlanmış. TÜİK böylelikle TÜFE sepeti kapsamında yer alan otomobil marka ve modelleri için ülke genelinde yapılan tüm otomobil satışlarının kapsanması ve gerçekleşen satış fiyatlarının doğrudan TÜFE hesaplamalarına dahil edilmesinin mümkün hale geldiğini ifade ediyor.
TÜİK’e göre gerek barkod verilerinin kullanımı gerekse internet üzerinden derlenen fiyatların TÜFE hesaplamalarına dahil edilmesi istatistik ofisleri için maliyeti düşürüyor ve cevaplayıcı yükünü azaltıyor. Metodoloji başlığı altında anlatılanlara göre iki yöntemle istatistik üretiminde veri derleme sıklığı daha yüksek ve daha büyük hacimli oluyor. TÜFE’nin zamanlılığı gereği bahsedilen her iki yöntemi için de ilgili ayın 1’i ile 24’ü arasındaki veriler kullanılıyor. Her madde için elde edilen günlük fiyatın geometrik ortalaması alınarak ilgili maddenin aylık ortalama fiyatına ulaşılıyor.