/
Kaynak:Web Sayfası

Kaynak:Web Sayfası

GEODI Web sayfalarını ve RSS haber kaynaklarını da içerik olarak kullanabilir. Web sayfaları çok değişken yapılarda olabilir. Bu değişkenliği desteklemek için Web Sayfası veri kaynağı pek çok opsiyon sunar. 

Web sayfalarını indekslemek yoğun internet kullanımı yaratabilir. Bazı siteler bu şekilde kullanımı “saldırı olarak yorumlayabilir ve sizi yasaklayabilir. Ayrıca indekslediğiniz sayfaların telif hakları indekslemeye yasal olarak izin vermiyor olabilir. Bu ve olası diğer durumlarda tüm sorumluluğun sizde olduğunu, DECE’nin sadece teknik bir çözüm sunduğunu bilmenizi isteriz.

Bağlantı için gereken şartlar

  1. Web sayfasına erişim

  2. Kullanıcı doğrulaması yapan yerler için token veya sayfanın gerektirdiği doğrulama için gereken bilgiler

 

Tek bir adres veya çok sayıda adres verebilirsiniz. Domain kısıtlama ayarları her bir adres için bağımsız şekilde çalışacaktır.

Seviye=0 ile sadece verilen sayfa indekslenir. Bütün sayfalara erişebilmek için seviye yeterince büyük olmalıdır. Sayfalama olan durumlar için seviye değeri 1000+ verilebilir.

Bazı web sitelerinde içerik olarak ilgilenmediğiniz Sosyal medya linkleri, reklam sayfaları veya benzeri sayfalar olabilir. Dilediğiniz kadar sayfayı tarama sonuçlarından çıkarabilirsiniz. Sayfa adresleri ";" ile ayrılmalıdır. Adresleri tanımlarken "*" kullanarak genelleştirme yapabilirsiniz.

  • Örneğin: http://www.dece.com.tr/geodi sayfasının taranması istenmiyorsa ; (*geodi* veya *geodi.html) olarak ihmal edilecek sayfalar alanına yazabilirsiniz.

Pek çok web sayfasında parametre kullanılıyor. GEODI aynı sayfanın farklı parametre kullanan biçimlerini farklı sayfa olarak değerlendir. Ancak parametrelerin içeriği değiştirmediği pek çok durum var ve bu durumlarda parametreleri ihmal edebilirsiniz.

Örneğin:

https://ornek.com

https://ornek.com?ShowComments=true

aynı sayfayı açıyorsa İhmal edilecek parametrelere "showComments" yazmalısınız. GEODI her ikisini aynı sayfa olarak değerlendirir.

GEODI Web Sayfası bazında kurallara sahiptir. Bazı kurallar hazır gelir. Örneğin vikipedia sayfalarında sadece içeriğin olduğu "kutucuk" işlenir. Bazı web sayfalarında yer alan sayfalayıcılar (1,2,3,... 10 şeklinde görünen ve sayfaları belirleyen linkler) otomatik olarak işlenir.