Kaynak:Web Sayfası

GEODI Web sayfalarını ve RSS haber kaynaklarını da içerik olarak kullanabilir. Web sayfaları çok değişken yapılarda olabilir. Bu değişkenliği desteklemek için Web Sayfası veri kaynağı pek çok opsiyon sunar.

Web sayfalarını indexlemek yoğun internet kullanımı yaratabilir. Bazı siteler bu şekilde kullanımı “saldırı olarak yorumlayabilir ve sizi yasaklayabilir. Ayrıca indekslediğiniz sayfaların telif hakları indexlemeye yasal olarak izin vermiyor olabilir. Bu ve olası diğer durumlarda tüm sorumluluğun sizde olduğunu, DECE’nin sadece teknik bir çözüm sunduğunu bilmenizi isteriz.

Adresler

Tek bir adres veya çok sayıda adres verebilirsiniz. Domain kısıtlama ayarları her bir adres için bağımsız şekilde çalışacaktır.

İstenmeyen Sayfaların İhmal Edilmesi

Bazı web sitelerinde içerik olarak ilgilenmediğiniz Sosyal medya linkleri, reklam sayfaları veya benzeri sayfalar olabilir. Dilediğiniz kadar sayfayı tarama sonuçlarından çıkarabilirsiniz. Sayfa adresleri ";" ile ayrılmalıdır. Adresleri tanımlarken "*" kullanarak genelleştirme yapabilirsiniz.

Örneğin: http://www.dece.com.tr/geodi sayfasının taranması istenmiyorsa ; (*geodi* veya *geodi.html) olarak ihmal edilecek sayfalar alanına yazabilirsiniz.

Web Sayfa Parametrelerinin İşlenmesi

Pek çok web sayfasında parametre kullanılıyor. GEODI aynı sayfanın farklı parametre kullanan biçimlerini farklı sayfa olarak değerlendir. Ancak parametrelerin içeriği değiştirmediği pek çok durum var ve bu durumlarda parametreleri ihmal edebilirsiniz.

Örneğin:

https://ornek.com

https://ornek.com?ShowComments=true

aynı sayfayı açıyorsa İhmal edilecek parametrelere "showComments" yazmalısınız. GEODI her ikisini aynı sayfa olarak değerlendirir.

Sayfa Tarama Kuralları

GEODI Web Sayfası bazında kurallara sahiptir. Bazı kurallar hazır gelir. Örneğin vikipedia sayfalarında sadece içeriğin olduğu "kutucuk" işlenir. Bazı web sayfalarında yer alan sayfalayıcılar (1,2,3,... 10 şeklinde görünen ve sayfaları belirleyen linkler) otomatik olarak işlenir.

Sorgu sonucuna gelecek sayfa isimleri Nasıl Oluşuyor

Sayfa HTML kaynağı içinde varsa og:title yoksa title da yer alan bilgiler kullanılır.

Bu bigiler yoksa sayfanın browserda görünen adresi kullanılacaktır.

Seviye

Seviye=0 ile sadece verilen sayfa indexlenir. Bütün sayfalara erişebilmek için seviye yeterince büyük olmalıdır. Sayfalama olan durumlar için seviye değeri 1000+ verilebilir.

Sayfa göründüğü gibi indexlenmiyorsa

Bazı sayfalar JavaScript ile oluşur. Bu durumda sayfanın html içeriği gerekli bilgiyi vermez. Böyle durumlarda “tarayıcı gibi gez” seçeneği işaretlenmelidir. İndexleme daha yavaş ama istendiği gibi olacaktır. Seçeneğin çalışması için alternatif web tarayıcı modülü yüklü olmalıdır.