Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: yazım hataları düzeltildi

GEODI Web sayfalarını ve RSS haber kaynaklarını da içerik olarak kullanabilir. Web sayfaları çok değişken yapılarda olabilir. Bu değişkenliği desteklemek için Web Sayfası veri kaynağı pek çok opsiyon sunar. 

Web sayfalarını indexlemek indekslemek yoğun internet kullanımı yaratabilir. Bazı siteler bu şekilde kullanımı “saldırı olarak yorumlayabilir ve sizi yasaklayabilir. Ayrıca indekslediğiniz sayfaların telif hakları indexlemeye indekslemeye yasal olarak izin vermiyor olabilir. Bu ve olası diğer durumlarda tüm sorumluluğun sizde olduğunu, DECE’nin sadece teknik bir çözüm sunduğunu bilmenizi isteriz.

Tip

Bağlantı için gereken şartlar

  1. Web sayfasına erişim

  2. Kullanıcı doğrulaması yapan yerler için token veya sayfanın gerektirdiği doğrulama için gereken bilgiler

...

Expand
titleAdresler

Tek bir adres veya çok sayıda adres verebilirsiniz. Domain kısıtlama ayarları her bir adres için bağımsız şekilde çalışacaktır.

Expand
titleSeviye

Seviye=0 ile sadece verilen sayfa indekslenir. Bütün sayfalara erişebilmek için seviye yeterince büyük olmalıdır. Sayfalama olan durumlar için seviye değeri 1000+ verilebilir.

Expand
titleİstenmeyen Sayfaların İhmal Edilmesi

Bazı web sitelerinde içerik olarak ilgilenmediğiniz Sosyal medya linkleri, reklam sayfaları veya benzeri sayfalar olabilir. Dilediğiniz kadar sayfayı tarama sonuçlarından çıkarabilirsiniz. Sayfa adresleri ";" ile ayrılmalıdır. Adresleri tanımlarken "*" kullanarak genelleştirme yapabilirsiniz.

  • Örneğin: http://www.dece.com.tr/geodi sayfasının taranması istenmiyorsa ; (*geodi* veya *geodi.html) olarak ihmal edilecek sayfalar alanına yazabilirsiniz.

Expand
titleWeb Sayfa Parametrelerinin İşlenmesi

Pek çok web sayfasında parametre kullanılıyor. GEODI aynı sayfanın farklı parametre kullanan biçimlerini farklı sayfa olarak değerlendir. Ancak parametrelerin içeriği değiştirmediği pek çok durum var ve bu durumlarda parametreleri ihmal edebilirsiniz.

Örneğin:

https://ornek.com

https://ornek.com?ShowComments=true

aynı sayfayı açıyorsa İhmal edilecek parametrelere "showComments" yazmalısınız. GEODI her ikisini aynı sayfa olarak değerlendirir.

Expand
titleSayfa Tarama Kuralları

GEODI Web Sayfası bazında kurallara sahiptir. Bazı kurallar hazır gelir. Örneğin vikipedia sayfalarında sadece içeriğin olduğu "kutucuk" işlenir. Bazı web sayfalarında yer alan sayfalayıcılar (1,2,3,... 10 şeklinde görünen ve sayfaları belirleyen linkler) otomatik olarak işlenir. 

Expand
title

...

Sayfa

...

Bu bigiler yoksa sayfanın browserda görünen adresi kullanılacaktır.

Expand
titleSeviye

Seviye=0 ile sadece verilen sayfa indexlenir. Bütün sayfalara erişebilmek için seviye yeterince büyük olmalıdır. Sayfalama olan durumlar için seviye değeri 1000+ verilebilir.

...

göründüğü gibi indexlenmiyorsa

Bazı sayfalar JavaScript ile oluşur. Bu durumda sayfanın html içeriği gerekli bilgiyi vermez. Böyle durumlarda “tarayıcı gibi gez” seçeneği işaretlenmelidir.

...

İndeksleme daha yavaş ama istendiği gibi olacaktır. Seçeneğin çalışması için alternatif web tarayıcı modülü yüklü olmalıdır.

Expand
titleSorgu sonucuna gelecek sayfa isimleri Nasıl Oluşuyor

Sayfa HTML kaynağı içinde varsa og:title yoksa title da yer alan bilgiler kullanılır.

Bu bilgiler yoksa sayfanın browserda görünen adresi kullanılacaktır.