GEODI Web sayfalarını ve RSS haber kaynaklarını da içerik olarak kullanabilir. Web sayfaları çok değişken yapılarda olabilir. Bu değişkenliği desteklemek için Web Sayfası veri kaynağı pek çok opsiyon sunar.
Web sayfalarını indexlemek indekslemek yoğun internet kullanımı yaratabilir. Bazı siteler bu şekilde kullanımı “saldırı olarak yorumlayabilir ve sizi yasaklayabilir. Ayrıca indekslediğiniz sayfaların telif hakları indexlemeye indekslemeye yasal olarak izin vermiyor olabilir. Bu ve olası diğer durumlarda tüm sorumluluğun sizde olduğunu, DECE’nin sadece teknik bir çözüm sunduğunu bilmenizi isteriz.
...
Expand | ||
---|---|---|
| ||
Tek bir adres veya çok sayıda adres verebilirsiniz. Domain kısıtlama ayarları her bir adres için bağımsız şekilde çalışacaktır. |
Expand | ||
---|---|---|
| ||
Seviye=0 ile sadece verilen sayfa indexlenirindekslenir. Bütün sayfalara erişebilmek için seviye yeterince büyük olmalıdır. Sayfalama olan durumlar için seviye değeri 1000+ verilebilir. |
Expand | ||
---|---|---|
| ||
Bazı web sitelerinde içerik olarak ilgilenmediğiniz Sosyal medya linkleri, reklam sayfaları veya benzeri sayfalar olabilir. Dilediğiniz kadar sayfayı tarama sonuçlarından çıkarabilirsiniz. Sayfa adresleri ";" ile ayrılmalıdır. Adresleri tanımlarken "*" kullanarak genelleştirme yapabilirsiniz.
|
Expand | ||
---|---|---|
| ||
Pek çok web sayfasında parametre kullanılıyor. GEODI aynı sayfanın farklı parametre kullanan biçimlerini farklı sayfa olarak değerlendir. Ancak parametrelerin içeriği değiştirmediği pek çok durum var ve bu durumlarda parametreleri ihmal edebilirsiniz. Örneğin: https://ornek.com?ShowComments=true aynı sayfayı açıyorsa İhmal edilecek parametrelere "showComments" yazmalısınız. GEODI her ikisini aynı sayfa olarak değerlendirir. |
Expand | ||
---|---|---|
| ||
GEODI Web Sayfası bazında kurallara sahiptir. Bazı kurallar hazır gelir. Örneğin vikipedia sayfalarında sadece içeriğin olduğu "kutucuk" işlenir. Bazı web sayfalarında yer alan sayfalayıcılar (1,2,3,... 10 şeklinde görünen ve sayfaları belirleyen linkler) otomatik olarak işlenir. |
Expand | ||
---|---|---|
| ||
Bazı sayfalar JavaScript ile oluşur. Bu durumda sayfanın html içeriği gerekli bilgiyi vermez. Böyle durumlarda “tarayıcı gibi gez” seçeneği işaretlenmelidir. İndexleme İndeksleme daha yavaş ama istendiği gibi olacaktır. Seçeneğin çalışması için alternatif web tarayıcı modülü yüklü olmalıdır. |
Expand | ||
---|---|---|
| ||
Sayfa HTML kaynağı içinde varsa og:title yoksa title da yer alan bilgiler kullanılır. Bu bigiler bilgiler yoksa sayfanın browserda görünen adresi kullanılacaktır. |