Kopya veya Benzer İçerikleri Arama
Çoğu kurumda belgelerin %40’a kadarı kopya veya yüksek oranda benzer içerikten oluşur. Bu tür tekrar eden içerikler:
🌀 Kullanıcılar için kafa karışıklığı yaratır
🔍 Arama sonuçlarını karmaşıklaştırır
💾 Gereksiz depolama alanı tüketir
Kopya veya benzer belgeler: Aynı klasörde bulunabilir, Veya farklı sürücülerde, e-posta sistemlerinde, yedeklerde veya departmanlar arasında dağılmış olabilir. Farklı formatlarda olabilir (örneğin aynı belgenin PDF ve DOCX hali)
GEODI, otomatik olarak: Birebir kopyaları, Benzer içerikleri ve Görsel benzerlikleri format fark etmeden bulur. GEODI, benzerlik ve kopyalığı dosya adı ya da formatına değil, içeriğe göre değerlendirir. Yani aynı metni içeren bir DOCX ve PDF dosyası, kopya veya benzer olarak tespit edilebilir.
Bu sayede kurumlar: Temiz ve tekilleştirilmiş veri ile çalışır. Daha doğru keşif ve sınıflama sonuçları elde eder. Zaman kazanır, karmaşayı azaltır ve raporlama süreçlerini sadeleştirir
Kopyaları Ara
Genellikle organizasyondaki belgelerin %40’ı kopyalardan oluşur. Kopyalar karışıklığa neden olur ve aramaları zorlaştırır. GEODI bunları bulur ve ortadan kaldırmanıza yardımcı olur.
“kopya” ile kopyası olan tüm dokümanları bulursunuz. “-kopya” ile kopyası olmayanları bulursunuz.
kopya | duplicate → kopyası olanlar
kopya:(geodi sorgusu) → sorguya uyan içeriklerin kopyaları
-kopya → (kopyası olmayanlar)
kopya:(doc:a.pdf) → (a.pdf’in kopyalarını bul)
kopya:"10 ada 20 Parsel Yapı Ruhsatı" (ilgili ifadeyi içeren ilk dokümanın kopyaları)
Kopya içeriklerin ayrıştırılması
Yinelenen içerikleri verimli bir şekilde yönetmek için GEODI iki tamamlayıcı sorgu sunar: duplicate2:
ve original2:
.
Sorgu | Açıklama | Sonuç |
---|---|---|
| Yinelenmiş olarak tanımlanan tüm öğeleri döndürür. | 9 doküman |
| Her yinelenen küme için yalnızca orijinal belgeyi döndürür. (her kümeden 1 adet) | 1 doküman |
Sorgu | Açıklama |
---|---|
| Belirli bir kaynak belirtilmediğinde hangi dosyanın orijinal kabul edileceğini tanımlar:
|
|
|
|
|
Benzerleri Ara
GEODI, kopyalar gibi, içerikler arasında benzerlikleri de tespit eder.
Ancak kopyaların aksine, benzerlik oransal bir özelliktir. Her kopya aynı zamanda benzerdir, ancak tüm benzerler kopya değildir. İsteğe bağlı olarak kopyaları benzerlik listesinden hariç tutabilirsiniz.
Sorgu | Açıklama |
---|---|
benzer:(doc:a.pdf) | similar:(doc:a.pdf) | a.pdf benzerlerini bul |
benzer:”Ankara Kalesi" | (ankara kalesi geçen ilk dokümanın benzerleri) |
benzer:(maxcount:<n>) | Benzer içerik listesinde gösterilecek maksimum benzer sayısını sınırlar |
benzer:(minsimilarity:<oran>) | Benzerlik eşik değerini ayarlar. Varsayılan değer: 0.7 (yani %70) |
benzer:(excludeDuplicates:true) | Kopyaları benzerlik sonuçlarından hariç tutar. (varsayılan true) |
Benzer içeriklerin Ayrıştırılması
Çok sayıda benzer (ama birebir aynı olmayan) belgeyle çalışırken, bu belgeler arasından yalnızca bir temsilci belgeyi getirmek istersiniz. Bu, arama verimliliğini artırır ve gereksiz içeriklerin imha veya karantinaya alınarak temizlenmesine yardımcı olur.
Sorgu | Açıklama |
---|---|
| Varsayılan olarak %70 ve üzeri benzerliğe sahip içerik gruplarından bir belge getirir. |
| Sadece %90 ve üzeri benzerliğe sahip belgeler arasından birini getirir. |
| Belirtilen sorgu sonucundaki içerikler içinde benzer olanlardan bir tanesini getirir. |
| Benzeri olmayan belgeleri de sorgu sonucuna dahil eder. |