Jak wykrywać, eliminować i zapobiegać duplikacji treści? - Część 1

1 sierpnia 2018
Duplikacja treści jest niepożądanym zjawiskiem, na które łatwo narazić swoją witrynę. Jej zwalczanie może okazać się czynnością wymagającą wysokich nakładów czasowych lub finansowych. Na szczęście w kilku prostych krokach możemy zdiagnozować nasz serwis pod kątem powielonych tekstów. Podobnie, zastosowanie kilku rozwiązań pomoże nam, przynajmniej częściowo, zapobiegać powstawaniu kopii i oszczędzić dodatkowej pracy. Jak okazuje się, diabeł nie zawsze tkwi w „zapożyczaniu treści” od konkurencyjnych serwisów. Często źródło problemu zlokalizowane jest w obrębie tylko naszej witryny i tym, na co jej pozwalamy.   W pierwszym artykule z cyklu „Jak wykrywać, eliminować i zapobiegać duplikacji treści?” zajmiemy się podejściem Google do duplikacji treści, rozróżnieniem duplikatów zewnętrznych oraz wewnętrznych, a także przedstawimy najczęstsze zachowania i elementy będące przyczyną opisywanego w artykule zjawiska.  

Co Google sądzi na temat Twoich duplikatów?

„Temat rzeka” i to na sam początek, gdyż duplikat duplikatowi nierówny. Najłatwiej przyjąć, że Google nie przepada za powielaniem treści i słusznym rozwiązaniem będzie maksymalne unikanie kopiowania contentu w obrębie witryny oraz kategoryczne niedopuszczanie do zapożyczania treści z innych witryn, chyba że mówimy o dozwolonym cytowaniu (z tym bardzo ostrożnie). Musimy wiedzieć, że Google zdaje sobie sprawę z faktu, że nie każda kopia jest efektem działania celowego, mającego na celu manipulowanie wynikami wyszukiwania o czym przeczytasz we wskazówkach dotyczących treści Google. Google nie stawia sobie za cel ukaranie Twojej witryny za każdy przejaw kopii. Nie mniej jednak, zakłada, że zadbasz o unikalną treść i będziesz w stanie zapanować nad porządkiem w swoim serwisie, zapobiegając na przykład duplikacji tych samych podstron. Jednocześnie musisz zdawać sobie sprawę z tego, że rażące naruszenia dotyczące powielania treści mogą negatywnie wpływać na pozycje, na jakich uplasuje się Twoja witryna. Może zdarzyć się również, że kopiowany tekst po prostu nie przyniesie pozytywnego efektu (Google promuje unikalny content).  

Duplikaty zewnętrzne i duplikaty wewnętrzne

Duplikaty w najprostszym rozróżnieniu dzielimy na duplikaty zewnętrzne i wewnętrzne. Duplikacją zewnętrzną nazywamy powielanie treści w obrębie dwóch lub większej liczby witryn. Na myśl od razu przychodzi, niestety wszechobecne, „podbieranie” treści od konkurencyjnych serwisów / producentów - zjawisko popularne zwłaszcza w e-commerce, gdzie kopiowanie opisów w kartach produktowych nie jest niczym nadzwyczajnym. Podobnie często możemy spotkać się z powielaniem treści całych podstron, zwłaszcza w niektórych branżach. Dla eksperymentu możemy na przykład sprawdzić unikalność treści w witrynie naszego stomatologa czy też mechanika. Pomimo, że mógł poświęcić wiele godzin na stworzenie profesjonalnych tekstów, pewnego dnia konkurent wstawia je w obrębie własnej witryny. Wkrótce jest ich 50 - duplikaty lubią pójść w świat! Musimy zdawać sobie sprawę z tego, że nie każda duplikacja zewnętrzna to kradzież. Właściciele witryn często nie są świadomi faktu, że kopiowanie tekstów w obrębie kilku domen własnych również jest duplikacją. Do wątpliwych należy również cytowanie fragmentów treści. O ile robisz to tak jak robi to Wikipedia - streszczasz powołując się na źródła, cytujesz dosłownie krótki fragment (1-2 zdania) otoczony pokaźną ilością unikalnej, dopracowanej treści, nie masz powodów do zmartwień. Czasem bez tego po prostu się nie obędzie. Jeśli kopiujesz obszerny blok tekstu lub Twoja podstrona jest zlepkiem cytowanych fragmentów, nieoferujących użytkownikowi żadnej wartości dodanej, sprawa nie wygląda już tak dobrze.   Duplikacja wewnętrzna, w odróżnieniu od zewnętrznej, dotyczy stricte powielenia treści w obrębie Twojej witryny. Mowa nie tylko o celowym skopiowaniu podstrony czy też bloku tekstu. Wewnętrzne powielanie potrafi wynikać z problemów dotyczących optymalizacji technicznej. Dlatego też Google daje wiarę, że nie każdy duplikat wewnętrzny jest efektem celowego działania i nie każdy przejaw duplikacji zostanie ukarany. Problemy optymalizacyjne nie są jednak wystarczającym usprawiedliwieniem dla rażącego występowania opisywanego zjawiska. Masowe generowanie URL paginacji czy indeksacja parametrów sesji zdecydowanie nie należy do zdrowych. Jeśli problem dotyka Twojej witryny, nawet jeżeli nie odczułeś negatywnych skutków, posprzątaj w swoim serwisie czym prędzej. Jak to się popularnie mówi, nie znasz dnia ani godziny. 🙂

Co wolno, a czego nie wolno?

O ile duplikacja zewnętrzna nie jest wyjątkowo obszernym tematem (Chociaż kiedy to nam kradzione są teksty, sytuacja jest nieco bardziej skomplikowana) i wystarczy zastosować się do kilku reguł, duplikacja wewnętrzna w zasadzie mogłaby być tematem na cykl artykułów, zwłaszcza jeśli szeroko opisalibyśmy sposoby rozwiązywania poszczególnych jej przejawów.   Jeśli chodzi o duplikację zewnętrzną zdecydowanie niepożądane jest:
  • Kopiowanie treści z innych witryn - nie tylko ze względu na SEO, ale i kwestie prawne, nie kopiujemy materiałów z serwisów tematycznych/branżowych, informacyjnych, blogów, sklepów internetowych. Nie kradniemy również od konkurencji!
  • Kopiowanie treści z innych witryn własnych - Google stawia na unikalną zawartość i postrzega Twoje domeny rozdzielnie. Duplikat w obrębie domen własny może zatem zostać potraktowany tak samo jak duplikat pochodzący od konkurencji.
  • Przeniesienie witryny na nową domenę bez ustawienia przekierowania 301. Jeśli posiada to logiczne uzasadnienie, poprawne będzie również ustawienie kodu odpowiedzi 410 (trwale usunięto) na pierwowzór.
  • Kopiowanie całego lub dużej części artykułu do wpisu w mediach społecznościowych.
  Do wątpliwych należy również:
  • Dłuższe cytowanie dosłowne - zwłaszcza kiedy brakuje obszernego unikalnego contentu. Trudno wskazać tutaj rozsądną granicę. Pamiętajmy, że cytując treści, wskazane (nawet nie ze względu na SEO) jest zamieszczenie źródła cytowanego tekstu.
  • Nieumiejętne streszczanie tekstu - streszczenie nie polega na prostej modyfikacji spójników, szyku zdań i znaków przestankowych,
  • Przeredagowywanie istniejących tekstów - po pierwsze: jeśli tekst pochodzi od innego twórcy, przeredagowywanie jego tekstu kłóci się z etykietą. Po drugie: proste edycje tekstu mogą okazać się niewystarczające i tekst może być zbyt podobny do pierwowzoru, aby nie zawierać elementów duplikowanych. Do powyższego punktu mały komentarz: jeśli posiadasz dwie zbliżone tematycznie podstrony na dwóch różnych domenach, chcesz być poprawny wobec Google’a, przeredagowanie tekstu nie będzie grzechem. Zadbaj jednak, aby był silnie zmodyfikowany - do tego stopnia, by oryginał przypominał tylko w sensie merytorycznym.
  • Masowe cytowanie krótkich fragmentów - na pewno dopóki cytaty nie są otoczone dużą ilością unikalnej treści. Cytaty powinny być atrakcyjnym i wartościowym dodatkiem do tego, co tworzysz sam.
  Problemu nie stanowi:
  • Streszczanie krótkich fragmentów treści - dla poprawności warto zamieścić źródło streszczanego tekstu,
  • Krótki cytat dosłowny - tutaj również poprawnym zachowaniem będzie wskazanie źródła.
  • Zastosowanie kilku krótkich cytatów, kiedy na podstronie znajduje się duża ilość unikalnej treści - inaczej wygląda 20 cytatów otoczone 500 znakami, a inaczej 5 w asyście 5000 znaków unikalnego tekstu.
  • Krótkie cytowanie tekstu ze swojej strony we wpisie w mediach społecznościowych.
  W temacie duplikacji wewnętrznej, im bardziej funkcjonalny serwis, tym generalnie trudniej. Pole do powstawania duplikatów wewnętrznych staje się coraz większe wraz ze wzrostem jego złożoności. Nie sposób wymienić wszystkie przyczyny powielenia. Do najczęściej spotykanych należą:
  • Umyślne powielenie treści w obrębie różnych podstron,
  • Umieszczenie tej samej podstrony pod dwoma lub większą ilością adresów URL,
  • Niewłaściwe wdrożenie reguły przekierowań - jeśli Twoja witryna nie przekierowuje użytkownika z wersji „z www” do wersji „bez www” - mierzysz się z duplikatem całej witryny.
  • Niewłaściwe wdrożenie HTTPS - jeśli Twoja witryna funkcjonuje zarówno pod wersją HTTP jak i HTTPS, efekt jest taki sam jak opisany punkt wyżej,
  • Wielokrotne publikowanie szablonów podstron, które nie zostały wypełnione treścią - nie dość, że duplicate content, to jeszcze thin content (Uboga treść rozumiana w tym wypadku jako jej niedostateczna ilość).
  • Podgląd fragmentów treści przez tzw. tooltipy - zauważalne zwłaszcza w e-commerce. Jeśli po najechaniu kursorem myszy na link do karty produktowej / podkategorii widzimy jej opis zaciągnięty z adresu docelowego, mamy do czynienia z duplikacją.
  • Niewłaściwe wdrożenie wersji językowych serwisu,
  • Indeksacja wyników wyszukiwania,
  • Indeksacja parametrów sesji,
  • Indeksacja podstron paginacji,
  • Indeksacja podstron sortowania, filtrowania,
  • Indeksowanie tagów i kategorii w obrębie bloga (Chyba, że oferują unikalne opisy, a tagi używane są bardzo ostrożnie - z ich indeksacją zdecydowanie warto się zastanowić),
  • Indeksacja wariantów produktu w sklepie internetowym (wersji kolorystycznych, wielkości pamięci i tak dalej…),
  • Wprowadzanie dużej ilości treści do stałych elementów szablonu witryny, jak na przykład stopki (Jeśli dodatkowo nasycimy takie elementy słowami kluczowymi, kanibalizacja gotowa).
  Warto zadbać również o nieindeksowanie podstron takich jak regulaminy, polityki prywatności. Osobiście wątpię, aby witryna została ukarana za indeksowanie polityki prywatności łudząco podobnej do innych w sieci. Ale po co indeksować politykę prywatności?   Gniewu Google nie powinny budzić:
  • Stałe elementy treści szablonu - sekcje: „Najczęściej komentowane”, „Skomentuj”, „Przeczytaj także”,
  • Skromna stopka - czyli kilka sekcji po kilka linków, „Copyrights” i tym podobne,
  • Menu,
  • Umiarkowane cytowanie akapitów z innej podstrony,
  • Umiejętne streszczanie bloków tekstu z innej podstrony.
 

Podsumowanie

  Jak widać, granica między istnieniem duplikacji, a jej brakiem, potrafi być cienka. Dlatego za wszelką cenę powinniśmy minimalizować ryzyko zaklasyfikowania treści w obrębie naszej witryny jako bliźniaczej. Zjawisko duplikacji często jest bagatelizowane przez osoby zarządzające witryną. Pamiętajmy, że nasz serwis ocenia na co dzień nie zespół ekspertów, a algorytm Google, który potrafi okazać się niedoskonały. Tym samym, znajdziemy w sieci mnóstwo przykładów witryn, które „jakoś (lub świetnie) sobie radzą”, pomimo ogromnej ilości duplikatów, a także przypadki  negatywnych konsekwencji za dość umiarkowane przewinienia. Jednak, zgodnie z myślą, że „lepiej zapobiegać, niż leczyć”, warto zadbać o wykluczenie maksymalnej liczby potencjalnych problemów, za które Google, w pewien kapryśny dzień, zainterweniuje i odwróci trend rosnący liczby użytkowników czytających treść Twojej witryny.   W kolejnej części omówione zostaną dwa podstawowe narzędzia do analizy duplikacji zewnętrznej oraz wewnętrznej, dzięki którym możemy natychmiast przeanalizować naszą witrynę pod kątem występowania duplikatów. Część trzecia dotyczyć będzie szerszego omówienia rozwiązań dla wymienionych już elementów, które mogą powodować powielanie treści w obrębie Twojej strony.
Udostępnij: 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

O autorze

Oktawian Kitala

Zobacz także:

TrustRank - o kontrowersyjnym algorytmie Google

W środowisku związanym z SEO często spotykany jest skrót TR (np. "listy TR"), odnoszącym się do TrustRanku strony. Pod pojęciem tym kryje się bardzo ważny dla właścicieli serwisów algorytm badający „zaufanie” strony, obliczający jej wartość m.in. na podstawie sąsiedztwa – linków przychodzących oraz wychodzących z witryny. Historia algorytmu TrustRank Algorytm TrustRank opracował Jan Pedersen z Yahoo, […]

Fox Strategy rekomendowanym ekspertem Woorank

Miło nam poinformować, że jako jedna z pierwszych firm w Polsce otrzymaliśmy certyfikat Woorank Experts i zostaliśmy Rekomendowanym Ekspertem Woorank w zakresie szeroko pojętego Digital Marketingu, ze szczególnym wyróżnieniem wiedzy z zakresu optymalizacji stron pod kątem SEO. Woorank.com jest jednym z bardziej popularnych online'owych narzędzi służących do analizy strony pod kątem jej podstawowej optymalizacji SEO i […]

Zmiany w wyszukiwarce mobilnej

21 kwietnia 2015 roku Google wprowadziło aktualizację mobilnej wersji swojej wyszukiwarki. Jest to dopiero pierwsza z wielu zaplanowanych zmian, mających na celu dostosowanie wyników wyszukiwania na smartfonach i tabletach w taki sposób, aby strony nieresponsywne i nieposiadające wersji "mobile" zniknęły z wysokich pozycji.

envelopephone-handset linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram