PDA

Zobacz pełną wersję : Nieprzyjazne URL-e indexowane przez google bota.



cubase
21-09-2016, 10:40
Oparłem stronę na schemacie przypisywania pozycji menu do każdego artykułu. Chciałem miec możliwośc przypisania szablonu do widoku otwartego artykułu i przypisania dowolnego modułu do dowolnego artykułu.
Dzięki temu tez mogłem zastosować proste URL bez info o kategorii czy ID artykułu np www strona pl /jakis-tam-tytul-artykulu wszystko było ok, google indexowało chętnie takie proste url, lecz wczoraj zauważyłem, że zamiast takeigo ładnego url zaindeksowało cos takiego: www strona pl /component /content / article?id=25:jakis-tytul-jakiegos-artykulu zamiast prostego url. Skąd to się wzięło i co zrobić, żeby ukryć to dla wyszukiwarek, żeby widziały tylko ładne proste url ustalone dzieki przypisaniu pozycji. Dodam jeszcze że gdy otwiera się przy takim url nie ma juz przypisanego szablonu. Prosze o pomoc

cubase
21-09-2016, 12:31
...znalazłem przed chwilą w logach serwera, że google bot miał problem z odnalezieniem robot.txt - umieściłem go w złym miejscu. Poczekam na wizytę bota, i jeśli się potwierdzi, że to było przyczyną wrócę zamknąć temat.

cubase
24-09-2016, 23:50
Przed chwilą sprawdziłem logi serwera, google bot przeleciał przez url i wyniki są juz git. Podstawa problemu to błąd z robots.txt albo błędna lokalizacja albo inny problem zwiazany z blednymi wytycznymi w samym pliku ( najlepiej nie kombinować, użyć stockowy plik z joomla - wystarczy zapisac z koncowka txt i wszystko). Gdy już jednak problem sie pojawi to nr 1 - poprawić błędy z robots.txt, sprawdzic w google search console czy nie ma problemow. nastepnie w google search console w parametrach url wpisac parametr component ( lub inny wystepujacy w niechcianym url ) i ustawic jako zaweza - nie wyswietlac usunac z wynikow. Nastepnie zabieg, aby przyspieszyc ponowna indexacje przez bota - usunac w tym samym narzędziu niechciany URL ( tam jest taka funkcja usun tymczasowo z wynikow, wbijamy url ktorego nie chcemy widziec w wynikach google ). Dla swietego spokoju zgłosiłem jeszcze pownowna indexacje do google ale wydaje mi sie, że to miało najmniejsze znaczenie w przyspieszeniu procesu ponownej wizyty bota w tym obszarze. Bądźcie mądrzy, nie popełniajcie cudzych błędów. Pozdro!

cubase
20-01-2017, 04:07
Odświeżam temat, google nadal indexuje url-e z parametrami: www.strona.pl/ (http://www.strona.pl/)component/content/article?id=5:tytul-artykulu, indexuje również wersje www.strona.pl/tytuł-artykułu (http://www.strona.pl/tytuł-artykułu) ale chciałbym aby w indexach były tylko pożądane odnośniki. Czy ktos z was ma na to sposób?
mój plik robots.txt wyglada tak:


User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /component/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Sitemap: https://strona.pl/sitemap.xml

Dodam, że w google search console zablokowane sa parametry w url-ach typu id i nadal nic, tzn indexuje takie kwiatki: www.strona.pl/component/content/article?id=5:tytul-artykulu

Jac
20-01-2017, 13:06
Dodaj w robots.txt


Disallow: /component/content/article?id=5:tytul-artykulu
Noindex: /component/content/article?id=5:tytul-artykulu


Tylko musisz doczytać, co Google na stosowanie Noindex w pliku robots.txt. Nie jestem teraz pewien, czy bierze to pod uwagę, czy nie.

Trochę lektury:

http://tools.seobook.com/robots-txt/
https://moz.com/learn/seo/robotstxt

cubase
20-01-2017, 15:09
Dodaj w robots.txt

Kod:
Disallow: /component/content/article?id=5:tytul-artykulu
Noindex: /component/content/article?id=5:tytul-artykulu
Tylko musisz doczytać, co Google na stosowanie Noindex w pliku robots.txt. Nie jestem teraz pewien, czy bierze to pod uwagę, czy nie.

To każdy artykuł musiałbym w ten sposób blokować, musi być inne wyjście :(

Jola
20-01-2017, 15:42
Powodem powstawania takich adresów jest brak Itemid w linku.
Tego typu linki mogą być generowane przez różne rozszerzenia, często moduły.
Na tym forum ten temat był wielokrotnie poruszany.

cubase
21-01-2017, 16:28
Powodem powstawania takich adresów jest brak Itemid w linku.
Tego typu linki mogą być generowane przez różne rozszerzenia, często moduły.
Na tym forum ten temat był wielokrotnie poruszany.

Dzięki za odpowiedź. Znalazłem wpis na ten temat na forum, odnośnie Itemid. Jednak dotyczy on starej wersji Joomla, sugestie ustawień jakie tam podano nie istnieją w 3.6.5. Ponad to nie wiem czy to istotne, ale wszystkie artykuły są podpięte pod osobne "niewidoczne" menu ( w celu podpinania dowolnych modułów i szablonów do różnych artykułów ).

cubase
22-01-2017, 21:31
witam,
Dziękuję za sugestie sprawdzenia forum w poszukiwaniu wielokrotnie poruszanego tematu. Owszem temat poruszany, lecz w żadnym wątku NIE BYŁ rozwiązany.
linki z /component/content/ w indexie google nie mają nic wspólnego z robots.txt, itemid, podwójnymi linkami, strukturą menu, kategorii czy innymi głupotami sugerowanymi przez nawet najlepszych na tym forum. Powód indexowania takich linków przez google jest banalny, chętnie pomogę na priv, pozdrawiam.

Jac
22-01-2017, 21:42
@cubase, chyba nie czytałeś ze zrozumieniem. Podałem Tobie sposób na zablokowanie tego typu linków, żeby nie indeksowały się w Google.

Skoro twoim zdaniem problem indeksowania tego typu adresów URL jest banalny i znasz rzekome rozwiązanie, to podziel się tym na publicznym forum, a nie robisz teraz z tego tajemnicę.

cubase
22-01-2017, 23:58
@cubase, chyba nie czytałeś ze zrozumieniem. Podałem Tobie sposób na zablokowanie tego typu linków, żeby nie indeksowały się w Google.
Skoro twoim zdaniem problem indeksowania tego typu adresów URL jest banalny i znasz rzekome rozwiązanie, to podziel się tym na publicznym forum, a nie robisz teraz z tego tajemnicę.

Do Ciebie nic nie mam, próbowałeś pomóc. Reszta panów aroganckich polecających przeszukać forum niech sobie przeszuka forum ;) ( trafiając na wątki w tym temacie bez rozwiązania problemu ) spokojnej nocy Jac

Jola
23-01-2017, 00:58
Powodem powstawania takich adresów jest brak Itemid w linku.

$built = false;

if (!empty($query['Itemid']))
{....$built = true;
......
}
....
if (!$built)
{
$tmp = 'component/' . substr($query['option'], 4) . '/' . $tmp;
}
To kod w najnowszej wersji Joomla - w poprzednich było to samo.
Nie żadna "reszta aroganckich panów" - tylko ja podałam Ci powód powstawania takich adresów.
Reszty nie będę komentować bo taki poziom wymiany informacji to nie moja bajka.

cubase
23-01-2017, 01:45
@Jola no i nie dało się tak od razu?
Jeśli chodzi o rozwiązanie na Twoją propozycje nie wpadłem ( prawdopodobnie nie zadziała ). Poszedłem w poszukiwaniu przyczyny z myślą, że Google nie może indexowac linków nie istniejących w wynikach strony, bo przecież google boty nie znajdą żadnych linków tego typu w plikach na serwerze = bo ich tam nie ma. Postanowiłem więc mozolnie przeszukać wyniki stron w poszukiwaniu linków z component/concent. Okazało się, że takie linki, generowane są w RSS Feed!!! tak to jest aż tak proste, Google booty maja dostep do Rss feed, gdzie linki nie są zmienione przez SEF w Joomla!
Wystarczy wyłączyć rss i pozamiatane.

Co jeśli chcemy mieć rss feed na swojej stronie? i tu poproszę o wymyślenie rozwiązania kogoś kto ma większa wiedzę - @Jola ?

noiragneau
26-10-2018, 10:06
@cubase jak wyłączyłeś RSS Feed ?
Mam podobny problem z pojawieniem się w indeksach linków typu component/content/category/... przez co duplikują mi się treści i właśnie szukam rozwiązania.

PS. Jak można ustawić aby linku typu www.twojastrona.pl/component/content/category/11-nazwakategorii żeby w ogóle nie działały, nie mówiąc o indeksacji...?

Bazyl
26-10-2018, 10:09
Można dodać noindex, ale obecne przekierować na właściwe adresy

noiragneau
26-10-2018, 11:03
Dzięki za odpowiedź.
Rozumiem że dla każdej takiej kategorii muszę ustawić w jej opcjach publikacji:
Wyszukiwarki: Nie indeksuj stron i nie indeksuj wskazywanych przez odsyłacze ?
Przekierować przed dodatek Przekierowania czy inny sposób?

noiragneau
26-10-2018, 13:44
Jeszcze jedna rzecz jeśli chodzi o niepotrzebne generowanie linków.
Jak pozbyć się linków typu widok kategorii, których nie chcemy - mamy tam artykuły ale nie chce żeby po wpisaniu "www.twojastrona.pl/ID-kategoria" pojawiało się cokolwiek.

Bazyl
26-10-2018, 15:33
Rozumiem że dla każdej takiej kategorii muszę ustawić w jej opcjach publikacji:
Wyszukiwarki: Nie indeksuj stron i nie indeksuj wskazywanych przez odsyłacze ?

Nie, bo i te dobre będą objęte noindex ;-)


Przekierować przed dodatek Przekierowania czy inny sposób?

Nie wiem, czy w Przekierowaniach zadziała, ale sprawdź...