Obsah škrabkou (aka web scraping, web harvesting, web data mining atď.) je postup kopírovania údajov z webovej stránky. „Škrabky“ (Stierače) obsahom sú ľudia alebo softvér, ktorí kopírujú údaje. Škrabanie webu nie je zlá vec.

V skutočnosti sú všetky webové prehľadávače v podstate škrabky na obsah. Existuje mnoho legitímnych účelov na vykonávanie scrapingu obsahu, napríklad indexovanie webu pre vyhľadávače.

Pozri náš článok Ako zabrániť spoločnosti Google v indexovaní vášho blogu WordPress

Skutočným problémom je, či škrabky obsahu na vašich webových stránkach sú škodlivé alebo nie. Konkurenti môžu chcieť ukradnúť váš obsah a zverejniť ho ako súčasť ich. Ak môžete legitímnym používateľom povedať, že ste proti zlým mužom, máte väčšiu šancu chrániť sa. Tento článok vysvetľuje základy zoškrabovania webu a niektoré metódy, ako sa ho zbaviť (alebo aspoň znížiť ich význam).

Ale predtým, ak ste nikdy nenainštalovali WordPress objaviť Ako nainštalovať a WordPress blog v 7 krokoch et Ako nájsť, nainštalovať a aktivovať WordPress tému na svojom blogu 

Potom späť k tomu, prečo sme tu.

Druhy obsahu škrabky

Existuje mnoho rôznych spôsobov, ako môžu škrabky na obsah sťahovať údaje. Je dôležité poznať rôzne metódy a technológie, ktoré používajú. Metódy siahajú od nízkej technológie (osoba, ručné kopírovanie a vkladanie obsahu) sofistikovaným robotom (automatizovaný softvér schopný simulovať ľudskú činnosť v prehliadači). Tu je prehľad toho, čo možno budete musieť urobiť:

  • pavúky: Prehľadávanie webu je veľkou časťou toho, ako fungujú škrabky na obsah. Pavúk ako Googlebot začne výberom jednej webovej stránky a prechodom z odkazu na odkaz na stiahnutie webových stránok.
  • skripty shell: Môžete použiť Linux Shell na vytvorenie škrabiek na obsah pomocou skriptov, ako je GNU Wget, na stiahnutie obsahu.
  • Škrabka HTML: sú podobné shell skriptom. Tento typ škrabky je veľmi častý. Funguje to tak, že sa získa štruktúra HTML webových stránok, aby sa našli údaje.
  • Obrazovky: Stierač obrazovky je program, ktorý zaznamenáva údaje z webových stránok napodobňovaním správania ľudského používateľa, ktorý na prehliadanie Internetu používa počítač.
  • človek copy: Toto je miesto, kde osoba manuálne kopíruje obsah z vášho webu. Ak ste niekedy uverejňovali príspevky online, mohli ste si všimnúť, že je plagiát častý. Po odznení počiatočných lichôtok zapadá realita, že niekto profituje z vašej práce.

Existuje niekoľko spôsobov, ako urobiť to isté. Vyššie uvedené kategórie škrabiek nie sú vyčerpávajúci zoznam. Medzi kategóriami sa navyše veľa prelína.

Prečítajte si aj náš článok Ako a prečo kvalitatívne audit vášho obsahu

Ako chrániť svoj blog

Chráňte blog pred škrabkami na obsah

1. Obmedzenie rýchlosti a blokovanie

Najskôr odhalením problému môžete bojovať s mnohými robotmi. Pre automatizovaný robot je typické spam váš server s mimoriadne vysokým počtom požiadaviek. Rate throttling, ako už názov napovedá, obmedzuje požiadavky servera od individuálneho klienta nastavením pravidla.

Môžete napríklad merať milisekundy medzi požiadavkami. Ak je interakcia s vašou webovou stránkou príliš rýchla, potom viete, že je to robot. Potom zablokovať túto adresu IP. Adresy IP môžete blokovať na základe viacerých kritérií vrátane krajiny pôvodu.

2. Registrácia a pripojenie

Registrácia a prihlásenie sú populárnym spôsobom, ako zabrániť obsahu pred zvedavými očami. Môžete brániť postupu robotov. Všetko, čo musíte urobiť, je podmieniť prístup k vášmu obsahu pripojením. Tu platia základy zabezpečenia spojenia. Pamätajte, že stránky vyžadujúce registráciu a prihlásenie nebudú indexované vyhľadávacími nástrojmi.

3. Honeypoty a nepravdivé údaje

V informatike sú „honeypoty“ operácie virtuálneho bodnutia. Potenciálnych útočníkov zhromaždíte umiestnením pascí pomocou honeypotu, aby ste zistili prevádzku zo škrabiek na obsah. Existuje nekonečné množstvo spôsobov, ako to dosiahnuť.

Môžete napríklad pridať neviditeľný odkaz na svoju webovú stránku. Ďalej vytvorte algoritmus, ktorý blokuje IP adresu klienta, ktorý klikol na odkaz. Prepracovanejšie honeypoty môžu byť náročné na nastavenie a údržbu. Dobrou správou je, že existuje veľa open source projektov Honeypot. Vyskúšajte to skvele zoznam úžasných honeypotov na stránkach github.

4. Použite CAPTCHA

Captcha znamená „ Úplne automatizované Verejné Turingov test povedať Počítače a ľudia Apart v podstate test na rozpoznanie rozdielu medzi ľuďmi a robotmi. Captcha môžu byť nudné, ale sú tiež užitočné. Môžete použiť a na blokovanie oblastí, o ktorých si myslíte, že by sa robot mohol chcieť zamerať, ako napríklad tlačidlo e-mailu na vašom Kontaktný formulár. Na WordPress je k dispozícii veľa dobrých doplnkov Captcha, vrátane „ captcha Od spoločnosti Jetpack.

Objavte aj niektoré prémiové doplnky WordPress  

Môžete použiť iné WordPress pluginy poskytnúť moderný vzhľad a optimalizovať prácu s vaším blogom alebo webovou stránkou.

Ponúkame vám tu niekoľko prémiových doplnkov WordPress, ktoré vám to pomôžu.

1. Pruh pre arformy

ARForms má nové rozšírenie, ktoré prijíma platby prostredníctvom platobnej brány Stripe. Nazýva sa to „ARForms Stripe“. Ten integruje vstupy a platby z formulára do jedného procesu.

Pruh pre oblúky

Môžete fakturovať zákazníkom s dynamickou sumou okamžite po odoslaní formulára ARForms.

Prečítajte si aj náš článok Ako používať pruh na WooCommerce a ľahké digitálne download

Potrebujete iba vytvoriť formulár pomocou ARForms, nakonfigurovať ho pomocou Stripe a všetko je hotové! Platbu môžete nastaviť pomocou služby Stripe.

Stiahnuť | demo | web hosting

2. Sociálny prúd AX

Ak si budete priať zobrazte na svojich webových stránkach viac informačných kanálov zo sociálnych médií, potom doplnok Sociálna rada WordPress vám to umožní poskytnutím šiestich spôsobov zobrazenia aktivity vášho účtu. Budete tiež profitovať z podpory 17 sociálnych sietí a niekoľkých prispôsobiteľných rozložení.

Axe sociálny prúd wordpress plugin

Jeho vlastnosti sú okrem iného: 6 rôznych režimov zobrazenia informačného kanála, podpora veľkej väčšiny sociálnych sietí, plne responzívne rozloženie, podpora reklamných bannerov, Viacjazyčná podpora, správca tém, podrobná dokumentácia atď.

Stiahnuť | demo | web hosting

3. Interaktívna mapa sveta

Interaktívne mapy sveta vám pomôžu vytvoriť toľko geolokačných máp, koľko chcete, kontinentov, krajín alebo oblastí ... a to pomocou interaktívnych a farebných značiek.

Interaktívne Svetové mapy

Je kompatibilný s najnovšími verziami WordPress a perfektne sa hodí k Doplnok Visual Composer.

Objavte naše Zásuvné moduly 8 WordPress na prispôsobenie vzhľadu vašich webových stránok

Vďaka interaktívnym mapám sveta budete môcť zobraziť niekoľko typov regiónov, ako napríklad: mapu celého sveta, kontinent alebo subkontinent, krajinu a oveľa viac.

Stiahnuť demo | web hosting

Ďalšie odporúčané zdroje

Tiež vás pozývame, aby ste si prečítali zdroje uvedené nižšie, aby ste sa presadili a ovládali svoje webové stránky a blog.

záver

To je ono! To je všetko pre tento návod, dúfam, že vám pomôže vytvoriť praktický zoznam úloh na účinnú ochranu WordPress blogkľudne zdieľajte tip so svojimi priateľmi na svojich sociálnych sieťach.

Môžete sa však poradiť aj s našimi zdroje, ak potrebujete viac prvkov na realizáciu svojich projektov tvorby internetových stránok, konzultujte nášho sprievodcu na internete Tvorba blogu WordPress.

Medzitým nám ale povedz niečo o svojom Komentáre a návrhy vo vyhradenej sekcii.

...