Guida per principianti per prevenire lo scraping dei contenuti del blog in WordPress

Guida per principianti per prevenire lo scraping dei contenuti del blog in WordPress

Se scrivi contenuti originali giorno dopo giorno, sei già consapevole del fatto che i tuoi post finiranno su un mucchio di siti SPAM entro pochi giorni a volte anche pochi minuti. Alcuni utenti hanno anche notato che il sito con contenuti rubati ha superato il post originale. È molto frustrante come proprietario di un sito web vedere che qualcuno sta rubando i tuoi contenuti senza autorizzazione, monetizzandoli, superandoti nelle SERP e rubando il tuo pubblico. Il Content Scraping è un grosso problema in questi giorni considerando che è così facile per qualcuno rubare i tuoi contenuti. In questo articolo, tratteremo cos’è lo scraping del contenuto del blog, come catturare i content scraping, come gestire i content scraping, come ridurre e prevenire il content scraping, come trarre vantaggio dallo scraping del contenuto, come guadagnare denaro dagli scrapers del contenuto e lo scraping dei contenuti è mai buono?

Che cos’è lo scraping dei contenuti del blog?

Lo scraping del contenuto del blog è un atto solitamente eseguito con script che estraggono il contenuto da numerose fonti e lo inseriscono in un sito. È così facile ora che chiunque può installare un sito WordPress, inserire un tema gratuito o commerciale e installare alcuni plugin che andranno a raschiare il contenuto da blog selezionati, in modo che possa essere pubblicato sul proprio sito.

Perché stanno rubando i miei contenuti?

Alcuni dei nostri utenti ci hanno chiesto perché stanno rubando i miei contenuti? La semplice risposta è perché sei FANTASTICO. La verità è che questi raschietti di contenuto hanno secondi fini. Di seguito sono riportati solo alcuni motivi per cui qualcuno dovrebbe raschiare i tuoi contenuti:

  • Commissione di affiliazione – Ci sono alcuni sporchi marketer di affiliazione là fuori che vogliono solo sfruttare il sistema per guadagnare qualche soldo in più. Utilizzeranno i tuoi contenuti e quelli di altri per portare traffico al loro sito tramite il motore di ricerca. Questi siti sono solitamente destinati a una nicchia specifica, quindi hanno prodotti correlati che stanno promuovendo.
  • Lead Generation – Spesso vediamo avvocati e agenti immobiliari farlo. Vogliono sembrare leader del settore nelle loro piccole comunità. Non hanno la larghezza di banda per produrre contenuti di qualità, quindi escono e raccolgono contenuti da altre fonti. A volte, non ne sono nemmeno consapevoli perché stanno pagando un po ‘di merda $ 30 al mese per aggiungere contenuti e aiutarli a migliorare la SEO. In passato ne abbiamo incontrati parecchi.
  • Entrate pubblicitarie – Alcune persone vogliono solo creare un “hub” di conoscenza. Uno sportello unico per gli utenti in una nicchia specifica. Se avessi un centesimo per ogni volta che qualcuno ha fatto questo con i nostri contenuti, avremmo qualche centinaio di centesimi. Spesso notiamo che il contenuto del nostro sito viene raschiato. Il raschietto risponde sempre, lo facevo per il bene della comunità. Solo che il sito è pieno di pubblicità.

Questi sono solo alcuni dei motivi per cui qualcuno potrebbe rubare i tuoi contenuti.

Come catturare i Content Scrapers?

Catturare gli scraper di contenuti è un compito noioso e può richiedere molto tempo. Ci sono alcuni modi che puoi utilizzare per catturare gli scraper di contenuti.

Cerca su Google con i titoli dei tuoi post

Sì, è doloroso come sembra. Questo metodo probabilmente non vale la pena, soprattutto se stai scrivendo su un argomento molto popolare.

Trackback

Se aggiungi link interni nei tuoi post, noterai un trackback se un sito ruba i tuoi contenuti. In questo modo è praticamente il raschietto che ti dice che stanno raschiando il tuo contenuto. Se stai usando Akismet, molti di questi trackback verranno visualizzati nella cartella SPAM. Ancora una volta, questo funzionerà solo se hai collegamenti interni nei tuoi post.

Strumenti per i Webmaster

Se utilizzi gli strumenti per i webmaster di Google, probabilmente sei a conoscenza dei collegamenti alla pagina del tuo sito. Se guardi sotto “Traffico”, vedrai una pagina che dice Collegamenti al tuo sito. È probabile che i tuoi raschietti siano tra i migliori lì. Avranno centinaia se non migliaia di link alle tue pagine (considerando che hai link interni).

Link al tuo sito - Strumenti per i Webmaster di Google

FeedBurner Usi non comuni

Se hai configurato Feedburner per il tuo blog WordPress, puoi vedere alcuni usi non comuni. Nella scheda Analizza sotto Statistiche feed, vedrai “Usi non comuni”. Lì vedrai un elenco di siti.

FeedBurner Usi non comuni

Come gestire i Content Scrapers

Ci sono pochi approcci che le persone adottano quando si tratta di scraper di contenuti. Approccio Do Nothing, Kill them all, Approccio Take Advantage.

L’approccio Do Nothing

Questo è di gran lunga l’approccio più semplice che puoi adottare. Di solito i blogger più popolari lo consiglierebbero perché ci vuole MOLTO tempo per combattere i raschiatori. Questo approccio raccomanda semplicemente che “invece di combatterli, dedica il tuo tempo a produrre ancora più contenuti di qualità e divertiti”. Ora, ovviamente, se si tratta di un blog ben noto come Smashing Magazine, CSS-Tricks, Problogger o altri, allora non devono preoccuparsene. Sono siti autorevoli agli occhi di Google.

Tuttavia, durante l’aggiornamento Panda, sappiamo che alcuni buoni siti sono stati contrassegnati come scraper perché Google pensava che i loro scraper fossero contenuti originali. Quindi questo approccio non è sempre il migliore secondo noi.

Uccidili tutti Approach

L’esatto opposto del “Do Nothing Approach”. In questo approccio, è sufficiente contattare il raschietto e chiedere loro di rimuovere il contenuto. Se si rifiutano di farlo o semplicemente non rispondono alle tue richieste, allora presenti un DMCA (Digital Millennium Copyright Act) con il loro host. Nella nostra esperienza, la maggior parte dei siti web di scraping non dispone di un modulo di contatto disponibile. Se lo fanno, allora utilizzalo. Se non hanno il modulo di contatto, è necessario eseguire una ricerca Whois.

Whois Lookup

È possibile visualizzare le informazioni di contatto sul contatto amministrativo. Di solito il contatto amministrativo e tecnico è lo stesso. Il whois mostra anche il registrar di domini. Le più note società di web hosting e registrar di domini hanno moduli DMCA o e-mail. Puoi vedere che questa persona specifica è con Hostgator a causa dei suoi server dei nomi. HostGator ha un modulo per Reclami DMCA. Se il server dei nomi è qualcosa come ns1.theirdomain.com, devi scavare più a fondo eseguendo ricerche IP inverse e cercando IP.

Puoi anche utilizzare un servizio di terze parti per DMCA.com per le rimozioni.

Jeff Starr nel suo articolo suggeriscono di bloccare gli IP del cattivo. Accedi ai tuoi log per il loro indirizzo IP, quindi bloccalo con qualcosa di simile nel tuo file .htaccess di root:

Nega da 123.456.789

Puoi anche reindirizzarli a un feed fittizio facendo qualcosa del genere:

RewriteCond% REMOTE_ADDR 123 .456 .789 . RewriteRule. * Http://dummyfeed.com/feed [R,L]

Puoi diventare davvero creativo qui come suggerisce Jeff. Inviali a feed di testo molto grandi pieni di Lorem Ipsum. Puoi inviare loro delle immagini disgustose di cose brutte. Puoi anche rimandarli direttamente al loro server causando un ciclo infinito che farà arrestare il loro sito.

L’ultimo approccio che adottiamo è trarne vantaggio.

Come trarre vantaggio dai Content Scrapers

Questo è il nostro approccio per gestire gli scraper di contenuti e risulta abbastanza buono. Aiuta il nostro SEO e ci aiuta a guadagnare soldi extra. La maggior parte degli scraper usa il tuo feed RSS per rubare i tuoi contenuti. Quindi queste sono alcune delle cose che puoi fare:

  • Collegamento interno – Devi collegare tra loro il CRAP dai tuoi post. Con la funzione di collegamento interno in WordPress 3.1, ora è più facile che mai. Quando hai link interni nel tuo articolo, ti aiuta ad aumentare le visualizzazioni di pagina e ridurre la frequenza di rimbalzo sul tuo sito. In secondo luogo, ti porta a ritroso dalle persone che stanno rubando i tuoi contenuti. Infine, ti permette di rubare il loro pubblico. Se sei un blogger di talento, allora comprendi l’arte del collegamento interno. Devi posizionare i tuoi link su parole chiave interessanti. Rendi allettante per l’utente fare clic su di esso. Se lo fai, anche il pubblico del raschietto farà clic su di esso. Proprio così, hai preso un visitatore dal loro sito e lo hai riportato dove avrebbero dovuto essere in primo luogo.
  • Parole chiave di collegamento automatico con collegamenti di affiliazione – Ci sono pochi plugin come Ninja Affiliate e SEO Smart Links che sostituiranno automaticamente le parole chiave assegnate con link di affiliazione. Ad esempio: HostGator, StudioPress, MaxCDN, Gravity Forms << Tutti questi verranno sostituiti automaticamente con link di affiliazione quando questo post sarà pubblicato.
  • Diventa creativo con il piè di pagina RSS – Puoi utilizzare il piè di pagina RSS o il plugin WordPress SEO by Yoast per aggiungere elementi personalizzati al piè di pagina RSS. Puoi aggiungere praticamente tutto ciò che desideri qui. Conosciamo alcune persone a cui piace promuovere i propri prodotti ai lettori RSS. Quindi aggiungeranno banner. Indovina un po ‘, ora quei banner appariranno anche sul sito web di questi scraper. Nel nostro caso, aggiungiamo sempre un piccolo disclaimer in fondo ai nostri post nei nostri feed RSS. Si legge semplicemente come “Come mettere il tuo sito WordPress in stato di sola lettura per le migrazioni e la manutenzione del sito è un post di: Diego Torresche non può essere copiato su altri siti”. In questo modo, otteniamo un backlink all’articolo originale dal sito di scraper che consente a Google e ad altri motori di ricerca di sapere che siamo autorità. Consente inoltre ai propri utenti di sapere che il sito sta rubando i nostri contenuti. Se sei bravo con i codici, puoi diventare totalmente pazzo. Come l’aggiunta di post correlati solo per i tuoi lettori RSS e un sacco di altre cose. Consulta la nostra guida per manipolare completamente il tuo feed RSS di WordPress.

Come puoi ridurre lo scraping dei contenuti del blog e possibilmente prevenirlo

Considerando che se adotti il ​​nostro approccio di molti link interni, aggiungi link di affiliazione, banner RSS e tali possibilità sono che ridurrai lo scraping dei contenuti in buona misura. Se accetti il ​​suggerimento di Jeff Starr di reindirizzare gli scraper di contenuti, anche quello fermerà quegli scraper. A parte ciò che abbiamo condiviso sopra, ci sono alcuni altri trucchi che puoi usare.

Feed RSS completo e riepilogo

C’è stato un dibattito nella comunità dei blog sull’opportunità di avere un feed RSS completo o un feed RSS di riepilogo. Non entreremo nei dettagli di quel dibattito, tuttavia uno dei PRO di avere un feed RSS solo di riepilogo è che impedisci lo scraping dei contenuti. Puoi modificare le impostazioni accedendo al tuo pannello di amministrazione di WordPress e andando in Impostazioni »Lettura. Quindi modificare l’impostazione per ogni articolo in un feed show: Riepilogo.

Nota: abbiamo feed completo perché ci preoccupiamo più dei nostri lettori RSS che degli spammer.

Trackback SPAM

I trackback e i pingback hanno sicuramente avuto ottimi usi, tuttavia, ora vengono costantemente abusati. Spesso i temi visualizzano trackback e pingback sotto o tra i commenti. Questo dà allo spammer un incentivo a raschiare il tuo sito e inviare trackback. Se lo approvi erroneamente, ricevono un backlink e una menzione dal tuo sito. Ecco come disabilitare i trackback su tutti i post futuri. Ecco un articolo che ti mostrerà come disabilitare trackback e ping anche sui post esistenti di WordPress.

Lo scraping dei contenuti è mai buono?

Può essere. Se vedi che stai guadagnando denaro dal sito dello scraper, allora certo che può essere. Se vedi molto traffico dal sito di uno scraper, allora può essere. Nella maggior parte dei casi, tuttavia, non lo è. Dovresti sempre cercare di far decollare i tuoi contenuti. Ma ti renderai conto che man mano che il tuo blog diventa più grande, è quasi impossibile tenere traccia di tutti i content scrapers. Inviamo ancora reclami DMCA, tuttavia sappiamo che ci sono un sacco di altri siti che stanno rubando i nostri contenuti con cui non possiamo tenere il passo.

Quali sono i tuoi pensieri? Utilizzi altri meccanismi per impedire lo scraping dei contenuti? Mi piacerebbe sentire i tuoi pensieri.

Sono contento che sei arrivato fin qui, puoi tornare alla sezione di guide WP.

Write a Comment