Voor een grootschalig WordPress platform zoek ik een manier om duplicate content te achterhalen.
Het gaat om miljoenen posts waardoor mysql fulltext search geen optie is.
Functies als levenshtein() en similar_text() zijn hierdoor waarschijnlijk ook veel te traag.
Met count_chars() zou ik alle tekens in een artikel kunnen tellen en de array sorteren op alfabet.
Hierdoor maakt het niet uit in welke volgorde de letters/woorden staan, en het resultaat kan ik verwerken tot een indexeerbare string.PHP Code:
$sArtikel = "Test 123";
$sArtikel = trim(strtolower($sArtikel));
$aArray = count_chars($sArtikel,1);
ksort($aArray);
//resultaat:
$aArray = array(
" "=>1,
"1"=>1,
"2"=>1,
"3"=>1,
"e"=>1,
"s"=>1,
"t"=>2
);
Vervolgens kan ik met 1 simpele query controleren of deze key al voorkomt in de database, en op basis daarvan nieuwe posts weigeren.PHP Code:
$sKey = " ,1|1,1|2,1|3,1|e,1|s,1|t,2";
Echter:
- met miljoenen artikelen is de kans aanwezig dat er meerdere woordcombinaties gevormd kunnen worden.
(wellicht oplosbaar door ook de begin en eindletters (per woord) toe te voegen aan de key?)
- artikel spinners voegen vaak synoniemen toe.
(wellicht kan ik op een of andere manier nog een afwijkend percentage hanteren?)
Graag jullie ideeën/advies.
Alle tips zijn welkom, alvast bedankt.
Aanvullend bericht:
Niemand ideeën?
Ik vraag me af hoe Google's algoritme werkt met zoveel websites.
- Artikel spinners / duplicate content detecteren?
-
28-01-2012, 09:38 #1
- Berichten
- 756
- Lid sinds
- 16 Jaar
Artikel spinners / duplicate content detecteren?
Laatst aangepast door Z Tas : 28-01-2012 om 20:31 Reden: Automatisch samengevoegd.
Plaats een
- + Advertentie
- + Onderwerp
Marktplaats
Webmasterforum
- Websites algemeen
- Sitechecks
- Marketing
- Domeinen algemeen
- Waardebepaling
- CMS
- Wordpress
- Joomla
- Magento
- Google algemeen
- SEO
- Analytics
- Adsense
- Adwords
- HTML / XHTML
- CSS
- Programmeren
- PHP
- Javascript
- JQuery
- MySQL
- Ondernemen algemeen
- Belastingen
- Juridisch
- Grafisch ontwerp
- Hosting Algemeen
- Hardware Info
- Offtopic