We zijn op zoek naar een scripter die het volgende scripts kan bouwen:
Eerste crawler
We hebben een website met tig duizend producten, wat we willen is een script waarmee we op meerdere websites een spider kunnen laten crawlen die de categorie, product titel en prijs kan uitlezen. Sinds elke website/webshop weer anders qua opbouw is moeten we een mogelijkheid hebben om de crawler aan te passen per website. De gecrawlde data dient weggeschreven te worden in een database zodat we deze weer kunnen gebruiken.
Het script dient dmv een cronjob minimaal 2x per dag te draaien (dit zodat we uptodate kunnen blijven), de cronjob mag per website niet langer dan 0,5 - 1 uur bezig zijn.
tweede crawler
De tweede crawler is iets gecompliceerder sinds deze de zoek querry van een website dient te gebruiken om artikelen te zoeken. Het doel van deze crawler is dat we nieuws willen tonen per product, dit willen we tonen door nieuws van een externe site omtrent het product te tonen. Het is dus belangrijk dat we per product 1 of meerdere websites kunnen doorzoeken en dat indien er voor een product nieuws is, we dit dan kunnen plaatsen op de website. in de database dient de titel, auteur, plaatsingsdatum, content en bron te worden opgeslagen in een database.
Het script dient dmv een cronjob minimaal 2x per dag te draaien (dit zodat we uptodate kunnen blijven), de cronjob mag per website niet langer dan 0,5 - 1 uur bezig zijn.
Ik verneem graag of dit te bouwen is en wat de kosten hiervoor zullen zijn.
- Crawler script | aanpasbaar per website
-
3448 × bekeken sinds 09-01-2010, 21:45 #1
Crawler script | aanpasbaar per website
Laatst aangepast door Hans Proveaux : 13-01-2010 om 15:59
-
In de schijnwerper
Opzoek naar een tekstenschrijver (SEO Proof)Freelance / WerkFull Stack: Web development, Design and BrandingFreelance / WerkErvaren WordPress & WooCommerce Developer – Pixel-perfect & Whitelabel maatwerk!Freelance / Werk[SNELLE LEVERING] Laat je website / webshop snel en professioneel bouwen!Freelance / Werk -
10-01-2010, 00:44 #2
ManagedWPHosting.nl
- Berichten
- 1.486
- Lid sinds
- 19 Jaar
Beste Hans,
mijn advies: niet doen, ga voor XML/RSS of affiliate links/programma's ( als dat mag in dit geval ).
Want op het moment dat een site die je gaat scrapen ( content scraping / spidering ) aanpassingen in de (x)HTML doet je een zeer reele kans hebt dat je crawler/robot foute content oppikt of totaal niets meer kan parsen.
De ervaring met grote cronjobs en XML/RSS uitlezen plus opslaan is hier aanwezig, indien dit een optie is verneem ik dat graag!
-
10-01-2010, 12:26 #3
- Berichten
- 41
- Lid sinds
- 15 Jaar
Beste Ramon,
bedankt voor je reactie en begrijp je insteek.
Maar hoe wil je de voorgestelde methode uitvoeren indien ze geen xml of rss feed aanbieden?
Verneem graag je reactie en je visie op dit onderwerp.
Met vr gr,
Hans
-
10-01-2010, 12:36 #4
ManagedWPHosting.nl
- Berichten
- 1.486
- Lid sinds
- 19 Jaar
Beste Hans,
eigenlijk niet, het is zeer veel werk en je loopt de kans dat je later iedere site bij een wijziging van hun kant alles opnieuw moet doen.
Ik zou toch proberen om via een programma aan de content te komen, en wellicht die andere sites te verzoeken om XML feeds op te zetten. Dat is niet heel moeilijk.
Groet,
Ramon
-
10-01-2010, 12:52 #5
- Berichten
- 122
- Lid sinds
- 17 Jaar
Beste hans,
Een crawler maken om een categorie, product en titel van een externe site te halen is maatwerk. Een algemeen programma die geldt voor meerdere sites is naar mijn mening niet mogelijk omdat elke site zijn eigen opbouw heeft. Daarnaast is het zo dat als de externe partij de site aanpast de crawler mogelijk niet meer werkt. Een kleine aanpassing in de code kan al grote gevolgen hebben.
Ik heb een aantal malen als opdracht een crawler gemaakt t.b.v. een eenmalige extractie. Zelf gebruik ik dagelijks een crawler die 30 pagina's controleert op enkele producten. Er is elke maand wel weer iets onverwachts op 1 van de pagina's. Als je zelf de programmeur bent is dat alleen niet heel erg.
Bij voorkeur ga ik altijd eerst voor rss/xml. Een crawler - en zeker voor diverse externe sites - is een noodoplossing.
Mvg,
Mathieu
-
10-01-2010, 13:00 #6
- Berichten
- 41
- Lid sinds
- 15 Jaar
Het crawlen gebeurt met toestemming van de website eigenaar.
Het crawlen is bedoeld om de website eigenaar tegemoet te komen, we willen een manier aanbieden zodat deze (indien ze nog geen rss of xml feed aanbieden) makkelijk op onze website zijn of haar producten kan tonen.
Aanvullend bericht:
Beste hans,
Een crawler maken om een categorie, product en titel van een externe site te halen is maatwerk. Een algemeen programma die geldt voor meerdere sites is naar mijn mening niet mogelijk omdat elke site zijn eigen opbouw heeft. Daarnaast is het zo dat als de externe partij de site aanpast de crawler mogelijk niet meer werkt. Een kleine aanpassing in de code kan al grote gevolgen hebben.
Ik heb een aantal malen als opdracht een crawler gemaakt t.b.v. een eenmalige extractie. Zelf gebruik ik dagelijks een crawler die 30 pagina's controleert op enkele producten. Er is elke maand wel weer iets onverwachts op 1 van de pagina's. Als je zelf de programmeur bent is dat alleen niet heel erg.
Bij voorkeur ga ik altijd eerst voor rss/xml. Een crawler - en zeker voor diverse externe sites - is een noodoplossing.
Mvg,
Mathieu
Mijn voorkeur gaat uit naar een goed uitgewerkte "noodoplossing", uiteraard vormt het geen probleem indien we de gecrawlde resultaten nog handmatig moeten controleren. We zouden dan de resultaten kunnen aanbieden aan de website eigenaren zodat deze zelf nog een controle kan uitvoeren (en indien gewenst een toevoeging of wijziging).Laatst aangepast door Hans Proveaux : 10-01-2010 om 13:05 Reden: Automatisch samengevoegd.
-
10-01-2010, 13:11 #7
- Berichten
- 1.053
- Lid sinds
- 17 Jaar
Kunt u eisen stellen aan de te crawlen websites? Zodat u kunt verlangen dat het element waar de categorie in weergeven wordt, de 'id="elCategorie"' of 'class="stlCategorie"'meegeven krijgt bijv. Dan bent u minder gevoelig voor wijzigingen in structuur.
-
10-01-2010, 13:49 #8
- Berichten
- 41
- Lid sinds
- 15 Jaar
Dit gaat vrij lastig worden robert, sinds we dan nog veel zouden moeten omzetten. Tevens loop je dan tegen enkele praktische punten aan.
Plaats een
- + Advertentie
- + Onderwerp
Marktplaats
Webmasterforum
- Websites algemeen
- Sitechecks
- Marketing
- Domeinen algemeen
- Waardebepaling
- CMS
- Wordpress
- Joomla
- Magento
- Google algemeen
- SEO
- Analytics
- Adsense
- Adwords
- HTML / XHTML
- CSS
- Programmeren
- PHP
- Javascript
- JQuery
- MySQL
- Ondernemen algemeen
- Belastingen
- Juridisch
- Grafisch ontwerp
- Hosting Algemeen
- Hardware Info
- Offtopic