Min applikation: http://crawler.ueuo.com/
Det beror helt på innehållet. Om information som man skrapar är känsligt på något sätt, då är självklart att etiska frågor spelar större roll. Till exempel, om man skrapar en sida med personliga uppgifter som man kombinerar med själv insamlade information. I så fall ägaren av skrapade webbplats kanske inte vill att samlade uppgifter används på detta sätt. Man kan titta på fenomenet från andra vinkel. Om data är redan tillgänglig varför är det oetiskt att om-publicera. Nästa frågan är om man tjänar på skrapade data och om det är direkt eller indirekt sätt. Till exempel, tjänster som PriceRunner tjänar inte direkt på skrapade data, men ökar sin popularitet och tjänar på annonser.
Finns det några riktlinjer för utvecklare att tänka på om man vill vara "en god skrapare" mot serverägarna?
- Tearms of use
- Identifiering
- Man bör tänka på optimisering på sätt att man påverkar inte skrapade webbplatsens prestanda
- Vissa delar är hårdkodade, då när man vill kolla tillgängliga bord, så kodar jag vissa operationer genom manipulering av strängar.
- URL måste vara angiven i specifiskt format (dock, formaten är precis den när man gör copy/paste).
- Fel hantering är inte optimalt
- Jag vill tro att MVC strukturen är bra, och att de flesta funktioner i model class är generella.
- Ett exempel är att det kan finnas mer än 3 personer, och jag hanterade Lower/Upper case när det behövs
Innehåller information om hur kan en skrapare använda sidan. Information i robots.txt är bara riktlinjer och på inget sätt förhindrar elaka användare att skrapa webbplatsen mot instruktioner.
######## Kuriosa
COYS -> Come on You Spurs, Tottenham Hotspurs F.C.