Onko web scraping sallittua?
Web scraping – eli automaattinen datan keruu verkkosivuilta – on teknisesti yksinkertaista, mutta laillisesti harmaata aluetta. Kysymys "onko se sallittua" ei ole mustavalkoinen. Vastaus riippuu siitä, mitä tietoa kerätään, miten sitä käytetään ja mitä sivuston käyttöehdot sanovat. Tässä oppaassa käydään läpi keskeiset huomioitavat asiat.
Huomio: Tämä opas ei ole juridista neuvontaa. Jos projekti on kriittinen tai epävarma, konsultoi lakimiestä.
1. Käyttöehdot (Terms of Service)
Monet verkkosivustot kieltävät automaattisen datan keruun käyttöehdoissaan. Esimerkiksi:
- "You may not use automated tools to access the site"
- "Scraping, crawling or data mining is prohibited"
Käytännössä: Käyttöehtojen rikkominen voi johtaa IP-osoitteen estämiseen, tilin sulkemiseen tai oikeustoimiin. Useimmiten seuraamus on tekninen (esto), ei juridinen, mutta riski on olemassa.
Suositus: Lue aina käyttöehdot. Jos ne kieltävät scrapingin selvästi, harkitse API:n käyttöä tai kysy lupa sivuston omistajalta.
2. Tekijänoikeus
Tekijänoikeus suojaa luovaa sisältöä: tekstejä, kuvia, videoita. Pelkkä fakta (esim. hintatiedot, osoitteet, avoimet tiedot) ei ole tekijänoikeuden suojaamaa, mutta kokoelman esitystapa voi olla.
Käytännössä: Jos keräät hintatietoja kilpailijoiden sivuilta omaan vertailuun, se on yleensä sallittua. Jos kopioit artikkelien sisällön sellaisenaan omalle sivustollesi, se on tekijänoikeusrikkomus.
Suositus: Älä kopioi luovaa sisältöä sellaisenaan. Kerää faktoja ja tee oma tulkinta tai esitystapa.
3. Tietosuoja (GDPR)
Jos keräät henkilötietoja (nimet, sähköpostit, puhelinnumerot), GDPR:ää sovelletaan. Tämä tarkoittaa:
- Sinulla pitää olla laillinen peruste käsittelyyn (esim. oikeutettu etu)
- Henkilöillä on oikeus tietää, että heidän tietojaan kerätään
- Sinun pitää pystyä poistamaan tiedot pyynnöstä
Käytännössä: Jos keräät julkisia yhteystietoja yrityksistä B2B-myyntiä varten, se on yleensä sallittua (oikeutettu etu). Jos keräät kuluttajien henkilötietoja ilman lupaa massamarkkinointiin, se on ongelma.
Suositus: Älä kerää henkilötietoja ellei se ole välttämätöntä. Jos keräät, dokumentoi laillinen peruste ja varmista että voit noudattaa GDPR:n velvoitteita.
4. Robots.txt
Robots.txt-tiedosto kertoo hakukoneille ja boteille, mitä osia sivustosta ne saavat indeksoida. Se ei ole juridisesti sitova, vaan tekninen ohje.
Käytännössä: Jos robots.txt kieltää tietyn polun, sen kunnioittaminen on hyvä käytäntö. Se osoittaa että toimit vastuullisesti. Sen rikkominen ei automaattisesti tee scrapingista laitonta, mutta voi vahvistaa käyttöehtojen rikkomusta.
Suositus: Tarkista robots.txt ja kunnioita sitä. Lue lisää robots.txt:stä tästä oppaasta.
5. Kuormitus ja häirintä
Vaikka scraping olisi muuten sallittua, liiallinen kuormitus voi johtaa ongelmiin. Jos lähetät tuhansia pyyntöjä sekunnissa, voit kaataa palvelimen tai aiheuttaa haittaa muille käyttäjille.
Suositus: Käytä kohtuullista pyyntömäärää (esim. 1 pyyntö sekunnissa), lisää viiveitä ja kunnioita palvelimen resursseja. Emuloi normaalia käyttäjää, älä hyökkää.
Yhteenveto: Milloin web scraping on turvallista?
Web scraping on turvallisempaa, kun:
- ✅ Käyttöehdot eivät kiellä sitä selvästi
- ✅ Keräät julkisia, ei-luovia faktoja (hinnat, osoitteet, avoimet tiedot)
- ✅ Et kerää henkilötietoja tai teet sen GDPR-yhteensopivasti
- ✅ Kunnioitat robots.txt:ää
- ✅ Käytät kohtuullista kuormitusta
- ✅ Käytät dataa omaan sisäiseen analyysiin, et julkaise sitä sellaisenaan
Web scraping on riskialtisempaa, kun:
- ⚠️ Käyttöehdot kieltävät sen nimenomaisesti
- ⚠️ Kopioit luovaa sisältöä (artikkelit, kuvat) sellaisenaan
- ⚠️ Keräät henkilötietoja massalla ilman perustetta
- ⚠️ Ohitat kirjautumisen tai teknisiä estoja
- ⚠️ Kuormitat palvelinta liiallisesti
Katso myös
- Mitä robots.txt tarkoittaa – ja mitä se ei tarkoita
- API vai scraping – milloin kumpi kannattaa
- Miten web scraping -projekti etenee
- Web scraping -palvelu yrityksille
Tarvitsetko apua web scraping -projektissa?
Autamme suunnittelemaan ja toteuttamaan web scraping -projektin vastuullisesti ja käyttöehdot huomioiden. Kartoitetaan yhdessä lähteet, tietotarpeet ja lailliset huomiot.
Ota yhteyttä