Web scraping ja laillisuus: mitä dataa saa kerätä?
Web scraping on lähtökohtaisesti laillista kun kerätään julkista dataa eikä rikota käyttöehtoja, GDPR:ää tai tekijänoikeuksia. Vältä: henkilötiedot ilman perustetta, kirjautumisen takana oleva sisältö, tietokantasuojattu data. Noudata robots.txt:tä ja älä kuormita palvelimia.
Onko web scraping laillista?
Kyllä, lähtökohtaisesti. Julkisen datan kerääminen verkkosivuilta on yleensä laillista. Mutta rajat tulevat vastaan:
- Henkilötietojen kerääminen (GDPR)
- Tekijänoikeudella suojattu sisältö
- Tietokantasuoja (EU:n sui generis -oikeus)
- Sopimusrikkomukset (käyttöehdot)
- Palvelun häirintä (DoS)
GDPR ja henkilötiedot
GDPR koskee kaikkia henkilötietoja – myös julkisesti saatavilla olevia.
Mitä henkilötiedot ovat?
- Nimet
- Sähköpostiosoitteet
- Puhelinnumerot
- IP-osoitteet
- Kuvat joista henkilö tunnistettavissa
- LinkedIn-profiilit, sosiaalisen median tilit
Milloin henkilötietoja saa kerätä?
Tarvitset laillisen perusteen:
- Suostumus: Henkilö on antanut luvan
- Oikeutettu etu: Sinulla on perusteltu tarve, joka ei ylitä henkilön oikeuksia
- Sopimus: Käsittely on tarpeen sopimuksen täyttämiseksi
Käytännössä: Yritystietojen (yrityksen nimi, Y-tunnus, yleinen sähköposti info@yritys.fi) kerääminen on yleensä ok. Yksityishenkilöiden tietojen kerääminen vaatii perusteen.
Tekijänoikeudet
Sisältö voi olla tekijänoikeudella suojattua:
- Tekstit: Artikkelit, uutiset, blogit
- Kuvat: Valokuvat, grafiikat
- Videot: Suoratoistopalvelut
Sallittua: Faktojen kerääminen (hinnat, tuotetiedot, yhteystiedot). Faktat eivät ole tekijänoikeudella suojattuja.
Kiellettyä: Kokonaisten artikkelien kopiointi ja julkaisu.
Tietokantasuoja (sui generis)
EU:ssa tietokannat voivat olla suojattuja, jos niiden kokoaminen on vaatinut merkittävää investointia.
- Suojattu: Koko tietokannan tai olennaisen osan kopiointi
- Sallittu: Yksittäisten tietojen poiminta kohtuullisessa määrin
Käyttöehdot
Monet sivustot kieltävät scrapingin käyttöehdoissaan. Tämä on sopimuskysymys:
- Jos et ole hyväksynyt ehtoja: Et ole sidottu niihin
- Jos kirjaudut sisään: Hyväksyt ehdot → sidottu
Käytännössä: Julkisen datan scraping ilman kirjautumista on yleensä ok, vaikka käyttöehdot kieltäisivät.
robots.txt
robots.txt on tekninen tiedosto joka kertoo hakukoneille (ja scrapereille) mitä saa indeksoida.
- Juridisesti: Ei ole laillisesti sitova
- Eettisesti: Kannattaa noudattaa – osoittaa hyvää tahtoa
- Käytännössä: Jos jätät huomiotta, sivusto voi estää IP:si
Katso robots.txt -opas.
Hyvät käytännöt
- ☐ Kerää vain julkista dataa
- ☐ Vältä henkilötietoja tai varmista laillinen peruste
- ☐ Älä kirjaudu sisään scraperia varten
- ☐ Noudata robots.txt:ää
- ☐ Rajoita pyyntöjen nopeutta (älä kuormita palvelinta)
- ☐ Älä kopioi ja julkaise suojattua sisältöä
- ☐ Dokumentoi mitä keräät ja miksi
Esimerkkejä: sallittu vs. kielletty
| Tilanne | Arvio |
|---|---|
| Kilpailijoiden julkiset hinnat | ✅ Yleensä ok |
| Yritysten yhteystiedot yritysrekisteristä | ✅ Yleensä ok |
| LinkedIn-profiilit myyntitarkoituksiin | ⚠️ Riskialtista (GDPR + käyttöehdot) |
| Uutisartikkelien kopiointi ja julkaisu | ❌ Tekijänoikeusrikkomus |
| Kirjautumisen takana oleva data | ❌ Sopimusrikkomus |
| Tuotteiden tekniset tiedot valmistajan sivulta | ✅ Yleensä ok |
Usein kysytyt kysymykset
Voiko scrapingista joutua oikeuteen?
Teoriassa kyllä, jos rikot GDPR:ää, tekijänoikeuksia tai aiheut vahinkoa. Käytännössä harvinaista pk-yrityksen mittakaavassa, kunhan noudatat hyviä käytäntöjä.
Entä jos sivusto estää?
Sivusto voi estää IP:si tai vaatia CAPTCHA:n. Tämä on tekninen este, ei juridinen. Estojen kiertäminen voi kuitenkin olla ongelmallista.
Pitääkö pyytää lupa?
Julkiselle datalle ei yleensä tarvita. Jos epäilet, kysy. Monet yritykset tarjoavat myös API:n datan hakemiseen.
Lue myös
- Mitä robots.txt tarkoittaa?
- API vai scraping?
- Scraping-projektin tilaaminen
- Web scraping palveluna →
Tarvitsetko apua datan keräämisessä?
Toteutamme web scraping -projektit vastuullisesti ja laillisesti. Kerro mitä dataa tarvitset.
Kysy lisää