Web scraping ja laillisuus: mitä dataa saa kerätä?

TL;DR – Tiivistelmä

Web scraping on lähtökohtaisesti laillista kun kerätään julkista dataa eikä rikota käyttöehtoja, GDPR:ää tai tekijänoikeuksia. Vältä: henkilötiedot ilman perustetta, kirjautumisen takana oleva sisältö, tietokantasuojattu data. Noudata robots.txt:tä ja älä kuormita palvelimia.

Onko web scraping laillista?

Kyllä, lähtökohtaisesti. Julkisen datan kerääminen verkkosivuilta on yleensä laillista. Mutta rajat tulevat vastaan:

Henkilötietojen kerääminen (GDPR)
Tekijänoikeudella suojattu sisältö
Tietokantasuoja (EU:n sui generis -oikeus)
Sopimusrikkomukset (käyttöehdot)
Palvelun häirintä (DoS)

GDPR ja henkilötiedot

GDPR koskee kaikkia henkilötietoja – myös julkisesti saatavilla olevia.

Mitä henkilötiedot ovat?

Nimet
Sähköpostiosoitteet
Puhelinnumerot
IP-osoitteet
Kuvat joista henkilö tunnistettavissa
LinkedIn-profiilit, sosiaalisen median tilit

Milloin henkilötietoja saa kerätä?

Tarvitset laillisen perusteen:

Suostumus: Henkilö on antanut luvan
Oikeutettu etu: Sinulla on perusteltu tarve, joka ei ylitä henkilön oikeuksia
Sopimus: Käsittely on tarpeen sopimuksen täyttämiseksi

Käytännössä: Yritystietojen (yrityksen nimi, Y-tunnus, yleinen sähköposti info@yritys.fi) kerääminen on yleensä ok. Yksityishenkilöiden tietojen kerääminen vaatii perusteen.

Tekijänoikeudet

Sisältö voi olla tekijänoikeudella suojattua:

Tekstit: Artikkelit, uutiset, blogit
Kuvat: Valokuvat, grafiikat
Videot: Suoratoistopalvelut

Sallittua: Faktojen kerääminen (hinnat, tuotetiedot, yhteystiedot). Faktat eivät ole tekijänoikeudella suojattuja.

Kiellettyä: Kokonaisten artikkelien kopiointi ja julkaisu.

Tietokantasuoja (sui generis)

EU:ssa tietokannat voivat olla suojattuja, jos niiden kokoaminen on vaatinut merkittävää investointia.

Suojattu: Koko tietokannan tai olennaisen osan kopiointi
Sallittu: Yksittäisten tietojen poiminta kohtuullisessa määrin

Käyttöehdot

Monet sivustot kieltävät scrapingin käyttöehdoissaan. Tämä on sopimuskysymys:

Jos et ole hyväksynyt ehtoja: Et ole sidottu niihin
Jos kirjaudut sisään: Hyväksyt ehdot → sidottu

Käytännössä: Julkisen datan scraping ilman kirjautumista on yleensä ok, vaikka käyttöehdot kieltäisivät.

robots.txt

robots.txt on tekninen tiedosto joka kertoo hakukoneille (ja scrapereille) mitä saa indeksoida.

Juridisesti: Ei ole laillisesti sitova
Eettisesti: Kannattaa noudattaa – osoittaa hyvää tahtoa
Käytännössä: Jos jätät huomiotta, sivusto voi estää IP:si

Katso robots.txt -opas.

Hyvät käytännöt

☐ Kerää vain julkista dataa
☐ Vältä henkilötietoja tai varmista laillinen peruste
☐ Älä kirjaudu sisään scraperia varten
☐ Noudata robots.txt:ää
☐ Rajoita pyyntöjen nopeutta (älä kuormita palvelinta)
☐ Älä kopioi ja julkaise suojattua sisältöä
☐ Dokumentoi mitä keräät ja miksi

Esimerkkejä: sallittu vs. kielletty

Tilanne	Arvio
Kilpailijoiden julkiset hinnat	✅ Yleensä ok
Yritysten yhteystiedot yritysrekisteristä	✅ Yleensä ok
LinkedIn-profiilit myyntitarkoituksiin	⚠️ Riskialtista (GDPR + käyttöehdot)
Uutisartikkelien kopiointi ja julkaisu	❌ Tekijänoikeusrikkomus
Kirjautumisen takana oleva data	❌ Sopimusrikkomus
Tuotteiden tekniset tiedot valmistajan sivulta	✅ Yleensä ok

Usein kysytyt kysymykset

Voiko scrapingista joutua oikeuteen?

Teoriassa kyllä, jos rikot GDPR:ää, tekijänoikeuksia tai aiheut vahinkoa. Käytännössä harvinaista pk-yrityksen mittakaavassa, kunhan noudatat hyviä käytäntöjä.

Entä jos sivusto estää?

Sivusto voi estää IP:si tai vaatia CAPTCHA:n. Tämä on tekninen este, ei juridinen. Estojen kiertäminen voi kuitenkin olla ongelmallista.

Pitääkö pyytää lupa?

Julkiselle datalle ei yleensä tarvita. Jos epäilet, kysy. Monet yritykset tarjoavat myös API:n datan hakemiseen.

Lue myös

Tarvitsetko apua datan keräämisessä?

Toteutamme web scraping -projektit vastuullisesti ja laillisesti. Kerro mitä dataa tarvitset.

Kysy lisää