Web scraping ja laillisuus: mitä dataa saa kerätä?

TL;DR – Tiivistelmä

Web scraping on lähtökohtaisesti laillista kun kerätään julkista dataa eikä rikota käyttöehtoja, GDPR:ää tai tekijänoikeuksia. Vältä: henkilötiedot ilman perustetta, kirjautumisen takana oleva sisältö, tietokantasuojattu data. Noudata robots.txt:tä ja älä kuormita palvelimia.

Onko web scraping laillista?

Kyllä, lähtökohtaisesti. Julkisen datan kerääminen verkkosivuilta on yleensä laillista. Mutta rajat tulevat vastaan:

  • Henkilötietojen kerääminen (GDPR)
  • Tekijänoikeudella suojattu sisältö
  • Tietokantasuoja (EU:n sui generis -oikeus)
  • Sopimusrikkomukset (käyttöehdot)
  • Palvelun häirintä (DoS)

GDPR ja henkilötiedot

GDPR koskee kaikkia henkilötietoja – myös julkisesti saatavilla olevia.

Mitä henkilötiedot ovat?

  • Nimet
  • Sähköpostiosoitteet
  • Puhelinnumerot
  • IP-osoitteet
  • Kuvat joista henkilö tunnistettavissa
  • LinkedIn-profiilit, sosiaalisen median tilit

Milloin henkilötietoja saa kerätä?

Tarvitset laillisen perusteen:

  • Suostumus: Henkilö on antanut luvan
  • Oikeutettu etu: Sinulla on perusteltu tarve, joka ei ylitä henkilön oikeuksia
  • Sopimus: Käsittely on tarpeen sopimuksen täyttämiseksi

Käytännössä: Yritystietojen (yrityksen nimi, Y-tunnus, yleinen sähköposti info@yritys.fi) kerääminen on yleensä ok. Yksityishenkilöiden tietojen kerääminen vaatii perusteen.

Tekijänoikeudet

Sisältö voi olla tekijänoikeudella suojattua:

  • Tekstit: Artikkelit, uutiset, blogit
  • Kuvat: Valokuvat, grafiikat
  • Videot: Suoratoistopalvelut

Sallittua: Faktojen kerääminen (hinnat, tuotetiedot, yhteystiedot). Faktat eivät ole tekijänoikeudella suojattuja.

Kiellettyä: Kokonaisten artikkelien kopiointi ja julkaisu.

Tietokantasuoja (sui generis)

EU:ssa tietokannat voivat olla suojattuja, jos niiden kokoaminen on vaatinut merkittävää investointia.

  • Suojattu: Koko tietokannan tai olennaisen osan kopiointi
  • Sallittu: Yksittäisten tietojen poiminta kohtuullisessa määrin

Käyttöehdot

Monet sivustot kieltävät scrapingin käyttöehdoissaan. Tämä on sopimuskysymys:

  • Jos et ole hyväksynyt ehtoja: Et ole sidottu niihin
  • Jos kirjaudut sisään: Hyväksyt ehdot → sidottu

Käytännössä: Julkisen datan scraping ilman kirjautumista on yleensä ok, vaikka käyttöehdot kieltäisivät.

robots.txt

robots.txt on tekninen tiedosto joka kertoo hakukoneille (ja scrapereille) mitä saa indeksoida.

  • Juridisesti: Ei ole laillisesti sitova
  • Eettisesti: Kannattaa noudattaa – osoittaa hyvää tahtoa
  • Käytännössä: Jos jätät huomiotta, sivusto voi estää IP:si

Katso robots.txt -opas.

Hyvät käytännöt

  • ☐ Kerää vain julkista dataa
  • ☐ Vältä henkilötietoja tai varmista laillinen peruste
  • ☐ Älä kirjaudu sisään scraperia varten
  • ☐ Noudata robots.txt:ää
  • ☐ Rajoita pyyntöjen nopeutta (älä kuormita palvelinta)
  • ☐ Älä kopioi ja julkaise suojattua sisältöä
  • ☐ Dokumentoi mitä keräät ja miksi

Esimerkkejä: sallittu vs. kielletty

Tilanne Arvio
Kilpailijoiden julkiset hinnat ✅ Yleensä ok
Yritysten yhteystiedot yritysrekisteristä ✅ Yleensä ok
LinkedIn-profiilit myyntitarkoituksiin ⚠️ Riskialtista (GDPR + käyttöehdot)
Uutisartikkelien kopiointi ja julkaisu ❌ Tekijänoikeusrikkomus
Kirjautumisen takana oleva data ❌ Sopimusrikkomus
Tuotteiden tekniset tiedot valmistajan sivulta ✅ Yleensä ok

Usein kysytyt kysymykset

Voiko scrapingista joutua oikeuteen?

Teoriassa kyllä, jos rikot GDPR:ää, tekijänoikeuksia tai aiheut vahinkoa. Käytännössä harvinaista pk-yrityksen mittakaavassa, kunhan noudatat hyviä käytäntöjä.

Entä jos sivusto estää?

Sivusto voi estää IP:si tai vaatia CAPTCHA:n. Tämä on tekninen este, ei juridinen. Estojen kiertäminen voi kuitenkin olla ongelmallista.

Pitääkö pyytää lupa?

Julkiselle datalle ei yleensä tarvita. Jos epäilet, kysy. Monet yritykset tarjoavat myös API:n datan hakemiseen.

Lue myös

Tarvitsetko apua datan keräämisessä?

Toteutamme web scraping -projektit vastuullisesti ja laillisesti. Kerro mitä dataa tarvitset.

Kysy lisää