Generatywna AI, AI Act a prawo autorskie – o co w ogóle chodzi?
AI Act a prawo autorskie to obecnie jedno z najgorętszych połączeń słów w kancelariach, wydawnictwach i działach compliance firm. Z jednej strony generatywna sztuczna inteligencja stała się codziennym narzędziem – pisze teksty, tworzy grafiki, komponuje muzykę. Z drugiej – większość tych modeli była i jest trenowana na ogromnych, często nieprzejrzystych zbiorach danych, pełnych utworów chronionych prawem autorskim.
Kluczowe są trzy pytania:
- Czy trenowanie modeli AI na cudzych utworach jest legalne?
- Jakie konkretne obowiązki nakłada AI Act na dostawców modeli generatywnych (GPAI)?
- Czy twórcy mają realne narzędzia, by chronić swoje treści i domagać się wynagrodzenia?
Eksploracja tekstów i danych (TDM) – jak naprawdę trenuje się modele AI?
Większość sporów o AI i prawo autorskie dotyczy etapu wejścia (input) – czyli tego, jak modele są trenowane. W praktyce wygląda to tak:
- Web scraping i zbieranie danych – roboty indeksują strony, repozytoria, bazy danych, serwisy społecznościowe.
- Eksploracja tekstów i danych (Text and Data Mining – TDM) – automatyczne analizowanie zebranych treści w celu wykrycia wzorców, korelacji, stylów.
- Trening modelu – na podstawie tych wzorców powstają wagi modelu (weights), które pozwalają generować nowe treści podobne stylistycznie do danych treningowych.
W prawie UE TDM zostało zdefiniowane w dyrektywie DSM (CDSMD) jako „każda zautomatyzowana technika analityczna mająca na celu analizę tekstów i danych w formie cyfrowej w celu wygenerowania informacji, w tym wzorców, trendów i korelacji”.
Co ważne:
- trening generatywnych modeli AI jest traktowany jak TDM – a więc co do zasady dotyka praw autorskich (reprodukcja, ekstrakcja)
- legalność treningu zależy od tego, czy mieści się w wyjątkach TDM z art. 3–4 CDSMD, albo jest objęta licencją od uprawnionych
Dwa kluczowe wyjątki TDM w UE – fundament pod AI Act
Dyrektywa DSM stworzyła dwa obowiązkowe wyjątki TDM, które są fundamentem pod regulację AI Act:
- Art. 3 CDSMD – TDM dla badań naukowych
- Beneficjenci: instytucje badawcze i instytucje dziedzictwa kulturowego.
- Warunek: „lawful access” – zgodny z prawem dostęp do treści (np. subskrypcja, legalny dostęp online).
- Brak możliwości „opt‑outu” przez twórców – ten wyjątek jest silnie pro‑naukowy.
- Art. 4 CDSMD – TDM dla wszystkich innych celów (w tym komercyjnych)
- Beneficjenci: „wszyscy” – w praktyce także firmy AI.
- Warunek: lawful access + prawodawca pozwala twórcom zastrzec (opt‑out) swoje prawa „w sposób odpowiedni”, w szczególności maszynowo odczytywalny.
- Jeżeli twórca skutecznie zastrzegł prawa, trenowanie na jego treściach przestaje być objęte wyjątkiem TDM.
AI Act wchodzi tu jako warstwa nadbudowana. Nie zmienia tych przepisów, ale dodaje nowe obowiązki dla dostawców modeli ogólnego przeznaczenia (GPAI), aby lepiej egzekwować istniejące wyjątki i opt‑out.
Jak AI Act reguluje trening modeli AI na utworach chronionych?
AI Act to przede wszystkim regulacja bezpieczeństwa i odpowiedzialnego rozwoju systemów AI – patrzy na AI jak na „produkt”, który ma spełniać wymogi bezpieczeństwa i transparentności.
Z perspektywy prawa autorskiego kluczowy jest rozdział o modelach ogólnego przeznaczenia (GPAI). Mamy tu dwie główne grupy obowiązków nałożonych na dostawców takich modeli:
- Obowiązek posiadania polityki respektowania praw autorskich (art. 53(1)(c) AI Act)
- Dostawca GPAI musi wdrożyć politykę respektowania prawa autorskiego UE, ze szczególnym uwzględnieniem:
- identyfikowania treści objętych opt‑out (art. 4(3) CDSMD),
- stosowania „state‑of‑the‑art” rozwiązań technicznych, by tych opt‑outów przestrzegać.
- Oznacza to konieczność wdrożenia filtrów i list źródeł wyłączonych z trenowania, czytelnych procedur reagowania na zgłoszenia twórców.
- Obowiązek sporządzenia i publikowania „wystarczająco szczegółowego” streszczenia danych treningowych (art. 53(1)(d) AI Act)
- Chodzi o wskazanie głównych zbiorów danych / repozytoriów, opis źródeł (scraping, licencje, dane własne, dane użytkowników, dane syntetyczne), by twórcy i regulatorzy mogli zorientować się, ma czym uczył się model.
Te obowiązki dotyczą dostawców modeli (engine), a nie wszystkich w łańcuchu – np. firm dostarczających wyłącznie zbiory danych i narzędzia do scrapingu, takich jak Common Crawl czy LAION, o ile nie występują w roli dostawców GPAI.
Mechanizm opt‑out. Jak twórca może wyłączyć swoje treści z trenowania AI?
W teorii wygląda to dosyć prosto:
- Dyrektywa DSM mówi: twórca może zastrzec swoje prawa w sposób odpowiedni, najlepiej maszynowo odczytywalny (np. metadane, robots.txt, TDMRep).
- AI Act mówi dostawcom GPAI: macie obowiązek takie zastrzeżenia respektować i wdrożyć politykę + narzędzia techniczne, by ich nie ignorować.
W praktyce jest trudniej:
- Kiedy i gdzie działa opt‑out?
- Najlogiczniejszy moment to etap scrapingu / pobierania danych z internetu – tam można „wyłapać” oznaczenie, że treści nie wolno używać do TDM.
- Jeśli dane zostały już skopiowane do zamkniętego zbioru i nie ma w nim informacji o opt‑out, jego egzekwowanie staje się dużo trudniejsze.
- Jak wygląda „odpowiedni” opt‑out w praktyce?
- Coraz częściej mówimy o standardach technicznych, takich jak TDMRep.
- Narzędzia komercyjne: Spawning, kudurru, Google‑Extended, blokady crawlerów w Cloudflare.
Zwykła formułka w stopce typu „zakaz trenowania AI” bez warstwy technicznej może okazać się niewystarczająca.
- Co z treningiem poza UE?
- AI Act próbuje „wyciągnąć” standardy UE także na trening prowadzony poza Unią, jeśli model jest potem wprowadzany na rynek UE.
- Tu mamy spór o terytorialność prawa autorskiego – prawo UE nie działa automatycznie na terytorium państw trzecich.
- Realne znaczenie mają kodeksy postępowania GPAI i nacisk rynku.
Praktyczny wniosek: warto oznaczać opt‑out technicznie (np. metadane, nagłówki HTTP, robots.txt zgodne ze standardami TDM), bo AI Act zmusza przynajmniej dużych dostawców modeli, by takie sygnały brali na serio.
Transparentność danych treningowych. Co dostawcy modeli muszą ujawniać?
Streszczenie danych treningowych („sufficiently detailed summary”) ma pełnić kilka funkcji:
- Dać twórcom i organizacjom zbiorowego zarządzania punkt zaczepienia – zobaczyć, czy i w jakim zakresie ich kategorie treści były wykorzystywane.
- Pomóc regulatorom ocenić przestrzeganie wymogów TDM:
- czy źródła były legalne (lawful access),
- czy wzięto pod uwagę opt‑out „u źródła”,
- czy nie korzystano z pirackich baz danych.
- Umożliwić społeczną i naukową kontrolę stronniczości modeli.
Streszczenie nie zastąpi systemów licencyjnych ani nie zagwarantuje wynagrodzenia twórcom – to narzędzie przejrzystości, nie mechanizm płatności.
Czego AI Act nie załatwia? Wynagrodzenie twórców i luka regulacyjna.
Największy zawód po lekturze AI Act dla wielu twórców brzmi: „Nie ma wprost prawa do wynagrodzenia za wykorzystanie utworu do trenowania AI.”
AI Act:
- wzmacnia obowiązki compliance dostawców modeli (polityki, opt‑out, transparentność),
- ale nie tworzy nowego, odrębnego prawa do wynagrodzenia za TDM/trening, ani obowiązkowej opłaty (levy) od wyjść modeli.
W dyskusji akademickiej pojawiły się m.in. propozycje:
- licencji ustawowej za trening,
- obowiązkowego zarządu zbiorowego w tym zakresie,
- opłat od outputu AI (AI output levy), rozdzielanych między twórców.
Na razie to jednak koncepcje, nie obowiązujące prawo. Ochrona twórców będzie w najbliższych latach opierać się na mieszance: opt‑out + licencje dobrowolne + pozwy + negocjacje branżowe. AI Act może zwiększyć presję na umowy, ale sam z siebie nie gwarantuje pieniędzy.
Checklisty dla firm, wydawców i instytucji kultury
Jeśli jesteś firmą rozwijającą lub integrującą modele GPAI
- Zmapuj łańcuch wartości danych treningowych
- Stwórz politykę „AI Act a prawo autorskie”
- Przygotuj szkic streszczenia danych treningowych
- Rozdziel odpowiedzialności: model vs system
Jeśli jesteś wydawcą, twórcą, instytucją kultury
- Oceń, czy chcesz opt‑out, czy raczej licencjonować trening
- Wdróż techniczny opt‑out (np. metadane, robots.txt zgodne z TDMRep)
- Monitoruj streszczenia danych treningowych dużych modeli
- Rozważ współpracę w ramach organizacji zbiorowego zarządzania
FAQ: najczęstsze pytania o AI Act a prawo autorskie
Czy AI Act rozwiązuje problem naruszeń praw autorskich przez AI?
Nie w pełni. AI Act:
- potwierdza, że trening modeli AI to TDM, a więc obszar prawa autorskiego,
- nakłada dodatkowe obowiązki na dostawców GPAI (polityka respektowania praw autorskich, opt‑out, transparentność),
- ale nie wprowadza nowego prawa do wynagrodzenia za trening, ani nie tworzy prostego „one‑stop” rozwiązania dla twórców.
Spory sądowe (jak Kneschke v LAION) i negocjacje branżowe będą nadal odgrywały ogromną rolę.
Czy generatywna AI może być „autorem” utworu?
W prawie UE – nie. Autor musi być człowiekiem; system AI jest narzędziem. Natomiast:
- człowiek korzystający z AI może być autorem, jeżeli wnosi twórczy wkład o indywidualnym charakterze,
- AI Act w ogóle nie reguluje kwestii ochrony wyników działania AI – pozostawia to prawu autorskiemu poszczególnych państw członkowskich.
Czy można legalnie trenować AI na danych z internetu?
Tak, ale pod warunkami:
- Musisz mieć zgodny z prawem dostęp (lawful access) do treści.
- Musisz respektować opt‑out twórców zgodnie z art. 4(3) CDSMD.
- Jeśli nie mieścisz się w wyjątkach TDM, potrzebujesz licencji.
AI Act sprawia, że ignorowanie tych zasad przez dostawców modeli staje się znacznie bardziej ryzykowne, choć nie zawsze od razu przekłada się na odszkodowanie dla twórców.
Kiedy AI Act zacznie obowiązywać i kogo dotyczy w kontekście praw autorskich?
- AI Act został przyjęty w 2024 r., a różne grupy przepisów wchodzą w życie etapami.
- Obowiązki dotyczące praw autorskich wobec modeli ogólnego przeznaczenia (GPAI) zaczęły obowiązywać 2 sierpnia 2025 r.
- Dotyczą przede wszystkim dostawców GPAI (np. twórców dużych modeli językowych, modeli obrazowych) i w mniejszym stopniu podmiotów je integrujących.
Co to wszystko oznacza dla przyszłości twórców i firm?
- Dla firm AI – AI Act a prawo autorskie to przede wszystkim compliance: polityki, logowanie źródeł, opt‑out, streszczenia danych treningowych, potencjalnie audyty i współpraca z AI Office.
- Dla twórców i wydawców – to nowe dźwignie negocjacyjne: łatwiej będzie udowodnić, że określone kategorie treści były wykorzystywane w treningu i domagać się licencji albo lepszych warunków.
- Dla regulatorów i sądów – to laboratorium nowych napięć: jak pogodzić rozwój generatywnej AI ze sprawiedliwym wynagradzaniem twórców i poszanowaniem wyjątków TDM.
Warto obserwować trzy linie rozwoju:
- Kodeksy postępowania dla GPAI (Code of Practice)
- Eksperymenty państw członkowskich
- Praktykę rynkową: umowy między dużymi wydawcami, stockami, organizacjami zbiorowego zarządzania a dostawcami modeli AI
Na dziś kluczowe jest jedno:
AI Act nie zamyka dyskusji o relacji generatywnej AI i prawa autorskiego. Raczej przenosi ją na wyższy, bardziej techniczny i systemowy poziom – tam, gdzie spotykają się prawnicy, inżynierowie, regulatorzy i twórcy.
Ten tekst ma pomóc Ci wejść w tę rozmowę świadomie – zrozumieć, jakie masz obowiązki jako firma i jakie narzędzia jako twórca.