Mapa tygodnia/Moduł 08

lokalne modele

bezpieczeństwo

45 min · średni

Bielik i modele lokalne

Kiedy chmura nie jest opcją — własny model on-prem.

Tryb: pełny

Executive summary

Model lokalny = LLM uruchomiony na twoim sprzęcie (laptop, serwer, własna chmura), bez wysyłania danych do OpenAI/Google/Anthropic.
Bielik (SpeakLeash, warianty 7B/11B-instruct) to polski LLM open-weight — najmocniejszy obecnie wybór, gdy zależy ci na polszczyźnie + prywatności.
Stack do uruchamiania: Ollama (najprościej), LM Studio (GUI), llama.cpp (low-level), vLLM (produkcja). Format wag: GGUF, kwantyzacja Q4_K_M wystarcza w 90% przypadków.
Reguła decyzyjna: lokalnie wtedy, gdy wrażliwość danych lub regulacje (RODO, tajemnica zawodowa, dane medyczne) zabraniają chmury — albo gdy wolumen przebija koszt sprzętu w 6–12 mies.
Pułapka: lokalny model NIE zastąpi GPT-5/Claude Opus/Gemini Pro w trudnym rozumowaniu. Używaj go do tego, w czym wystarczy "dobrze" — klasyfikacja, streszczenia, ekstrakcja, draft w PL.

Czym to jest

Model lokalny to ten sam typ sieci neuronowej co GPT-4, tylko mniejszy (7–70 mld parametrów zamiast setek miliardów) i uruchomiony na twoim sprzęcie. Wagi pobierasz raz (kilka–kilkadziesiąt GB), potem wszystko dzieje się offline. Bielik to projekt SpeakLeash — fundacji, która zbiera polskie korpusy i trenuje modele specjalnie pod polski język. Konkuruje z Llamą, Mistralem, Qwenem, ale wygrywa z nimi w polszczyźnie (idiomy, deklinacje, kontekst kulturowy). W praktyce do uruchomienia używa się Ollamy (jedna komenda: ollama run SpeakLeash/bielik-11b-v2.3-instruct) lub LM Studio (klikalne GUI). Model lokalny to NIE jest "ChatGPT za darmo" — to inne narzędzie do innych zadań: tam gdzie liczy się prywatność i powtarzalność, nie maksymalna inteligencja.

Kluczowe pojęcia

Model open-weight

Wagi modelu są publiczne — możesz pobrać i uruchomić u siebie. Bielik, Llama, Mistral, Qwen. Open-weight ≠ open-source (kod treningu zwykle zamknięty).

Kwantyzacja

Kompresja wag z 16-bit do 4–8 bit. Q4_K_M = mały spadek jakości, 4× mniejszy model. Standard dla pracy lokalnej.

GGUF

Format pliku z wagami zoptymalizowany pod llama.cpp/Ollama. To, co pobierasz z Hugging Face do uruchomienia lokalnie.

Ollama

Najprostsze runtime do modeli lokalnych. Instalujesz, robisz "ollama run bielik" i masz API zgodne z OpenAI na localhost.

LM Studio

GUI do testowania modeli lokalnych — pobieranie z Hugging Face, czat, serwer API. Dobre na start dla nietechnicznych.

vLLM

Serwer produkcyjny do modeli lokalnych — wysoka przepustowość, batchowanie, dla zespołów. Wymaga GPU z VRAM 16+ GB.

On-prem vs on-device

On-prem: model na twoim serwerze (firmowa serwerownia / VPC). On-device: model na laptopie/telefonie użytkownika. Inne ekonomiki, ten sam typ modelu.

RAG z lokalnym modelem

Połączenie lokalnego LLM z bazą wektorową (np. Qdrant lokalnie) — pełna prywatność end-to-end. Standard dla kancelarii, klinik, sektora publicznego.

Pryncypia

01Lokalnie tylko wtedy, gdy chmura jest realnym ryzykiem — nie "dla zasady". 80% firm nie potrzebuje modeli lokalnych.
02Bielik dla polszczyzny, Llama 3.1 / Qwen 2.5 dla angielskiego i kodu. Jeden model nie jest najlepszy do wszystkiego.
03Zacznij od Q4_K_M — jakość wystarczy, sprzęt ogarnie. Pełna precyzja FP16 to overkill dla 95% zadań.
04Lokalny model + RAG > sam lokalny model. Sam model halucynuje na danych, których nie zna; RAG go uziemia.
05Nie próbuj kopiować workflow z ChatGPT 1:1. Lokalne modele potrzebują innego promptowania (krótszych, bardziej eksplicytnych instrukcji).
06Mierz koszt całkowity: GPU + prąd + utrzymanie + osoba do monitoringu. Często chmura per-token wychodzi taniej.
07Polityka "co lokalnie, co w chmurze" — spisana, znana zespołowi. Inaczej ludzie i tak wkleją wrażliwe dane do ChatGPT.

Przykłady zastosowań

Klasyfikacja maili na 5 kategorii (kancelaria)

Bielik 11B na firmowym serwerze klasyfikuje przychodzące maile z dokumentami sądowymi. Dane nigdy nie opuszczają biura. Trafność 92%, koszt prądu < 50 zł/mies.

Streszczenia notatek z wizyt (klinika)

Bielik 7B na laptopie lekarza streszcza notatki głosowe pacjentów. Dane pacjenta nie wychodzą z urządzenia — RODO + tajemnica lekarska spełnione bez DPA.

Anonimizacja CV przed wysłaniem do chmurowego AI

Lokalny model usuwa imiona, nazwiska, adresy. Dopiero zanonimizowany tekst leci do GPT-4 do oceny merytorycznej. Hybryda lokalne + chmura.

Code review wewnętrznego kodu (fintech)

Qwen 2.5 Coder 32B na firmowym GPU robi pierwszy przegląd PR-ów. Kod nigdy nie trafia do GitHub Copilot — compliance bankowy spełniony.

Asystent w intranecie sektora publicznego

Bielik + RAG na regulaminach urzędu. Pracownicy pytają w czacie, model odpowiada cytując konkretne paragrafy. Zero ryzyka wycieku danych obywateli.

Case study

Kancelaria prawna 30 osób przenosi klasyfikację dokumentów na Bielika lokalnie

Kancelaria z Warszawy, ~30 prawników, obsługuje sprawy gospodarcze i karne. Codziennie wpływa 200–400 dokumentów (skany pism, maile od klientów, dokumenty z sądu). Sortowanie zajmuje 2 osobom po 4h dziennie. Dane są objęte tajemnicą zawodową — wysyłka do ChatGPT/Claude jest formalnie zakazana przez politykę OIRP.

Podejście

1.Audyt: jakie typy dokumentów, jakie kategorie, jaka oczekiwana trafność (>90% — błąd kosztuje czas, nie życie).
2.Wybór stack: Bielik 11B-instruct w kwantyzacji Q5_K_M na pojedynczym serwerze z RTX 4090 (jednorazowy koszt ~12 tys. zł). Runtime: Ollama + prosty front w Streamlicie.
3.Pipeline: skan → OCR (Tesseract lokalnie) → klasyfikacja Bielikiem (kategoria + sprawa + pilność) → wpis do systemu kancelaryjnego z tagami.
4.Iteracja: 2 tygodnie pracy równoległej (człowiek + model), zbierane różnice, dotrenowywane prompty (nie sam model — to za drogie).
5.Polityka "co lokalnie, co w chmurze": wszystko z danymi klientów = lokalnie. Research prawny bez danych klientów = Perplexity Pro / ChatGPT (osobny pulpit).
6.Audyt bezpieczeństwa przez kancelarię IT — potwierdzenie, że dane nie wychodzą poza VPN.

Efekt: Sortowanie: 8h dziennie → 1h dziennie (kontrola jakości). 2 osoby uwolnione do pracy merytorycznej. Trafność klasyfikacji 94% po 6 tygodniach iteracji. Koszt sprzętu zwrócił się w 4 miesiące. Bonus: kancelaria może legalnie reklamować "AI bez wycieku danych klientów" — przewaga konkurencyjna w przetargach korporacyjnych.

Najczęstsze błędy — checklista

0/7 oznaczone

"Bielik zastąpi nam ChatGPT"Nie zastąpi w trudnym rozumowaniu, kreatywności, multimodalności. Zastąpi w wąskich, powtarzalnych zadaniach po polsku.
Uruchamianie 70B na laptopieModele >13B wymagają poważnego GPU. Zacznij od 7–11B Q4 — działa na M1/M2 Mac i RTX 3060.
Brak RAGSam lokalny model nie zna twojej firmy. Bez bazy wiedzy halucynuje. RAG = obowiązek, nie opcja, dla zastosowań biznesowych.
Pełna precyzja "bo lepsza"FP16 vs Q4_K_M to różnica < 3% jakości i 4× sprzętu. Q4 to standard, nie kompromis.
Brak polityki "co gdzie"Jeśli nie spiszesz, co wolno chmurowo, a co tylko lokalnie — ludzie i tak wkleją wrażliwe dane do ChatGPT z prywatnego konta.
Liczenie tylko sprzętuGPU to 30% kosztu. Reszta: utrzymanie, monitoring, aktualizacje, osoba odpowiedzialna. Czasem chmura jest po prostu tańsza.
Jeden model do wszystkiegoBielik do PL-tekstu, Qwen Coder do kodu, Llama Vision do obrazu. Trzymaj 2–3 modele równolegle, nie szukaj "uniwersalnego".

Prompty gotowe do użycia

Test przydatności modelu lokalnego dla zadania

Kiedy: Zanim wyłożysz pieniądze na sprzęt — sprawdź, czy lokalny model w ogóle uniesie zadanie.

Jestem [rola] w [firma/branża]. Rozważam uruchomienie lokalnego modelu (Bielik 11B / Llama 3.1 8B) zamiast chmury dla zadania:

[opis zadania w 3 zdaniach]

Oceń krytycznie:
1) Czy to zadanie wymaga modelu frontier (GPT-5/Claude Opus), czy wystarczy 7–11B lokalnie? Uzasadnij.
2) Jakie są 3 największe ryzyka jakościowe lokalnego modelu w tym zadaniu?
3) Jaki minimalny sprzęt by wystarczył (GPU/RAM)?
4) Jakie metryki sukcesu zaproponowałbyś do 2-tygodniowego pilota?
5) Werdykt: lokalnie / chmura / hybryda — i dlaczego.

Częsty błąd: Pominięcie pytania 1 — często okazuje się, że zadanie to jednak frontier-only.

Porównanie Bielik vs chmura na próbce

Kiedy: Masz pilota, chcesz dane do decyzji.

Zaprojektuj protokół testu A/B porównujący Bielika 11B (lokalnie) vs GPT-4o-mini (chmura) dla zadania: [opis].

Output:
1) 20 reprezentatywnych przypadków testowych (różne typy inputu, w tym 3 edge case'y).
2) Rubryka oceny (3–5 kryteriów, skala 1–5).
3) Kto ocenia (1 osoba czy 2 niezależnie + tie-breaker).
4) Próg decyzji: jaka różnica wyniku oznacza "lokalny wystarczy", a jaka "trzeba chmurę".
5) Szacowany koszt testu (godziny człowieka).

Konfiguracja RAG z lokalnym modelem

Kiedy: Wdrażasz lokalny model + własną bazę wiedzy.

Zaprojektuj architekturę RAG dla mojego use case: [opis + rodzaj dokumentów + liczba + tempo aktualizacji].

Dla każdej warstwy podaj konkretną rekomendację (z alternatywą):
1) Embedder (lokalny vs chmurowy — z uzasadnieniem przez pryzmat prywatności).
2) Vector DB (Qdrant / Chroma / pgvector — co dla mojej skali).
3) Strategia chunkingu (rozmiar, overlap, czy semantic chunking).
4) Reranker — tak/nie, jeśli tak to który.
5) LLM (Bielik 11B / inny — z uzasadnieniem).
6) Monitoring jakości (3 metryki + jak je mierzyć w produkcji).
7) 3 największe pułapki, które popełnia większość zespołów na moim etapie.

Polityka "co lokalnie, co w chmurze" dla zespołu

Kiedy: Wdrażasz AI w organizacji z mieszanymi danymi.

Działasz jako konsultant ds. AI governance. Napisz politykę "Co lokalnie, co w chmurze" dla mojej organizacji:

Kontekst: [branża, wielkość zespołu, typ danych, regulacje — np. RODO, KNF, tajemnica zawodowa].

Output (2 strony max):
1) Klasyfikacja danych: 3–4 poziomy wrażliwości z konkretnymi przykładami.
2) Macierz: poziom danych × dozwolony rodzaj AI (publiczny czat / chmura enterprise z DPA / lokalny model). 
3) Lista 5 typowych scenariuszy "szara strefa" + jak je rozstrzygnąć.
4) Proces zgłaszania wyjątków (kto decyduje, w jakim czasie).
5) Krótka instrukcja dla pracownika (1 strona, język ludzki, nie prawniczy).

Pytania kontrolne

Powiązane moduły

Bezpieczeństwo RAG i dobór modeli

Skończyłeś moduł? Oznacz go i ruszaj dalej.

Executive summary

Czym to jest

Kluczowe pojęcia

Pryncypia

Przykłady zastosowań

Kancelaria prawna 30 osób przenosi klasyfikację dokumentów na Bielika lokalnie

Najczęstsze błędy — checklista

Prompty gotowe do użycia

LAB — ćwiczenie

Pytania kontrolne

1Kiedy model lokalny jest jedynym sensownym wyborem?

2Dlaczego Bielik, a nie Llama / Mistral / Qwen?

3Co to znaczy Q4_K_M i czemu wystarcza?

4Dlaczego sam lokalny model bez RAG to słaby pomysł biznesowy?

Powiązane moduły