Mapa tygodnia/Moduł 08
lokalne modele
bezpieczeństwo
45 min · średni

Bielik i modele lokalne

Kiedy chmura nie jest opcją — własny model on-prem.

Tryb: pełny

Executive summary

  • Model lokalny = LLM uruchomiony na twoim sprzęcie (laptop, serwer, własna chmura), bez wysyłania danych do OpenAI/Google/Anthropic.
  • Bielik (SpeakLeash, warianty 7B/11B-instruct) to polski LLM open-weight — najmocniejszy obecnie wybór, gdy zależy ci na polszczyźnie + prywatności.
  • Stack do uruchamiania: Ollama (najprościej), LM Studio (GUI), llama.cpp (low-level), vLLM (produkcja). Format wag: GGUF, kwantyzacja Q4_K_M wystarcza w 90% przypadków.
  • Reguła decyzyjna: lokalnie wtedy, gdy wrażliwość danych lub regulacje (RODO, tajemnica zawodowa, dane medyczne) zabraniają chmury — albo gdy wolumen przebija koszt sprzętu w 6–12 mies.
  • Pułapka: lokalny model NIE zastąpi GPT-5/Claude Opus/Gemini Pro w trudnym rozumowaniu. Używaj go do tego, w czym wystarczy "dobrze" — klasyfikacja, streszczenia, ekstrakcja, draft w PL.

Czym to jest

Model lokalny to ten sam typ sieci neuronowej co GPT-4, tylko mniejszy (7–70 mld parametrów zamiast setek miliardów) i uruchomiony na twoim sprzęcie. Wagi pobierasz raz (kilka–kilkadziesiąt GB), potem wszystko dzieje się offline. Bielik to projekt SpeakLeash — fundacji, która zbiera polskie korpusy i trenuje modele specjalnie pod polski język. Konkuruje z Llamą, Mistralem, Qwenem, ale wygrywa z nimi w polszczyźnie (idiomy, deklinacje, kontekst kulturowy). W praktyce do uruchomienia używa się Ollamy (jedna komenda: ollama run SpeakLeash/bielik-11b-v2.3-instruct) lub LM Studio (klikalne GUI). Model lokalny to NIE jest "ChatGPT za darmo" — to inne narzędzie do innych zadań: tam gdzie liczy się prywatność i powtarzalność, nie maksymalna inteligencja.

Kluczowe pojęcia

Model open-weight
Wagi modelu są publiczne — możesz pobrać i uruchomić u siebie. Bielik, Llama, Mistral, Qwen. Open-weight ≠ open-source (kod treningu zwykle zamknięty).
Kwantyzacja
Kompresja wag z 16-bit do 4–8 bit. Q4_K_M = mały spadek jakości, 4× mniejszy model. Standard dla pracy lokalnej.
GGUF
Format pliku z wagami zoptymalizowany pod llama.cpp/Ollama. To, co pobierasz z Hugging Face do uruchomienia lokalnie.
Ollama
Najprostsze runtime do modeli lokalnych. Instalujesz, robisz "ollama run bielik" i masz API zgodne z OpenAI na localhost.
LM Studio
GUI do testowania modeli lokalnych — pobieranie z Hugging Face, czat, serwer API. Dobre na start dla nietechnicznych.
vLLM
Serwer produkcyjny do modeli lokalnych — wysoka przepustowość, batchowanie, dla zespołów. Wymaga GPU z VRAM 16+ GB.
On-prem vs on-device
On-prem: model na twoim serwerze (firmowa serwerownia / VPC). On-device: model na laptopie/telefonie użytkownika. Inne ekonomiki, ten sam typ modelu.
RAG z lokalnym modelem
Połączenie lokalnego LLM z bazą wektorową (np. Qdrant lokalnie) — pełna prywatność end-to-end. Standard dla kancelarii, klinik, sektora publicznego.

Pryncypia

  1. 01Lokalnie tylko wtedy, gdy chmura jest realnym ryzykiem — nie "dla zasady". 80% firm nie potrzebuje modeli lokalnych.
  2. 02Bielik dla polszczyzny, Llama 3.1 / Qwen 2.5 dla angielskiego i kodu. Jeden model nie jest najlepszy do wszystkiego.
  3. 03Zacznij od Q4_K_M — jakość wystarczy, sprzęt ogarnie. Pełna precyzja FP16 to overkill dla 95% zadań.
  4. 04Lokalny model + RAG > sam lokalny model. Sam model halucynuje na danych, których nie zna; RAG go uziemia.
  5. 05Nie próbuj kopiować workflow z ChatGPT 1:1. Lokalne modele potrzebują innego promptowania (krótszych, bardziej eksplicytnych instrukcji).
  6. 06Mierz koszt całkowity: GPU + prąd + utrzymanie + osoba do monitoringu. Często chmura per-token wychodzi taniej.
  7. 07Polityka "co lokalnie, co w chmurze" — spisana, znana zespołowi. Inaczej ludzie i tak wkleją wrażliwe dane do ChatGPT.

Przykłady zastosowań

Klasyfikacja maili na 5 kategorii (kancelaria)

Bielik 11B na firmowym serwerze klasyfikuje przychodzące maile z dokumentami sądowymi. Dane nigdy nie opuszczają biura. Trafność 92%, koszt prądu < 50 zł/mies.

Streszczenia notatek z wizyt (klinika)

Bielik 7B na laptopie lekarza streszcza notatki głosowe pacjentów. Dane pacjenta nie wychodzą z urządzenia — RODO + tajemnica lekarska spełnione bez DPA.

Anonimizacja CV przed wysłaniem do chmurowego AI

Lokalny model usuwa imiona, nazwiska, adresy. Dopiero zanonimizowany tekst leci do GPT-4 do oceny merytorycznej. Hybryda lokalne + chmura.

Code review wewnętrznego kodu (fintech)

Qwen 2.5 Coder 32B na firmowym GPU robi pierwszy przegląd PR-ów. Kod nigdy nie trafia do GitHub Copilot — compliance bankowy spełniony.

Asystent w intranecie sektora publicznego

Bielik + RAG na regulaminach urzędu. Pracownicy pytają w czacie, model odpowiada cytując konkretne paragrafy. Zero ryzyka wycieku danych obywateli.

Case study

Kancelaria prawna 30 osób przenosi klasyfikację dokumentów na Bielika lokalnie

Kancelaria z Warszawy, ~30 prawników, obsługuje sprawy gospodarcze i karne. Codziennie wpływa 200–400 dokumentów (skany pism, maile od klientów, dokumenty z sądu). Sortowanie zajmuje 2 osobom po 4h dziennie. Dane są objęte tajemnicą zawodową — wysyłka do ChatGPT/Claude jest formalnie zakazana przez politykę OIRP.

Podejście

  1. 1.Audyt: jakie typy dokumentów, jakie kategorie, jaka oczekiwana trafność (>90% — błąd kosztuje czas, nie życie).
  2. 2.Wybór stack: Bielik 11B-instruct w kwantyzacji Q5_K_M na pojedynczym serwerze z RTX 4090 (jednorazowy koszt ~12 tys. zł). Runtime: Ollama + prosty front w Streamlicie.
  3. 3.Pipeline: skan → OCR (Tesseract lokalnie) → klasyfikacja Bielikiem (kategoria + sprawa + pilność) → wpis do systemu kancelaryjnego z tagami.
  4. 4.Iteracja: 2 tygodnie pracy równoległej (człowiek + model), zbierane różnice, dotrenowywane prompty (nie sam model — to za drogie).
  5. 5.Polityka "co lokalnie, co w chmurze": wszystko z danymi klientów = lokalnie. Research prawny bez danych klientów = Perplexity Pro / ChatGPT (osobny pulpit).
  6. 6.Audyt bezpieczeństwa przez kancelarię IT — potwierdzenie, że dane nie wychodzą poza VPN.
Efekt: Sortowanie: 8h dziennie → 1h dziennie (kontrola jakości). 2 osoby uwolnione do pracy merytorycznej. Trafność klasyfikacji 94% po 6 tygodniach iteracji. Koszt sprzętu zwrócił się w 4 miesiące. Bonus: kancelaria może legalnie reklamować "AI bez wycieku danych klientów" — przewaga konkurencyjna w przetargach korporacyjnych.

Najczęstsze błędy — checklista

0/7 oznaczone

Prompty gotowe do użycia

Test przydatności modelu lokalnego dla zadania

Kiedy: Zanim wyłożysz pieniądze na sprzęt — sprawdź, czy lokalny model w ogóle uniesie zadanie.

Jestem [rola] w [firma/branża]. Rozważam uruchomienie lokalnego modelu (Bielik 11B / Llama 3.1 8B) zamiast chmury dla zadania:

[opis zadania w 3 zdaniach]

Oceń krytycznie:
1) Czy to zadanie wymaga modelu frontier (GPT-5/Claude Opus), czy wystarczy 7–11B lokalnie? Uzasadnij.
2) Jakie są 3 największe ryzyka jakościowe lokalnego modelu w tym zadaniu?
3) Jaki minimalny sprzęt by wystarczył (GPU/RAM)?
4) Jakie metryki sukcesu zaproponowałbyś do 2-tygodniowego pilota?
5) Werdykt: lokalnie / chmura / hybryda — i dlaczego.

Częsty błąd: Pominięcie pytania 1 — często okazuje się, że zadanie to jednak frontier-only.

Porównanie Bielik vs chmura na próbce

Kiedy: Masz pilota, chcesz dane do decyzji.

Zaprojektuj protokół testu A/B porównujący Bielika 11B (lokalnie) vs GPT-4o-mini (chmura) dla zadania: [opis].

Output:
1) 20 reprezentatywnych przypadków testowych (różne typy inputu, w tym 3 edge case'y).
2) Rubryka oceny (3–5 kryteriów, skala 1–5).
3) Kto ocenia (1 osoba czy 2 niezależnie + tie-breaker).
4) Próg decyzji: jaka różnica wyniku oznacza "lokalny wystarczy", a jaka "trzeba chmurę".
5) Szacowany koszt testu (godziny człowieka).
Konfiguracja RAG z lokalnym modelem

Kiedy: Wdrażasz lokalny model + własną bazę wiedzy.

Zaprojektuj architekturę RAG dla mojego use case: [opis + rodzaj dokumentów + liczba + tempo aktualizacji].

Dla każdej warstwy podaj konkretną rekomendację (z alternatywą):
1) Embedder (lokalny vs chmurowy — z uzasadnieniem przez pryzmat prywatności).
2) Vector DB (Qdrant / Chroma / pgvector — co dla mojej skali).
3) Strategia chunkingu (rozmiar, overlap, czy semantic chunking).
4) Reranker — tak/nie, jeśli tak to który.
5) LLM (Bielik 11B / inny — z uzasadnieniem).
6) Monitoring jakości (3 metryki + jak je mierzyć w produkcji).
7) 3 największe pułapki, które popełnia większość zespołów na moim etapie.
Polityka "co lokalnie, co w chmurze" dla zespołu

Kiedy: Wdrażasz AI w organizacji z mieszanymi danymi.

Działasz jako konsultant ds. AI governance. Napisz politykę "Co lokalnie, co w chmurze" dla mojej organizacji:

Kontekst: [branża, wielkość zespołu, typ danych, regulacje — np. RODO, KNF, tajemnica zawodowa].

Output (2 strony max):
1) Klasyfikacja danych: 3–4 poziomy wrażliwości z konkretnymi przykładami.
2) Macierz: poziom danych × dozwolony rodzaj AI (publiczny czat / chmura enterprise z DPA / lokalny model). 
3) Lista 5 typowych scenariuszy "szara strefa" + jak je rozstrzygnąć.
4) Proces zgłaszania wyjątków (kto decyduje, w jakim czasie).
5) Krótka instrukcja dla pracownika (1 strona, język ludzki, nie prawniczy).

LAB — ćwiczenie

LAB · 15 min · średni

Dla 6 realistycznych zadań biznesowych zdecyduj: model lokalny, chmura czy hybryda. Po wybraniu zobaczysz uzasadnienie i typowe pułapki.

  1. 1Klinika ortopedyczna chce streszczać notatki głosowe lekarzy po wizytach (PL, dane pacjenta, ~200/dzień).

  2. 2Startup B2B SaaS chce generować 30 maili sprzedażowych dziennie po angielsku, z personalizacją na podstawie publicznych danych LinkedIn.

  3. 3Bank chce analizować transkrypcje rozmów z infolinii (PL, dane klientów, 5000/dzień) pod kątem reklamacji i nastrojów.

  4. 4Agencja marketingowa chce generować kreatywne koncepty kampanii i obrazy do moodboardów dla 12 klientów.

  5. 5Urząd miasta chce udostępnić mieszkańcom czatbota odpowiadającego na pytania o regulaminy lokalne (PL, brak danych osobowych w pytaniach).

  6. 6Kancelaria chce przygotowywać drafty pozwów na podstawie akt klienta (PL, tajemnica zawodowa, ~5 pism dziennie, wymaga zaawansowanego rozumowania prawnego).

Pytania kontrolne

Powiązane moduły

Skończyłeś moduł? Oznacz go i ruszaj dalej.