Mapa tygodnia/Moduł 09

multimodalność

research

50 min · zaawansowany

Multimodalność, RAG i dobór modeli

Tekst, obraz, audio, wideo + grounding na własnej bazie.

Tryb: pełny

Executive summary

Multimodalność = jeden model przyjmuje i/lub generuje różne typy danych: tekst, obraz, audio, wideo. To nie magia — to praktyczne 5–10 nowych workflow.
RAG (Retrieval-Augmented Generation) = "model + biblioteka, do której sięga". Standard wszędzie tam, gdzie odpowiedzi muszą bazować na twoich, prywatnych, aktualnych dokumentach.
Hierarchia groundingu: NotebookLM (gotowe, 0 kodu) → Custom GPT z knowledge → własny RAG (n8n / LangChain / Vertex AI Search) → fine-tuning (rzadko sensowny dla 99% firm).
Dobór modelu to NIE "który najlepszy" — to matryca: szybkość × koszt × jakość × context window × multimodalność, ważona twoim use case.
Pułapka: większość zadań biznesowych to nadal tekst. Vision świetny do OCR i screenshotów, słaby do skomplikowanych diagramów technicznych. Wideo — głównie marketing, rzadko produkcja.

Czym to jest

Multimodalność oznacza, że model nie ogranicza się do tekstu — może "widzieć" obrazy (vision), "słyszeć" audio (Whisper, Gemini), generować obrazy (DALL·E, Imagen, Flux), mówić (TTS), a nawet pracować z wideo (Gemini, Veo). RAG to z kolei wzorzec architektoniczny, w którym do prompta dokładasz fragmenty twoich dokumentów wyszukane wcześniej w bazie wektorowej. Razem dają coś, czego sam czat nie daje: model uziemiony w twoich danych, rozumiejący różne formaty, dobrany do zadania. Dobór modelu to trzeci filar — bez świadomego wyboru używasz GPT-4 do wszystkiego, marnujesz pieniądze i czas. Trzy filary razem (modalność, grounding, dobór) odróżniają zaawansowanego użytkownika od początkującego.

Kluczowe pojęcia

Vision (modele wizyjne)

Modele przyjmujące obraz jako input: GPT-4o, Claude 3.5/4, Gemini 2.x. Świetne do OCR, screenshotów, opisu zdjęć, słabsze do diagramów technicznych.

Whisper / speech-to-text

Transkrypcja mowy → tekst. Whisper (OpenAI) jest open-weight i działa też lokalnie. Polszczyzna: bardzo dobra.

TTS (text-to-speech)

Generowanie głosu z tekstu. ElevenLabs, OpenAI TTS, Google. Klonowanie głosu wymaga zgody — w UE to RODO + AI Act.

Generowanie obrazów

DALL·E 3 (OpenAI), Imagen (Google), Midjourney (najlepsza estetyka), Flux (open-weight). Każdy ma inną specjalizację.

RAG

Wzorzec: pytanie użytkownika → wyszukanie istotnych fragmentów w bazie wektorowej → doklejenie do prompta → odpowiedź modelu z cytowaniami.

Embeddingi

Liczbowa reprezentacja tekstu (768–3072 wymiary). Pozwala mierzyć podobieństwo znaczeniowe, nie słów. Podstawa wyszukiwania w RAG.

Chunking

Dzielenie dokumentów na fragmenty (200–1000 tokenów + overlap). Zła strategia chunkingu = zły RAG, niezależnie od reszty stack-u.

Reranker

Drugi model, który po pierwszym wyszukaniu (top 20 fragmentów) wybiera 3–5 najlepszych. Często podnosi jakość RAG bardziej niż lepszy LLM.

Vector DB

Baza danych zoptymalizowana pod wyszukiwanie po embeddingach. Qdrant, Chroma, pgvector (Postgres), Pinecone (chmura).

Context window

Ile tokenów (≈ słów × 1.3) model przyjmuje na raz. Gemini 2.5: 1M+. GPT-4o: 128k. Większy = mniej potrzeba RAG dla małych korpusów.

Fine-tuning

Dotrenowanie modelu na twoich danych. Drogie, wolne, rzadko warte — RAG zwykle robi to samo szybciej i taniej.

Pryncypia

01Zacznij od najprostszego groundingu: NotebookLM. Dopiero gdy nie wystarczy — Custom GPT. Dopiero gdy nie wystarczy — własny RAG.
02Dobry RAG to 80% jakość chunkingu i retrievalu, 20% jakość LLM. Wymiana modelu nie naprawia zepsutego retrievalu.
03Mierz RAG na 20–50 realnych pytaniach z udziałem ekspertów. "Wygląda OK" to nie metryka.
04Multimodalność używaj tam, gdzie tekst by tego nie ogarnął: faktura jako zdjęcie, transkrypcja rozmowy, screenshot błędu. Nie na siłę.
05Jeden model do wszystkiego = drogo i wolno. Macierz "use case → model" to standard zaawansowanego wdrożenia.
06Większy context window ≠ koniec RAG. Wrzucenie 500 stron do prompta jest drogie, wolne i model gubi się w środku ("lost in the middle").
07Fine-tuning rozważaj dopiero, gdy: (a) masz 1000+ par treningowych, (b) RAG dał maks z siebie, (c) zadanie jest stabilne na lata.

Przykłady zastosowań

OCR + ekstrakcja z faktur

GPT-4o vision czyta zdjęcie faktury → JSON z pozycjami, kwotami, NIP. Trafność 95%+ na typowych formatach. Vision wygrywa z tradycyjnym OCR + regex.

Transkrypcja + analiza spotkania

Whisper transkrybuje 60-min spotkanie → GPT-4 wyciąga decyzje, action items, ryzyka. Czas: 5 min zamiast godziny notowania.

RAG na 2000 raportach badawczych (agencja insight)

Embeddingi w Qdrant + reranker + Claude 3.5. Pytanie "co wiemy o pokoleniu Z w kategorii bankowości" zwraca syntezę z 8 raportów + cytatami. Z 2 dni pracy do 30 sekund.

Vision do screenshotów błędów (support)

Klient wkleja screenshot błędu → asystent rozpoznaje produkt, wersję, typ błędu, sugeruje fix z bazy wiedzy. Skraca pierwszy kontakt z 10 min do 2 min.

Generowanie wariantów wizualnych (e-commerce)

Imagen / Midjourney generuje 12 wariantów lifestyle dla zdjęcia produktowego. A/B test wybiera najlepsze. Koszt sesji fotograficznej spada o 70%.

Case study

Zespół insight w agencji buduje RAG na 2000 raportach badawczych

Dział strategii w dużej agencji reklamowej. 2000+ raportów badawczych z ostatnich 8 lat (PDF, PPTX, PDF skanowane), rozproszonych w Drive z chaotyczną strukturą folderów. Strateg na briefie spędza średnio 1–2 dni szukając, co już badano w danej kategorii. Junior boi się przyznać, że nie wie, gdzie szukać.

Podejście

1.Audyt korpusu: ile dokumentów, jakie formaty, ile skanowanych (potrzebują OCR), kto jest właścicielem treści, co jest aktualne, co przeterminowane.
2.Pre-processing: skany przez Gemini 2.5 vision (lepsze niż klasyczny OCR dla raportów z wykresami), PDF/PPTX przez unstructured.io, każdy dokument dostaje metadane (kategoria, marka, rok, autor, status).
3.Chunking semantic, ~600 tokenów + 100 overlap, podział po nagłówkach sekcji (nie po stałej długości — raport ma logiczne bloki).
4.Embeddingi: text-embedding-3-large (OpenAI). Vector DB: Qdrant na firmowym serwerze. Reranker: Cohere Rerank 3.
5.LLM: Claude 3.5 Sonnet (lepszy w syntezie i cytowaniach niż GPT-4o w testach na 30 pytaniach kontrolnych).
6.Interfejs: prosty czat w intranecie + ZAWSZE cytaty (nazwa raportu, strona, fragment). Bez cytatów strateg nie zaufa.
7.Ewaluacja: 50 realnych pytań od strategów + ocena ekspertów (trafność, kompletność, halucynacje). Iteracja chunkingu i prompta orchestratora przez 3 tygodnie.
8.Onboarding: 1h warsztat dla zespołu, 5 przykładów dobrych i złych pytań, kanał Slack do zgłaszania problemów.

Efekt: Czas research-fazy briefu: 1–2 dni → 30 minut. Junior ma ten sam dostęp do "instytucjonalnej pamięci" co senior z 8-letnim stażem. Trafność: 89% odpowiedzi oceniono jako "użyteczne" lub "bardzo użyteczne". Halucynacje < 3% (cytaty pozwalają je natychmiast wyłapać). Klient płaci wyższe stawki za "data-driven strategy" — agencja zwróciła inwestycję w 5 miesięcy.

Najczęstsze błędy — checklista

0/8 oznaczone

RAG "na chama" — wszystko w jednym chunkuWrzucenie całego dokumentu jako jeden chunk niszczy retrieval. Chunki 200–1000 tokenów + overlap, najlepiej semantic.
Brak rerankeraPierwsze wyszukanie embeddingami daje top 20 — z czego top 3 często nie są najlepsze. Reranker często podnosi jakość bardziej niż wymiana LLM.
"Wymienię GPT-4 na Claude i będzie lepiej"Jeśli RAG zwraca złe fragmenty, żaden LLM tego nie naprawi. Najpierw napraw retrieval, potem mów o LLM.
Brak cytowań w outputcieBez cytatów (źródło + strona + fragment) użytkownicy nie zaufają RAG i przestaną używać. Cytaty to nie dodatek — to fundament adopcji.
Fine-tuning zamiast RAGFine-tuning zamraża wiedzę i jest drogi. RAG aktualizuje się przez wgranie nowego dokumentu. Dla 95% przypadków RAG > fine-tuning.
Multimodalność na siłęVision do tekstowych PDF-ów to marnotrawstwo (drogo, wolno, gorzej niż parser tekstu). Vision tylko do prawdziwie wizualnych inputów.
Brak ewaluacji na realnych pytaniach"Wygląda dobrze" to nie metryka. Bez 20–50 pytań ocenianych przez ekspertów nie wiesz, czy RAG działa.
Pakowanie 500 stron do context window"Lost in the middle" — modele gubią informacje ze środka długich kontekstów. RAG z 5 dobrymi fragmentami bije 500 stron prosto w prompcie.

Prompty gotowe do użycia

Brief do własnego RAG

Kiedy: Zaczynasz projekt RAG i chcesz uniknąć typowych pułapek architektonicznych.

Działasz jako senior AI engineer projektujący system RAG. Mój kontekst:

- Korpus: [liczba dokumentów + typy + język + źródła]
- Tempo aktualizacji: [ile nowych / mies., ile zmienianych]
- Użytkownicy: [kto, ilu, jaki poziom techniczny]
- Pytania: [3 typowe pytania, które będą zadawać]
- Wymagania prywatności: [chmura OK / chmura enterprise z DPA / tylko lokalnie]
- Budżet: [rząd wielkości]

Zaprojektuj architekturę warstwa po warstwie z konkretnymi rekomendacjami (z 1 alternatywą):
1) Pre-processing (parser, OCR, ekstrakcja tabel).
2) Chunking (strategia + rozmiar + overlap + uzasadnienie).
3) Embeddingi (model + uzasadnienie kosztowe).
4) Vector DB (z uzasadnieniem dla mojej skali).
5) Retrieval (top K, reranker tak/nie + który).
6) LLM orchestrator (prompt szkielet + jakie cytowania).
7) UI (minimum, by ludzie zaufali).
8) Ewaluacja (3 metryki + jak je mierzyć w produkcji).
9) 5 największych pułapek dla mojego use case.
10) Plan na 4 tygodnie (co tydzień, mierzalne kamienie).

Matryca doboru modelu dla portfela use case'ów

Kiedy: Masz 5–15 zastosowań AI w firmie i chcesz przestać używać GPT-4 do wszystkiego.

Dla mojego portfela use case'ów AI dobierz optymalny model per case. Use case'y:

[lista, dla każdego: opis 1 zdanie + tygodniowy wolumen + krytyczność jakości 1–5 + wrażliwość danych 1–3]

Zwróć tabelę: use case | rekomendowany model | alternatywa | uzasadnienie (1 zdanie) | szacowany miesięczny koszt.

Następnie odpowiedz:
1) Gdzie obecnie używam za mocnego (drogiego) modelu i mogę zejść?
2) Gdzie używam za słabego i tracę jakość?
3) Gdzie warto rozważyć model lokalny zamiast chmury?
4) Jeden konkretny szybki win do wdrożenia w tym tygodniu.

Audyt jakości RAG (5 pytań kontrolnych)

Kiedy: RAG działa od kilku tygodni, użytkownicy narzekają, nie wiesz gdzie jest problem.

Działasz jako audytor systemów RAG. Zadaj mi po kolei 5 pytań diagnostycznych, po każdym czekaj na moją odpowiedź zanim przejdziesz dalej. Po wszystkich pytaniach:

1) Wskaż 3 najprawdopodobniejsze źródła problemu (w kolejności prawdopodobieństwa).
2) Dla każdego źródła: jak to zweryfikować w 30 minut.
3) Dla każdego źródła: jak naprawić (konkretna zmiana w stack-u).
4) Czego NIE robić (typowy błędny ruch w tej sytuacji).
5) Jak ustawić alarm, by ten problem nie wrócił niezauważony.

Analiza obrazu / screenshota — szablon

Kiedy: Wrzucasz zdjęcie / screenshot do GPT-4o / Claude / Gemini i chcesz strukturyzowanego outputu, nie ogólnego opisu.

Patrzysz na [typ obrazu — np. screenshot dashboardu / faktura / zdjęcie produktu].

Twoje zadanie: [konkret — np. wyciągnij dane do JSON, zidentyfikuj błąd UX, opisz produkt do karty sklepowej].

Zwróć WYŁĄCZNIE w formacie:
[dokładna struktura — JSON / tabela / lista pól]

Zasady:
- Jeśli czegoś nie widzisz wyraźnie — zaznacz "nieczytelne" zamiast zgadywać.
- Nie opisuj obrazu narracyjnie — tylko struktura.
- Jeśli obraz nie pasuje do oczekiwanego typu — napisz "nieprawidłowy input: [czego brakuje]".

Częsty błąd: Pominięcie zasady "zaznacz nieczytelne" — vision modele lubią zgadywać i wymyślać dane z rozmytych fragmentów.

Transkrypcja + analiza nagrania

Kiedy: Masz nagranie (rozmowa, wywiad, spotkanie) i chcesz strukturyzowanej syntezy, nie surowej transkrypcji.

Mam transkrypcję [rodzaj nagrania, długość, uczestnicy]. Zadanie:

1) Streszczenie w 5 punktach (każdy max 1 zdanie).
2) Decyzje (kto, co, do kiedy).
3) Action items per osoba.
4) Otwarte pytania / ryzyka.
5) 3 cytaty kluczowe (z timestampem jeśli dostępny) — najmocniejsze wypowiedzi.
6) Sentiment per uczestnik (1 zdanie).

Zasady:
- Cytuj dokładnie, nie parafrazuj w sekcji 5.
- Jeśli czegoś nie ma w transkrypcji — napisz "brak w materiale", nie zgaduj.
- Maksymalnie 1 strona A4.

TRANSKRYPCJA:
[wklej]

LAB — ćwiczenie

LAB · 18 min · zaawansowany

Dla 8 zadań biznesowych dopasuj najlepsze narzędzie z listy: NotebookLM, Custom GPT z knowledge, własny RAG (n8n/LangChain/Vertex), czysty czat, Vision (GPT-4o/Gemini), Whisper + LLM, Generator obrazów, Fine-tuning. Wpisz wybór i krótkie uzasadnienie.

1Onboarding nowego pracownika: 200 stron procedur HR + regulamin pracy. Zespół 50 osób.
Pomyśl: kto to obsługuje, jak często aktualizujemy, jaki próg wejścia.
2Klasyfikacja 5000 ticketów supportu dziennie na 12 kategorii. Powtarzalne, masowe, wąskie.
Wolumen + powtarzalność + wąskie zadanie = jaki kierunek?
3Strateg w agencji potrzebuje syntezy z 2000 raportów badawczych z ostatnich 8 lat. Wymaga cytatów.
4Księgowa dostaje 80 faktur dziennie jako zdjęcia/skany. Trzeba wyciągnąć pozycje, kwoty, NIP do JSON.
5Dyrektor sprzedaży chce z 8 nagrań rozmów z klientami wyciągnąć obiekcje i action items.
6Agencja kreatywna chce 12 wariantów wizualnych dla nowej kampanii — moodboard.
7Założyciel startupu chce raz w tygodniu zapytać AI "co się zmieniło na rynku w mojej niszy" — bez budowania bazy.
8Kancelaria chce, by asystent zawsze pisał pisma w specyficznym stylu, na bazie 2000 dobrych pism z archiwum, z aktualizacją co miesiąc.

Pytania kontrolne

Szybka ściąga

→Hierarchia: NotebookLM → Custom GPT z knowledge → własny RAG → fine-tuning (rzadko).
→RAG jakość = 80% chunking + retrieval, 20% LLM. Najpierw napraw retrieval.
→Reranker często podnosi jakość bardziej niż wymiana LLM.
→Cytaty w odpowiedzi RAG = warunek konieczny adopcji.
→Vision do prawdziwie wizualnego inputu (skany, screenshoty, zdjęcia). Nie do tekstowych PDF.
→Audio: Whisper do transkrypcji, LLM do analizy. Rozdziel etapy.
→Generowanie obrazów: Midjourney (estetyka), Imagen (realizm), Flux (open-weight, kontrola).
→Macierz "use case → model" zamiast "GPT-4 do wszystkiego".
→Większy context window ≠ koniec RAG. "Lost in the middle" jest realne.
→Fine-tuning = ostateczność. Najpierw RAG + dobre prompty + few-shot.
→Ewaluacja na 20–50 realnych pytaniach z udziałem ekspertów. "Wygląda OK" to nie metryka.

Powiązane moduły

NotebookLM Deep Research Modele lokalne

Skończyłeś moduł? Oznacz go i ruszaj dalej.

Executive summary

Czym to jest

Kluczowe pojęcia

Pryncypia

Przykłady zastosowań

Zespół insight w agencji buduje RAG na 2000 raportach badawczych

Najczęstsze błędy — checklista

Prompty gotowe do użycia

LAB — ćwiczenie

Pytania kontrolne

1Kiedy NotebookLM wystarczy, a kiedy potrzebujesz własnego RAG?

2Dlaczego reranker często daje większy skok jakości niż wymiana LLM?

3Kiedy multimodalność jest przereklamowana?

4Dlaczego "wrzucam wszystko do context window 1M tokenów" nie zastępuje RAG?

5Kiedy fine-tuning jest sensowny?

Powiązane moduły