Multimodalność, RAG i dobór modeli
Tekst, obraz, audio, wideo + grounding na własnej bazie.
Executive summary
- Multimodalność = jeden model przyjmuje i/lub generuje różne typy danych: tekst, obraz, audio, wideo. To nie magia — to praktyczne 5–10 nowych workflow.
- RAG (Retrieval-Augmented Generation) = "model + biblioteka, do której sięga". Standard wszędzie tam, gdzie odpowiedzi muszą bazować na twoich, prywatnych, aktualnych dokumentach.
- Hierarchia groundingu: NotebookLM (gotowe, 0 kodu) → Custom GPT z knowledge → własny RAG (n8n / LangChain / Vertex AI Search) → fine-tuning (rzadko sensowny dla 99% firm).
- Dobór modelu to NIE "który najlepszy" — to matryca: szybkość × koszt × jakość × context window × multimodalność, ważona twoim use case.
- Pułapka: większość zadań biznesowych to nadal tekst. Vision świetny do OCR i screenshotów, słaby do skomplikowanych diagramów technicznych. Wideo — głównie marketing, rzadko produkcja.
Czym to jest
Multimodalność oznacza, że model nie ogranicza się do tekstu — może "widzieć" obrazy (vision), "słyszeć" audio (Whisper, Gemini), generować obrazy (DALL·E, Imagen, Flux), mówić (TTS), a nawet pracować z wideo (Gemini, Veo). RAG to z kolei wzorzec architektoniczny, w którym do prompta dokładasz fragmenty twoich dokumentów wyszukane wcześniej w bazie wektorowej. Razem dają coś, czego sam czat nie daje: model uziemiony w twoich danych, rozumiejący różne formaty, dobrany do zadania. Dobór modelu to trzeci filar — bez świadomego wyboru używasz GPT-4 do wszystkiego, marnujesz pieniądze i czas. Trzy filary razem (modalność, grounding, dobór) odróżniają zaawansowanego użytkownika od początkującego.
Kluczowe pojęcia
Pryncypia
- 01Zacznij od najprostszego groundingu: NotebookLM. Dopiero gdy nie wystarczy — Custom GPT. Dopiero gdy nie wystarczy — własny RAG.
- 02Dobry RAG to 80% jakość chunkingu i retrievalu, 20% jakość LLM. Wymiana modelu nie naprawia zepsutego retrievalu.
- 03Mierz RAG na 20–50 realnych pytaniach z udziałem ekspertów. "Wygląda OK" to nie metryka.
- 04Multimodalność używaj tam, gdzie tekst by tego nie ogarnął: faktura jako zdjęcie, transkrypcja rozmowy, screenshot błędu. Nie na siłę.
- 05Jeden model do wszystkiego = drogo i wolno. Macierz "use case → model" to standard zaawansowanego wdrożenia.
- 06Większy context window ≠ koniec RAG. Wrzucenie 500 stron do prompta jest drogie, wolne i model gubi się w środku ("lost in the middle").
- 07Fine-tuning rozważaj dopiero, gdy: (a) masz 1000+ par treningowych, (b) RAG dał maks z siebie, (c) zadanie jest stabilne na lata.
Przykłady zastosowań
OCR + ekstrakcja z faktur
GPT-4o vision czyta zdjęcie faktury → JSON z pozycjami, kwotami, NIP. Trafność 95%+ na typowych formatach. Vision wygrywa z tradycyjnym OCR + regex.
Transkrypcja + analiza spotkania
Whisper transkrybuje 60-min spotkanie → GPT-4 wyciąga decyzje, action items, ryzyka. Czas: 5 min zamiast godziny notowania.
RAG na 2000 raportach badawczych (agencja insight)
Embeddingi w Qdrant + reranker + Claude 3.5. Pytanie "co wiemy o pokoleniu Z w kategorii bankowości" zwraca syntezę z 8 raportów + cytatami. Z 2 dni pracy do 30 sekund.
Vision do screenshotów błędów (support)
Klient wkleja screenshot błędu → asystent rozpoznaje produkt, wersję, typ błędu, sugeruje fix z bazy wiedzy. Skraca pierwszy kontakt z 10 min do 2 min.
Generowanie wariantów wizualnych (e-commerce)
Imagen / Midjourney generuje 12 wariantów lifestyle dla zdjęcia produktowego. A/B test wybiera najlepsze. Koszt sesji fotograficznej spada o 70%.
Zespół insight w agencji buduje RAG na 2000 raportach badawczych
Dział strategii w dużej agencji reklamowej. 2000+ raportów badawczych z ostatnich 8 lat (PDF, PPTX, PDF skanowane), rozproszonych w Drive z chaotyczną strukturą folderów. Strateg na briefie spędza średnio 1–2 dni szukając, co już badano w danej kategorii. Junior boi się przyznać, że nie wie, gdzie szukać.
Podejście
- 1.Audyt korpusu: ile dokumentów, jakie formaty, ile skanowanych (potrzebują OCR), kto jest właścicielem treści, co jest aktualne, co przeterminowane.
- 2.Pre-processing: skany przez Gemini 2.5 vision (lepsze niż klasyczny OCR dla raportów z wykresami), PDF/PPTX przez unstructured.io, każdy dokument dostaje metadane (kategoria, marka, rok, autor, status).
- 3.Chunking semantic, ~600 tokenów + 100 overlap, podział po nagłówkach sekcji (nie po stałej długości — raport ma logiczne bloki).
- 4.Embeddingi: text-embedding-3-large (OpenAI). Vector DB: Qdrant na firmowym serwerze. Reranker: Cohere Rerank 3.
- 5.LLM: Claude 3.5 Sonnet (lepszy w syntezie i cytowaniach niż GPT-4o w testach na 30 pytaniach kontrolnych).
- 6.Interfejs: prosty czat w intranecie + ZAWSZE cytaty (nazwa raportu, strona, fragment). Bez cytatów strateg nie zaufa.
- 7.Ewaluacja: 50 realnych pytań od strategów + ocena ekspertów (trafność, kompletność, halucynacje). Iteracja chunkingu i prompta orchestratora przez 3 tygodnie.
- 8.Onboarding: 1h warsztat dla zespołu, 5 przykładów dobrych i złych pytań, kanał Slack do zgłaszania problemów.
Najczęstsze błędy — checklista
0/8 oznaczonePrompty gotowe do użycia
Kiedy: Zaczynasz projekt RAG i chcesz uniknąć typowych pułapek architektonicznych.
Działasz jako senior AI engineer projektujący system RAG. Mój kontekst: - Korpus: [liczba dokumentów + typy + język + źródła] - Tempo aktualizacji: [ile nowych / mies., ile zmienianych] - Użytkownicy: [kto, ilu, jaki poziom techniczny] - Pytania: [3 typowe pytania, które będą zadawać] - Wymagania prywatności: [chmura OK / chmura enterprise z DPA / tylko lokalnie] - Budżet: [rząd wielkości] Zaprojektuj architekturę warstwa po warstwie z konkretnymi rekomendacjami (z 1 alternatywą): 1) Pre-processing (parser, OCR, ekstrakcja tabel). 2) Chunking (strategia + rozmiar + overlap + uzasadnienie). 3) Embeddingi (model + uzasadnienie kosztowe). 4) Vector DB (z uzasadnieniem dla mojej skali). 5) Retrieval (top K, reranker tak/nie + który). 6) LLM orchestrator (prompt szkielet + jakie cytowania). 7) UI (minimum, by ludzie zaufali). 8) Ewaluacja (3 metryki + jak je mierzyć w produkcji). 9) 5 największych pułapek dla mojego use case. 10) Plan na 4 tygodnie (co tydzień, mierzalne kamienie).
Kiedy: Masz 5–15 zastosowań AI w firmie i chcesz przestać używać GPT-4 do wszystkiego.
Dla mojego portfela use case'ów AI dobierz optymalny model per case. Use case'y: [lista, dla każdego: opis 1 zdanie + tygodniowy wolumen + krytyczność jakości 1–5 + wrażliwość danych 1–3] Zwróć tabelę: use case | rekomendowany model | alternatywa | uzasadnienie (1 zdanie) | szacowany miesięczny koszt. Następnie odpowiedz: 1) Gdzie obecnie używam za mocnego (drogiego) modelu i mogę zejść? 2) Gdzie używam za słabego i tracę jakość? 3) Gdzie warto rozważyć model lokalny zamiast chmury? 4) Jeden konkretny szybki win do wdrożenia w tym tygodniu.
Kiedy: RAG działa od kilku tygodni, użytkownicy narzekają, nie wiesz gdzie jest problem.
Działasz jako audytor systemów RAG. Zadaj mi po kolei 5 pytań diagnostycznych, po każdym czekaj na moją odpowiedź zanim przejdziesz dalej. Po wszystkich pytaniach: 1) Wskaż 3 najprawdopodobniejsze źródła problemu (w kolejności prawdopodobieństwa). 2) Dla każdego źródła: jak to zweryfikować w 30 minut. 3) Dla każdego źródła: jak naprawić (konkretna zmiana w stack-u). 4) Czego NIE robić (typowy błędny ruch w tej sytuacji). 5) Jak ustawić alarm, by ten problem nie wrócił niezauważony.
Kiedy: Wrzucasz zdjęcie / screenshot do GPT-4o / Claude / Gemini i chcesz strukturyzowanego outputu, nie ogólnego opisu.
Patrzysz na [typ obrazu — np. screenshot dashboardu / faktura / zdjęcie produktu]. Twoje zadanie: [konkret — np. wyciągnij dane do JSON, zidentyfikuj błąd UX, opisz produkt do karty sklepowej]. Zwróć WYŁĄCZNIE w formacie: [dokładna struktura — JSON / tabela / lista pól] Zasady: - Jeśli czegoś nie widzisz wyraźnie — zaznacz "nieczytelne" zamiast zgadywać. - Nie opisuj obrazu narracyjnie — tylko struktura. - Jeśli obraz nie pasuje do oczekiwanego typu — napisz "nieprawidłowy input: [czego brakuje]".
Częsty błąd: Pominięcie zasady "zaznacz nieczytelne" — vision modele lubią zgadywać i wymyślać dane z rozmytych fragmentów.
Kiedy: Masz nagranie (rozmowa, wywiad, spotkanie) i chcesz strukturyzowanej syntezy, nie surowej transkrypcji.
Mam transkrypcję [rodzaj nagrania, długość, uczestnicy]. Zadanie: 1) Streszczenie w 5 punktach (każdy max 1 zdanie). 2) Decyzje (kto, co, do kiedy). 3) Action items per osoba. 4) Otwarte pytania / ryzyka. 5) 3 cytaty kluczowe (z timestampem jeśli dostępny) — najmocniejsze wypowiedzi. 6) Sentiment per uczestnik (1 zdanie). Zasady: - Cytuj dokładnie, nie parafrazuj w sekcji 5. - Jeśli czegoś nie ma w transkrypcji — napisz "brak w materiale", nie zgaduj. - Maksymalnie 1 strona A4. TRANSKRYPCJA: [wklej]
LAB — ćwiczenie
Dla 8 zadań biznesowych dopasuj najlepsze narzędzie z listy: NotebookLM, Custom GPT z knowledge, własny RAG (n8n/LangChain/Vertex), czysty czat, Vision (GPT-4o/Gemini), Whisper + LLM, Generator obrazów, Fine-tuning. Wpisz wybór i krótkie uzasadnienie.
1Onboarding nowego pracownika: 200 stron procedur HR + regulamin pracy. Zespół 50 osób.
Pomyśl: kto to obsługuje, jak często aktualizujemy, jaki próg wejścia.
2Klasyfikacja 5000 ticketów supportu dziennie na 12 kategorii. Powtarzalne, masowe, wąskie.
Wolumen + powtarzalność + wąskie zadanie = jaki kierunek?
3Strateg w agencji potrzebuje syntezy z 2000 raportów badawczych z ostatnich 8 lat. Wymaga cytatów.
4Księgowa dostaje 80 faktur dziennie jako zdjęcia/skany. Trzeba wyciągnąć pozycje, kwoty, NIP do JSON.
5Dyrektor sprzedaży chce z 8 nagrań rozmów z klientami wyciągnąć obiekcje i action items.
6Agencja kreatywna chce 12 wariantów wizualnych dla nowej kampanii — moodboard.
7Założyciel startupu chce raz w tygodniu zapytać AI "co się zmieniło na rynku w mojej niszy" — bez budowania bazy.
8Kancelaria chce, by asystent zawsze pisał pisma w specyficznym stylu, na bazie 2000 dobrych pism z archiwum, z aktualizacją co miesiąc.
Pytania kontrolne
Powiązane moduły
Skończyłeś moduł? Oznacz go i ruszaj dalej.