Sprawdź najbliższe Patoszkolenie👇
💣💣💣 [15.10.2024] Modelowanie Danych 💣💣💣
Patoarchitekci short po raz kolejny zadziwiają swoim znaleziskiem! Czy komputery naprawdę zaczęły czytać ludziom w myślach?
Ciekawe linki i inne znaleziska z tego odcinka:
Szymon Warda [SW]: Cześć! Słuchacie Patoarchitektów short. Prowadzą Szymon Warda
Łukasz Kałużny [ŁK]: i Łukasz Kałużny. Linki do tego odcinka znajdziecie na: patoarchitekci.io/42. Przypominając – short to eksperymentalny dla nas format, aby pojawiać się u Was regularniej i dzielić się komentarzami, linkami i rzeczami, które widzimy na bieżąco, a nie wystarczą nam na dłuższą formę (która i tak się będzie co jakiś czas pojawiać). Dobra, Szymon, co u Ciebie w wykopaliskach?
SW: Zbierając feedback po tym jak „powstaliśmy z grobu”, dowiedzieliśmy się, że czasami rzucamy górnolotne pojęcia i do końca nie wyjaśniamy, o co chodzi. Point taken – faktycznie tak czasami się dzieje. Adresując ten problem, znalazłem bardzo fajny artykuł, nie taki długi, naprawdę dobrze napisany od Netflixa. O czym? Właśnie o data mesh’u. Artykuł jest o dwóch rzeczach. Jedna to jest to, że Netflix opisuje, w jaki sposób wykorzystuje data mesh’e, żeby zrobić ze swojego systemu wiele źródeł i zrobić data streaming. Z drugiej strony, jest to też artykuł, który bardzo fajnie (i to jest główny powód, dla którego go polecam) opisuje, czym jest data mesh, jakie są jego składowe, jak wygląda jego architektura, jakie są przypadki użycia itd. Takie bardzo konkretne wprowadzenie. Mieliśmy rozmowę trochę wcześniej – to nie jest ogólne wprowadzenie do data meshy, ale do data meshy w kontekście event streamingu. Teraz tak krótko –doskonale wiemy, że pierwsze co robicie, jak słyszycie nasz podcast, to oczywiście czytacie te wszystkie artykuły, to takie może krótkie wprowadzenie. Z czego się składa data mesh, czyli to, jak one są procesowane. Od tego, że pojawiło się zdarzenie, zdarzenia procesujemy i coś z nich wykombinujemy. Mamy konektory czyli to, w jaki sposób podłączamy różne źródła. W kontekście Netflixa konektory to jest coś, co potrafi naprodukować zdarzenia CDC, czyli change data capture – zdarzenia o zmianie danych w konkretnej bazie. Idąc dalej, mamy source’y, czyli konkretne bazy danych/źródła danych. Procesory, czyli coś, co chodzi na tych strumieniach, procesuje dane i wypluwa jakieś raporty, wyniki, eventy, cokolwiek, co…
ŁK: Czyli można to tak, jak w ETL-u – literka T od transport. Procesor jest… przepraszam: nie transport tylko transform.
SW: Tak, dokładnie. Już chciałem mówić. Dalej potem, co mówimy? Potem mamy właśnie transporty. Czyli… za pomocą czego informujemy, że coś się wydarzyło. I tu oczywiście wchodzimy w Kafkę. I na koniec mamy schematy, na podstawie założeń, że te wszystkie eventy, z tych wielu źródeł. Dlatego mamy tyle obudówek, mamy te wszystkie konektory, żeby ta schema była taka sama. Żebyśmy patrząc na eventy w samym meshu, nie interesowali się, skąd one się w ogóle wzięły. Czyli unifikujemy dane na poziomie całej firmy. I tyle, tak naprawdę.
ŁK: Tak. Ciekawostka jest taka, że wszystko jest asynchroniczne. I nawet klasyczne źródła są traktowane jako eventy.
SW: Tak. Naprawdę jakby ktoś chciał wejść głębiej, to nawet są ładne rysunki. Dobry artykuł na wejście w data meshe, żeby mieć jakieś 5 minut i mieć pojęcie, co się dzieje.
ŁK: Raczej tak: zobaczyć sobie tą ich strukturę i jak to wygląda w Netflixie, bo z tym co jest przyjęte, kiedyś była przez Fowlera, taki początek, to troszeczkę skręca sobie w warstwę łączenia, a nie tylko… Jest nacisk, że to jest warstwa integracyjna i transportowa, obróbkowa. A względem tych zwykłych, data meshe w Fowlera wchodzą jeszcze w data lake, latehousy i parę innych takich elementów i robią z tego taką krowę, tylko łaty są dość nieregularne.
SW: Zgadza się. Ale mają faktyczny przypadek użycia i to mi się właśnie podoba – że opisują jakie systemy połączyli. Opisują różne systemy: od MySQL-i przez Cockroacha, przez naprawdę sporo… I to ma taki… Ma sens po prostu.
ŁK: Tak. Warto popatrzeć nawet na Pipelines . Dobrze pokazuje, że to nie jest świat synchroniczny.
SW: Nie, absolutnie. Przy takiej ilości danych to było… Nie, to nie miałoby sensu. Dobrze, Łukaszu, to co u Ciebie?
ŁK: Taka ciekawostka, być może już trafiliście w ostatnim czasie na efekty sztuki AI i generowanych tego rzeczy. Chciałbym zwrócić uwagę na pojęcie prompt engineeringu. O co chodzi? Założenie prompt engineeringu nie jest nową rzeczą, jest starą. Dając sugestie modemowi możemy generować następne jego efekty. Z czym to się wiąże? Open AI wypuścił betę swojego nowego modelu DALL-E, czy jak to nazwać…
SW: Poprawnie.
ŁK: …które pozwala na wygenerowanie obrazów z opisów tekstowych. Czyli cała moc tekstowa, która była za GPT3 (ich modelem do obróbki tekstu), została teraz przekierowana, żeby maszyna spróbowała zrozumieć i wygenerowała na podstawie opisu jakąś grafikę, rysunek, cokolwiek. Dlaczego jest to ciekawe? Po pierwsze, z takiej perspektywy czysto technicznej, generowanie jakichś prototypów designów i innych rzeczy może się okazać, że będzie teraz wsadem swojego pomysłu, idei. Ten prompt engineering w bardzo ciekawym kierunku pójdzie jako wykorzystanie AI-a gdzieś… Albo lepiej to nazwać: ML-a w kierunkach biznesowych i twórczych, marketingowych mocno.
SW: Łukasz, masz bardzo górnolotne idee. Obecnie DALL-E stało się generatorem do memów (śmiech), inspiracją do… Jakby ktoś chciał zobaczyć, w jaki to kierunku poszło, to polecam najnowszy odcinek John Oliver „Last Week Tonight”. Powstała cała seria o tym, jak wychodzi za mąż za kapustę.
ŁK: (śmiech) Tak. (śmiech) To na pewno. (śmiech)
SW: Z dużą ilością obrazków.
ŁK: Tak. Ktoś ze znajomych podrzucał pomysł, że chciałby wygenerować, żeby połączyć właśnie ten model razem z odczytywaniem (przez text to speech) książki dla dzieci. Żeby generować np. w locie, zrobić apkę, która generuje w locie książeczkę dla dzieci, za każdym razem inną.
SW: To jest dobre. Ja to już wykorzystywałem, żeby właśnie bawić się z bomblami.
ŁK: Tak. Więc właśnie: do zabaw jest coś takiego jak Midjourney. Chyba taki najczęściej… Większość takich górnolotnych, artystycznych pochodzi za pomocą tego frontendu Midjourney wygenerowane. Jeżeli ktoś chce za darmo, jest taki model. Bo oczywiście jak wychodzi duży, to jest też budowany jakiś mały open sourcowy, więc jest mini, który jest darmowy i można go odpalić w przeglądarce czy ściągnąć. I mimo że to górnolotne, to w takim prototypie np. ktoś z marketingu wpisuje jak ma mniej więcej wyglądać wizja grafiki czegoś, generuje podgląd i podrzuca grafikowi. Czyli mogą się skończyć tak naprawdę sytuacje, że się zastanawiamy, co ktoś miał na myśli opisując grafikę. I może być pierwszy raz, kiedy faktycznie komputer się domyśli, co użytkownik miał na myśli.
SW: Znaczy… To na bank idzie w tym kierunku. Pamiętajmy, że to jest dopiero początek. Na razie te obrazki (które generuje DALL-E) są często rysunkowe. To nie jest jakość zdjęć. To jest bardziej komiksowy element – widać, że to nie jest prawdziwe. Ale różnica jakaś jest. I w jakim to kierunku idzie? Wydaje mi się, że będziemy mogli spokojnie generować zdjęcia…
ŁK: Ale tak. Te grafiki po Upscale’u robią wrażenie.
SW: Tak.
ŁK: To robi wrażenie.
SW: Możesz wpisać, że kot jedzący ser na jednorożcu na szczycie księżyca i on to wygeneruje. I to będzie działało, tak naprawdę.
ŁK: Mi się podobała wchodząc na klimaty bardziej Beksiński i tego typu, była cyperpunkowa i postapokaliptyczna Warszawa i nawet Pałac Kultury w tle potrafił umieścić. Wiec robi robotę i jest przerażający w niektórych momentach.
SW: Tak. Ta ilość wiedzy i to, że umie to wygenerować, to jest przerażające. Nawet najdziwniejsze elementy generuje całkiem nieźle. Bardzo dobra seria i faktycznie polecam do zabawy, zdecydowanie.
ŁK: Znaczy… Zobaczyć, bo jest to gdzieś tam… powiedzmy, że może się okazać, że dość często zaczniemy się w niektórych miejscach z takimi rzeczami i usługami integrować, szczególnie jeżeli ktoś robi w części biznesów internetowych i frontów.
SW: Tak, zdecydowanie. I jak ktoś nie wierzy, że coś takiego jest możliwe, to generowanie kodu jest zdecydowanie kolejnym krokiem i jest dość blisko. Dobrze.
ŁK: Trzeba będzie to wziąć na warsztat któregoś razu.
SW: Dobrze, Łukaszu, kończymy chyba.
ŁK: Kończymy.
SW: No to trzymajcie się. Na razie, hej!
ŁK: Na razie.