#191 Short #78: S3 Files, Trivy Pwnd, Codex Rescue, Uncensored Gemma, DHH o AI Coding

“Senior engineers benefit from AI a lot more than juniors.” DHH zmienił front o 180 stopni, a Szymon dopowiada: “juniorzy mają obecnie przerąbane. Nie chciałbym być w tych spodniach.” Ewolucja czy rewolucja, skoro twórca Shape Up mówi, że książka jest do przepisania? 🎯

AWS dorobił się S3 Files z interfejsem POSIX - brzmi imponująco, dopóki nie odkryjesz minutowego synca i konfliktów rozwiązywanych przez lost and found + CloudWatch. Łukasz: “To nie jest takie big thing jakby się o tym trochę pomyślało.” Anthropic ogłasza Claude Mythos do wykrywania podatności - model tak potężny, że nie stać ich na inferencing. Zbliżają się IPO i marketing leci pełną parą. ⚠️

Kącik supply chain security: Trivy zhackowane przez pull request target w GitHub Actions, złośliwy pakiet LiteLLM na PyPI instaluje się na klastrach Kubernetes i kradnie portfele krypto. A Ingress NGINX po archiwizacji łapie pierwszą podatność na 8,8 punkta. Mówiliśmy.

OpenAI wypuszcza plugin Codex Rescue dla Claude Code - bo nawet Opus potrzebuje ratunku. Gemma 4 od Google zaskakuje jakością lokalnie, a community publikuje jej wersję niecenzuralną z 3,2% refusal rate. Sprawdź, czy Twój supply chain to przeżyje.

Linki i ciekawe znaleziska

Transkrypcja

Szymon Warda: Senior engineers benefit from AI a lot more than juniors. Dla mnie osobiście to jest nawet bym powiedział bardziej, juniorzy mają obecnie przerąbane. Ci, którzy się uczą jak działać i co zrobić i jak wejść w środowisko, sorry, nie chciałbym być w tych spodniach, naprawdę.

Łukasz Kałużny: Naładowaliśmy tam tyle mocy obliczeniowej, że nie jesteśmy w stanie go udostępnić, bo inferencing by nam się nie spiął. Przez to, że padło coś takiego, to tam musiała nastąpić nie ewolucja, tam nastąpiła jakaś rewolucja, jeżeli on wyraził taką opinię na głos. I jestem niesamowicie zaskoczony jego jakością, o tak, w testach, które sobie porobiłem i względem tego co potrafi ten lokalny LLM. Cześć, słuchacie Patoarchitektów. Prowadzą Łukasz Kałużny…

Szymon Warda: I Szymon Warda. Linki do tego odcinka lewo, prawo, góra, dół, ogarniecie, Patoarchitekci.io, wierzymy w Was. Parafialki.

Łukasz Kałużny: A tam, skończmy z tytułem parafialki. Dzisiaj ten nie dla przedszkolaków, ale lecimy. Confa, 16 czerwca, mamy wszystkie sesje spisane i agendę. Oprócz Keynote’a wynalazłem parę rzeczy, których Szymon może nie pamiętać do Keynote’a w weekend, ale o tym potem.

Szymon Warda: Będą patorapy?

Łukasz Kałużny: Tego nie, to znasz, to znasz. Kto wie, ten wie, pochowajmy to, ja już to muszę skasować wreszcie.

Szymon Warda: Nie.

Łukasz Kałużny: Nie jest publiczne już. Dobra, idziemy tutaj, zostawmy te porażki. Dobra, u mnie wygrał temat: powtarzające się patologie, które nie umierają nigdy. Czyli takie podsumowanie, co tutaj oglądamy w patologicznym świecie IT. Ty Szymon, co będziesz miał?

Szymon Warda: Profile, czyli czwarty filar observability. Trochę takie wejście w to, co się właściwie zaczęło dziać w temacie observability, na kilku poziomach, w kontekście właśnie wydajności i w kontekście tego, co właśnie dzieje się wokoło OBI, czyli jak może jednak zrobić observability nie robiąc zmian w aplikacji. Ja jestem trochę tego przeciwnikiem. Pogadamy sobie, zobaczymy jaki jest ekosystem, co można zrobić. Zapraszam.

Łukasz Kałużny: Dobra, potem mamy Oskar Dudycz, którego często wspominamy, wpada z tematem: usuwalność ponad utrzymywalność. Nawet ta część Art of Destroying Software była ostatnio wspomniana w poprzednim odcinku. Potem mamy Mariusza Gila z Kiedyś vs dziś: jak zmieniło się moje podejście do projektowania systemów? Więc to też trochę takiej retrospekcji i nabierania doświadczenia przez Mariusza w różnych projektach, w których bierze udział, konsultuje albo jest na bieżąco. I ostatnia rzecz, to będzie Mariusz Dalewski. U nas, jak zresztą zauważyliście, wszystkie osoby tutaj występowały u nas jako goście. Mariusz przyjdzie do nas z sesją o tym, jak tworzą się i adaptują standardy z perspektywy infrastruktury. To też będzie ciekawe. Kubernetes, będzie jeden z przykładów, ale właśnie będzie pokazanie tego, jak to się, rzeczy, na które być może przeklinamy, ile problemów rozwiązały i jak zunifikowały nam wspólny język i podejście do pewnych rzeczy.

Szymon Warda: Dobrze, to co, jeszcze szkolenia? Zerknijcie co tam się dzieje. Dzieje się dużo. Zapraszamy. Dobra Łukaszu, co wygrzebałeś?

Łukasz Kałużny: Dobra, zostawmy AI-a na razie, potem poszydzimy sobie z tego. Kącik CVE też zaraz. Może tak, S3 Filesy. AWS dorobił się, wintegrował się nakładki. Właśnie i to jest problem jak to nazwać. Jest cały wpis na Things Distributed o tym, co zostało stworzone, jak to wygląda, od Wernera, jak był budowany feature. O co chodzi? S3 dostaje interface plikowy zgodny z POSIX-em.

Szymon Warda: To jest ważne, zgodny z POSIX-em. To jest imponujące.

Łukasz Kałużny: Dobra i tak, wiesz co i mam z tym problem. Bo teraz o co chodzi? Jak zobaczymy, on mocno ewoluuje z Object Store’a na to, co było już w Azure też tak naprawdę, bo to w Azure też pewne rzeczy istniały w bardzo podobny sposób, bo mamy te S3 Tables, S3 Vectory, teraz S3 Files. I problem jaki z tym mam, można to nazwać storage gatewayem albo FUSE-m, czyli User File Systemem po stronie tej usługi. I tam jest taka rzecz, którą trzeba zobaczyć, bo dostęp do tego i synchronizacja odbywa się w modelu stage and commit, czyli że zmiany kumulują się i co minutę są commitowane do S3. I to jest taka rzecz Szymon, rozumiesz już czemu trochę szydzę w tym miejscu, że z jednej strony to jest file system zgodny z POSIX-em, konflikty, pliki versus obiekty będą robione jako lost and found + CloudWatch, żeby można było założyć alert.

Szymon Warda: Pytanie bardzo proste, one się kumulują gdzie? Po stronie klienta czy po stronie serwera?

Łukasz Kałużny: Po stronie serwera. Więc to jest…

Szymon Warda: Ok, to już lepiej.

Łukasz Kałużny: Dlatego powiedziałem, że to jest taki storage gateway. Dlatego powiedziałem o tym świadomie, że to jest storage gateway Szymon, czyli FUSE zaimplementowany serverside na S3. I rozumiesz mój problem, dlaczego tak krzywo na to patrzę, że to nie jest takie big thing jakby się o tym trochę pomyślało. Zobaczymy jak to będzie w działaniu. Zobaczymy jak będzie z cennikiem AWS-a, o tak, bo to zawsze będzie ciekawe w praktyce.

Szymon Warda: Mnie co innego tu interesuje, jak będzie z marketingiem i dokumentacją wokół tego? Czy to będzie reklamowane jako taki drop and replacement dla plików?

Łukasz Kałużny: Dla EFS-a, tak. Raczej widzę, nie, drop and replacement do współdzielonych storage’y pod lambdy, właśnie to co zastępuje NFS-a tam.

Szymon Warda: To słabo, bo to nie jest współdzielone, bo mamy minutowego synca i jak mamy współdzielone, to…

Łukasz Kałużny: Właśnie i jest pytanie, zobaczymy jak to jest, jaka będzie ten, właśnie tam jest trochę o ograniczeniach i innych takich rzeczach, więc ja jestem ciekaw co tak naprawdę w tym miejscu. Chociaż wiesz, oni trochę mówią, że to jest ML Training, build systemy, agenci kodujący. To nie jest właśnie taki drop and replacement moim zdaniem. I ciekawostka, którą zrobili, to lazy hydration dla metadanych. Czyli montujemy, widzimy metadane, jeżeli plik jest większy niż 128 kb, to tylko są metadane i przy próbie dotknięcia dopiero jest ściągany.

Szymon Warda: Ruch ciekawy, ja bym powiedział to tak. Dobra, to ja teraz lecę. Ja natomiast tym razem o więcej AI-a. Kilka rzeczy, takich trochę parafialek właśnie, co się wydarzyło? Co w sumie to przewidywaliśmy, że to się wydarzy. Claude Mythos, czyli cały model w kierunku pod wykrywanie podatności i exploit i tak dalej.

Łukasz Kałużny: Dobra, nie Szymon, ja to nazwę tak. Pozwólcie, pozwólcie, mamy nowy model, zrobiliśmy wielki projekt, nic nie opublikujemy.

Szymon Warda: Tak, w ogóle bez dwóch zdań. Ale poczekaj, na razie ogłoszenia czym się chwalą. Po pierwsze, Claude już sam z siebie Sonnet i Opus były dobre w wykrywaniu podatności, to widzieliśmy. Dobre były. To, czym się chwalą i to jest imponujące, jeżeli chodzi o liczby, bo faktycznie ukryli bardzo dużo i jest wydzielony dla 40 firm, dużych gigantów typu Microsoft i tak dalej. A tym czym się chwalą i jeżeli to się by zgadzało, to na wynik 63% na CyberGym benchmark i różnica to jest, że Opus 4.6 wyciągał 66%.

Łukasz Kałużny: Dobra, wiesz co, dobra.

Szymon Warda: Tam jest imponująca.

Łukasz Kałużny: Dobra Szymon, dla mnie jest następująca rzecz, zbliżają się dwa duże IPO w tym roku w postaci wejścia na giełdę w postaci OpenAI-a i Anthropica i dla mnie to jest bullshit. Jeżeli zrobiliśmy…

Szymon Warda: Nie, mój drogi, jeszcze SpaceX-a, bo tam jest Grok.

Łukasz Kałużny: Dobra, jeszcze, dobra, jeszcze SpaceX, Groka zostawmy bez komentarza. Do Uncensored przejdziemy, bo mam parę z tego takich elementów. Ale wracając Szymon, dla mnie to jest tylko, zabroniłeś mi przeklinać, wstawaj samuraju, zrobiłeś kupę przez sen, o tak. Jest taki mem, który wstawiłem pewnemu szamanowi w wersji niecenzurowanej na LinkedInie. Na Discordzie, a zaraz go wrzucę reszcie, żeby mogła się pocieszyć tym, oryginalną wersję tego mema, która była przez kogoś tam zrobiona. Ale inaczej, tam pojawiły się już, że osiągnęli AGI-a i inne rzeczy, czyli cały… Inaczej, to jest cały bullshit. Mamy tak świetny model, a ja Ci odpowiem, jakie mam twierdzenie. Mamy, naładowaliśmy tam tyle mocy obliczeniowej, że nie jesteśmy w stanie go udostępnić, bo inferencing by nam się nie spiął.

Szymon Warda: Ale oczywiście, że tak, tu w ogóle tego nie podważam, nie podważam tego, że tam się nie spina to.

Łukasz Kałużny: Szymon, teraz zamiast młotka przyjechaliśmy z tym, z dźwigarem do wbijania filarów pod mostem.

Szymon Warda: Ależ oczywiście, że tak. Dla mnie to jest ważne z innego powodu. To jest kolejny obszar, gdzie AI się sprawdzi bardzo dobrze.

Łukasz Kałużny: Tak, tak, tak.

Szymon Warda: To jest fajny ruch (…).

Łukasz Kałużny: Jest ciekawostka… Inaczej, wiesz, że znaleźli… Trochę mam problem, że to jest tylko obwieszczenie, zrobili nie wiadomo jaki research, nie możesz tego dotknąć, zweryfikować, zobaczyć.

Szymon Warda: Tak, w ogóle cała publikacja i tak dalej, to jest typowy marketing. No w ogóle nie podważajmy tego, to tak ogólnie jest.

Łukasz Kałużny: Wiesz.

Szymon Warda: Chodzi bardziej o koncentrację, gdzie kładą nacisk. Pierw kładą nacisk na migrację systemów, teraz na security. To są obszary, gdzie to się zepnie.

Łukasz Kałużny: Więc tak, jak jesteśmy przy Anthropicu, warto byłoby dorzucić, że ubili API, żeby nie dało się wykorzystać ClaudeBotów i innych tych gówien, które służą do niczego. To chyba inaczej nie można tego nazwać, tego projektu. Ale sprzedaż Maców Mini chyba już spadła.

Szymon Warda: A tam się nadawała bardzo ładnie. Dobrze, lećmy dalej. Co tam znalazłeś?

Łukasz Kałużny: Dobra, przejdźmy do kącika, bo Ty też masz z tej serii. Mamy pierwszą podatność po archiwizacji Ingress NGINX-a.

Szymon Warda: No dajesz.

Łukasz Kałużny: No słuchaj, tam wiesz, wchodząc, robiliśmy o tym odcinek, że w tym jest end of life i poleciała sobie podatność. Wiesz co, ja nawet nie wchodziłem, nie sprawdzałem co dokładnie w tym miejscu, ale rating podatności na wersję NGINX-a jest na średnie 8,8 punkta w ratingu w tym miejscu.

Szymon Warda: Dobra, to ja pociągnę temat.

Łukasz Kałużny: Właśnie, kącik podatności teraz, bo było parę wesołych.

Szymon Warda: Było grubo. Atak na Trivy. Czyli Trivy do skanowania obrazów. Co się stało? Okazało się, że…

Łukasz Kałużny: Sami to polecamy.

Szymon Warda: Tak, dokładnie. Przez, maksymalnie tam było 4, opublikowali 4 obrazy. Najdłuższy obraz podatny był widoczny 12 godzin. Wiemy co się wydarzyło i tak dalej. Fajny jest atak jaki został wykorzystany. To jest fajne, ponieważ repo Trivy miało pull request target włączony. Co to robiło? To robiło to, że jak robiłeś forka, klonowało i wykonywało tego forka w ramach secretu, w ramach tego oryginalnego repo i tak się dostali do, upraszczam, bardzo mocno upraszczam, dostali się i udało im się podmienić GitHub Action Commit i dzięki temu wykradli rzeczy. Tam jeszcze były problemy z rollowaniem i tak dalej. Ale co jest właśnie ważne, to jest ten pull request target, żeby na niego bardzo mocno uważać. No zadziało się można powiedzieć dość grubo. Drugi atak, który się pojawił, to jest na PyPI. Co tam się stało? Znowu 26 marca tego roku złośliwa wersja pakietu LightLLM została opublikowana. Zawierała skompresowany plik pth, który wykonuje się automatycznie przy każdym uruchomieniu Pythona w środowisku zainstalowanym LightLLM-em. Co to właściwie robi? Robi ciekawe rzeczy, bo to robi dość sporo. Po pierwsze, zbiera dane w pierwszej fazie, potem eskaluje swoje uprawnienia, bo głównie szukał rzeczy typu właśnie git configów, różnych konfiguracji do Kubernetesa, plików portfeli, historii share’u, kryptowalut i tak dalej. A potem wchodził sobie na klaster Kubernetesowy i podmieniał sobie obrazy i instalował się, żeby się jeszcze bardziej rozpowszechniać. Tak że grube podatności jak najbardziej do uważania. Tym bardziej, że tak w ogóle tam jeszcze się wydało, że PyPI miał dwie wersje, które były podatne. Że wpierw ogłosili, że kolejna wersja jest ok, a potem się okazało, że nie, kurczaki, jednak jeszcze jest podatna. Także obydwa ataki praktycznie supply chainowe. No dzieje się.

Łukasz Kałużny: Dobra, chodźmy teraz do kącika sfrustrowanych vibecoderów, bo jest na ten temat dużo. Ja, słuchaj, zacznę od pierdołki, którą w ogóle też używam w tym miejscu, jest ciekawym announcementem. OpenAI wydał plugin dla Claude. Code’a. Pamiętasz Szymon, że wspominałem, że wywołuje Codex’a z Claude’a, żeby zrobić krytyczne review. I słuchaj, zrobili oficjalny plugin do Claude Code’a, żeby wywoływać Codex’a i są dwa skille, które za tym idzie. Pierwszy, to jest review. Potem jest tam, jest jeszcze dispatch i inne takie rzeczy, ale drugi, który jest oprócz review, który jest świetny, rescue. Nazwali skilla rescue, Codex Rescue, Codex na ratunek. I mówię poważnie, tutaj nie ma żartu.

Szymon Warda: Dobra, okej. A co robi rescue?

Łukasz Kałużny: Rescue, złośliwie, żeby się skonsultować i pomóc naprawić problem, którego Opus nie potrafi.

Szymon Warda: Z mojego doświadczenia to raczej takich sytuacji będzie dość niewiele, bym powiedział.

Łukasz Kałużny: Czy wiesz co? Nie, ja go raczej biorę stąd, teraz się tylko z tego nabijam. Ale wykorzystuję to, słuchaj, żeby sprawdzić review. A drugi jest właśnie taki challenge review. I to są dwie rzeczy, do których, tak jak mówiłem już wcześniej, to wykorzystuję i ma to sens, żeby to zrobić. Ciekawą rzeczą, która się pojawiła, tego nie włączyłem, ale można też dorzucić sobie, słuchaj, ma wbudowane w ten plugin hooki i to jest akurat ciekawe. I hooki są, słuchajcie, w jednym celu, żeby na przykład przed commitem na chama wymusić zrobienia review.

Szymon Warda: Albo odpalenie tooli do linkowania i tego typu rzeczy.

Łukasz Kałużny: Nie, nie, to w tym wypadku, tak, tylko w tym wypadku, żebyś Codex’owe, on ma wbudowane w plugin, żeby od razu to dorzucić.

Szymon Warda: Dobra, to ja mam taki grubszy temat, wpis. Znowu kręcimy się wokół AI-a i Anhropica właściwie: Harness design for long-running apps - Anthropic Engineering. Wpis na ich blogu bardzo ciekawy, długi i konkretny, ale warty. Jaki jest problem? O tym mówiliśmy już wielokrotnie odnośnie modelu jak korzystać z agentów. To jest to, żeby projektować jak najdłuższe pętle, żeby on faktycznie tam mógł sobie działać długo i namiętnie i właściwie zostawiamy go, żeby to nie były krótkie rzeczy. Jaki jest problem ogólnie z tego typu rzeczami? To jest właśnie trochę co Ty ruszyłeś tak naprawdę. Jak mamy sobie jednego agenta, to powiedzenie mu: wpierw zrób, a potem weź zweryfikuj co zrobiłeś, to z reguły agent powie, że super robota, właściwie jest wszystko pięknie. To już jest lepiej w Opusie nowszym, jednak dalej nie jest to idealnie. I tam oni fajnie opisują taką architekturę trzech agentów, tak zwaną genową. Czyli mamy sobie jednego planera, mamy sobie generatora i mamy ewaluatora. Jeden planuje dokładnie co ma zrobić, potem generator generuje dokładnie i implementuje, a ewaluator na przykład chodzi po API, chodzi po UI i tam weryfikuje. Teraz co jest ciekawe, to teraz koszt jak to wyglądało. Mieli jakąś tam aplikację, stronę webową i tak dalej, dobra, solo Agent: 20 minut, 9 dolarów. Ok.

Łukasz Kałużny: Nie działa.

Szymon Warda: Nie działa, tak. Pełny harness, czyli jak to dokładnie ze sobą komunikuje się i tak dalej: 6 godzin, 200 dolarów. Uproszczony harness, czyli planer + ewaluator, nie, prawie 4 godziny i 125 dolarów.

Łukasz Kałużny: Czy, kurde, dobra.

Szymon Warda: Grubo.

Łukasz Kałużny: Ja wiem, że tak, tylko wiesz co Szymon, dobra, ja też, wiesz, robiłem pewien eksperyment dla klienta, wiesz o którym mówię. Zresztą ostatni duży, gdzie poszedłem w opcję, intuicyjnie poszedłem właśnie w tą opcję, zrobienie planu, jednopromptowo trochę planu, wrzucenie dużej ilości ciepłych słów po przeczytaniu planu i po dwóch iteracjach na planie, wysłanie tego do zrobienia. Godzinę się pokręciło i wypluło mi coś, co można uznać, że ma dobry kierunek rozwoju, o tak, dobry…

Szymon Warda: To jest coś, co mówimy wielokrotnie właśnie, żeby tak to realizować. I właśnie ten ewaluator to jest dobra sprawa.

Łukasz Kałużny: Tylko że jest jedna rzecz, wiesz co, ja tutaj wejdę z taką, sobie z tweetem dla mnie istotnej osoby, twórcy tutaj Redisa: for latest Redis large feature I’m developing I’m using coding agents, but it required reviewing each line of code and making many changes, but still, huge speedup. I to jest chyba najistotniejszy z tego element, bo te datasety treningowe, wiesz o tym, że będziemy o tym zawsze marudzić, że garbage in, garbage out i garbage out’ów znowu trafią do datasetów treningowych i będzie coraz gorzej, więc trzeba się przyzwyczaić. Ale w tym momencie będzie rodzajem speedupu, o tak i z tym trzeba się pogodzić, o tak.

Szymon Warda: Bez dwóch zdań. Mi bardziej chodzi o to, że też będziemy o tym mówili w kolejnym linku, że zrobienie dobrej pętli, to robi robotę. To jest taka opcja, że dajemy agentów i oni działają. W ogóle artykuł jako taki fajny, naprawdę, naprawdę długi, ale warty według mnie poczytania.

Łukasz Kałużny: Dobrze, dawaj konkurencję Lexa, jeżeli chodzi o niesłuchalność teraz.

Szymon Warda: Dobrze, jest jeden pan, którego kiedyś dużo więcej polecaliśmy. Teraz niestety jest, stety niestety właściwie, nie…

Łukasz Kałużny: Odleciał.

Szymon Warda: Sorry, nie możemy go słuchać. Ja jestem, ja tam, powiedzmy sobie, wymiękam. Czyli Practical Engineer ma fajne wpisy, często są wartościowe, jeden jednak jego podcast jest niesłuchalny z jakiegoś powodu, nie jestem w stanie przebrnąć. Ale miał dość ciekawy wpis, właśnie podsumowanie swojego odcinka z DHH-em. To jest o tyle ciekawe, że on wcześniej, DHH miał dość ciekawy z Fridmanem, pan, który w ogóle odpływa w satosferę meta meta życia, ale.

Łukasz Kałużny: Ale wróć, ale Pragmatic, Orosz prawdopodobnie jest nudniejszy od Lexa.

Szymon Warda: Tak, tak.

Łukasz Kałużny: To jest chyba takie, jeżeli top ranking niesłuchalności jednak przebił.

Szymon Warda: Fridman jest dobry, jeżeli zbyt dużo nie mówi, a mówią goście, to jest…

Łukasz Kałużny: Tak.

Szymon Warda: On jest dobry.

Łukasz Kałużny: Jest lepszy, tak, jest lepszy.

Szymon Warda: Dobra, co tam było? Tam było kilka takich ciekawych rzeczy, bo się trochę co nieco zmieniło, bym powiedział, u DHH-a. I tam jest kilka takich głównych wniosków: running several AI agents feels less like project management, more like wearing is a mech suite. I to jest fajne, bo faktycznie to pokazuje właśnie, on wcześniej był taką osobą, która mówiła, że nie, nie, AI jest w ogóle zły, słaby kod, żeby nie użyć lepszego, bardziej konkretnego określenia i totalnie nie. Teraz natomiast dużo bardziej poszedł w kierunku jednak faktycznie wielu agentów naraz piszących, dalej jest review. Druga rzecz, którą on podsumował, ja się z tym bardzo mocno zgadzam już od dłuższego czasu: senior engineers benefit from AI a lot more than juniors. Dla mnie osobiście to jest nawet bym powiedział bardziej, juniorzy mają obecnie przerąbane. Ci, którzy się uczą jak działać i co zrobić i jak wejść w środowisko, sorry, nie chciałbym być w tych spodniach, naprawdę. Jak całość w ogóle wygląda? On tam jeszcze się rozpisuje odnośnie tego, jak teraz bardzo ważny jest product design i też bym się z tym zgodził. Faktyczna umiejętność wybierania tego, co ma być, jak to ma wyglądać, jak to ma działać i tak dalej, i tak dalej, bo ta część będzie już trochę trudniejsza dla AI-a do zrobienia. Ogólnie rzecz biorąc, cały proces, który on opisuje, jak działa 37 Signals? Fajnie.

Łukasz Kałużny: Że nawet rzeczy, które dla mnie są takie, dla mnie wyciągnięte z tego, bo ja też nie przesłuchałem, tylko to przeczytałem to idąc, ale jedna rzecz aż mnie kusi, będę musiał kawałki posłuchać, będę przewijał tylko Orosza i zostawię sobie DHH-a. Ale co mnie zainteresowało? Jeden element, bo tam też jest sporo o workflow i innych rzeczach. Ale pierwsza rzecz to jest wada bądź zaleta RoR-a: when something is beautiful, it’s likely to be correct.

Szymon Warda: Nie kupuję tego.

Łukasz Kałużny: Ja wiem, ale ja, słuchając DHH-a rozumiem, o czym on mówi, o tak, to jest jedna rzecz. Inna rzecz, która mnie tu zainteresowała, to jest, to było jedno. Następna rzecz, która mnie, to oprócz tego workflow, z czym się zgodzę: CLI to ostateczny interfejs dla AI-a jako coding. I tutaj Szymon raczej tak, ja się z tym, że to jest takie podsumowanie dla nich całej tej filozofii, tym, że AI wywołuje te CLI, to w wielu miejscach to się sprawdzi, o tak.

Szymon Warda: Oczywiście.

Łukasz Kałużny: Nie będę się zamykał, MCP też nie będę tutaj, taki Context7 czy inne czy MS Learny, dokumentacyjne MCP też jest, sprawdza się. Ale to co on tutaj opisał to jest tak, że walidacja unixowej filozofii się sprawdza. I dwie rzeczy, które zainteresowały, to Burnout Warning, ta dopaminowa pętla. A druga rzecz, którą ten, to jest najciekawsza, że Shape Up jest do przepisania.

Szymon Warda: Jego książka.

Łukasz Kałużny: To mnie zaciekawiło. To jest już z jego strony. Obserwując go przez lata, to jest mega zmiana. Przez to, że padło coś takiego, to tam musiała nastąpić nie ewolucja, tam nastąpiła jakaś rewolucja, jeżeli on wyraził taką opinię na głos.

Szymon Warda: Ja jestem ciekaw jak to się, jak się całość rozwinie. Ogólnie cały rozwój wokół właśnie AI-a (…) z CLI, znaczy co mówiliśmy, rewolucja.

Łukasz Kałużny: Dobra, w tym sensie. Dobra, to wpis, ja mówię, będę też przesłuchiwał. Muszę te parę części sobie przesłuchać i zobaczyć, niż tylko patrzeć na to podsumowanie, które wleciało tam na newsletterze. Dobra i lecimy z takimi rzeczami jeszcze interesującymi. To jakiś czas temu, Szymon wie jaką głupotę popełniłem, żeby testować lokalnych agentów i na Discordzie, na którego zapraszamy, też tam było o tym. Wleciała teraz, jak w tym momencie to nagrywamy to ma tydzień, Gemma 4 od Google’a, model Gemma 4. I jestem niesamowicie zaskoczony jego jakością, o tak, w testach, które sobie porobiłem i względem tego, co potrafi ten lokalny LLM. I słuchajcie, ale taki efekt wow to nie jest w ogóle odpalanie sobie do kodowania, tej Gemmy do kodowania. Tam są dwie ciekawe wersje, które możecie odpalić nawet na starszych Macach. Nie wiem Szymon, Twój Windows by się chyba spalił w tym momencie, w tym miejscu.

Szymon Warda: Przynajmniej działają z nim drukarki.

Łukasz Kałużny: Przyjdź do biura, zapraszam Cię, bo jeszcze nie byłeś. Mamy nowe biuro, powstanie też tam studi,. Będziemy częściej nagrywać z jednego miejsca. Więc nie, to być może z Macami nasza drukarka w firmie działa idealnie słuchaj.

Szymon Warda: Aleś Ty się striggerował zdecydowanie.

Łukasz Kałużny: Dobra, ale wracając, zainstalujcie sobie apkę, ona się nazywa, kurde, gdzie ona, umknęła mi nazwa, nie mam linka. Poradzicie sobie, jest apka Edge Gallery, o i można, słuchajcie, odpalić sobie lokalnie na telefoni mniejsze modele, są zrobione. Jest tam efficiency dwa miliardy parametrów i cztery miliardy parametrów. I na przykład ja sobie na iPhone’ie mogę coś takiego odpalić. I byłem zaskoczony szybkością w goóle działania lokalnie, lokalnego inferencingu w aplikacji. Przy czym nie wiem, pewnie na Androida Szymon też jest w tym, więc…

Szymon Warda: Mam odrobinę inne stosy.

Łukasz Kałużny: Tak, inne stosy. I to jest ciekawe. Tam też się dzieją w ogóle ciekawe optymalizacje w tej sferze lokalnych modeli. Tak jak wrzuciłem jednego linka do MLX-a, czyli właśnie do tego macowego frameworku do odpalania sensorów, gdzie są różne podejścia do właśnie key-value cache’y w ramach lokalnie odpalanych modeli, żeby zwiększyć prędkość. Więc to są też ciekawe rzeczy, które się dzieją. Plus, jak już rzuciłeś tego Groka Muskowego, który jest, ma moim zdaniem najmniejszy kaganiec jeżeli chodzi o cenzuralność i wypluwa najwięcej, co można popatrzeć po memach, jak Grok odpisuje na Twitterze i okazuje się, że to nie były memy. To z Gemmy zdjęto, już szukam tylko linka, zrobiono i opublikowano wersję niecenzuralną. To jest taka ciekawostka. Jest wersja w tym, jest wersja niecenzuralna, już szukam. Jest sobie, są wszystkie vodele, słuchajcie, w wersji niecenzurowanej, przygotowanej na przykład i przetestowanej do, w tym, o, tu Ci wkleję też Szymon, żebyś sobie zerknął. Jest wersja zrobiona, żeby na przykład pisać exploity. I to jest w tym. Jest tam JailbreakBench harmful behaviors w tym i szczycą się tym, że refusal był na poziomie 3,2% odrzucania zamiast odrzucania. Czyli metryka jest negatywna, żeby jak najwięcej zostało nieodrzucone przy testach. Więc można sobie zobaczyć różne takie ten, różne takie elementy, w jaki sposób można to wykorzystać.

Szymon Warda: Dobra, mamy coś więcej czy kończymy?

Łukasz Kałużny: Nie, kończymy. Słuchajcie, przed końcem nie zapomnijcie zasubskrybować albo zostawić komentarza i wpadajcie na Discorda.

Szymon Warda: Dokładnie. Hej.

Łukasz Kałużny: Na razie. Hej.

#191 Short #78: S3 Files, Trivy Pwnd, Codex Rescue, Uncensored Gemma, DHH o AI Coding

SUBSKRYBUJ PODCAST

Słuchasz Patoarchitektów dzięki firmie Protopia.

ZAPISZ SIĘ DO NEWSLETTERA