GPT-5.5 już dostępny. Nowy lider biurowej automatyzacji zmieni twoją pracę  AI News #68

W tym wydaniu AI News:

fot. OpenAI

OpenAI oficjalnie zaprezentował GPT-5.5 – swój najinteligentniejszy i najbardziej intuicyjny model, który ma zrewolucjonizować sposób wykonywania pracy na komputerach. Jak nietrudno się domyślić, wydawca położył mocny nacisk na funkcje agentowe. Bezpośredni następcą GPT-5.4 tylko szybciej rozumie intencje użytkownika, ale także potrafi samodzielnie planować i realizować złożone, wieloetapowe zadania, wykazując się bezprecedensową autonomią. Nowość trafiła już zarówno do płatnych planów ChatGPT, jak i do Microsoft Foundry. Spodziewamy się też jego szybkiej integracji z Copilotem w Microsoft 365. 

AI bez kompromisów w szybkości i kodowaniu 

GPT-5.5 został zaprojektowany, by radzić sobie z „brudnymi”, wieloczęściowymi projektami. Model potrafi nawigować w niejednoznaczności, korzystać z narzędzi, weryfikować własną pracę i kontynuować działanie aż do osiągnięcia celu. Co istotne, wzrost inteligencji nie odbył się kosztem wydajności. GPT-5.5 dorównuje modelowi GPT-5.4 pod względem opóźnień (latencji), będąc jednocześnie znacznie bardziej wydajnym – zużywa mniej tokenów do wykonania tych samych zadań w środowisku Codex. 

Największe wzrosty odnotowano w tzw. „kodowaniu agentowym”. W benchmarku Terminal-Bench 2.0 nowy model osiągnął rekordową dokładność 82,7%, a w SWE-Bench Pro – 58.6%, rozwiązując realne problemy z GitHub w jednym przebiegu. 

Wczesne ewaluacje potwierdzają również, że GPT-5.5 posiada wyjątkową zdolność rozumienia struktury całych systemów. Dan Shipper, CEO Every, uznał, że jest to „pierwszy model kodujący, jakiego używał, który posiada poważną jasność koncepcyjną”. Z kolei Pietro Schirano z MagicPath zachwycił się niemal ludzkim poziomem współpracy z AI. „Szczerze daje to poczucie, jakbym pracował z wyższą inteligencją i jest tu niemal poczucie respektu” – skomentował ekspert. 

GPT-5.5 udowadnia przydatność dla nauki i badań 

GPT-5.5 udowadnia swoją wartość jako „współnaukowiec”. Model zabłysnął w dziedzinach takich jak genetyka czy bioinformatyka (wysokie wyniki w GeneBench i BixBench). Jednym z najbardziej spektakularnych osiągnięć było pomocnicze odkrycie nowego dowodu dotyczącego liczb Ramseya w kombinatoryce, który został później zweryfikowany w języku Lean. W procesie testowania modelu pojawił się też polski akcent – jest nim wkład naukowy prof. Bartosza Naskręckiego z Uniwersytetu im. Adama Mickiewicza w Poznaniu. 

Bartosz Naskręcki, adiunkt matematyki na Uniwersytecie im. Adama Mickiewicza w Poznaniu, wykorzystał GPT5.5 w środowisku Codex do zbudowania aplikacji z zakresu geometrii algebraicznej na podstawie jednego polecenia w 11 minut. Aplikacja wizualizuje przecięcia powierzchni kwadratowych i przekształca wynikową krzywą w model Weierstrassa. Następnie rozbudował on aplikację o bardziej stabilną wizualizację osobliwości oraz dokładne współczynniki, które mogą zostać ponownie wykorzystane w dalszych pracach. Większą zmianą dla niego jest fakt, iż Codex potrafi obecnie pomagać w implementacji niestandardowych wizualizacji matematycznych i przepływów algebry komputerowej, które wcześniej wymagały dedykowanych narzędzi. Te przykłady wspólnie pokazują, jak GPT-5.5 przekłada intencje ekspertów na działające narzędzia badawcze i analizy – wyjaśnia OpenAI.  

Przydatność nowego narzędzia potwierdził także Brandon White, współzałożyciel i CEO Axiom Bio. Jego firma używa go do wnioskowania na potężnych zestawach danych biochemicznych, aby prognozować wyniki badań leków dla ludzi. Jeśli OpenAI nadal będzie tak gotować, fundamenty odkrywania leków zmienią się pod koniec tego roku – wyjaśnia ekspert. 

Nowy lider automatyzacji pracy biurowej i używania komputera 

Najnowszy produkt OpenAI wyznacza nowe standardy w automatyzacji pracy biurowej. Dzięki integracji z platformą Codex potrafi on „widzieć” ekran, klikać, pisać i poruszać się między narzędziami z dużą precyzją. Wewnętrzne zespoły OpenAI już teraz wykorzystują go do analizy tysięcy formularzy podatkowych, automatyzacji raportów biznesowych czy weryfikacji zgłoszeń prelegentów, co oszczędza pracownikom od 5 do 10 godzin tygodniowo. 

fot.OpenAI

Wydawca przekazał również, że GPT-5.5 jest lepszy niż GPT-5.4 w generowaniu dokumentów, arkuszy i prezentacji multimedialnych w Codex. Testerzy wersji alfa powiedzieli, że przegonił poprzednie modele w zadaniach takich jak badania operacyjne, modelowanie w arkuszach kalkulacyjnych oraz przekształcanie chaotycznych danych biznesowych w konkretne plany. Jest zatem kwestią czasu (najpewniej paru dni), nim trafi również do Microsoft 365 Copilot, by jeszcze mądrzej wspierać pracę w Wordzie, Excelu czy PowerPoincie. O tej integracji będziemy informować w CentrumXP. 

Model świetnie też radzi sobie w dziedzinie „computer use”, czyli agentowego korzystania z komputera – zarówno systemu, jak i aplikacji. W połączeniu z umiejętnościami obsługi komputera GPT5.5 przybliża nas do poczucia, że model faktycznie potrafi współdzielić z nami pracę na komputerze: widząc to, co znajduje się na ekranie, klikając, pisząc, nawigując po interfejsach i precyzyjnie przełączając się między narzędziami – tłumaczy OpenAI. 

Bezpieczeństwo i dostępność 

Wraz z nowym modelem OpenAI wprowadził najbardziej rygorystyczne jak dotąd zabezpieczenia, szczególnie w obszarach cyberbezpieczeństwa i biologii, które sklasyfikowano jako „High” w ramach „reparedness Framework”. Wprowadzono również system „Trusted Access for Cyber”, który pozwala zweryfikowanym podmiotom na korzystanie z pełnych możliwości modelu w celach defensywnych. 

Jest to najpewniej odpowiedź na Claude Mythos od Anthropic, który został udostępniony jedynie zaufanym partnerom (w tym Microsoftowi) w celu umożliwienia im wyszukiwania podatności w ich oprogramowaniu. Model robi to spektakularnie, odnajdując setki luk w zabezpieczeniach praktycznie każdej mainstreamowej przeglądarki i systemu operacyjnego, dając ich wydawcom przewagę nad hakerami. 

Startup, który ma niebawem ma otrzymać 10 mld dolarów finansowania od Google (a później kolejne 30 mld), nie chciał go jednak „zdemokratyzować” ze względu na jego potencjał ofensywny, w tym nieprzewidywalne zdolności agentowe, co niedawno skrytykował CEO OpenAI, Sam Altman. Najpewniej więc w odpowiedzi na to firma udostępnia GPT-5.5 szerszemu gronu odbiorców, nie ograniczając się do kilku gigantów technologicznych. 

GPT-5.5 zadebiutował w czwartek, 23 kwietnia. Oto, gdzie jest i gdzie ma być dostępny (według stanu na 24 kwietnia): 

  • ChatGPT: GPT-5.5 Thinking jest dostępny dla użytkowników płatnych subskrypcji Plus, Pro, Business i Enterprise. GPT-5.5 Pro z wyższą precyzją dla najbardziej wymagających zadań jest z kolei dostępny tylko w planach Pro, Business i Enterprise. 
  • Codex: model dostępny jest dla programistów, oferując okno kontekstowe 400K. 
  • API: wkrótce dostępny będzie w cenach $5 za 1M tokenów wejściowych i $30 za 1M tokenów wyjściowych (wersja Pro odpowiednio za $30 i $180). 
  • Microsoft Foundry (Azure): model jest dostępny dla firm, pozwalając im na skalowanie agentów AI w bezpiecznym, izolowanym środowisku produkcyjnym. 
  • Microsoft 365 Copilot oraz Copilot Studio: integracja z Copilotem w Microsoft 365 nastąpi najpewniej w najbliższym czasie. 

Potężny model Claude Opus 4.7 debiutuje w Microsoft 365 Copilot i Microsoft Foundry 

fot.Microsoft

Anthropic oficjalnie zaprezentował swój najpotężniejszy jak dotąd model – Claude Opus 4.7. Uznawany za najbardziej zaawansowany model ogólnodostępny, od pierwszego dnia staje się on integralną częścią platformy Microsoft Foundry i jest wdrażany m.in. w GitHub Copilot, Visual Studio i Microsoft 365 Copilot. Dostępność tego produktu umożliwia zespołom korporacyjnym dostęp do najnowocześniejszych rozwiązań AI przy zachowaniu najwyższych standardów infrastrukturalnych i prawnych, na których opiera się współczesny biznes. 

Claude Opus 4.7 to znaczący krok naprzód w porównaniu do jego poprzedników (wersji 4.5 i 4.6). Model sztucznej inteligencji został zaprojektowany z myślą o realnych procesach produkcyjnych, oferując wymierne korzyści w kilku kluczowych obszarach, wliczając w to: 

  • Agentowe kodowanie i inżynieria oprogramowania: znaczna poprawa w realizacji złożonych zadań programistycznych. 
  • Zadania autonomiczne: wyższa stabilność i precyzja przy długotrwałych, wieloetapowych operacjach. 
  • Zaawansowane rozumienie obrazów: istotne ulepszenia w przetwarzaniu danych wizualnych. 
  • Pamięć i logika: lepsze podążanie za instrukcjami oraz usprawnione funkcje pamięciowe, co pozwala na sprawniejszą obsługę skomplikowanych przepływów pracy. 

Najmocniejszy model od Anthropic już pierwszego dnia trafił do Microsoft Foundry, który pełni rolę zunifikowanej platformy kontrolnej, pozwalającej firmom zarządzać modelami AI w sposób skalowalny i bezpieczny. Dzięki osadzeniu Claude Opus 4.7 w tym środowisku każde zapytanie korzysta z zabezpieczeń klasy korporacyjnej, takich jak: 

  • Integracja z Azure Active Directory (Zarządzanie tożsamością). 
  • Prywatne sieciowe punkty końcowe (VNet). 
  • Pełna ścieżka audytu i logowania poprzez Azure Monitor. 

W przypadku deweloperów przejście na nowy model jest bezproblemowe. Opus 4.7 wykorzystuje standardowe API Foundry, co oznacza, że istniejące łańcuchy narzędzi i zestawy SDK wymagają minimalnych modyfikacji. Warto przy tym zauważyć, że Microsoft odszedł od wyłącznego polegania na modelach serii GPT, dynamicznie rozszerzając wsparcie dla produktów Anthropic, o czym wcześniej informowaliśmy na CentrumXP. Nowy model Opus 4.7 jest wdrażany w wielu kluczowych produktach: 

  • GitHub Copilot i Visual Studio: model trafił do Visual Studio Code, Visual Studio, Copilot CLI, a także na platformy mobilne (iOS/Android) oraz do środowisk JetBrains, Xcode i Eclipse. W nadchodzących tygodniach Opus 4.7 zastąpi starsze wersje w selektorze modeli dla subskrybentów GitHub Copilot Pro+. 
  • Microsoft 365 Copilot: użytkownicy zyskują dostęp do modelu w ramach Copilot Cowork (Frontier), Copilot Studio (cykle wczesnego dostępu) oraz bezpośrednio w programie Excel. 
  • Claude Code: narzędzie jest teraz dostępne poprzez API Anthropic za pośrednictwem Microsoft Foundry, co pozwala na szybką rekonfigurację dotychczasowych instalacji. 
fot.GitHub

W przypadku administratorów planów GitHub Copilot Enterprise i Business ważną informacją jest konieczność ręcznego aktywowania modelu w ustawieniach. Warto również odnotować, że w ramach oferty ograniczonej czasowo (do 30 kwietnia), nowy model debiutuje z mnożnikiem żądań premium wynoszącym 7.5x. Anthropic przygotował ponadto dedykowany przewodnik migracji, który ma pomóc zespołom w optymalnym wykorzystaniu potencjału Opus 4.7 i płynnym przejściu z wersji 4.6. 

Fintool integruje się z Microsoft 365. Agenty AI zastąpią analityków? 

fot.Microsoft

Gigant z Redmond po cichu sfinalizował przejęcie startupu Fintool. Ten strategiczny ruch ma na celu „doładowanie” pakietu Microsoft 365 zaawansowanymi agentami AI, zdolnymi do automatyzacji najbardziej żmudnych procesów w analizie finansowej. 

Microsoft od lat rozbudowuje swoje portfolio sztucznej inteligencji, tym razem stawiając na wyspecjalizowane narzędzia dla profesjonalistów. Fintool, startup z San Francisco, założony przez Nicolasa Bustamante’a i Edouarda Godfreya, zyskał uznanie dzięki budowie agentów AI, które wspierają inwestorów i analityków w tzw. analizie jakościowej. Microsoft nie wydał co prawda oficjalnego komunikatu o szczegółach transakcji, lecz informację potwierdził założyciel startupu za pośrednictwem serwisu X oraz oficjalnej strony internetowej firmy, a szefowa Office Product Group powitała nowo przyjęty zespół w Microsoft. 

Geneza Fintool sięga corocznych spotkań Berkshire Hathaway w Omaha. Nicolas Bustamante wspomina, że obserwując proces inwestycyjny Warrena Buffetta, dostrzegł lukę na rynku. Jak tłumaczy Bustamante: 

Buffett opisywał swój proces: czytanie dokumentów, analiza przedsiębiorstw, budowanie przekonania raport po raporcie. Wtedy mnie olśniło. AI zautomatyzowało już finanse ilościowe [quantitative finance]. Kolejną granicą była analiza jakościowa.  

Wizja ta doprowadziła do zbudowania agentów AI zdolnych do błyskawicznego przetwarzania transkrypcji z rozmów o wynikach (ang. earnings calls), analizowania sprawozdań finansowych i syntezy badań, co pozwalało na wykrycie sygnałów, których znalezienie zajęłoby człowiekowi wiele godzin. W styczniu 2026 r. firma wypuściła przełomową wersję Fintool V5, w pełni agentowe doświadczenie, w którym agent AI pracuje autonomicznie w tle, budując model DCF w Excelu, prezentację typu earnings deck w PowerPoint lub memo badawcze w Wordzie – czytamy w oświadczeniu

Decyzja o połączeniu sił z Microsoftem była podyktowana codziennymi potrzebami użytkowników. Jak zauważył Bustamante, większość klientów Fintool i tak korzysta na co dzień z rozwiązań Microsoftu. Integracja technologii startupu bezpośrednio z pakietem Office stała się więc logicznym krokiem. 

Sumit Chauhan, dyrektorka Office Product Group w Microsoft, z entuzjazmem powitała nowy zespół: 

To uzupełnienie jest idealnym dopełnieniem naszej ogólnej strategii i przyniesie korzyści naszym klientom poprzez połączenie specjalizacji Fintool z możliwościami pakietu Office.  

Wewnątrz struktur Microsoftu zespół Fintool, współpracując m.in. z Brianem Jonesem (szefem Excela), skupi się początkowo na doskonaleniu narzędzi dla usług finansowych. Ambicje są jednak znacznie szersze – technologia ta ma zostać zaadaptowana na potrzeby innych branż i wszystkich „pracowników wiedzy”. Przejęcie Fintool to wyraźny sygnał, że Microsoft nie zamierza poprzestać na ogólnych asystentach AI. Przyszłość pakietu Microsoft 365 to autonomiczne agenty, które nie tylko podpowiadają tekst, ale także samodzielnie wykonują złożone zadania analityczne niezbędne w wielu branżach. 

OpenAI wprowadza agenty przestrzeni roboczej do ChatGPT 

fot.OpenAI

OpenAI oficjalnie zaprezentował agenty przestrzeni roboczej („workspace agents”), przełomową funkcję ChatGPT, która stanowi kolejny krok w ewolucji po znanych dotychczas modelach GPT. Nowe rozwiązanie pozwala zespołom na budowanie i współdzielenie autonomicznych agentów AI, zdolnych do obsługi złożonych, długofalowych procesów wewnątrz organizacji. 

Agenty przestrzeni roboczej to bardziej zaawansowani następcy modeli z serii GPT, które bynajmniej nie znikają z ChatGPT ani Copilota w Microsoft 365. W przyszłości OpenAI planuje jednak udostępnić narzędzia ułatwiające konwersję istniejących GPTs w nowe, bardziej funkcjonalne agenty. 

Agenty przestrzeni roboczej to ewolucja GPT. Dzięki technologii Codex mogą realizować wiele zadań, które ludzie już dziś wykonują w pracy – od przygotowywania raportów, przez pisanie kodu, po odpowiadanie na wiadomości. Operują w chmurze, dzięki czemu mogą działać bez przerwy, nawet gdy Ty już nie pracujesz. Są też zaprojektowane tak, aby można je było udostępniać w organizacji, dzięki czemu zespoły mogą utworzyć agenta raz, wspólnie korzystać z niego w ChatGPT lub w komunikatorze Slack i stopniowo go doskonalić – wyjaśniaOpenAI.  

Nowe agenty charakteryzują się wysokim stopniem autonomii i zdolnością do integracji z zewnętrznymi aplikacjami. Potrafią one: 

  • Gromadzić kontekst z wielu systemów jednocześnie. 
  • Podejmować działania w podłączonych narzędziach zewnętrznych. 
  • Działać zgodnie z harmonogramem bądź reagować na bieżące zapytania w komunikatorach. 
  • Uczyć się i zapamiętywać – dzięki posiadaniu pamięci agenty mogą być korygowane przez zespół, co pozwala na ich stopniowe doskonalenie w miarę upływu czasu. 

Jak stworzyć własnego agenta? Proces tworzenia został uproszczony do poziomu konwersacji z AI. Użytkownik w sekcji „Agents” opisuje za pomocą języka naturalnego przepływ pracy, który chce zautomatyzować. ChatGPT pomaga następnie zdefiniować poszczególne kroki, podłączyć niezbędne narzędzia, dodać konkretne umiejętności oraz przetestować całą konfigurację. 

OpenAI przygotował również gotowe szablony dla działów finansowych, sprzedaży i marketingu, aby przyspieszyć wdrożenie technologii w firmach. Oto kilka scenariuszy, w których agenty AI mogą przejąć codzienne obowiązki: 

  • Recenzent oprogramowania: weryfikuje prośby o zakup software’u pod kątem polityki firmy i zakłada tickety IT. 
  • Przekaźnik opinii o produkcie: monitoruje Slacka, fora i kanały supportu, przekształcając feedback w priorytetowe zadania. 
  • Prezenter wskaźników: automatycznie pobiera dane, tworzy wykresy i wysyła cotygodniowe podsumowania. 
  • Agent do pozyskiwania leadów: dokonuje ich oceny (scoringu), przygotowuje projekty wiadomości uzupełniających i aktualizuje systemy CRM. 
  • Menedżer ds. ryzyka związanego z podmiotami zewnętrznymi: weryfikuje kontrahentów, analizując kluczowe wskaźniki bezpieczeństwa, w tym narażenie na sankcje, kondycję finansową i ryzyko reputacyjne, a następnie generuje ustrukturyzowane raporty z oceny ryzyka.  

Dla klientów korporacyjnych OpenAI przygotował dedykowane panele administracyjne oraz funkcje monitoringu, które pozwalają zarządzać uprawnieniami i kontrolować działania agentów zgodnie z polityką danej organizacji. 

Agenty przestrzeni roboczej są obecnie dostępne bezpłatnie w wersji testowej dla użytkowników planów ChatGPT Business, Enterprise, Edu oraz Teachers. Ten stan utrzyma się do 6 maja 2026 roku, po czym OpenAI planuje wprowadzenie modelu rozliczeniowego opartego na kredytach. 

Teams z nową funkcją Video Recap. Szybko nadrobisz zaległości w spotkaniach 

fot.Microsoft

Microsoft ogłosił wprowadzenie nowej funkcji Video Recap w komunikatorze Teams. Narzędzie oparte na AI ma odmienić sposób, w jaki użytkownicy wracają do archiwalnych nagrań, oferując dynamiczne i zwięzłe podsumowania wideo zamiast konieczności przeglądania wielogodzinnych materiałów. 

Jak informuje Anqi Chen, Senior Product Manager w zespole Microsoft Teams, Video Recap jest dostępne dla systemów Windows, Mac oraz w wersji przeglądarkowej. Jej głównym celem jest pomoc tym, którzy nie mogli uczestniczyć w spotkaniu lub potrzebują błyskawicznie przypomnieć sobie kluczowe ustalenia. Co oferuje ta nowa funkcja? 

Trzeba podkreślić, że Video Recap nie jest jedynie tekstowym streszczeniem. To narracyjny skrót filmowy wygenerowany przez AI, który łączy najważniejsze wnioski z krótkimi fragmentami wideo z samego spotkania. Dzięki temu użytkownicy mogą: 

  • Błyskawicznie zapoznać się z prezentowanymi treściami, takimi jak slajdy czy udostępniane wizualizacje. 
  • Zrozumieć przebieg dyskusji bez konieczności odtwarzania całego zapisu. 
  • Obejrzeć klipy wyselekcjonowane tak, by oddać najważniejsze momenty rozmowy. 
  • Poznać kontekst i emocje towarzyszące spotkaniu dzięki połączeniu narracji z obrazem. 

Jak skorzystać z nowej funkcji? Mechanizm działania jest intuicyjny. Aby uruchomić podsumowanie, należy przejść do strony podsumowania spotkania w aplikacji Teams i wybrać przycisk Video Recap znajdujący się w lewym górnym rogu ekranu. 

Microsoft podał kluczowe wymagania i ograniczenia. Warto zwrócić uwagę na kilka aspektów technicznych, które warunkują poprawne działanie wideopodsumowań: 

  • Czas trwania: funkcja obsługuje spotkania trwające od 10 do 90 minut. 
  • Wymóg nagrywania: podsumowanie nie zostanie wygenerowane dla spotkań, w których użyto wyłącznie transkrypcji bez zapisu wideo. 
  • Czas oczekiwania: materiał Video Recap jest gotowy zazwyczaj w ciągu 10–15 minut od zakończenia przesyłania nagrania na serwer. 

Nowość jest obecnie wdrażana u użytkowników Microsoft 365 dla firm w wydaniach Public Preview oraz Targeted Release. Aby z niej skorzystać, administratorzy IT muszą włączyć odpowiednie uprawnienia w zasadach aktualizacji lub w centrum administracyjnym Microsoft 365. Proces wdrażania jest etapowy, co pozwala Microsoftowi na monitorowanie wydajności i jakości narzędzia. Oznacza to, że niektórzy użytkownicy mogą otrzymać dostęp do nowej funkcji z pewnym opóźnieniem. 

Najpierw myśli, potem rysuje. ChatGPT Images 2.0 to przełom w OpenAI 

fot. OpenAI

OpenAI oficjalnie zaprezentował ChatGPT Images 2.0 (gpt-image-2), nową generację modelu do tworzenia obrazów, która ma stanowić bezpośrednią odpowiedź na konkurencyjne rozwiązanie Google – Gemini Nano Banana 2. Nowy generator obrazów AI, wcześniej testowany pod kryptonimem „duct tape”, wprowadza funkcje rozumowania, drastyczną poprawę w renderowaniu tekstu oraz zaawansowaną obsługę wielu języków. 

Największą innowacją w ChatGPT Images 2.0 jest integracja możliwości rozumowania z serii „O” bezpośrednio z generatorem obrazów AI. W przeciwieństwie do tradycyjnych modeli, które działają jak „czarne skrzynki” generujące wynik bezpośrednio z promptu, wersja Thinking działa w sposób agentowy. Model potrafi teraz przeprowadzić research w sieci w czasie rzeczywistym, przeanalizować przesłane dokumenty (np. pliki PowerPoint) i zaplanować strukturę obrazu przed rozpoczęciem renderowania. 

Dzięki temu model nie tylko „rysuje”, ale potrafi stworzyć logiczne układy, takie jak: 

  • Złożone infografiki i mapy: dokładne odwzorowanie danych historycznych czy geograficznych wraz z czytelnymi legendami. 
  • Materiały edukacyjne: wielostronicowe wizualizacje z zachowaniem spójności merytorycznej i graficznej. 
  • Projekty wnętrz i systemy wizualne: generowanie spójnych planów pięter, palet kolorystycznych i list materiałów w ramach jednego zadania. 

Model niweluje też problem halucynacji sztucznej inteligencji do tworzenia obrazów. Historycznie modele dyfuzyjne miały bowiem ogromne problemy z poprawnym zapisem słów. OpenAI twierdzi, że Images 2.0 to „skokowa zmiana” w tej dziedzinie. Model precyzyjnie generuje napisy nawet w gęstych kompozycjach, takich jak menu restauracji, okładki czasopism czy interfejsy użytkownika. Co więcej, stał on się „poliglotą”. Znacznie poprawiono wsparcie dla alfabetów niełacińskich, w tym języka japońskiego, koreańskiego, chińskiego, hindi oraz bengalskiego. Tekst w tych językach nie jest jedynie tłumaczony, ale także renderowany w sposób naturalny i zintegrowany z projektem graficznym. 

OpenAI całkowicie przebudował architekturę modelu, rezygnując z ujawnienia, czy jest to model dyfuzyjny, czy autoregresyjny. Pod względem technicznym wiadomo jednak, że: 

  • Obrazy mogą być generowane w jakości do 2K (dla użytkowników ChatGPT) oraz do 4K (w wersji beta API). 
  • Wspierany jest szeroki zakres proporcji od 3:1 (panoramy) do 1:3 (kadry pionowe). 
  • Model potrafi wygenerować do 8 obrazów z jednego zapytania, zachowując spójność postaci i obiektów, co pozwala na tworzenie np. komiksów lub storyboardów. 
  • Wiedza modelu została zaktualizowana do grudnia 2025 roku. 

Ile kosztuje korzytanie z gpt-image-2 i co z jego dostępnością? Model jest wdrażany w trzech warstwach dostępu: 

  • Użytkownicy darmowi i Codex: dostęp do bazowego modelu Images 2.0 instant (szybsze generowanie, lepsze instrukcje, poprawiony tekst). 
  • Użytkownicy Plus, Pro i Business: dostęp do modelu Images 2.0 Thinking, który oferuje dostęp do narzędzi, wyszukiwarki internetowej i generowania serii obrazów. 
  • Użytkownicy Pro: dodatkowy dostęp do trybu „ImageGen Pro” dla najbardziej zaawansowanych rezultatów. 

W przypadku deweloperów model gpt-image-2 jest dostępny w Microsoft Foundry oraz poprzez API w cenie:  

  • 8,00 USD w przypadku danych wejściowych (input). 
  • 2,00 USD w przypadku buforowanych danych wejściowych (cached input). 
  • 30,00 USD w przypadku danych wyjściowych (output), co jest ceną o 2 USD niższą niż w przypadku poprzedniego modelu GPT-Image-1.5

OpenAI wyjaśnia, że kładzie duży nacisk na bezpieczeństwo, szczególnie obliczu rosnącej liczby kampanii dezinformacyjnych i tzw. deepfake’ow. Model Images 2.0 posiada wielowarstwowe protokoły, w tym standardowe znakowanie wodne oraz zaawansowane filtry blokujące treści szkodliwe. Przedstawiciele firmy podkreślili, że utrzymują rygorystyczną politykę przeciwko ingerencji w wybory i tworzeniu zwodniczych materiałów politycznych. 

OpenAI wypuścił GPT-Rosalind. Model do zadań specjalnych w biologii 

fot.OpenAI

OpenAI ogłosił wprowadzenie GPT-Rosalind, wyspecjalizowanego modelu sztucznej inteligencji, który ma zrewolucjonizować badania nad życiem, biotechnologię, a także proces projektowania leków. Nowy produkt, nazwany na cześć pionierki badań nad strukturą DNA, Rosalind Franklin, rzuca bezpośrednie wyzwanie dominacji Google DeepMind w sektorze nauk biologicznych. 

W oficjalnym komunikacie OpenAI podkreśla, że droga od odkrycia celu biologicznego do zatwierdzenia nowego leku w USA zajmuje średnio od 10 do 15 lat. Najnowszy model GPT-Rosalind ma drastycznie skrócić ten czas poprzez wsparcie naukowców na najwcześniejszych etapach odkryć. Model nie jest jedynie „rozmówcą”, lecz zaawansowanym partnerem rozumującym, zoptymalizowanym pod kątem syntezy dowodów naukowych z ogromnych baz danych, generowania wiarygodnych hipotez biologicznych, autonomicznego planowania eksperymentów oraz projektowania białek oraz analizy genomowej. 

Wierzymy, że zaawansowane systemy AI mogą pomóc badaczom szybciej poruszać się po procesach badawczych – nie tylko poprzez zwiększenie wydajności, ale pomagając naukowcom badać więcej możliwości i dostrzegać połączenia, które mogłyby zostać pominięte – przekazał OpenAI.  

Co prawda zaprezentowany niedawno flagowy model GPT-5.4, obecny między innymi w Microsoft 365 Copilot, imponuje wszechstronnością, jednak OpenAI udowadnia, że w nauce liczy się nie tylko skala, ale także precyzja. W branżowych benchmarkach, takich jak LABBench2, GPT-Rosalind pokonał model ogólnego przeznaczenia GPT-5.4 w 6 na 11 specjalistycznych zadań. Zdobył również topowe lokaty w benchmarku BixBench, co potwierdza, że celowe trenowanie pod konkretną dziedzinę może przewyższyć możliwości bardziej wszechstronnych modeli. 

GPT-Rosalind nie jest jedynie projektem teoretycznym. Już teraz pracuje on z największymi graczami na rynku. Wśród korzystających z niego partnerów w ramach programu „trusted access” znalazły się takie firmy i instytucje jak:  

  • Amgen, Moderna, Thermo Fisher Scientific – w obszarze odkrywania leków i szczepionek. 
  • Allen Institute – w badaniach podstawowych. 
  • Los Alamos National Laboratory – przy projektowaniu białek i katalizatorów. 

OpenAI udostępnił przy okazji bezpłatną wtyczkę Life Sciences dla środowiska Codex, która pozwala na połączenie sztucznej inteligencji z ponad 50 zewnętrznymi narzędziami naukowymi i źródłami danych. System jest obecnie dostępny w wersji Research Preview dla zweryfikowanych klientów instytucjonalnych, co ma zapewnić bezpieczeństwo i etyczne wykorzystanie technologii w tak wrażliwych branżach jak biotechnologia, bioinformatyka, farmakologia czy genomika. 

Co dalej? Jak zapowiada producent, GPT-Rosalind to dopiero początek serii modeli dedykowanych naukom o życiu, a przyszłe aktualizacje skupią się na jeszcze głębszym rozumowaniu biologicznym i wsparciu długofalowych procesów badawczych. 

Treści wygenerowane przez AI w Microsoft 365 mają znak wodny. Jak go włączyć lub wyłączyć? 

fot.Microsoft

W dobie coraz powszechniejszego wykorzystania sztucznej inteligencji w codziennej pracy Microsoft stawia na jasne zasady komunikacji. Gigant z Redmond ogłosił wprowadzenie nowych funkcji dodawania znaku wodnego do treści generowanych przez AI w ramach ekosystemu Microsoft 365. Zmiana ta ma na celu budowanie zaufania oraz wspieranie odpowiedzialnego korzystania z nowych technologii. 

Sztuczna inteligencja znacząco przyspiesza proces tworzenia treści, ale kluczem do jej bezpiecznego wdrażania jest świadomość odbiorcy. Microsoft podkreśla, że znaki wodne dodawane do zawartości wygenerowanej przez AI mają służyć jako widoczne lub słyszalne sygnały informujące o tym, że dany materiał powstał lub został zmodyfikowany przy udziale tej właśnie technologii. 

Co ważne, ochrona nie kończy się na warstwie wizualnej. Nawet w przypadkach, gdy znak wodny nie jest bezpośrednio widoczny, Microsoft 365 automatycznie dołącza do plików metadane. Zawierają one dodatkowy kontekst dotyczący sposobu powstania materiału, co pozwala na identyfikację wpływu AI na końcowy produkt. 

Nowe standardy w środowisku pracy 

Mechanizm działania znaków wodnych został dostosowany do rodzaju treści oraz typu konta użytkownika. W środowiskach korporacyjnych i biznesowych wdrożono następujące zasady: 

  • Audio i Wideo (Kontrola administratora): firmy mogą teraz aktywować specjalną regułę, która nakłada obowiązek znakowania multimediów. Obejmuje to wizualne znaki wodne w filmach (np. tworzonych w Clipchamp) oraz sygnały dźwiękowe w ścieżkach audio (np. w podsumowaniach generowanych przez Microsoft 365 Copilot). 
fot. Microsoft
  • Obrazy (Kontrola użytkownika): W przypadku grafiki model jest bardziej elastyczny. Pracownicy mogą samodzielnie decydować o dodaniu oznaczeń. W sekcji „Ustawienia i prywatność” dostępny jest przełącznik „Pokaż znak wodny”, który po aktywacji nanosi znak wodny na nowe obrazy z generatora AI lub te już istniejące, które poddano edycji przez algorytmy. 

Zasady dla użytkowników domowych 

Użytkownicy indywidualni korzystający z Microsoft 365 dla domu w celach prywatnych również otrzymują narzędzia do zarządzania transparentnością. Treści generowane w domu – od obrazów po pliki dźwiękowe – mogą zawierać znaki wodne oraz zaszyte metadane. 

Domyślnie funkcja ta pozostaje wyłączona, jednak jej aktywacja jest prosta i odbywa się z poziomu panelu prywatności Microsoft: 

  1. Zaloguj się na konto Microsoft w pulpicie nawigacyjnym prywatności. 
  1. Przejdź do sekcji Prywatność > Zwiększaj swoją produktywność > Copilot. 
  1. Włącz opcję „Dołączaj znak wodny, gdy zawartość z Microsoft 365 jest generowana przez AI”. 

Wprowadzone zmiany pokazują, że Microsoft dąży do zachowania równowagi między innowacyjnością a kontrolą, dając użytkownikom i organizacjom narzędzia niezbędne do jasnego sygnalizowania roli sztucznej inteligencji w procesie twórczym. Dzięki wyraźnemu oznakowaniu nie można posądzić autora o deepfake czy szerzenie dezinformacji. 

Pracownicy Mety będą monitorowani, by szkolić swoich następców AI 

fot. Meta Platforms Inc. (domena publiczna)

Meta wdraża program Model Capability Initiative (MCI), który ma za zadanie rejestrować każdą aktywność pracowników na komputerach służbowych. Zebrane w ten sposób dane posłużą do stworzenia zaawansowanych agentów AI zdolnych do przejęcia ich obowiązków. 

Nowe narzędzie, znane wewnętrznie jako Agent Transformation Accelerator (ATA), działa w sposób niezwykle inwazyjny. System śledzi ruchy myszy, kliknięcia oraz każde naciśnięcie klawisza. Choć firma zapewnia o ochronie wrażliwych danych i czysto technicznym celu inicjatywy, pracownicy nie kryją wzburzenia. Dla wielu z nich jest to wizja dystopijna, w której ich codzienna praca staje się darmowym paliwem dla technologii, która docelowo ma ich wygryźć z rynku pracy. 

Wszystko to jest zgodne z wizją Marka Zuckerberga, który ogłosił rok 2026 momentem przełomowym. Jego strategia zakłada, że inteligentne algorytmy przejmą zadania wykonywane dotychczas przez inżynierów średniego szczebla. Firma wprowadza jednolite stanowisko „AI builder” oraz zamierza zredukować liczebność zespołów, a zaoszczędzone środki przeznaczyć na rozwój tzw. osobistej superinteligencji – tylko w tym roku Meta wyda na ten cel 140 mld dolarów. 

Dyrektor ds. technologii w Meta, Andrew Bosworth, wprost wskazuje, że w przyszłości to AI będzie wykonywać główną pracę, podczas gdy ludzie zostaną zdegradowani do roli nadzorców i „trenerów” maszyn. 

Eksperci zwracają uwagę na istotne różnice w przepisach między USA a Europą. O ile w Stanach Zjednoczonych inwigilacja pracowników jest słabo regulowana, o tyle w Europie techniki takie jak keystroke logging (rejestrowanie uderzeń w klawisze) mogą naruszać przepisy RODO. Meta, która wielokrotnie płaciła wysokie kary w UE za niedozwolone praktyki, ryzykuje kolejny konflikt prawny, dlatego według przewidywań program będzie realizowany przede wszystkim w USA. 

Zjawisko trenowania sztucznej inteligencji na pracy ludzi nie ogranicza się tylko do sektora IT. Podobne praktyki stają się codziennością w innych branżach, takich jak: 

  • Produkcja: W Azji pracownicy fabryk wykonują zadania z kamerami na czołach, by roboty mogły nauczyć się szyć i montować elektronikę. 
  • Logistyka: Amazon zapowiada redukcję tysięcy etatów na rzecz automatyzacji i zwiększenia liczby robotów w magazynach. 
  • Rozrywka i geolokalizacja: Firma Niantic (twórcy Pokémon GO) wykorzystała miliardy zdjęć i skanów od graczy do budowy systemu nawigacji dla autonomicznych robotów dostawczych, często bez pełnej świadomości użytkowników co do celu gromadzenia tych danych. Myśleli, że są trenerami Pokemonów, a w rzeczywistości trenowali AI. 
  • Transport i motoryzacja: Właściciele nowoczesnych samochodów (zwłaszcza marki Tesla) nieświadomie pełnią rolę instruktorów nauki jazdy dla AI. Kamery i czujniki rejestrują, jak kierowca reaguje w trudnych sytuacjach, np. kiedy hamuje przed przeszkodą, której system nie rozpoznał. Dane są wysyłane do chmury, gdzie uczą systemy autonomicznego prowadzenia. Docelowo ma to wyeliminować potrzebę zatrudniania zawodowych kierowców czy taksówkarzy. 

Co dalej z rynkiem pracy? Eksperci kreślą czarne scenariusze, w których automatyzacja doprowadzi do masowego bezrobocia. W odróżnieniu od poprzednich rewolucji przemysłowych, obecnie brakuje nowych sektorów, które mogłyby wchłonąć tak dużą liczbę zwolnionych pracowników. Rozwiązania takie jak bezwarunkowy dochód podstawowy wciąż pozostają jedynie w fazie teoretycznych rozważań i lokalnych eksperymentów, podczas gdy korporacje już teraz przekształcają ludzi w darmowych nauczycieli dla swoich przyszłych, cyfrowych następców.