Meta inwestuje 65 mld w AI, a chiński DeepSeek wychodzi na prowadzenie

Mark Zuckerberg uważa, że rok 2025 będzie rokiem sztucznej inteligencji, a w swoim najnowszym poście na Facebooku pisze, że Meta zamierza zainwestować 60-65 mld dolarów w AI w 2025 r. To znaczny wzrost w porównaniu z 2024 rokiem, w którym budżet wynosił ok. 38-40 mld dolarów. To nie jedyna tak duża inwestycja, a przy okazji wyłania się nowy rywal.

Duża część wspomnianej inwestycji zostanie przeznaczona na budowę centrów danych. Są one kluczowe dla zapewnienia mocy obliczeniowej, której Meta potrzebuje do tworzenia produktów AI. Zuckerberg powiedział, że inicjatywa nie dotyczy tylko zwiększania infrastruktury, ale także napędzania innowacji i utrzymania pozycji lidera technologicznego w USA. W ramach swojej strategii Meta planuje nabyć ponad 1,3 mln GPU do końca tego roku.

To nie jedyna tak duża inwestycja w tym roku. Przypomnijmy, że Microsoft, OpenAI, Oracle i SoftBank zaczynają współtworzyć Stargate Project. To największa w historii inwestycja w AI, a dokładniej – w AGI (silną sztuczną inteligencję lub superinteligencję), która ma wynosić 500 mld dolarów (w ciągu najbliższych 4 lat).

Jednocześnie wyłonił się nowy, chiński rywal amerykańskich gigantów – DeepSeek. Chińska firma wypuściła niedrogie modele DeepSeek-V3 i DeepSeek-R1, które pokonały w benchmarkach kilka innych wiodących modeli OpenAI i Meta. DeepSeek-V3 został wytrenowany przy użyciu zaledwie 2048 GPU z ponad 2,78 mln godzin GPU przy koszcie około 6 mln dolarów. To ułamek tego, czego zwykle wymagają inne wiodące modele. Dla porównania modele Llama rozwijane przez Meta, w tym Llama 3.1, kosztowały ponad 60 mln dolarów i wymagały 30,8 mln godzin GPU do wytrenowania.

Modele te zostały wydane na licencji Open Source, podobnie jak Llama, co oznacza, że każdy może je uruchomić na swoim sprzęcie. Cena za korzystanie z API wnioskowania/rozumowania DeepSeek-R1 jest również znacznie niższa niż u rywali, takich jak OpenAI. DeepSeek pobiera 0,14 USD za milion tokenów za dane wejściowe w porównaniu do 7,5 USD w przypadku OpenAI.

Dlaczego DeepSeek jest tak tani? Powodem jest jego architektura. Model ten wykorzystuje framework Mixture-of-Experts (MoE), który pozwala mu aktywować tylko część parametrów podczas przetwarzania. Producent twierdzi, że ta metoda ta gwarantuje większą wydajność i niższe wymagania obliczeniowych w porównaniu do tradycyjnych modeli. Poza tym, w przeciwieństwie do OpenAI o1, który wykorzystuje metodę supervised fine-tuning (SFT), DeepSeek korzysta z czystego reinforcement learningu (RL), dzięki któremu może autonomicznie rozwijać zaawansowane możliwości rozumowania.

Nie ulega wątpliwości, że silna sztuczna inteligencja wymaga sporych nakładów finansowych. Zwykła, generatywna sztuczna inteligencja może jednak być o wiele tańsza w rozwoju, czego przykładem jest właśnie DeepSeek. Co ciekawe, jego aplikacja zdetronizowała właśnie ChatGPT w Apple App Store, więc Amerykanie powinni mieć się na baczności!

OpenAI o1 dostępny za darmo w Microsoft Copilot

OpenAI o1 to obecnie najlepszy model sztucznej inteligencji tego producenta dostępny publicznie. Jest on m.in. lepszy od GPT w rozwiązywaniu złożonych zadań. Do tej pory dostępny w usługach premium, teraz stał się dostępny za darmo dla wszystkich w Microsoft Copilot. Tego nie ma ChatGPT!

Microsoft wprowadził model wnioskowania/rozumowania OpenAI o1 do Copilota dla wszystkich darmowych użytkowników, co oznacza, że nie musisz już subskrybować płatnych planów Copilot Pro ani ChatGPT Plus, aby z niego korzystać. Innymi słowy Microsoft po raz kolejny udostępnia za darmo nową funkcjonalność AI jako pierwszy, na długo zanim zrobi to OpenAI w swoim ChatGPT. Think Deeper, jak Microsoft nazywa tę integrację o1, pozwala Copilotowi odpowiadać na bardziej złożone pytania. Korzystając z tej funkcji, asystent AI mówi, że „rozważa Twoje pytanie pod wszystkimi kątami i ze wszystkich perspektyw”, co zajmuje mu około 30 sekund.

Dziś udostępniamy Think Deeper za darmo dla wszystkich użytkowników Copilota. Daje to teraz każdemu dostęp do światowej klasy modelu wnioskowania OpenAI o1 w Copilicie – wszędzie i bez opłat. Zachęcam Was do jego wypróbowania. Jest naprawdę magiczny. Think Deeper pomoże Wam:

  • Uzyskać pogłębione porady, jak zarządzać zmianą kariery z dokładnym podziałem kamieni milowych i opcji edukacyjnych, źródłami, gdzie szukać stanowisk, strategiami wejścia na rynek pracy i trendami branżowymi, o których koniecznie musicie wiedzieć.
  • Zaplanować epicki projekt. Zrzuć z mózgu wszystko do Think Deeper i obserwuj, jak to wszystko przerabia i wypluwa przewodnik krok po kroku, jak to zrobić. Wypróbowałem to w kilku rzeczach (rutyna fitness, zbliżająca się wielka premiera) i jest to naprawdę bardzo pomocne.
  • Zanurzyć się głęboko w dowolnym temacie. Chcesz się czegoś o czymś dowiedzieć? To strzał w dziesiątkę! Nie substytut nauczania przez ludzi, ale niezwykłe rozszerzenie. Kiedy jestem czymś zafascynowany, ostatnio sięgam po Think Deeper. Ostatnio: historia Indii, co dzieje się z prądami oceanicznymi.

Praktyczne zastosowania są po prostu nieskończone. Jestem szczerze podekscytowany, że nasze dziesiątki milionów użytkowników mają tę możliwość. Mamy jeszcze tak wiele w harmonogramie, że nie mogę się doczekać, by Wam o tym powiedzieć. Ale w międzyczasie życie jest pełne chaosu i złożonych problemów. Pozwól Think Deeper wziąć na siebie część tego psychicznego obciążenia! — Mustafa Suleyman, CEO Microsoft AI

OpenAI o3-mini dostępny w Microsoft Azure i GitHub Copilot

OpenAI wypuściło o3-mini. To najnowsza wersja przystępnego modelu sztucznej inteligencji, który dorównuje wydajnością modelowi OpenAI o1 w matematyce, kodowaniu i naukach ścisłych (STEM) z zachowaniem niskiego kosztu i zmniejszonej latencji o1-mini. Od pierwszego dnia model jest dostępny w ChatGPT (płatne subskrypcje), poprzez API, a także w Microsoft Copilot Chat, GitHub Copilot i GitHub Models. Sprawdźmy szczegóły.

OpenAI o3-mini to pierwszy model wnioskowania firmy, który obsługuje wyczekiwane przez deweloperów funkcje, takie jak wywoływanie funkcji, Structured Outputs i wiadomości dewelopera. Podobnie jak o1-mini i o1-preview, o3-mini będzie obsługiwał streaming. Deweloperzy mogą wybierać pomiędzy 3 opcjami wnioskowania – niską, średnią i wysoką – aby zoptymalizować model dla różnych przypadków użycia. Ta elastyczność pozwala o3-mini „myśleć ciężej” przy złożonych wyzwaniach albo priorytetyzować szybkość, gdy latencja stanowi problem. Wydawca zaznacza, że o3-mini nie ma umiejętności przetwarzania obrazów (computer vision), dlatego do tych zadań deweloperzy powinni wykorzystywać raczej o1.

Nowy model jest również dostępny w produktach Microsoftu. Jak czytamy na blogu AI + machine learning:

Z przyjemnością ogłaszamy, że OpenAI o3-mini jest teraz dostępny w Microsoft Azure OpenAI Service. o3-mini dodaje znaczące oszczędności kosztów w porównaniu z o1-mini wraz z rozwiniętym wnioskowaniem, nowymi funkcjami takimi jak kontrola wysiłku wnioskowania oraz narzędziami, zapewniając przy tym porównywalną lub lepszą responsywność.

Zaawansowane możliwości o3-mini w połączeniu z jego wzrostami wydajności sprawiają, że jest to potężne narzędzie dla deweloperów i przedsiębiorstw, które chcą zoptymalizować swoje aplikacje AI.

Dzięki szybszemu działaniu i niższej latencji o3-mini jest zaprojektowany, aby sprostać złożonym obciążeniom wnioskowania przy zachowaniu wydajności.

— Yina Arenas, Vice President of Product, Core AI, Microsoft

GPT-4o lepszy w rozumieniu obrazów i zadaniach STEM

OpenAI poinformowało o wprowadzeniu ulepszeń do GPT-4o, swojego modelu AI, który napędza m.in. ChatGPT. Zyskał on bardziej aktualną wiedzę, głębsze zrozumienie i umiejętność analizowania obrazów, lepsze wyniki w STEM, a także… zwiększone użycie emoji. Szczegóły poniżej.

Bardziej aktualna wiedza

ChatGPT-4o nie jest już ograniczony pod względem wiedzy do wydarzeń sprzed listopada 2023. Teraz granicę stanowi czerwiec 2024, dzięki czemu model może oferować bardziej adekwatne, aktualne i kontekstowo poprawne odpowiedzi, zwłaszcza na pytania dotyczące kulturowych i społecznych trendów. Świeższe dane treningowe ułatwiają też modelowi ubieranie w ramy jego odpowiedzi z Internetu.

Głębsze zrozumienie i analiza przesłanych obrazów

GPT-4o jest teraz lepszy w rozumieniu i odpowiadaniu na pytania dotyczące obrazów (wprowadzanych jako dane wejściowe), wliczając w to lepsze wyniki w multimodalnych benchmarkach MMMU i MathVista. Model lepiej radzi sobie z interpretacją zależności przestrzennych na obrazach, analizowaniem złożonych wykresów czy schematów, a także z łączeniem danych wizualnych z zawartością tekstową. Odpowiedzi na przesłane obrazy będą zawierały bogatsze wglądy i dokładniejsze wskazówki w obszarach, takich jak planowanie przestrzenne i projektowanie layoutów, a także rozwiązywanie problemów matematycznych lub technicznych opartych na wizualizacji.

Większe umiejętności w zakresie STEM

ChatGPT radzi sobie teraz lepiej z problemami matematycznymi, naukowymi i programistycznymi. Model osiągnął lepsze oceny w benchmarkach akademickich, takich jak GPQA i MATH, a także MMLU – wszechstronnym benchmarku sprawdzającym umiejętności językowe, rozpiętość wiedzy i wnioskowanie. To oznacza, że może teraz podołać bardziej złożonym problemom z tych domen.

Zwiększone użycie emoji

GPT-4o jest teraz bardziej entuzjastyczny w wykorzystaniu emoji i będzie stosował je częściej!