Czasy, kiedy z czatbotem można było się dogadać tylko po angielsku, to już zamierzchła przeszłość. Dziś wszystkie czołowe produkty znają język polski i potrafią zaskoczyć zrozumieniem mowy potocznej czy niuansów językowych, ale mimo to nie posługują się nim tak biegle, jak angielskim. Microsoft zamierza to zmienić. W ramach swoich zobowiązań wobec klientów z Europy gigant zamierza wesprzeć lokalne inicjatywy i rozszerzyć dostępność treści wielojęzycznych dotyczących sztucznej inteligencji. Jakie projekty są realizowane?
Cały świat mówi po angielsku? To mit
W tym roku Microsoft potwierdził i rozszerzył swoje zobowiązania wobec klientów z Europy w ramach tzw. European Digital Commitments. Chodzi nie tylko o wzmacnianie cyberbezpieczeństwa naszego regionu, ale również o „budowę szerszego ekosystemu AI i chmury w Europie”. Oznacza to m.in. mocniejsze skupienie się na językach europejskich, których na naszym kontynencie jest ponad 200, z czego 24 to oficjalne języki używane w Unii Europejskiej.

Gigant zauważył, że w Internecie występuje niedoreprezentacja języków europejskich innych niż angielski – zjawisko określane jako language gap. W owych 24 językach zapisane jest tylko 0,6% treści w sieci. I chociaż jedynie dla 5% światowej populacji angielski jest pierwszym językiem, to zdominował on nie tylko Internet, ale także modele sztucznej inteligencji, która jest trenowana przede wszystkim na danych w tym języku.
Ma to swoje źródła w historii informatyki. Oprogramowanie i dokumentacja praktycznie od początku tworzone były niemal na całym świecie we współczesnym ligua franca, czyli po angielsku. Choć wiele osób skłoniło to do nauki angielskiego, a nawet tworzenia amatorskich tłumaczeń, to dla wielu odbiorców stanowiło i nadal stanowi barierę nie do pokonania.
Sztuczna inteligencja po polsku, ale z ograniczeniami. Microsoft chce to zmienić
Według Microsoftu brak dobrego zrozumienia i posiadania danych w językach innych niż angielski przez modele AI niesie realne konsekwencje ekonomiczne.
Kiedy systemy AI nie mogą zrozumieć ani odpowiadać w języku danego regionu, ograniczają one dostęp do usług i możliwości, osłabiając zarówno lokalne firmy, jak i szerszy wzrost gospodarczy. Szersze rozproszenie AI – adaptacja i wykorzystanie w gospodarkach – będzie jednym z najważniejszych czynników wzrostu innowacji i produktywności w następnej dekadzie. Podobnie jak elektryczność i inne technologie ogólnego zastosowania w przeszłości, AI reprezentuje następny etap industrializacji.
W przypadku społeczności, których języki są niedoreprezentowane online, korzyści płynące ze sztucznej inteligencji mogą pozostać poza ich zasięgiem. Wyobraźmy sobie właściciela firmy na Malcie, który mówi tylko po maltańsku. Obecnie zaawansowane narzędzia AI do zadań, takich jak analiza rynku albo generowanie treści, nie działają po maltańsku, ograniczając to, jak przedsiębiorca może wykorzystać AI.
Albo pomyślmy o uczniu mówiącym po polsku z miasta spoza Warszawy, który nie może znaleźć materiałów edukacyjnych o AI w swoim języku, co potencjalnie wpływa na jego możliwości nauki. I nawet kiedy platforma AI wspiera dany język, to jakość doświadczenia może być niezadowalająca.
Europejskie rządy i instytucje dostrzegły, jak ważne jest zaadresowanie tej sytuacji. Aby napędzać konkurencyjność gospodarczą w erze AI, Europa będzie musiała przełamać bariery językowe i pobudzić upowszechnienie sztucznej inteligencji na całym kontynencie. Według Komisji Europejskiej jedynie 13,5% firmy w UE korzysta z AI. Plan działania na rzecz sztucznej inteligencji na całym kontynencie (The AI Continent Action Plan) odnotowuje, że przełamanie barier językowych na pojedynczym rynku mogłoby zwiększyć handel wewnątrzunijny nawet o 360 mld euro.
— Brad Smith, Vice Chair & President w Microsoft
Co robi Microsoft, aby zmniejszyć dysproporcję językową w AI?
Aby zniwelować tę językową dysproporcję w narzędziach sztucznej inteligencji i zasobach edukacyjnych na temat AI, Microsoft będzie współpracował z europejskimi partnerami. Chodzi tu m.in. o ICube Laboratory na Uniwersytecie w Strasburgu oraz IE University School of Science & Technology w Madrycie. Microsoft zapowiedział, że jego zespoły, w tym AI for Good Lab, GitHub oraz Microsoft Open Innovation Center (MOIC):
- Będą pracować nad zwiększeniem dostępności wielojęzycznych danych do trenowania modeli LLM.
- Udostępnią wewnętrzne zasoby Microsoftu, w tym dane tekstowe z GitHub i zestawów danych głosowych, dla odbiorców z Europy, w tym dla twórców oprogramowania Open Source.
- We współpracy z Hugging Face będą hostować i udostępniać dane.
- Udostępniły niedawno wielojęzyczny model SmoILM3 obsługujący języki angielski, francuski, hiszpański, niemiecki, włoski i portugalski.
- Będą wspierać finansowo Common Crawl, jedno z największych darmowych repozytoriów danych z sieci, tak aby europejscy native speakerzy mogli uzupełniać dane językowe w publicznym zbiorze danych tej platformy.
- Przekażą granty badaczom oraz dotacje w celu zwiększenia zasobów cyfrowych dla 10 języków europejskich o niskiej reprezentacji w internecie, takich jak estoński, alzacki, słowacki, grecki i maltański.
- Poprawią przetwarzanie cyrylicy, alfabetu greckiego, pisma arabskiego etc., które często sprawiają problemy modelom sztucznej inteligencji.
- Będą rozwijać lepsze mechanizmy do generowania, przetwarzania i selekcjonowania danych syntetycznych.
- Będą oferować wsparcie dla ośrodków badawczych, takich jak Barcelona Supercomputing Center, Basque Center for Language Technology i Uniwersytet Santiago de Compostela, których inicjatywy mają na celu udostępnienie modeli AI trenowanych w językach hiszpańskim, katalońskim, baskijskim i galicyjskim na platformie Azure AI Foundry.
Źródło: Microsoft
Opracowanie: Krzysztof Sulikowski