Walki robotów: Bard contra ChatGPT. Wynik pierwszej rundy

staniszewskim
15 lip 2023
6 minut(y) czytania

Pierwsze wrażenia po testowaniu Barda?

Mocno mieszane.

W porównaniu do ChatGPT narzędzie Google wydaje się na pierwszy rzut oka ograniczone i nieporadne. I mam tu na myśli nie tylko tzw. halucynacje, które dla każdego LLM (Large Language Model) są w zasadzie kwestią naturalną, ale ogólną sprawność modelu w obsługiwaniu monitów.

Zanim jednak postawimy na nim krzyżyk, proponuję wziąć głęboki oddech i przyjrzeć się chwilę tej maszynce uważnie.

Kilka atutów, którymi może się pochwalić Bard

Zacznijmy od tego, co po prostu widać. Cały interface Barda jest moim zdaniem bardzo dobrze zaprojektowany – lekki, intuicyjny w obsłudze i minimalistyczny – jednym słowem bardzo googlowy w swojej estetyce. W rozmieszczeniu najważniejszych elementów i sposobie obsługi (np. układ ścieżek konwersacji, sposób zarządzania nimi) łudząco też przypomina ChatGPT.

Istotną jednak różnicę stanowią znaczące detale. Bard już na wejściu posiada „mikrofon” a także funkcję text to speech (Listen), można go więc promptować poprzez dyktowanie i odsłuchiwać odpowiedzi bota bez instalowania żadnych dodatkowych pluginów, jak ma to miejsce w przypadku ChatGPT.

Największa przewaga Barda nad narzędziem Open AI to jednak dostęp do internetu - jego dane treningowe były na bieżąco aktualizowane. ChatGPT (w wersji bezpłatnej) jest pod tym względem ułomny, ponieważ jego dane treningowe kończą się na wrześniu 2021. Bard z kolei może dostarczać dokładnych i aktualnych informacji na temat aktualnych wydarzeń i najnowszych trendów.

To, co jest moim zdaniem znakomitym rozwiązaniem Barda, którego brakuje w ChatGPT, to podgląd alternatywnych danych wyjściowych. Po kliknięciu: Draft1, Draft2, Draft 3 można od razu przejrzeć możliwe odpowiedzi bota i wybrać tą, która najbardziej nam odpowiada. Nie ma więc konieczności ciągłej zabawy w „Regenerate”. Bard umożliwia też opcję zmiany długości oraz stylu wypowiedzi na wyjściu (np. More casual, More Professional).

Kolejna przewaga Barda to rozpoznawanie obiektów i tekstu na zdjęciach. Plik JPEG, PING lub WebP można załączyć bezpośrednio w tym samym oknie chatu, gdzie wpisujemy prompt. Detekcja i klasyfikacja dokonywane są z dużą trafnością (na razie nie dotyczy to postaci ludzkich). ChatGPT także w wersji GPT-4 nawet po załączaniu plików poprzez Code Interpreter zupełnie nie radzi sobie z takim zadaniem.

Warto tu zaznaczyć, że wykorzystywanie obrazu w promptach Barda jest na razie możliwe wyłącznie przy komendach anglojęzycznych. Jeśli chcecie korzystać z tej funkcji to należy zmienić język w ustawieniach konta Google (Personal info).

Twórcy Barda włożyli też sporo wysiłku w zabezpieczenie bota przed prompt hackingiem. Zmuszenie bota do przewidywania przyszłości, przeklinania czy wykonywania innych poleceń, które nie są zgodne z narzuconym kodeksem norm okazuje się tu dużo trudniejsze. Prompty DAN (Do Anything Now) i różne sztuczki jailbracking’owe, którymi można choćby częściowo obejść filtry w ChatGPT na Bardzie nie robią większego wrażenia. Uparcie wtedy odmawia odpowiedzi nie zamierzając uczestniczyć w zabawach w rodzaju „Developer Mode”.

Kilka niedociągnięć, których Bard powinien się wstydzić

Niewątpliwie największym minusem Barda jest ogólna sprawność modelu. Już przy ocenie pierwszych odpowiedzi widać, że model wciąż jest w procesie uczenia się i musi nadrobić jeszcze wiele zaległości w stosunku do ChatGPT. Pomóc w tym może na pewno szybko zwiększająca się liczba użytkowników. Bard może się już pochwalić liczącą niemal 111 mln liczbą korzystających jednak rozwiązanie Open AI wybierane jest dziś 16 razy częściej niż narzędzie Google (1.73 mld użytkowników).

Źródło: The Neuron, Standard Intelligentsia, LLC

Pod względem wnikliwości, wnioskowania czy kreatywności ChatGPT jest zdecydowanie lepszy. I wynika to prawdopodobnie nie tylko z materiałów treningowych i sposobów uczenia modeli, ale przede wszystkim z ich różnych mocy obliczeniowych. Rozmiar modelu Barda to 137 mld parametrów podczas gdy ChatGPT (3,5) to model zawierający 175 mld parametrów. Tak na marginesie warto zauważyć, że i tak obu tym modelom trudno pod względem wielkości konkurować z chińskim Wu Dao 2.0. Ten LLM stworzony przez Beijing Academy of Artificial Intelligence (BAAI) posiada 1,75 biliona parametrów – jest zatem 10 razy większy niż ChatGPT.

Różnicą są również same modele. Bard jest oparty na stworzonym przez Google modelu PaLM 2 (a w zasadzie LaMDA), podczas gdy ChatGPT (wersja bezpłatna) działa na bazie GPT-3.5-turbo. Trzeba jednak pamiętać, że GPT to: Generative Pre-Trained Transformer, a to właśnie Google jako pierwszy (bo już w 2017 roku) opracował transformer - nowatorską architekturę sieci neuronowej. I właśnie to rozwiązanie to jest podstawą działania zarówno ChatGPT, jak i innych LLM. Trudno więc dziś powiedzieć który model finalnie okaże się lepszy, ponieważ można założyć, że badacze i inżynierowie Google AI dokładają dziś najpewniej wielu starań w ulepszaniu architektury i mocy obliczeniowych rozwijanych narzędzi. Bard to przecież jedynie czubek góry lodowej – całej rodziny rozwiązań AI i uczenia maszynowego, nad którymi pracuje Google.

Świat widziany oczami Barda...

Możliwości Barda to więc na razie spora zagadka. Konkurencyjne GPT-3 i GPT-3.5 zostały przeszkolone na liczbie danych wynoszącej ok 300-400 mld tokenów (token – najmniejsza jednostka analizowanego tekstu, zazwyczaj słowo lub znak interpunkcyjny). Googlowa LaMDA trenowana była z kolei na 1,56 bln tokenów. Bard pracuje na okrojonej” wersji LaMDA. Jeśli jednak Google wyposaży go w wersję full-wypas to może się okazać, że Bard zacznie wyprzedzać ChatGPT pod względem sprawności.

Wracając zaś do teraźniejszości i wciąż nieco ułomnych i drewnianych odpowiedzi Barda warto od razu wspomnieć o kolejnej wadzie, jaką jest szybkie gubienie kontekstu, które można by określić jako słabą zdolność do zapamiętywania informacji z prowadzonych wcześniej konwersacji. Bard gubi przez to płynność i naturalność „autentycznie ludzkiej rozmowy”, którą w dużej mierze opanował ChatGPT.

Po powrocie do danego wątku model dosyć szybko „zapomina” o czym gaworzył, i po krótkim nawet czasie po pytaniu „O czym wcześniej rozmawialiśmy?” udziela odpowiedzi w rodzaju: „Przepraszam, ale nie pamiętam naszej wcześniejszej rozmowy”. ChatGPT w dużej mierze opanował już problem Alzheimera sieci neuronowych (choć i tu jest oczywiście ograniczenie – obecnie do ok. 3000 słów). Jak tłumaczą twórcy Google zdolność do utrzymywania kontekstu w przypadku Barda jest obecnie celowo ograniczone, ponieważ model wciąż się uczy. Mam jednak wrażenie, że to raczej usprawiedliwianie niedoskonałości, a nie celowy zabieg.

Kolejna słabość Barda w porównaniu do ChatGPT to limit liczby tokenów które model może przyjąć na wejściu. Nie znalazłem co prawda oficjalnej informacji na ten temat, ale z wypowiedzi użytkowników wynikałoby, że Bard przyjmuje jedynie 1000 tokenów. Wersja darmowa ChatGPT to zaś 4096 tokenów. Różnica jest więc spora.

Inna wada Barda (tym razem w porównaniu do wersji płatnej ChatGPT) to brak wtyczek od zewnętrznych dostawców. Zakładam, że w niedługim czasie pluginy takie będą dostępne jednak obecnie ChatGPT4 ma tu ogromną przewagę. Możliwość dokonywania zaawansowanych obliczeń przy pomoc silnika Wolfram, generowanie wykresów dzięki Show Me Diagrams czy tworzenie pełnych promptów do Midjourney za pomocą Photorealistic to tylko wybrane z mnożących się jak króliki możliwości ChatGPT.

Ostatnią ułomnością Barda jest brak dostępu do API. Open AI otwiera pod tym względem wiele możliwości dla programistów. Zwykłemu zaś użytkownikowi oferuje dostęp do testowania różnych modeli (teraz również najnowszego GPT-4-0613), eksperymentowania ze współczynnikiem temperatury i Top P, regulowania długościi wyjścia czy karanie za częstość lub różnorodność generowanego tekstu.

I co z tego może wyniknąć?

Który model wygra zatem konkurs piękności i stanie się w przyszłości LLM-em pierwszego wyboru dla większości użytkowników?

Rzecz jasna ten, który zdobędzie ich więcej.

I w tym przypadku może się okazać, że Google szybko pokona ChatGPT ze względu na prosty efekt skali. I mam wrażenie, że nawet promowany przez Microsfot Bing Chat (korzystający z GPT-4) nie będzie w tym pojedynku większą przeszkodą.

W bitwie tej może jeszcze namieszać Meta – Zuckerberg ponoć inwestuje w rozwój i upowszechnianie LLaMA V2 – modelu, który generuje język, kod i obrazy. Zbyt mało jest jednak na razie informacji na temat tego projektu. Podobnie jak wielką niewiadomą są obecne ruchy Elona Muska związane z budową własnego LLM trenowanego na danych pochodzących z twittera.

Alphabet już dawno wypracował sprawdzony model biznesowy, który polega na darmowym rozdawnictwie, które następnie obdarowanych zamienia w dochodowy target reklamowy. Bard jest na razie „eksperymentem”, jak podkreślają twórcy i zakładam, że to właśnie zbieranie doświadczeń użytkowników i ich reakcji jest obecnie głównym celem Google, a samo narzędzie to po prostu hipoteza na temat możliwych zastosowań LLM w szerokim portfolio usług dostarczanych przez firmę.

Nie zdziwiłbym się zatem gdyby w przyszłości Bard skończył podobnie jak Google+, Google Wave, Google Buzz i inne artefakty z cmentarzyska porzuconych projektów. Być może Bard po fazie masowego testowania zostanie zlikwidowany i zastąpiony jeszcze lepszym modelem – np. kolejną iteracją LaMDA, ale nie jako odrębny produkt, a po prostu część środowiska Googla?

I właśnie ten aspekt wydaje mi się dziś największym atutem Barda – możliwość docelowej, płynnej integracji generatywnej AI z megapopularnymi i powszechnie wykorzystywanymi narzędziami Google: wyszukiwarką, pocztą, mapami, youtubem, komunikatorem, dyskiem, dokumentami, formularzami itp. itd. I takie tendencje widoczne są już teraz w udostępnionej wersji Barda – odpowiedź udzielaną przez bota można bezpośrednio umieścić w e-mailu (świetna opcja: Draft in Gmail przy funkcji: Share and Export) oraz w Google Docs (Export to Docs) – choć ta druga funkcja na razie mocno kuleje.

Po początkowej fascynacji możliwościami LLM-ów staną się one nudną częścią rzeczywistości a rozwijać się będą oparte na nich coraz bardziej specjalistyczne narzędzia. Prawdopodobnie, jak zawsze przy rozwiązaniach technologicznych pogłębiać się będzie dywergencja – użytkownicy szukają przede wszystkim konkretnych rozwiązań specyficznych problemów, a nie szwajcarskiego scyzoryka, który niby jest uniwersalny i służy do wszystkiego, ale realnie nie nadaje się do niczego poważnego. LLM-y więc pewnie będą się coraz bardziej „rozmazywać” i integrować z najbardziej popularnymi narzędziami o specyficznych funkcjach i wchodzić we wszystkie obszary, w których jest miejsce dla inteligentnego asystenta pomagającego wykonać określone zadanie.