Zespół naukowców z Korei Południowej przeszukał sieć Tor w celu zebrania danych do trenowania dużych modeli językowych. Co niezwykłe, dane pochodziły wyłącznie z ciemnej sieci, potencjalnie umożliwiając hakerom, cyberprzestępcom, oszustom, prześladowcom politycznym i innym osobom zachowanie anonimowości. Dane mogły zostać wykorzystane do nieprzejrzystej działalności lub komunikacji w represyjnym reżimie.



Stworzony za jego pomocą model DarkBERT powinien dorównywać lub nieco przewyższać inne duże modele językowe o tym samym typie architektury (BERT i RoBERTa) pod względem swoich możliwości. Wyłoniło się to z pierwszej serii testów, jak donosi zespół we wstępnym raporcie badawczym na stronie arXiv.org. Lepiej nie powierzać mu kodu atomowego czy informacji poufnych w ogóle – ale to samo dotyczy generalnie generatywnych systemów AI.


Dark Web mówi inaczej niż Clear Web

Rzut oka na fakty: twórcy Dunkelberta twierdzą, że nie mają zamiaru przejmować dominacji nad światem ani wlewać treści z ukrytego Internetu do widocznego obszaru Internetu (Clear Web), choć dają swojemu dziełu mroczną nutę, nazywając je chybionymi . Za pomocą DarkBERT chcą zbadać zalety i wady modelu specyficznego dla domeny dla głębokiej sieci w różnych przypadkach użycia.


DarkBERT ma na celu wniesienie światła do Darknet

Celem badań jest dalszy rozwój języka Darknetu, zgodnie ze wstępną częścią raportu. Modele językowe zaprojektowane specjalnie dla Dark Web mogą „dostarczać cennych informacji”. Południowokoreański zespół uważa, że ​​odpowiednia reprezentacja ciemnej sieci w dużym modelu językowym jest ważna dla ujarzmienia różnorodności leksykalnej i strukturalnej, która wydaje się odróżniać tę przestrzeń od widocznej sfery czystej sieci. Według naukowców nadrzędnym celem są badania nad bezpieczeństwem i stworzenie modelu AI z kontekstowym zrozumieniem dla domeny Darknet.


Początkowe pytanie projektu dotyczyło tego, czy ukierunkowane szkolenie na danych z Darknetu zapewnia LLM lepsze zrozumienie kontekstu dla języka tej domeny niż szkolenie na danych z ogólnodostępnego „bliskopowierzchniowego” Internetu. Aby zebrać dane, zespół połączył model językowy z ciemną siecią za pośrednictwem Tora i zebrał surowe dane za pomocą indeksowania, które wykorzystali do stworzenia modelu w drugim etapie. Naukowcy porównali następnie nowy model z istniejącymi modelami AI typu BERT (Bidirectional Encoder Representations from Transformers) opracowanymi przez Google i jego ulepszoną architekturą RoBERTa (Robustly Optimized BERT Pre-training Approach).


Grupa docelowa: Agencje zajmujące się cyberbezpieczeństwem i organy ścigania

Zgodnie z oczekiwaniami DarkBERT przewyższył tę dwójkę w testach ciemnej sieci pod względem znajomości domeny – przynajmniej nieznacznie. BERT, choć obecnie uważany za nieco przestarzały w obliczu potężnych modeli transformatorów typu GPT, został udostępniony jako open source przez Google, a badania nadal wykorzystują typ modelu do badań replikacji. DarkBERT to wytrenowany RoBERTa, jak widać z preprintu, do którego w ciągu dwóch tygodni wprowadzono dwa zestawy danych: raz przeszukane surowe dane, a drugi raz przygotowany (wstępnie przetworzony) zestaw danych.


Grupą docelową nie są cyberprzestępcy, ale organy ścigania, które przeszukują ciemną sieć w celu zwalczania cyberprzestępczości. Zgodnie z przedrukiem najczęstszymi tematami w ciemnej sieci są oszustwa i kradzież danych, a ciemna sieć jest również wykorzystywana do anonimowych rozmów przestępczości zorganizowanej. Interesujące w tym podejściu jest to, że ciemna lub głęboka sieć to obszar Internetu, który ukrywają wyszukiwarki takie jak Google i w którym większość ludzi nie szaleje (lub nie bawi się), ponieważ do tego potrzebne jest specjalne oprogramowanie .


Anonimowość jest ważna także dla dziennikarzy i członków opozycji

Zasadniczo anonimowe surfowanie po sieci byłoby interesujące dla wszystkich osób, które dbają o swoją prywatność i nie chcą wlewać swoich danych do puli dużych firm technologicznych, które ze zbierania danych lub kierowania reklam spersonalizowanych uczyniły model biznesowy (jak Google ). Dziennikarze, członkowie opozycji i osoby prześladowane politycznie również korzystają z Darknetu, na przykład w celu uzyskania dostępu do treści zablokowanych i ocenzurowanych w regionie. Przeglądarka Tor jest początkowo niczym więcej niż siecią nakładkową do anonimizacji danych połączenia, jej logo i akronim oznaczają zasadę cebuli (po zapisaniu akronim to „The Onion Router”). Tor chroni swoich użytkowników przed analizowaniem ruchu danych, na przykład podczas przeglądania, czatowania i wysyłania wiadomości e-mail.


Każdy, kto uważa dostępne modele za zbyt miękkie i empatyczne ze względu na trening wzmacniający z ludzkim sprzężeniem zwrotnym (RLHF), może być zadowolony z DarkBERT – lub byłby ostatecznie rozczarowany, gdyby „ciemny” wariant obalił mity na temat natury Darknetu i wynik okazuje się bardziej trywialny niż oczekiwano. Internet powierzchniowy też nie słynie z estetyki. DarkBERT nie jest ogólnodostępny i nie ma planów publicznego udostępnienia modelu, zgodnie z preprintem arXiv.


Brak planowanej publikacji

Podobne podejścia mogą być interesujące dla organów ds. bezpieczeństwa cybernetycznego, pod warunkiem że są połączone z wyszukiwaniem w czasie rzeczywistym, na przykład w celu monitorowania odpowiednich forów lub działań niezgodnych z prawem. Należy mieć nadzieję, że takie podejście nie padnie ofiarą ostatnich chronionych obszarów Internetu, w których inwigilacja i cenzura nie weszły jeszcze w życie.


Nie wiadomo, czy funkcjonariusze organów ścigania uzyskają dostęp, ale wnioski dotyczące badań naukowych będą akceptowane. Jeśli wziąć pod uwagę, że LLaMA została również udostępniona w tej formie przez Meta AI / FAIR (Facebook AI Research) i szybko wyciekła, można sobie wyobrazić, że DarkBERT może nieoficjalnie krążyć w dającej się przewidzieć przyszłości – na przykład w Darknecie.