You are viewing a single comment's thread from:

RE: @pomocnik - bot reagujący na spam w komentarzach

in #polish6 years ago

Przez chwilę się zastanawiałem czy byłby sens rozdzielać zbiory dokumentów ze wzorcami na przykład na główny zbiór oraz zbiory językowe włączające się dla konkretnych tagów (np. polski dla #polish i #pl-.*) ale to chyba nie ma sensu bo nie widziałem jeszcze (jeszcze!) spamu po polsku.

Chyba, że w innych językach jest inaczej?

Sort:  

Teraz połowa zbioru treningowego, dla wiadomości które nie są spamem jest po polsku, a połowa po angielsku. Spamowe są tylko po angielsku, ale nic nie stoi na przeszkodzie, żeby dodać też jakieś polskie.
I to są dane przeznaczone dla tagu #polish (= zoptymalizowane pod ten tag)
Jakby ktoś chciał to uruchomić np na tagu #deutsch albo globalnie na całym steemie to dane trzeba oczywiście dopasować.

Coin Marketplace

STEEM 0.36
TRX 0.12
JST 0.039
BTC 69965.85
ETH 3540.49
USDT 1.00
SBD 4.71