fine tuning Marbert for Tunisian dialect, ask for the tokenizer

Asked Nov 17 '24 at 18:12

Active Nov 17 '24 at 18:12

Viewed 24 times

i have test the tokenizer :

text example: "bravo slim riahii hay la3bed li tkhdem fi bladha"

tokenizer: ['[CLS]',

'bra',

'##vo',

'sl',

'##im',

'r',

'##iah',

'##ii',

'hay',

'la',

'##3',

'##be',

'##d',

'li',

't',

'##kh',

'##de',

'##m',

'fi',

'bl',

'##adh',

'##a',

'[SEP]',

'[PAD]',

'[PAD]']

can any one tell me if i can use this tokenizer or i must make my own ?

asked Nov 17 '24 at 18:12

Flissi Hamed

0 Answers0