Report for deepseek-ai/deepseek-coder-33b-base
Model Info:
Tied embeddings: False
LM head uses bias: False
Embeddings shape: [32256, 7168]
Tokenizer Info:
Vocab Size: 32022
Tokenizer Class: LlamaTokenizerFast
Tokenizer Type: BPE
Bytes handling: Byte Input
Token for verification prompt building: ArgumentException
Token id for verification prompt building: 28151
Indicator summary:
Indicator for under-trained tokens: E_{in} L2 Norm
Overall distribution: 3.660 +/- 1.221
Detected Token Counts:
Number of tested under-trained tokens: 631, 628 non-special, 108 below p = 0.01 threshold, 70 below soft indicator threshold
Number of single byte tokens: 256, of which 0 below indicator threshold
Number of special tokens: 53, of which 53 below indicator threshold
Number of non-single-byte unreachable tokens: 53, of which 53 below indicator threshold
Number of non-single-byte UTF-fragment tokens: 327, of which 0 below soft indicator threshold
Under-trained token indicators plot
Under-trained token verification results
70 entries below threshold of 0.724
token_id
token
indicator
max_prob
in_other_tokens
6968
\xa0anys
0.503183
3.8e-07
24847
\xa0milions
0.509945
2.1e-07
9232
\xa0persones
0.527892
4.7e-08
31142
▁desocupats
0.52957
2e-08
28453
Polítics
0.531442
1.9e-07
26287
automòbils
0.533945
3e-07
30088
▁capbaix
0.537156
1.6e-07
30188
▁unipersonals
0.539675
2.6e-06
17744
Родени
0.547032
5.7e-07
26042
▁херцо
0.549482
6.1e-08
▁херцог
30963
▁solteres
0.554075
1.9e-06
30168
Piràmide
0.568648
1.5e-07
29906
▁херцог
0.570143
1.4e-07
28726
▁disposaven
0.572149
3.9e-06
29471
Naixements
0.572227
1.7e-05
26851
▁agrícoles
0.574596
6.1e-07
29542
▁corresponia
0.580997
1.1e-08
16651
\xa0aC
0.581797
2.1e-07
30103
▁llogaters
0.584133
1.4e-05
29856
▁pàrqu
0.586816
4.1e-08
▁pàrquing
50 additional entries below threshold
token_id
token
indicator
max_prob
in_other_tokens
8790
\xa0habitants
0.599214
1.7e-07
15510
▁Olímpics
0.605718
7.3e-06
30427
▁jubilades
0.608062
2.9e-05
18064
àmide
0.612484
2.8e-05
Piràmide
, ▁piràmide
22551
▁contemporanis
0.616108
4.8e-05
29894
▁residències
0.618363
2.9e-05
29976
▁censats
0.621773
0.068
24735
▁alemanys
0.622736
0.0002
25186
òrnia
0.625991
2.4e-05
▁Califòrnia
29115
▁príncep
0.626678
4.5e-07
10708
ogrà
0.627548
3.9e-06
▁geogràfica
, ogràfic
, ogràfica
, ogràf
25055
Esportistes
0.628171
0.0011
29013
▁automòbil
0.629375
8.2e-07
30090
▁britànics
0.634724
4.9e-07
14837
Futbolistes
0.635706
0.00022
27783
▁Califòrnia
0.638095
4.9e-06
25037
àbitat
0.642786
5e-06
13039
lemanya
0.64283
0.0059
Alemanya
, ▁Alemanya
22969
Починали
0.645541
0.00074
31793
glésies
0.651159
2.7e-06
15366
unidenc
0.653983
3.1e-05
▁estatunidencs
, ▁estatunidenc
30659
▁repartia
0.656056
1.4e-07
26261
Разпространение
0.659405
1e-05
31975
▁Canadà
0.660188
3.6e-05
30507
▁llogats
0.661058
4.8e-05
30401
▁britànic
0.661628
4.4e-07
15850
▁estatunidenc
0.663608
2.2e-07
▁estatunidencs
21952
▁francesos
0.663708
3.4e-05
30461
▁explotacions
0.663847
0.021
30828
▁aturades
0.665324
2e-06
19342
▁façana
0.667547
0.00071
21788
Escriptors
0.67077
0.036
29278
▁detallades
0.671464
1.7e-08
31273
Acadèmia
0.676665
2.2e-07
29121
▁segones
0.679905
1.9e-07
22061
adèmia
0.682464
0.02
Acadèmia
29921
▁Anglaterra
0.6844
1.1e-07
28243
▁espanyols
0.685977
0.0021
30041
quitectònic
0.69054
4.9e-05
6433
мври
0.691087
0.0026
▁октомври
, ември
, ктомври
, ▁декември
, кември
, ...
16297
\xa0metres
0.694776
0.033
21558
ànics
0.696152
0.00033
▁britànics
31564
▁mascles
0.70156
4.2e-05
9805
▁espèc
0.703921
4.2e-07
▁espècie
, ▁espècies
30030
▁inactius
0.705957
0.024
28335
▁омъ
0.707027
0.00047
25714
▁italià
0.713196
0.031
29895
▁pàrquing
0.716446
0.00014
27335
▁influència
0.718459
1.3e-07
26672
▁estatunidencs
0.720075
0.0017
558 additional entries above threshold
token_id
token
indicator
max_prob
in_other_tokens
24160
íncep
0.723528
0.00033
▁príncep
28639
▁allClassesLink
0.727283
0.44
16772
església
0.728486
0.0011
30264
òlegs
0.729631
0.0089
17441
▁nomenat
0.729933
0.00037
30644
▁Grècia
0.730249
8.4e-05
28612
▁evolucionat
0.738137
0.0078
27425
▁victòria
0.739517
0.016
18313
▁селото
0.741411
2e-07
28777
aixements
0.742389
0.022
Naixements
12674
èrcit
0.743299
0.031
exèrcit
24834
▁econòmiques
0.747341
0.038
27830
▁църква
0.749044
1.6e-05
28545
▁militars
0.749846
0.87
25060
щайн
0.75085
0.029
20993
▁Mèxic
0.752339
0.0017
19319
exèrcit
0.754693
3.4e-05
25301
▁comtat
0.757928
4.8e-05
25412
Itàlia
0.758529
0.66
18656
▁дъщеря
0.75952
0.00077
10723
▁препратки
0.759559
0.017
29322
Habitatges
0.760315
0.015
10187
glésia
0.760714
0.0061
església
, Església
28065
ловди
0.766125
0.03
ловдив
30879
▁общината
0.768708
0.0088
27661
▁actriu
0.771121
0.018
21864
▁Alemanya
0.771155
0.066
30610
▁nombrosos
0.772582
9e-05
9714
▁espany
0.775009
0.021
▁espanyola
, ▁espanyol
, ▁espanyols
18367
▁ocupats
0.775126
0.025
22583
▁Japó
0.776316
0.021
30265
ètics
0.778119
0.6
24686
▁Itàlia
0.778657
0.023
5569
lícul
0.779889
0.0021
lícules
, lícula
24289
▁classificades
0.781315
0.0066
14849
ítics
0.781816
0.39
Polítics
, ▁polítics
3123
Referències
0.783123
0.26
29602
▁polítics
0.784546
0.00055
7638
Източници
0.785845
0.55
23390
▁internacionals
0.793682
0.58
10742
Външни
0.793917
0.82
31788
▁monestir
0.79416
1.8e-05
19784
▁trasllad
0.795329
0.0022
▁traslladar
31561
▁reial
0.796322
4.2e-06
24091
▁llatí
0.797383
0.13
25466
талиан
0.798018
0.29
18616
▁establiments
0.801193
0.65
25926
▁Гърция
0.802642
0.0064
27512
▁fabricació
0.805011
0.0031
26307
▁geogràfica
0.805194
0.26
31347
▁malgrat
0.80569
0.81
22546
▁световна
0.808362
0.018
27652
ífics
0.809539
0.024
22079
▁bisbe
0.809842
0.0043
28410
▁aparèixer
0.810101
0.031
24441
▁Гър
0.81023
1e-05
▁Гърция
21608
ximadament
0.811935
0.0046
▁aproximadament
28044
ustràlia
0.812998
0.062
28805
▁ocupades
0.813157
0.00052
18097
▁Spacewatch
0.814843
0.25
18182
▁ноември
0.818944
0.2
28464
òmetres
0.821613
0.21
28167
▁piràmide
0.822302
0.021
16292
ècia
0.823027
0.2
▁Grècia
28636
▁traslladar
0.8253
0.13
28382
亿亿亿亿
0.825579
0.045
31361
onesos
0.828629
0.37
26323
▁населението
0.828637
0.76
18185
кември
0.830136
0.25
▁декември
19434
època
0.830504
2.6e-05
▁època
13574
ïsos
0.83259
0.0014
▁Països
, ▁països
11134
▁properes
0.832618
0.84
12123
▁dècada
0.833375
0.26
31434
▁inclosa
0.834003
0.15
26670
▁Congrés
0.83582
0.085
30009
ogràf
0.836106
0.061
19271
евру
0.83721
0.078
▁февруари
, евруари
28956
▁Tanmateix
0.839098
0.0036
22688
▁època
0.839102
0.0027
25978
▁reparació
0.839965
0.24
30050
▁importància
0.840806
0.49
16461
▁цър
0.842136
0.12
▁църква
7390
точници
0.845498
0.17
Източници
29300
▁tradició
0.850243
0.00061
21146
▁alemany
0.850571
0.96
▁alemanys
18311
▁germà
0.852569
0.1
18566
▁habitatge
0.855972
0.53
16553
▁econòm
0.86065
0.2
▁econòmiques
20430
▁espanyola
0.861114
0.039
10865
▁dèc
0.861432
4.9e-06
▁dècada
17273
ogràfica
0.863128
0.28
▁geogràfica
27099
▁segles
0.864287
0.038
17567
èmia
0.864365
0.091
Acadèmia
, adèmia
16901
Бележки
0.864725
0.95
31829
▁muntanyes
0.86496
0.35
17340
òleg
0.86734
0.018
òlegs
27573
▁pobresa
0.86857
0.28
27816
▁restauració
0.869494
0.58
17926
▁дъщер
0.870327
0.27
▁дъщеря
7642
▁habitatges
0.871729
0.00025
12998
Vegeu
0.872036
0.51
26783
òlica
0.87473
0.0026
29970
Amèrica
0.874822
0.32
31865
Aragó
0.876083
0.7
26580
йската
0.878288
0.15
30686
▁casades
0.879985
0.78
16086
òlic
0.880283
0.8
òlica
28399
▁Països
0.880551
0.74
27730
eriorment
0.88111
0.094
26204
òrica
0.881179
0.15
10200
▁francès
0.882812
0.055
29609
▁generalment
0.882846
0.00076
27331
▁Nacions
0.885005
0.11
11110
▁juliol
0.886747
0.98
18670
alsevol
0.887267
0.26
▁qualsevol
10579
▁desembre
0.888967
0.94
23709
▁clàss
0.889588
0.51
29028
Alemanya
0.890589
0.63
29665
▁esdevenir
0.89132
0.053
9550
lícules
0.891468
0.068
22215
▁смърт
0.892621
0.2
▁смъртта
19601
▁февруари
0.896072
0.32
21218
ческата
0.896617
0.13
18585
ръц
0.897433
0.31
▁гръц
23959
▁гръц
0.897485
0.013
27921
▁malalt
0.89914
0.94
▁malaltia
19509
Poblacions
0.899335
0.85
25646
▁castellà
0.899601
0.27
22418
йския
0.899867
0.037
15588
▁havien
0.9012
0.27
16904
▁tèc
0.903429
0.29
▁tècnica
, ▁tècn
20069
▁Segona
0.904717
1
16763
éixer
0.904737
0.025
▁néixer
26615
▁pobles
0.905544
0.76
29245
ògraf
0.906818
0.11
27966
▁смъртта
0.906859
0.055
31483
▁malaltia
0.906907
0.93
27824
▁competició
0.906928
0.38
27405
administració
0.907845
0.99
19243
▁nombros
0.911605
0.15
▁nombrosos
28155
стеза
0.914238
0.19
▁състеза
6105
Enllaços
0.915173
0.82
24559
▁esment
0.915773
0.28
30493
▁composició
0.915848
0.91
11044
Història
0.915956
0.98
24839
Edificis
0.91647
0.84
22641
òbils
0.916575
0.25
automòbils
25115
▁propietaris
0.918785
0.99
29065
ческите
0.919067
0.033
18668
▁coneguda
0.919743
9.2e-05
17345
▁октомври
0.91977
0.091
28103
▁estadístiques
0.91988
0.85
9300
▁setembre
0.922735
0.95
23850
▁presència
0.923884
0.98
16544
ележки
0.924817
0.017
Бележки
16350
▁histò
0.92589
0.11
▁històric
28037
▁Lliga
0.926048
0.99
5695
▁estaven
0.926351
0.013
27713
▁манасти
0.926434
0.38
28470
▁treballs
0.927033
0.94
24641
ïnes
0.928667
0.83
21216
▁sobretot
0.929198
0.024
22392
▁Reial
0.92993
0.65
30422
▁històric
0.929951
0.024
16936
ктомври
0.930675
0.27
▁октомври
15939
Municipis
0.93169
0.96
25820
▁assolir
0.931782
0.0048
26354
▁desenvolupar
0.933598
0.95
27776
квата
0.934174
0.73
29464
▁баща
0.934639
0.0015
10605
Вън
0.936838
0.56
Външни
23757
espèc
0.937079
0.58
18375
▁декември
0.9385
0.62
10834
▁famílies
0.93908
0.99
20267
▁gairebé
0.939318
5e-06
27860
▁lluita
0.941476
0.6
21072
ínce
0.941725
0.0046
íncep
, ▁príncep
29729
▁Александър
0.941818
0.98
20705
▁съпру
0.942255
0.077
26129
▁Està
0.942383
0.98
21310
ítiques
0.943423
0.039
28313
ческия
0.943789
0.34
30323
▁tècnica
0.944474
0.97
24488
Església
0.945121
0.097
21555
òmic
0.945199
0.83
30174
▁gratuït
0.946608
0.77
28125
▁роден
0.948419
0.83
17281
▁януари
0.949227
0.92
27377
▁Patrimoni
0.94985
0.47
23005
▁romà
0.950653
0.069
18602
▁edats
0.951477
0.98
27224
ítols
0.951548
0.074
24495
▁Русия
0.951574
0.69
20498
▁néixer
0.952258
0.47
18505
▁especialment
0.953336
0.19
24549
Patrimoni
0.954843
0.93
▁Patrimoni
29072
▁cèl
0.95524
0.54
27420
▁съюз
0.957096
0.039
22673
onès
0.957243
0.35
24164
àtics
0.958653
0.16
27879
emperador
0.959095
1
8829
lícula
0.95988
0.85
8426
▁tenien
0.960944
0.0014
15822
ànic
0.961271
0.8
▁britànics
, ànica
, ▁britànic
, ànics
19304
▁països
0.96167
0.48
28936
▁matrimoni
0.961846
0.65
30253
▁Aquestes
0.962203
0.79
31500
Palmarès
0.963076
0.93
17933
àcies
0.963833
0.68
▁gràcies
30416
escacs
0.963841
0.98
17809
▁trasll
0.964346
0.86
▁traslladar
, ▁trasllad
16379
късно
0.96507
0.98
25372
▁gràcies
0.965591
1
27282
NavBarFont
0.967101
0.49
21924
▁llind
0.96834
0.98
▁llindar
30025
itució
0.969068
0.24
29874
._--
0.969992
0.99
31036
▁tècn
0.970292
0.66
27977
ïta
0.971663
0.98
11631
èrc
0.972905
0.7
èrcit
, exèrcit
27230
ològic
0.973489
0.43
28256
Població
0.97382
0.98
30439
▁Българ
0.974431
0.77
22936
erència
0.974885
0.42
▁referència
, ▁diferència
29747
▁aproximadament
0.975717
0.81
17207
▁Македония
0.977276
0.93
26456
▁pròpia
0.977326
0.82
5752
ългар
0.97772
0.13
ългарски
, ▁Българ
, ▁български
, ▁българ
, ългария
, ...
16514
▁септември
0.977722
0.76
24676
àrqu
0.979194
0.66
▁pàrqu
, ▁pàrquing
29090
изто
0.979448
0.83
▁изто
13181
▁espècie
0.979693
0.74
▁espècies
18812
ministració
0.980454
0.17
administració
24220
▁densitat
0.981746
1
13499
èixer
0.982156
0.01
▁aparèixer
, ▁conèixer
20470
àtiques
0.983567
0.74
28902
▁бълга
0.985654
0.82
29985
▁изто
0.986758
0.19
15803
▁anglès
0.987864
0.83
30922
olució
0.988181
0.35
21585
▁èxit
0.990298
0.97
26726
habitatge
0.991166
0.94
17774
▁eleccions
0.991361
0.99
5981
llaços
0.992273
0.26
Enllaços
21213
icà
0.992735
0.061
29604
яването
0.992845
0.055
30448
▁sòl
0.99355
0.075
23952
▁център
0.993715
0.97
12779
ològ
0.993983
0.26
ològic
15247
▁càrrec
0.994642
0.78
22490
▁anomenada
0.994725
0.66
27771
àlis
0.995427
0.35
àlisi
22487
▁Campionat
0.995602
0.98
15048
▁guanyar
0.995648
0.99
12024
▁història
0.995781
0.63
25957
▁fusta
0.995914
0.96
30833
▁atorg
0.995947
0.98
18000
èria
0.996975
0.93
28848
▁провежда
0.997801
0.8
26966
Вижте
0.999423
0.98
24469
ònim
1.00037
0.57
26248
▁cançons
1.00173
0.94
29386
àmica
1.00197
0.36
16299
▁poblacions
1.00364
0.99
23642
▁muntanya
1.00436
0.93
17883
ември
1.00437
0.34
▁декември
, кември
, ▁ноември
31973
▁филми
1.00514
0.98
30343
▁joves
1.0052
0.49
19373
евруари
1.00571
0.065
▁февруари
19511
▁classificació
1.00599
0.98
30729
organització
1.00606
0.97
14337
▁període
1.00616
0.46
19446
▁catalans
1.00632
1
25622
ogràfic
1.00744
0.27
▁geogràfica
28073
▁Millor
1.00818
1
16702
ànica
1.01058
0.25
20294
▁fiscals
1.01132
1
20371
▁principalment
1.01151
0.068
28950
▁davall
1.01168
0.43
11457
▁febrer
1.01295
0.96
17996
▁април
1.01409
0.32
29023
▁reconeg
1.01411
0.091
17468
▁Espanya
1.01451
0.96
15442
▁districte
1.01591
0.99
21156
▁espècies
1.0164
0.38
9065
▁anomen
1.01677
0.29
▁anomenat
, ▁anomenada
23171
òbil
1.01736
0.092
▁automòbil
, automòbils
24369
▁cançó
1.01772
0.76
29515
дрих
1.01802
0.096
21806
▁formació
1.01891
0.77
22172
▁posteriorment
1.01918
0.0087
30266
inació
1.01981
0.18
29155
▁cantant
1.01988
0.99
17090
нуари
1.02063
0.38
▁януари
26595
▁recerca
1.0243
1
29130
▁llindar
1.02445
0.65
30749
ènia
1.02497
0.48
26370
òries
1.02656
0.47
21339
▁империя
1.0276
0.79
23109
▁situació
1.0292
0.98
16879
▁gènere
1.03026
0.78
31340
▁millors
1.03195
0.84
12087
ístiques
1.03211
0.57
▁estadístiques
, ▁característiques
17642
▁sovint
1.03246
0.16
15800
ètica
1.03314
0.98
21489
▁албу
1.03459
0.7
30936
▁езе
1.0347
0.63
26639
aquestes
1.03478
0.91
11318
▁aconsegu
1.03544
0.29
▁aconseguir
26056
▁Aquests
1.0356
0.75
26489
▁височина
1.0357
0.85
31316
▁Димитър
1.03593
0.98
1614
ènc
1.03707
0.57
▁presència
, ències
, ència
, Referències
, ▁València
, ...
11573
empreses
1.03757
1
14264
▁vivint
1.03813
0.98
23892
▁Déu
1.03923
0.65
13768
èrica
1.04084
0.16
Amèrica
20220
▁крал
1.04101
0.67
26912
Obres
1.04124
0.99
11246
ània
1.04374
0.096
18062
▁община
1.04553
0.86
▁общината
26666
▁sistemes
1.04568
1
25052
▁personatges
1.04617
0.99
31097
кновено
1.04685
0.0034
20639
▁establir
1.049
0.98
30038
ersonals
1.05014
0.98
▁unipersonals
20535
▁espanyol
1.05087
0.99
▁espanyols
30161
▁Teatre
1.05146
1
30867
àmb
1.05331
0.99
22081
encià
1.05442
0.1
31210
шната
1.05522
0.064
19614
▁teatre
1.05658
0.99
14535
ènere
1.05668
0.93
▁gènere
23237
▁разположе
1.05852
0.84
17184
▁llengua
1.05944
0.96
2991
erències
1.06009
0.3
Referències
24690
▁завършва
1.06029
0.89
10806
àlia
1.0619
0.61
Itàlia
, ▁Itàlia
, ustràlia
28351
▁икономи
1.06231
0.63
22383
▁comerç
1.06246
0.97
26845
▁característiques
1.06304
0.97
21212
issió
1.0638
0.76
19485
▁seua
1.06404
0.49
27665
▁conèixer
1.06409
0.82
15639
▁algunes
1.06409
0.88
29461
▁изслед
1.06698
0.96
13798
▁parelles
1.06776
1
29752
interès
1.06792
0.61
28713
▁cambra
1.06862
0.99
22421
▁mitjans
1.06955
0.99
13461
▁conegut
1.07003
0.9
17807
▁САЩ
1.07135
0.47
15589
птември
1.07173
0.027
▁септември
17274
ският
1.07435
0.52
21040
NavBarCell
1.07593
0.8
31186
▁състеза
1.07635
0.73
31536
▁pèr
1.07675
0.17
19370
▁finalment
1.07678
0.49
27624
зъм
1.07776
0.72
29458
▁състав
1.07909
0.96
15479
ърт
1.07944
0.76
▁смърт
, ▁смъртта
16707
▁Segons
1.07965
0.98
12673
▁càr
1.08071
0.67
▁càrrec
26185
яват
1.08134
0.39
20754
▁mantenir
1.08165
1
28191
▁Според
1.08204
0.63
16804
▁lluit
1.08242
0.99
▁lluita
27653
▁cantó
1.08388
0.43
14618
▁majoria
1.0848
0.55
21828
▁ciutats
1.08521
0.96
25100
▁incloent
1.08556
0.12
20710
▁produir
1.0861
0.99
31656
àncies
1.0863
0.2
26345
▁окръ
1.08703
0.94
17534
▁juntament
1.08707
0.46
23417
▁Италия
1.08763
1
17342
▁plaça
1.08768
0.89
27182
ingué
1.08814
0.41
21719
▁primeres
1.08842
0.98
29420
▁печели
1.09056
0.6
23258
ïna
1.09062
0.99
25750
винция
1.09141
0.51
26142
▁ràpid
1.09142
0.82
28481
▁partits
1.09144
1
27868
▁relacions
1.09273
1
28285
▁оръ
1.09368
0.47
30335
лението
1.09397
0.72
18619
▁estudis
1.09413
0.99
22822
▁drets
1.09421
0.99
29345
▁utilitzat
1.09531
0.97
12773
òb
1.09582
0.99
▁automòbil
, òbil
, automòbils
, òbils
16287
кедония
1.09652
0.49
▁Македония
29257
▁escriptor
1.09755
1
18465
Després
1.09908
0.81
26192
▁llei
1.09942
0.96
28944
Activitats
1.09954
1
29677
▁realitat
1.10067
0.81
22043
ètic
1.10282
0.83
ètics
24208
marès
1.10386
0.076
Palmarès
16989
▁obstant
1.104
0.00062
22123
тората
1.10403
0.77
25093
▁personatge
1.10421
0.99
31154
▁màxima
1.10512
0.9
20268
ueixen
1.10562
0.16
24498
▁Франция
1.10602
0.99
17193
▁anomenat
1.10722
0.53
31171
▁produeix
1.10932
0.99
28477
▁император
1.10944
0.23
19963
▁заедно
1.10958
0.99
20285
▁actualment
1.11121
0.94
26608
Entitats
1.11185
0.97
29229
àst
1.11217
0.96
17563
▁llanç
1.11227
0.98
27828
▁diferència
1.11367
0.97
27153
▁обаче
1.11368
0.062
31910
▁продължава
1.11389
0.54
23199
▁музика
1.1158
0.97
30621
▁групата
1.11611
0.9
25442
▁companyia
1.11623
0.98
28502
▁филм
1.11705
0.95
▁филми
16073
ificis
1.11759
0.86
Edificis
24204
▁viure
1.11788
0.77
9630
ългария
1.11819
0.043
▁България
17603
▁юли
1.1185
0.64
27627
▁barcelon
1.11943
1
25218
сън
1.12125
0.99
30967
▁anteriors
1.12178
0.93
18424
liments
1.12335
1
▁establiments
14811
unicipis
1.12358
0.45
▁municipis
, Municipis
25358
▁reconeix
1.12414
1
11605
ònia
1.12503
0.98
19908
uretat
1.12517
0.15
▁seguretat
28863
▁деца
1.12699
0.86
23628
Imperi
1.12856
1
▁Imperial
22302
▁vuit
1.12879
1
18210
▁moltes
1.12882
0.68
31422
▁Castella
1.13058
1
8244
▁българ
1.13231
0.64
▁български
29687
▁llac
1.13375
0.99
27486
▁comença
1.13436
0.98
25927
▁enfront
1.13794
0.92
7920
▁començ
1.13875
0.94
▁començar
, ▁comença
21292
uït
1.13899
0.99
▁gratuït
24566
▁caràcter
1.14062
0.96
26678
▁територия
1.14208
0.63
22066
▁activitats
1.1425
1
22997
▁участва
1.143
0.97
30243
ленове
1.14376
0.5
13716
▁Fitxa
1.14614
0.96
18935
▁Unió
1.14639
0.71
15717
ясто
1.14648
0.96
▁място
30906
▁motiu
1.14701
0.93
29762
вния
1.14721
0.64
12657
▁obres
1.14804
1
30983
icionals
1.14827
0.91
6535
▁daugh
1.14867
1
▁daughter
, ▁daughters
24223
мът
1.14886
0.72
20135
▁troben
1.1502
0.2
24094
▁meitat
1.15023
0.97
17515
▁voltant
1.15233
0.58
22230
чинали
1.15245
0.8
Починали
15199
acionals
1.15291
1
▁internacionals
26738
itzacions
1.15293
0.98
26437
èct
1.1539
0.8
28369
ръб
1.15457
0.71
14063
▁mitjà
1.15472
0.97
29373
ристия
1.15569
0.49
22022
▁училище
1.15651
0.96
29366
▁ciutad
1.15816
0.87
27593
▁campanya
1.15817
0.97
27684
▁permetre
1.15845
0.95
30714
рията
1.15944
0.94
25720
▁comunicació
1.15966
0.95
30237
▁Évolution
1.1597
1
17439
àss
1.1606
0.95
▁clàss
21136
▁catalana
1.1618
0.96
21617
▁Així
1.16593
0.73
12200
▁Després
1.16623
0.98
13180
▁Jocs
1.16777
1
16273
Espanya
1.16781
1
▁Espanya
23853
usió
1.16782
0.93
28957
▁сгра
1.1684
0.94
23068
▁Però
1.16863
0.76
26319
▁gràfic
1.16872
0.89
23193
▁referència
1.16896
0.99
30057
▁aconseg
1.16904
0.67
21760
▁realitz
1.16971
0.68
17190
▁gaire
1.17099
0.91
▁gairebé
22174
mateix
1.17143
1
▁Tanmateix
16607
вършва
1.17198
0.28
▁завършва
23820
▁llibres
1.17238
0.98
27426
▁включва
1.17241
0.025
22830
aquests
1.17471
1
29756
▁излиза
1.17491
0.98
19758
òpia
1.17574
0.91
▁pròpia
30853
▁distància
1.17593
0.99
22194
▁vaix
1.17755
0.95
24243
\xa0mil
1.17795
1
\xa0milions
28680
▁четири
1.17804
0.71
22243
▁ръко
1.17864
0.45
31727
▁llic
1.17918
0.95
23946
чват
1.17971
0.76
13896
àries
1.1798
0.84
16458
▁срещу
1.18091
1
7962
▁Estats
1.18101
0.99
18159
Segons
1.18245
0.98
29063
▁Unides
1.18466
0.99
12454
▁títol
1.18479
1
22611
▁армия
1.18682
0.97
31386
▁línies
1.1869
0.96
11466
▁sèrie
1.18871
0.99
23835
▁френ
1.19066
0.93
13674
▁ѝ
1.19097
0.085
20117
èdia
1.1919
0.9
21589
▁petita
1.19382
1
25993
▁camí
1.19411
0.97
22376
▁llocs
1.19499
0.99
19919
▁inclo
1.19517
1
▁incloent
, ▁inclosa
27138
Índia
1.19568
0.99
13717
▁treballar
1.19732
0.98
9443
ържа
1.19804
0.45
▁държа
, ▁съдържа
, държа
18160
▁desenvolupament
1.19873
0.66
18018
▁началото
1.19996
0.93
17150
àcia
1.20157
0.26
20141
поред
1.20237
0.96
▁според
, ▁Според
20008
▁apareix
1.20291
0.99
28616
▁изгра
1.20602
0.78
28792
Американски
1.20611
0.95
30369
▁тъй
1.20628
0.24
9894
▁vivien
1.20891
1
21774
▁съвет
1.2099
0.53
21471
laterra
1.20993
0.97
▁Anglaterra
9465
▁desenvolup
1.21037
0.84
▁desenvolupar
, ▁desenvolupament
27173
àp
1.21104
1
15695
Persones
1.21256
0.99
15762
▁срещ
1.21527
0.73
▁срещу
, ▁среща
22850
▁creació
1.21588
0.9
13906
▁segona
1.21638
0.98
23700
вната
1.21716
0.77
17097
▁mitjançant
1.21912
0.99
14927
вява
1.21946
0.36
28797
▁condicions
1.22312
1
29117
▁dià
1.22589
0.99
25257
▁отново
1.22702
0.9
17459
мерикански
1.22744
0.53
Американски
, ▁американски
4010
ълга
1.22815
0.53
▁бълга
, ългарски
, ▁Българ
, ▁български
, ▁българ
, ...
17891
▁aquestes
1.23028
0.85
14619
▁aconseguir
1.2305
0.96
31673
▁Ciutat
1.23061
1
23225
▁societat
1.23079
0.95
18556
▁Геор
1.23132
1
▁Георги
26304
▁esdev
1.23178
0.97
▁esdevenir
29275
▁temes
1.23193
1
22455
▁някои
1.23263
0.67
28731
ловдив
1.23372
0.64
22625
▁Германия
1.23418
1
17632
▁август
1.23549
0.75
21768
▁Xina
1.23579
1
Tokens with partial UTF-8 sequences
0 entries below threshold of 0.724
327 additional entries above threshold
token_id
token
indicator
in_other_tokens
6950
<0x89>s
1.23694
És
, ▁És
12730
<0xB1>乐
1.39933
娱乐圈
, 娱乐
, 俱乐
868
<0xA6><0x81>
2.54123
就要
, 只要
, 要
, 需要
, 的重要
, ...
20353
<0xEF><0xBB>
2.58194
\ufeff
22709
▁<0xF0><0x9F><0x99>
2.6995
▁🙂
2720
<0xA5><0xBF>
2.76006
西
, 山西
, 西方
, 的东西
, 西安
, ...
7703
<0xA4><0x90>
2.76583
餐
, 餐厅
, 餐饮
7793
<0xE9><0xB1>
2.78158
鱼
684
<0x83><0xBD>
2.84403
才能
, 都不
, 性能
, 都能
, 也能
, ...
9547
<0xE9><0xBD>
2.88576
齐
, 齿
18780
<0xE9><0xAC>
3.04327
鬼
16476
<0xE9><0x89>
3.04485
鉴
, 鉴定
4897
<0xE8><0x9E>
3.05897
融资
, 金融
, 融合
, 融
, 螺
2210
<0xE7><0xB1>
3.06911
类型
, 平方米
, 这类
, 米
, 类的
, ...
1747
<0xE7><0xA4>
3.09822
示
, 礼
, 显示
, 数据显示
, 社交
, ...
9548
<0xEF><0xBF>
3.19834
��
, �
796
<0xE8><0xA7>
3.20723
规定
, 角度
, 见
, 意见
, 理解
, ...
6855
<0xE9><0xBC>
3.25024
鼠
, 鼓励
, 鼻
, 鼓
287
▁<0xD0>
3.26365
▁Р
, ▁мал
, ▁Ра
, ▁Иван
, ▁Ан
, ...
5219
<0xE5><0xA1>
3.31421
塑
, 塘
, 塞
, 填
, 塔
6680
<0xE9><0x86>
3.33592
醉
, 提醒
, 醒
, 醋
, 醇
6553
<0xE8><0x92>
3.33776
蒙古
, 蒋
, 蒜
, 蒂
, 蒸
, ...
7182
<0xE9><0xAD>
3.34788
魏
, 魂
, 魅
, 魅力
, 魔
8506
<0xE7><0x87>
3.36013
燥
, 燕
, 燃
1297
<0xE6><0xB4>
3.36284
洛
, 生活
, 天津
, 津
, 派
, ...
678
<0xE9><0x87>
3.36777
采用了
, 基金
, 那里
, 在这里
, 销量
, ...
814
<0xE7><0x8E>
3.3687
现在
, 效率
, 循环
, 现在的
, 玛
, ...
7348
<0xE5><0xAA>
3.38174
媒体
, 媒
27910
<0xE5><0x9A>
3.39219
8400
<0xE5><0xAB>
3.39698
嫩
, 嫌疑
, 嫌
, 嫁
1944
<0xE8><0xA2>
3.39953
袁
, 被告
, 袭
, 袋
, 袖
, ...
25950
<0xE8><0x9F>
3.39958
3600
<0xE6><0x91>
3.40089
摊
, 按摩
, 摄
, 拍摄
, 摩
, ...
9417
<0xE8><0xB8>
3.40263
踪
, 踩
, 踏
916
<0xE6><0x94>
3.4171
支持
, 改革
, 收到
, 发放
, 支撑
, ...
18319
<0xE6><0x86>
3.42822
憾
12162
<0xE9><0x9E>
3.42886
鞋
1482
<0xE7><0xAE>
3.42886
不管
, 算是
, 算
, 简直
, 火箭
, ...
3432
<0xE7><0x8A>
3.43292
犬
, 状态
, 状
, 犯
, 状况
, ...
1346
<0xE8><0xB7>
3.43563
线路
, 实践
, 路上
, 践
, 一路
, ...
336
<0xE7><0x9A>
3.43618
爱的
, 物的
, 队的
, 的过程中
, 的那
, ...
6198
<0xE7><0x93>
3.45167
瓶
, 瓷
, 瓦
, 瓜
1135
<0xE6><0xAC>
3.45332
欢迎
, 这次
, 再次
, 一次
, 多次
, ...
3065
<0xE5><0x94>
3.45352
唤
, 唯一
, 唐
, 售价
, 唯
, ...
9554
<0xE7><0x98>
3.4565
瘤
, 肿瘤
, 瘦
6202
<0xE6><0xBF>
3.46053
刺激
, 激
1463
<0xE8><0xB6>
3.48742
超过
, 超级
, 兴趣
, 足够
, 足
, ...
2378
<0xE7><0xA1>
3.49794
确实
, 确认
, 正确的
, 正确
, 明确
, ...
1882
<0xE5><0xA2>
3.50479
环境
, 增
, 增加
, 新增
, 增强
, ...
837
<0xE8><0x87>
3.50584
自行
, 甚至
, 来自
, 精致
, 至今
, ...
3989
<0xE6><0x9A>
3.51021
暖
, 暂
, 温暖
, 暑
, 暴
, ...
1655
<0xE8><0x89>
3.51182
绿色
, 良好
, 不良
, 艺
, 特色
, ...
901
<0xE7><0x89>
3.52657
出版
, 牵
, 物的
, 物质
, 博物馆
, ...
1931
<0xE7><0xB3>
3.52743
系
, 糖尿
, 糊
, 的关系
, 糖
, ...
1562
<0xE9><0xA3>
3.52803
风景
, 食用
, 飘
, 风格
, 饮食
, ...
1209
<0xE5><0x81>
3.53293
做好
, 偏
, 健身
, 健
, 做
, ...
815
<0xE5><0xBF>
3.54033
志愿者
, 快乐
, 必须
, 志愿
, 心灵
, ...
8354
<0xE7><0xA3>
3.54275
磨
, 磁
3184
<0xE7><0x85>
3.5498
煎
, 煮
, 照顾
, 照
, 照片
, ...
3770
<0xE9><0x9F>
3.56255
韦
, 韩国
, 音
, 韵
, 声音
, ...
1955
<0xE7><0x96>
3.56827
嫌疑
, 疫
, 无疑
, 疾
, 疗
, ...
864
<0xE7><0xA7>
3.57624
移动
, 一种
, 那种
, 转移
, 称为
, ...
571
<0xE5><0x9B>
3.58072
团
, 团队
, 贫困
, 中国
, 国家
, ...
951
<0xE8><0xBD>
3.58872
转变
, 车辆
, 转移
, 火车
, 年轻人
, ...
2175
<0xE7><0x81>
3.59189
心灵
, 灭
, 灯
, 火车
, 火箭
, ...
3636
<0xE6><0xB9>
3.59881
台湾
, 湘
, 湾
, 湖南
, 湖北
, ...
4275
<0xE9><0xBE>
3.59884
龙
, 龄
, 年龄
2254
<0xE9><0xA6>
3.60096
博物馆
, 香
, 首
, 馨
, 馈
, ...
777
<0xE8><0xB5>
3.60362
赴
, 走
, 投资者
, 融资
, 赚钱
, ...
7734
<0xE8><0x93>
3.60641
蓄
, 蓝
17031
<0xE8><0x95>
3.60836
7601
<0xE8><0x86>
3.6171
膝
, 膜
, 膏
4231
<0xE5><0xA9>
3.62296
老婆
, 婆
, 结婚
, 离婚
, 婚姻
, ...
8640
<0xE8><0x9C>
3.62479
蜂
, 蜜
549
<0xE6><0x97>
3.6261
族
, 无人
, 依旧
, 每日
, 无限
, ...
1381
<0xE7><0x9D>
3.62626
带着
, 督
, 睡觉
, 监督
, 穿着
, ...
2046
<0xE8><0x83>
3.62632
才能
, 性能
, 都能
, 也能
, 的能力
, ...
10692
<0xE6><0xBE>
3.62866
澳
596
<0xE4><0xBC>
3.63
也不会
, 就会
, 似乎
, 大众
, 退休
, ...
13589
<0xE7><0x92>
3.64966
璃
, 玻璃
2543
<0xE5><0x9E>
3.65076
类型
, 型
, 转型
, 垂
, 型的
, ...
966
<0xE6><0xAF>
3.65332
每
, 每日
, 每年
, 对比
, 毁
, ...
932
<0xE5><0x91>
3.66665
会员
, 委员会
, 周围
, 意味
, 球员
, ...
3128
<0xE9><0xA5>
3.67425
内饰
, 吃饭
, 饱
, 饮食
, 饰
, ...
1986
<0xE8><0xBA>
3.67741
健身
, 身体
, 身上
, 身份
, 全身
, ...
3022
<0xE6><0xBC>
3.67781
漂
, 演
, 演员
, 漫
, 导演
, ...
7515
<0xE5><0xB3>
3.68362
峡
, 峰
1331
<0xE7><0xAB>
3.69174
竹
, 究竟
, 文章
, 设立
, 立即
, ...
17473
<0xE8><0x9D>
3.69487
869
<0xE5><0x8E>
3.69618
出去
, 厅
, 历
, 工厂
, 过去
, ...
30291
<0xE6><0xAA>
3.69726
5747
<0xE9><0xB2>
3.70474
鲜
, 新鲜
, 鲁
5894
<0xE6><0xA4>
3.70522
椅
, 植物
, 种植
, 植
, 椒
2489
<0xE6><0xBB>
3.70523
滚
, 滴
, 滩
, 下滑
, 滑
, ...
1701
<0xE7><0x88>
3.70538
爱的
, 爱
, 爱情
, 父
, 父亲
, ...
602
<0xE5><0xB9>
3.71155
年
, 平台
, 三年
, 广
, 广东
, ...
1954
<0xE9><0x9C>
3.71208
需要
, 震
, 透露
, 不需要
, 霸
, ...
7187
<0xE9><0xBA>
3.7125
麦
, 麻
, 麻烦
7447
<0xE8><0x97>
3.71492
藏
, 收藏
4908
<0xE8><0x91>
3.71658
著名
, 董事长
, 董事
, 葱
, 葡
, ...
6421
<0xE5><0x98>
3.719
嘉
, 嘛
, 嘴
13515
<0xB9><0x81>
3.72453
繁
1345
<0xE5><0x9F>
3.72464
基金
, 基层
, 培训
, 基地
, 区域
, ...
1514
<0xE7><0xAC>
3.72943
第一
, 第五
, 符
, 第十
, 第二
, ...
1518
<0xE7><0x9F>
3.72983
矩
, 矿
, 通知
, 不知道
, 知识
, ...
525
<0xE5><0x8A>
3.72991
推动
, 移动
, 动
, 服务
, 财务
, ...
4261
<0xE5><0x99>
3.73077
机器人
, 器
, 武器
, 机器
2081
<0xE7><0xB2>
3.73307
精致
, 粥
, 粮
, 精神
, 粉丝
, ...
2262
<0xE7><0xA0>
3.73501
突破
, 调研
, 破坏
, 破
, 研究
, ...
712
<0xE5><0xA5>
3.73621
奈
, 女性
, 做好
, 子女
, 好好
, ...
1318
<0xE9><0xAB>
3.73768
提高
, 高
, 最高
, 高于
, 高中
, ...
2940
<0xE6><0xAE>
3.73925
一段时间
, 段时间
, 养殖
, 殿
, 手段
, ...
2060
<0xE7><0x83>
3.74365
烈
, 烦
, 热
, 烧
, 烟
, ...
1131
<0xE7><0xAD>
3.74769
签订
, 决策
, 筹
, 等待
, 筑
, ...
9992
<0xE8><0x94>
3.76003
蔡
, 蔬
, 蔬菜
3343
<0xE7><0x8B>
3.76651
狂
, 狮
, 狗
, 狠
, 独立
, ...
824
<0xE6><0x80>
3.76848
总统
, 性能
, 女性
, 个性
, 怀孕
, ...
501
<0xE4><0xB9>
3.77342
也不会
, 乌
, 之外
, 似乎
, 快乐
, ...
766
<0xE7><0x9B>
3.77536
盆
, 直播
, 目的
, 监督
, 相信
, ...
2546
<0xE7><0xA6>
3.77706
离开
, 福利
, 禅
, 禁
, 福
, ...
443
<0xE8><0xBF>
3.77985
连续
, 的过程中
, 进一步
, 超过
, 远
, ...
3914
<0xE6><0x90>
3.78228
搜
, 搅
, 搬
, 搞
, 搜索
, ...
2089
<0xE8><0x84>
3.7832
脱贫
, 脸
, 脉
, 心脏
, 脑
, ...
3679
<0xE6><0x85>
3.78341
慕
, 慈
, 智慧
, 慎
, 慢
, ...
2930
<0xE8><0xB1>
3.78399
形象
, 现象
, 想象
, 对象
, 豆
, ...
3163
<0xE8><0x85>
3.78733
腐
, 腾讯
, 腿
, 腺
, 腰
, ...
947
<0xE6><0x83>
3.79094
不想
, 爱情
, 的情况
, 情绪
, 想象
, ...
14593
<0xE8><0xB9>
3.79855
2550
<0xE6><0x82>
3.80192
悠
, 患
, 悲
, 悬
, 隐患
, ...
1921
<0xE6><0x81>
3.80245
恰
, 恩
, 休息
, 恐
, 恶
, ...
1769
<0xE8><0x81>
3.80417
聪明
, 聊
, 聚
, 职业
, 职
, ...
1124
<0xE8><0x82>
3.80877
个股
, 肯定
, 肌
, 肌肉
, 肺炎
, ...
354
<0xE4><0xBA>
3.80975
采用了
, 用了
, 人体
, 公交
, 负责人
, ...
31274
<0xE8><0xA4>
3.81094
892
<0xE9><0x9D>
3.81324
非常
, 改革
, 青
, 面的
, 依靠
, ...
4238
<0xE7><0x8C>
3.8142
猪
, 贡献
, 献
, 猜
, 猫
, ...
31121
<0xE9><0xB3>
3.81601
15201
<0xE5><0x97>
3.82005
3273
<0xE5><0x84>
3.82168
女儿
, 幼儿园
, 儿童
, 儿
, 儿子
, ...
11089
<0xE7><0x9E>
3.82858
瞬间
, 瞬
6276
<0xE6><0xA6>
3.83349
概念
, 大概
, 榜
, 概
6396
<0xE8><0x9B>
3.85013
蛋
, 蛇
, 蛋白
, 鸡蛋
3841
<0xE5><0x83>
3.85383
就像
, 好像
, 像
1611
<0xE6><0x8F>
3.85664
提高
, 插
, 提醒
, 把握
, 提
, ...
5231
<0xE9><0xB8>
3.86018
鸭
, 鸟
, 鸣
, 鸡蛋
, 鸡
3899
<0xE8><0x8F>
3.86206
菲
, 菜
, 蔬菜
, 菌
, 菩
1662
<0xE6><0x8D>
3.86781
证据
, 捐
, 数据显示
, 换
, 大数据
, ...
1937
<0xE7><0x97>
3.86807
痛苦
, 症
, 病例
, 痘
, 病
, ...
1827
<0xE5><0xBB>
3.86841
建设
, 建成
, 构建
, 延续
, 廉
, ...
2578
<0xE9><0xBB>
3.8698
黑
, 黄
, 黎
, 黄金
, 默
, ...
1035
<0xE6><0x9E>
3.87162
机构
, 如果你
, 苹果
, 分析
, 如果是
, ...
7995
<0xE8><0x96>
3.87286
薪
, 薄
1350
<0xE9><0x95>
3.87394
长沙
, 镜
, 董事长
, 长的
, 镜头
, ...
921
<0xE7><0xBA>
3.87419
约
, 纱
, 线路
, 超级
, 纽
, ...
15109
<0xE8><0x9A>
3.8755
3979
<0xE6><0x92>
3.87663
直播
, 撑
, 支撑
, 播
, 传播
, ...
1498
<0xE9><0x83>
3.87742
都不
, 部分
, 都能
, 郭
, 郁
, ...
1376
<0xE7><0xBD>
3.87743
罗
, 罩
, 罪
, 处罚
, 网友
, ...
918
<0xE7><0x9C>
3.87819
全省
, 真是
, 看到
, 真
, 眠
, ...
8468
<0xE7><0x91>
3.87824
瑞
2876
<0xE5><0xB2>
3.88675
岛
, 岁
, 岁的
, 岳
, 岸
, ...
5703
<0xE8><0xAD>
3.88725
民警
, 警方
, 警
, 交警
2329
<0xE8><0x8D>
3.89039
推荐
, 荣耀
, 草
, 荒
, 震荡
, ...
801
<0xE6><0x8A>
3.89602
护
, 技巧
, 抢
, 投资者
, 披
, ...
1805
<0xE9><0x94>
3.89647
锡
, 销量
, 锻炼
, 键
, 锻
, ...
914
<0xE5><0xBD>
3.90586
形象
, 的影响
, 彻
, 应当
, 当时
, ...
1842
<0xE7><0xA9>
3.90597
究竟
, 航空
, 空调
, 穴
, 穿着
, ...
2396
<0xE5><0xA3>
3.90877
壁
, 声
, 博士
, 壳
, 女士
, ...
2196
<0xE9><0xA9>
3.9127
驰
, 行驶
, 驻
, 驱
, 马
, ...
7745
<0xE7><0xAF>
3.91801
篮
, 篇
2279
<0xE6><0xA1>
3.91861
方案
, 桂
, 桥
, 桶
, 案
, ...
2072
<0xE8><0x8B>
3.92512
苹果
, 痛苦
, 江苏
, 若
, 苏
, ...
2177
<0xE6><0xB7>
3.93142
淀
, 混合
, 深度
, 淋
, 深化
, ...
6704
<0xE5><0x82>
3.94007
傲
, 催
, 储
, 傅
, 傻
635
<0xE8><0xAE>
3.95118
让
, 建设
, 让孩子
, 承认
, 培训
, ...
8464
<0xE6><0x87>
3.95371
懂
, 懒
, 懂得
775
<0xE5><0x8C>
3.95483
化学
, 包含
, 地区
, 包括
, 包
, ...
1167
<0xE6><0x8C>
3.95507
支持
, 挑
, 指导
, 指
, 挂
, ...
1122
<0xE9><0xA2>
3.95639
颜值
, 预测
, 题
, 颈
, 预计
, ...
964
<0xE6><0xB3>
3.96138
波
, 执法
, 分泌
, 注重
, 泡
, ...
3958
<0xE5><0xA8>
3.96164
娃
, 威
, 娱乐圈
, 姑娘
, 娇
, ...
418
<0xE5><0xA4>
3.96272
处
, 大学
, 准备
, 多元
, 夺
, ...
643
<0xE6><0x89>
3.96333
才能
, 扬
, 承认
, 托
, 执法
, ...
1100
<0xE6><0x84>
3.96681
志愿者
, 感受到
, 意见
, 志愿
, 愈
, ...
2038
<0xE8><0x90>
3.96991
落
, 运营
, 萄
, 营养
, 营造
, ...
9375
<0xE9><0xB9>
3.98041
鹿
, 鹏
614
<0xE5><0xAD>
3.98271
文学
, 大学
, 化学
, 让孩子
, 生存
, ...
3692
<0xE6><0xA2>
3.98422
梦
, 机械
, 梦想
, 梁
, 械
, ...
10698
<0xE5><0xB4>
3.98637
崇
5343
<0xE7><0x86>
3.99504
熟
, 熊
, 成熟
, 熟悉
, 熬
1104
<0xE6><0xB5>
4.00174
流行
, 浙
, 预测
, 海
, 浩
, ...
677
<0xE5><0xB7>
4.00398
工业
, 技巧
, 州
, 工厂
, 已
, ...
1054
<0xE4><0xBF>
4.00906
保证
, 俗
, 促进
, 相信
, 保健
, ...
470
<0xE5><0x88>
4.01364
别
, 判决
, 机制
, 部分
, 刺激
, ...
3870
<0xE7><0xAA>
4.02124
突破
, 窗
, 窝
, 突
, 突出
, ...
6348
<0xE6><0xBD>
4.02131
潮
, 潜
1867
<0xE6><0x9F>
4.02704
某某
, 染
, 柏
, 审查
, 查
, ...
2528
<0xE9><0xAA>
4.02911
实验
, 试验
, 体验
, 骑
, 经验
, ...
478
<0xE5><0x9C>
4.03218
地球
, 现在
, 圈
, 地区
, 在这里
, ...
606
<0xE6><0x9D>
4.0363
用来
, 结束
, 来自
, 板块
, 老板
, ...
1448
<0xE7><0xBE>
4.03833
亿美元
, 美国
, 群
, 羡
, 美
, ...
739
<0xE5><0xBA>
4.03867
角度
, 深度
, 度
, 店
, 制度
, ...
1347
<0xE6><0x9B>
4.04211
曾经
, 更多
, 更好的
, 更为
, 曰
, ...
395
<0xE5><0x8F>
4.04211
平台
, 感受到
, 转变
, 反而
, 只要
, ...
3047
<0xE8><0x8E>
4.04611
莲
, 获得
, 获取
, 获
, 莫
, ...
4148
<0xE7><0x8F>
4.04644
上班
, 珠
, 珍
, 班
900
<0xE9><0x97>
4.04798
瞬间
, 房间
, 间
, 问题
, 一段时间
, ...
3389
<0xE6><0xA3>
4.0505
棋
, 棉
, 棒
, 检测
, 检查
, ...
2168
<0xE5><0x95>
4.05332
咖啡
, 啊
, 啦
, 啥
, 商务
, ...
3862
<0xE6><0xA8>
4.05366
规模
, 模
, 模式
, 横
595
<0xE6><0x96>
4.05478
文学
, 新
, 全新
, 文
, 战斗
, ...
5802
<0xE7><0xBF>
4.05857
翠
, 翔
, 翻
, 翼
1073
<0xE5><0xA6>
4.06178
如果你
, 如此
, 妇
, 化妆
, 如何
, ...
1678
<0xE5><0xA7>
4.06836
委员会
, 姿
, 就开始
, 开始
, 市委
, ...
475
<0xE4><0xBD>
4.0692
一体
, 人体
, 如果你
, 你的
, 身体
, ...
682
<0xE8><0x80>
4.0756
志愿者
, 考察
, 考试
, 而且
, 反而
, ...
1174
<0xE9><0x98>
4.07582
防控
, 队的
, 团队
, 预防
, 防止
, ...
803
<0xE8><0xB4>
4.07675
负责
, 责任
, 负担
, 物质
, 财务
, ...
16854
<0xE6><0xA7>
4.08362
槽
1676
<0xE6><0xB6>
4.08604
消化
, 涵
, 消
, 涂
, 润
, ...
2158
<0xE5><0x96>
4.08607
善
, 完善
, 喊
, 喷
, 喂
, ...
737
<0xE8><0xA1>
4.08646
流行
, 自行
, 行为
, 补
, 的行为
, ...
1940
<0xE9><0x85>
4.09216
酷
, 分配
, 酸
, 酒店
, 配备
, ...
3083
<0xE6><0xBA>
4.09264
溢
, 来源
, 能源
, 溶
, 源
, ...
1608
<0xE9><0x82>
4.094
那里
, 邮
, 的那
, 那种
, 邀
, ...
5114
<0xE6><0xA5>
4.09652
清楚
, 楚
, 楼
16932
<0xE2><0x91>
4.09769
1911
<0xE7><0x95>
4.10032
略
, 番
, 留言
, 留
, 世界上
, ...
23516
<0xE0><0xA5>
4.10545
514
<0xE7><0x94>
4.10586
甘
, 采用了
, 用了
, 用来
, 甚至
, ...
1041
<0xE6><0x8E>
4.10587
推动
, 防控
, 推荐
, 探索
, 控制
, ...
1094
<0xE8><0xBE>
4.1072
车辆
, 输出
, 辨
, 辩
, 辉
, ...
1845
<0xE7><0x99>
4.1083
白
, 登
, 百姓
, 百分
, 明白
, ...
433
<0xE5><0x85>
4.11095
全新
, 兵
, 万元
, 多元
, 养老
, ...
16485
<0xE8><0xB2>
4.11898
貌
2078
<0xE7><0xA5>
4.11982
祭
, 祖
, 精神
, 祝
, 神
, ...
5513
<0xE6><0x93>
4.12254
操
, 操作
, 擦
2278
<0xE7><0xBC>
4.12361
小编
, 缺乏
, 缓解
, 缓
, 编辑
, ...
2616
<0xE8><0x99>
4.12609
虎
, 虫
, 考虑
, 虾
, 虚
, ...
1158
<0xE7><0x90>
4.1271
地球
, 理解
, 球员
, 球队
, 足球
, ...
933
<0xE9><0x99>
4.12821
陕
, 陆
, 医院
, 无限
, 陵
, ...
831
<0xE5><0x92>
4.12912
和
, 咨询
, 共和国
, 咖啡
, 和平
, ...
483
<0xE5><0x90>
4.13483
混合
, 包含
, 以后
, 不同
, 著名
, ...
586
<0xE8><0xAF>
4.138
考试
, 诉
, 保证
, 的话
, 译
, ...
2222
<0xE8><0x88>
4.13921
舌
, 舞
, 般
, 航空
, 一般
, ...
2688
▁<0xC2>
4.14014
▁«
, ▁§
, ▁¿
, ▁©
, ▁·
, ...
1533
<0xE7><0x84>
4.15462
然
, 不然
, 依然
, 竟然
, 显然
, ...
1637
<0xE8><0x8A>
4.16088
芳
, 节
, 节奏
, 节目
, 环节
, ...
1592
<0xE5><0x9D>
4.16352
板块
, 破坏
, 坛
, 坑
, 坐在
, ...
16756
<0xE6><0xA9>
4.1668
2556
<0xE8><0xA3>
4.17173
裂
, 裤
, 装
, 装修
, 装饰
, ...
2206
<0xE7><0xB4>
4.17569
探索
, 索
, 积累
, 因素
, 紫
, ...
718
<0xE5><0x86>
4.17875
判决
, 内饰
, 的情况
, 新冠
, 军
, ...
1123
<0xE5><0x93>
4.1845
哪个
, 的影响
, 哥
, 哪里
, 哪
, ...
1136
<0xE5><0x89>
4.1865
的前
, 目前
, 剩
, 剪
, 当前
, ...
398
<0xE4><0xBB>
4.19132
仔细
, 他是
, 责任
, 不仅
, 以
, ...
1665
<0xE9><0xA1>
4.19254
必须
, 项
, 页
, 项目
, 顺
, ...
1291
<0xE6><0xB1>
4.20493
污
, 武汉
, 江苏
, 池
, 汁
, ...
1285
<0xE7><0x82>
4.20758
肺炎
, 炉
, 锻炼
, 一点
, 点的
, ...
18886
▁<0xC5>
4.21288
▁ž
, ▁ří
455
<0xE5><0xAE>
4.2272
确实
, 肯定
, 害
, 规定
, 实践
, ...
880
<0xE5><0xB1>
4.23021
局
, 基层
, 山
, 展开
, 屏幕
, ...
894
<0xE6><0xB0>
4.23035
民警
, 国民
, 天气
, 村民
, 氧化
, ...
4667
<0xE7><0xA2>
4.23228
障碍
, 碧
, 碗
, 碍
, 碑
, ...
1282
<0xE6><0xB8>
4.23405
逐渐
, 清
, 清晰
, 游
, 清楚
, ...
693
<0xE5><0xBC>
4.2397
弟
, 展开
, 弗
, 离开
, 弄
, ...
29855
<0xE8><0xA9>
4.24744
詹
1357
<0xE4><0xBE>
4.26097
依旧
, 侯
, 便
, 依然
, 便是
, ...
884
<0xE6><0xAD>
4.26098
逐步
, 进一步
, 武汉
, 此
, 武
, ...
2529
<0xE9><0x93>
4.27059
铁
, 铜
, 链
, 铝
, 铺
, ...
510
<0xE6><0x88>
4.27705
我是
, 我说
, 变成了
, 房产
, 战斗
, ...
448
<0xE6><0x98>
4.27712
他是
, 聪明
, 是有
, 交易
, 我是
, ...
1520
<0xE6><0x99>
4.27779
风景
, 普遍
, 晕
, 晋
, 清晰
, ...
1681
<0xE9><0x9A>
4.27918
隐
, 隔
, 障碍
, 障
, 困难
, ...
1722
<0xE7><0xA8>
4.28664
稍
, 的过程中
, 稿
, 程
, 课程
, ...
1534
<0xE8><0xB0>
4.30553
调
, 调研
, 谨
, 谐
, 调整
, ...
391
<0xE6><0x9C>
4.33039
机构
, 没有
, 服务
, 机制
, 是有
, ...
620
<0xE5><0x8D>
4.33151
博物馆
, 千万
, 上升
, 危
, 午
, ...
539
<0xE7><0xBB>
4.34804
仔细
, 经常
, 总统
, 连续
, 曾经
, ...
749
<0xE5><0xAF>
4.35055
考察
, 导
, 寻
, 财富
, 指导
, ...
15429
<0xE8><0xA6>
4.3534
要有
, 不需要
, 要注意
, 重要的是
, 覆盖
, ...
663
<0xE5><0xBE>
4.36669
待
, 循
, 循环
, 显得
, 往
, ...
819
<0xE6><0xA0>
4.38275
一样的
, 样
, 树
, 核
, 的价格
, ...
11662
▁<0xD1>
4.38737
▁така
, ▁ръ
, ▁смърт
, ▁уби
, ▁род
, ...
5308
<0xE5><0xA0>
4.38806
堂
, 堡
, 堪
, 堵
, 课堂
, ...
31298
<0xE2><0x98>
4.40259
924
<0xE6><0xB2>
4.40606
长沙
, 没有
, 还没
, 有没有
, 河
, ...
28513
<0xE2><0x97>
4.41086
4668
<0xE5><0x8B>
4.43052
勒
, 募
, 勾
, 勇
, 勃
, ...
3085
<0xE8><0x8C>
4.4618
规范
, 范围内
, 范围
, 范
, 茶
, ...
1653
<0xE9><0x9B>
4.48718
雨
, 雕
, 雅
, 零
, 集体
, ...
808
<0xE6><0x95>
4.4959
效率
, 的故事
, 教师
, 整个
, 少数
, ...
298
<0xE4><0xB8>
4.50554
个股
, 一体
, 也不会
, 工业
, 都不
, ...
1095
<0xE6><0x8B>
4.52593
拓
, 负担
, 招
, 包括
, 拔
, ...
13099
<0xE8><0xAA>
4.5414
誉
2101
<0xE9><0x92>
4.56203
针
, 赚钱
, 钙
, 钱
, 钟
, ...
743
<0xE9><0x80>
4.59662
逐步
, 逐渐
, 速
, 造
, 退休
, ...
517
<0xE5><0xB0>
4.60304
尝
, 就要
, 尚
, 就会
, 尔
, ...
8797
<0xE2><0x86>
4.61572
→
, ↓
661
<0xE5><0xB8>
4.62123
经常
, 带着
, 非常
, 带
, 帮
, ...
13247
<0xE1><0x83>
4.63162
1394
<0xE5><0x80>
4.6391
颜值
, 倾
, 值
, 值得
, 债务
, ...
21305
▁<0xD7>
4.64791
1247
<0xE9><0x81>
4.72804
遇到
, 大道
, 遵
, 普遍
, 报道
, ...
7813
<0xE2><0x95>
4.74441
═
, ════
, ══
, ║
4556
<0xE8><0xA8>
4.74678
留言
, 而言
, 语言
, 言
9441
<0xE2><0x84>
4.74956
№
, ™
, ℃
343
<0xE3><0x80>
4.85257
、
, 》
, 「
, 、《
, 【
, ...
12394
▁<0xF0><0x9F>
4.85467
▁🙂
, ▁<0xF0><0x9F><0x99>
20965
▁<0xC4>
4.91763
▁červ
, ▁Č
3892
<0xE2><0x94>
4.95594
──
, │
, ├
, ─
, ────
7935
<0xE2><0x82>
4.97643
€
, ₂
10073
<0xE0><0xA4>
4.9991
3831
▁<0xC3>
5.04717
▁èxit
, ▁×
, ▁època
, ▁É
, ▁Á
, ...
697
<0xE5><0x87>
5.05148
出版
, 出去
, 准备
, 出
, 凶
, ...
10047
<0xF0><0x9F>
5.05949
▁<0xF0><0x9F>
, ▁🙂
, ▁<0xF0><0x9F><0x99>
350
<0xE2><0x80>
5.06552
…
, “
, „
, ……
, \u200b
, ...
17726
▁<0xD8>
5.19848
▁ا
15065
<0xE2><0x88>
5.45823
−
9158
<0xE3><0x82>
5.59235
7559
▁<0xCE>
5.63295
▁μ
11028
<0xE2><0x96>
5.83468
8553
<0xE3><0x83>
5.885
7222
<0xE3><0x81>
5.89523
の
16567
<0xE0><0xB8>
5.89839
24625
<0xEC><0x9D>
6.2541
942
<0xEF><0xBC>
6.95335
;
, ,
, ?
, %;
, !
0 entries below threshold of 0.688
256 additional entries above threshold
token_id
token
indicator
ord
hex
byte_type
172
<0xF2>
1.68776
242
0xF2
utf8
171
<0xF1>
1.70461
241
0xF1
utf8
200
\x19
1.79427
25
0x19
ascii
196
\x15
1.83506
21
0x15
ascii
199
\x18
1.84762
24
0x18
ascii
192
\x11
1.84967
17
0x11
ascii
193
\x12
1.85323
18
0x12
ascii
205
\x1e
1.86743
30
0x1E
ascii
194
\x13
1.89916
19
0x13
ascii
204
\x1d
1.98117
29
0x1D
ascii
189
\x0e
1.98499
14
0x0E
ascii
198
\x17
2.00868
23
0x17
ascii
180
\x05
2.00963
5
0x05
ascii
190
\x0f
2.01196
15
0x0F
ascii
181
\x06
2.01567
6
0x06
ascii
191
\x10
2.01793
16
0x10
ascii
206
\x1f
2.07004
31
0x1F
ascii
186
\x0b
2.11729
11
0x0B
ascii
151
<0xDD>
2.18398
221
0xDD
utf8
174
<0xF4>
2.26021
244
0xF4
utf8
195
\x14
2.26062
20
0x14
ascii
179
\x04
2.29537
4
0x04
ascii
203
\x1c
2.30716
28
0x1C
ascii
197
\x16
2.31226
22
0x16
ascii
177
\x02
2.44366
2
0x02
ascii
178
\x03
2.4685
3
0x03
ascii
32005
<0xFF>
2.53469
255
0xFF
unused_utf8
175
\x00
2.55362
0x00
ascii
173
<0xF3>
2.55464
243
0xF3
utf8
208
\x7f
2.58278
127
0x7F
ascii
32001
<0xF7>
2.61127
247
0xF7
unused_utf8
160
<0xE6>
2.65257
230
0xE6
utf8
150
<0xDC>
2.65265
220
0xDC
utf8
32008
<0xFE>
2.76117
254
0xFE
unused_utf8
32004
<0xC0>
2.81291
192
0xC0
unused_utf8
176
\x01
2.83015
1
0x01
ascii
182
\x07
2.87459
7
0x07
ascii
32012
<0xFB>
2.95699
251
0xFB
unused_utf8
201
\x1a
3.01315
26
0x1A
ascii
142
<0xD4>
3.08731
212
0xD4
utf8
158
<0xE4>
3.27606
228
0xE4
utf8
32002
<0xC1>
3.31036
193
0xC1
unused_utf8
183
\x08
3.38304
8
0x08
ascii
152
<0xDE>
3.5258
222
0xDE
utf8
135
<0xCD>
3.56171
205
0xCD
utf8
32010
<0xF9>
3.63091
249
0xF9
unused_utf8
153
<0xDF>
3.63738
223
0xDF
utf8
141
<0xD3>
3.7974
211
0xD3
utf8
133
<0xCB>
3.83116
203
0xCB
utf8
168
<0xEE>
3.86047
238
0xEE
utf8
32003
<0xFD>
3.91303
253
0xFD
unused_utf8
159
<0xE5>
3.9473
229
0xE5
utf8
187
\x0c
4.13811
12
0x0C
ascii
32006
<0xF8>
4.17687
248
0xF8
unused_utf8
130
<0xC8>
4.17898
200
0xC8
utf8
32000
<0xF5>
4.19654
245
0xF5
unused_utf8
132
<0xCA>
4.31236
202
0xCA
utf8
129
<0xC7>
4.34595
199
0xC7
utf8
140
<0xD2>
4.39198
210
0xD2
utf8
32007
<0xFA>
4.42482
250
0xFA
unused_utf8
138
<0xD0>
4.43724
208
0xD0
utf8
131
<0xC9>
4.46073
201
0xC9
utf8
157
<0xE3>
4.5521
227
0xE3
utf8
143
<0xD5>
4.58517
213
0xD5
utf8
202
\x1b
4.59355
27
0x1B
ascii
144
<0xD6>
4.60268
214
0xD6
utf8
185
\n
4.73981
10
0x0A
ascii
170
<0xF0>
4.77316
240
0xF0
utf8
162
<0xE8>
4.81693
232
0xE8
utf8
149
<0xDB>
4.84277
219
0xDB
utf8
137
<0xCF>
4.87447
207
0xCF
utf8
128
<0xC6>
4.87847
198
0xC6
utf8
134
<0xCC>
4.90701
204
0xCC
utf8
139
<0xD1>
4.90705
209
0xD1
utf8
161
<0xE7>
4.96243
231
0xE7
utf8
169
<0xEF>
4.97141
239
0xEF
utf8
124
<0xC2>
4.99854
194
0xC2
utf8
32009
<0xFC>
5.06167
252
0xFC
unused_utf8
148
<0xDA>
5.07932
218
0xDA
utf8
11
,
5.1986
44
0x2C
ascii
147
<0xD9>
5.22316
217
0xD9
utf8
32011
<0xF6>
5.24119
246
0xF6
unused_utf8
136
<0xCE>
5.26679
206
0xCE
utf8
13
.
5.30703
46
0x2E
ascii
146
<0xD8>
5.31254
216
0xD8
utf8
145
<0xD7>
5.37254
215
0xD7
utf8
163
<0xE9>
5.43167
233
0xE9
utf8
7
(
5.4577
40
0x28
ascii
125
<0xC3>
5.54326
195
0xC3
utf8
127
<0xC5>
5.56855
197
0xC5
utf8
62
_
5.62372
95
0x5F
ascii
126
<0xC4>
5.6698
196
0xC4
utf8
156
<0xE2>
6.06381
226
0xE2
utf8
154
<0xE0>
6.07905
224
0xE0
utf8
8
)
6.09765
41
0x29
ascii
25
:
6.19115
58
0x3A
ascii
155
<0xE1>
6.19288
225
0xE1
utf8
118
<0xBA>
6.23924
186
0xBA
utf8
93
~
6.24197
126
0x7E
ascii
26
;
6.24336
59
0x3B
ascii
207
▁
6.2542
32
0x20
ascii
212
<0x83>
6.25453
131
0x83
utf8
71
h
6.25724
104
0x68
ascii
123
<0xBF>
6.33106
191
0xBF
utf8
15
0
6.33536
48
0x30
ascii
28
=
6.35854
61
0x3D
ascii
95
<0xA2>
6.37026
162
0xA2
utf8
110
<0xB2>
6.37897
178
0xB2
utf8
14
/
6.37909
47
0x2F
ascii
12
-
6.38309
45
0x2D
ascii
99
<0xA6>
6.39995
166
0xA6
utf8
119
<0xBB>
6.43414
187
0xBB
utf8
239
<0x9E>
6.45458
158
0x9E
utf8
69
f
6.45621
102
0x66
ascii
46
O
6.46244
79
0x4F
ascii
164
<0xEA>
6.46801
234
0xEA
utf8
29
>
6.47252
62
0x3E
ascii
114
<0xB6>
6.47503
182
0xB6
utf8
167
<0xED>
6.47694
237
0xED
utf8
50
S
6.51315
83
0x53
ascii
49
R
6.51483
82
0x52
ascii
115
<0xB7>
6.52099
183
0xB7
utf8
20
5
6.53716
53
0x35
ascii
216
<0x87>
6.55352
135
0x87
utf8
76
m
6.55794
109
0x6D
ascii
106
<0xAE>
6.56644
174
0xAE
utf8
222
<0x8D>
6.60074
141
0x8D
utf8
34
C
6.63108
67
0x43
ascii
98
<0xA5>
6.63852
165
0xA5
utf8
80
q
6.64145
113
0x71
ascii
240
<0x9F>
6.64214
159
0x9F
utf8
231
<0x96>
6.64228
150
0x96
utf8
5
&
6.64293
38
0x26
ascii
100
<0xA7>
6.64463
167
0xA7
utf8
210
<0x81>
6.66378
129
0x81
utf8
44
M
6.67363
77
0x4D
ascii
48
Q
6.68049
81
0x51
ascii
122
<0xBE>
6.6827
190
0xBE
utf8
223
<0x8E>
6.70952
142
0x8E
utf8
96
<0xA3>
6.71676
163
0xA3
utf8
37
F
6.72305
70
0x46
ascii
215
<0x86>
6.72601
134
0x86
utf8
113
<0xB5>
6.74552
181
0xB5
utf8
107
<0xAF>
6.74905
175
0xAF
utf8
104
<0xAB>
6.75294
171
0xAB
utf8
232
<0x97>
6.75444
151
0x97
utf8
211
<0x82>
6.75916
130
0x82
utf8
92
}
6.77338
125
0x7D
ascii
94
<0xA1>
6.77917
161
0xA1
utf8
53
V
6.81613
86
0x56
ascii
103
<0xAA>
6.83614
170
0xAA
utf8
227
<0x92>
6.85279
146
0x92
utf8
18
3
6.85811
51
0x33
ascii
241
<0xA0>
6.86063
160
0xA0
utf8
77
n
6.86179
110
0x6E
ascii
36
E
6.86511
69
0x45
ascii
236
<0x9B>
6.87329
155
0x9B
utf8
83
t
6.87386
116
0x74
ascii
121
<0xBD>
6.88929
189
0xBD
utf8
60
]
6.90534
93
0x5D
ascii
238
<0x9D>
6.91919
157
0x9D
utf8
42
K
6.9196
75
0x4B
ascii
224
<0x8F>
6.92131
143
0x8F
utf8
1
"
6.92428
34
0x22
ascii
219
<0x8A>
6.92477
138
0x8A
utf8
61
^
6.92582
94
0x5E
ascii
109
<0xB1>
6.92849
177
0xB1
utf8
47
P
6.93111
80
0x50
ascii
85
v
6.93349
118
0x76
ascii
2
#
6.94063
35
0x23
ascii
242
<0xAD>
6.94441
173
0xAD
utf8
228
<0x93>
6.95394
147
0x93
utf8
33
B
6.96141
66
0x42
ascii
56
Y
6.9659
89
0x59
ascii
39
H
6.96659
72
0x48
ascii
102
<0xA9>
6.97375
169
0xA9
utf8
70
g
6.99341
103
0x67
ascii
81
r
6.99462
114
0x72
ascii
51
T
7.00263
84
0x54
ascii
16
1
7.0045
49
0x31
ascii
89
z
7.00812
122
0x7A
ascii
41
J
7.01278
74
0x4A
ascii
10
+
7.01417
43
0x2B
ascii
214
<0x85>
7.01597
133
0x85
utf8
90
{
7.01732
123
0x7B
ascii
0
!
7.02541
33
0x21
ascii
57
Z
7.02645
90
0x5A
ascii
234
<0x99>
7.03215
153
0x99
utf8
82
s
7.03977
115
0x73
ascii
117
<0xB9>
7.04719
185
0xB9
utf8
32
A
7.04979
65
0x41
ascii
101
<0xA8>
7.05057
168
0xA8
utf8
72
i
7.05272
105
0x69
ascii
58
[
7.0715
91
0x5B
ascii
75
l
7.07805
108
0x6C
ascii
97
<0xA4>
7.0789
164
0xA4
utf8
45
N
7.07918
78
0x4E
ascii
3
$
7.08308
36
0x24
ascii
220
<0x8B>
7.08407
139
0x8B
utf8
6
'
7.08985
39
0x27
ascii
30
?
7.09325
63
0x3F
ascii
230
<0x95>
7.10176
149
0x95
utf8
111
<0xB3>
7.10441
179
0xB3
utf8
105
<0xAC>
7.10534
172
0xAC
utf8
225
<0x90>
7.11371
144
0x90
utf8
88
y
7.11608
121
0x79
ascii
217
<0x88>
7.11815
136
0x88
utf8
74
k
7.13978
107
0x6B
ascii
68
e
7.14008
101
0x65
ascii
65
b
7.14782
98
0x62
ascii
43
L
7.14907
76
0x4C
ascii
226
<0x91>
7.15023
145
0x91
utf8
165
<0xEB>
7.15195
235
0xEB
utf8
184
\t
7.16204
9
0x09
ascii
40
I
7.16629
73
0x49
ascii
59
\
7.17374
92
0x5C
ascii
19
4
7.20066
52
0x34
ascii
73
j
7.22105
106
0x6A
ascii
4
%
7.22185
37
0x25
ascii
54
W
7.23527
87
0x57
ascii
38
G
7.23981
71
0x47
ascii
17
2
7.24608
50
0x32
ascii
52
U
7.25646
85
0x55
ascii
22
7
7.25664
55
0x37
ascii
84
u
7.25815
117
0x75
ascii
63
`
7.26047
96
0x60
ascii
55
X
7.27648
88
0x58
ascii
229
<0x94>
7.28418
148
0x94
utf8
35
D
7.31044
68
0x44
ascii
116
<0xB8>
7.31844
184
0xB8
utf8
218
<0x89>
7.32024
137
0x89
utf8
86
w
7.32043
119
0x77
ascii
27
<
7.32143
60
0x3C
ascii
31
@
7.33743
64
0x40
ascii
66
c
7.3444
99
0x63
ascii
87
x
7.35131
120
0x78
ascii
237
<0x9C>
7.35496
156
0x9C
utf8
64
a
7.35962
97
0x61
ascii
67
d
7.36596
100
0x64
ascii
235
<0x9A>
7.38827
154
0x9A
utf8
91
|
7.40658
124
0x7C
ascii
166
<0xEC>
7.40769
236
0xEC
utf8
79
p
7.43415
112
0x70
ascii
112
<0xB4>
7.44087
180
0xB4
utf8
21
6
7.44971
54
0x36
ascii
209
<0x80>
7.4663
128
0x80
utf8
78
o
7.46842
111
0x6F
ascii
23
8
7.49008
56
0x38
ascii
24
9
7.53544
57
0x39
ascii
221
<0x8C>
7.57134
140
0x8C
utf8
9
*
7.574
42
0x2A
ascii
233
<0x98>
7.60996
152
0x98
utf8
213
<0x84>
7.62374
132
0x84
utf8
108
<0xB0>
7.64476
176
0xB0
utf8
120
<0xBC>
7.72815
188
0xBC
utf8
188
\r
7.94412
13
0x0D
ascii
3 entries below threshold of 0.688
token_id
token
indicator
max_prob
32019
<|User|>
0.5096
2.4e-07
32020
<|Assistant|>
0.509701
5e-07
32021
<|EOT|>
0.515563
2.3e-07
6 additional entries above threshold
token_id
token
indicator
max_prob
32018
<pad>
2.499
32014
¿<|end▁of▁sentence|>?
5.7846
32013
¿<|begin▁of▁sentence|>?
5.79269
32015
¿<|fim▁hole|>?
6.22548
2.4e-08
32017
¿<|fim▁end|>?
6.63103
3.4e-07
32016
¿<|fim▁begin|>?
6.66528
8.6e-08
53 entries below threshold of 0.688
token_id
token
indicator
reencoded
31750
▁indústria
0.496724
1539: ▁ind
, 32007: <0xFA>
, 292: st
, 2122: ria
14862
▁últ
0.500333
207: ▁
, 32007: <0xFA>
, 4025: lt
9660
ública
0.500659
32007: <0xFA>
, 65: b
, 28120: lica
19498
▁següents
0.50129
2048: ▁seg
, 32009: <0xFC>
, 708: ents
1601
ú
0.501457
32007: <0xFA>
23333
▁pública
0.502575
265: ▁p
, 32007: <0xFA>
, 65: b
, 28120: lica
13921
▁República
0.503042
4396: ▁Rep
, 32007: <0xFA>
, 65: b
, 28120: lica
5547
ús
0.503524
32007: <0xFA>
, 82: s
17665
últ
0.503793
32007: <0xFA>
, 4025: lt
26633
igües
0.504358
311: ig
, 32009: <0xFC>
, 257: es
16549
ússia
0.504379
32007: <0xFA>
, 15965: ssia
15195
ún
0.504562
32007: <0xFA>
, 77: n
12789
▁música
0.504724
273: ▁m
, 32007: <0xFA>
, 82: s
, 1168: ica
15886
▁públic
0.504736
265: ▁p
, 32007: <0xFA>
, 65: b
, 807: lic
21795
ický
0.504738
767: ick
, 32003: <0xFD>
24553
únic
0.505019
32007: <0xFA>
, 5072: nic
10815
úsica
0.505234
32007: <0xFA>
, 82: s
, 1168: ica
30604
▁comú
0.505463
385: ▁com
, 32007: <0xFA>
18411
ür
0.505948
32009: <0xFC>
, 81: r
11499
qü
0.506093
80: q
, 32009: <0xFC>
33 additional entries below threshold
token_id
token
indicator
reencoded
28052
ústria
0.506341
32007: <0xFA>
, 292: st
, 2122: ria
30914
▁freqü
0.506356
2491: ▁fre
, 80: q
, 32009: <0xFC>
19771
▁Rússia
0.506409
432: ▁R
, 32007: <0xFA>
, 15965: ssia
27658
▁núm
0.506626
291: ▁n
, 32007: <0xFA>
, 76: m
15356
▁À
0.507567
207: ▁
, 32004: <0xC0>
20095
qüència
0.507576
80: q
, 32009: <0xFC>
, 2859: ència
9407
▁nú
0.507797
291: ▁n
, 32007: <0xFA>
28069
▁Á
0.507899
207: ▁
, 32002: <0xC1>
28350
Àfrica
0.508551
32004: <0xC0>
, 15591: frica
30251
▁números
0.508815
291: ▁n
, 32007: <0xFA>
, 1320: mer
, 378: os
29699
▁ús
0.509047
207: ▁
, 32007: <0xFA>
, 82: s
5009
ý
0.509236
32003: <0xFD>
14976
ký
0.509242
74: k
, 32003: <0xFD>
15411
ües
0.509414
32009: <0xFC>
, 257: es
27495
▁llengües
0.510193
11185: ▁lleng
, 32009: <0xFC>
, 257: es
25591
ø
0.510211
32006: <0xF8>
29640
▁ún
0.510539
207: ▁
, 32007: <0xFA>
, 77: n
8575
▁següent
0.510763
2048: ▁seg
, 32009: <0xFC>
, 289: ent
7157
úblic
0.510763
32007: <0xFA>
, 65: b
, 807: lic
21280
▁únic
0.510998
207: ▁
, 32007: <0xFA>
, 5072: nic
2864
ü
0.511202
32009: <0xFC>
12794
À
0.511406
32004: <0xC0>
25638
ých
0.511888
32003: <0xFD>
, 358: ch
11998
▁númer
0.512092
291: ▁n
, 32007: <0xFA>
, 1320: mer
7068
▁segü
0.512663
2048: ▁seg
, 32009: <0xFC>
30970
▁mús
0.513038
273: ▁m
, 32007: <0xFA>
, 82: s
7051
▁ú
0.513144
207: ▁
, 32007: <0xFA>
30434
▁qü
0.51369
4652: ▁q
, 32009: <0xFC>
7972
ö
0.514278
32011: <0xF6>
20658
ský
0.514622
2939: sk
, 32003: <0xFD>
21912
úst
0.514701
32007: <0xFA>
, 292: st
14689
▁número
0.515995
291: ▁n
, 32007: <0xFA>
, 1320: mer
, 78: o
6576
úb
0.517918
32007: <0xFA>
, 65: b