Skip to content

Latest commit

 

History

History
1362 lines (1339 loc) · 444 KB

deepseek_ai_deepseek_coder_33b_base.md

File metadata and controls

1362 lines (1339 loc) · 444 KB

Report for deepseek-ai/deepseek-coder-33b-base

Model info

  • Model Info:
    • Tied embeddings: False
    • LM head uses bias: False
    • Embeddings shape: [32256, 7168]
  • Tokenizer Info:
    • Vocab Size: 32022
    • Tokenizer Class: LlamaTokenizerFast
    • Tokenizer Type: BPE
    • Bytes handling: Byte Input
    • Token for verification prompt building: ArgumentException
    • Token id for verification prompt building: 28151
  • Indicator summary:
    • Indicator for under-trained tokens: E_{in} L2 Norm
    • Overall distribution: 3.660 +/- 1.221
  • Detected Token Counts:
    • Number of tested under-trained tokens: 631, 628 non-special, 108 below p = 0.01 threshold, 70 below soft indicator threshold
    • Number of single byte tokens: 256, of which 0 below indicator threshold
    • Number of special tokens: 53, of which 53 below indicator threshold
    • Number of non-single-byte unreachable tokens: 53, of which 53 below indicator threshold
    • Number of non-single-byte UTF-fragment tokens: 327, of which 0 below soft indicator threshold

Under-trained token indicators plot

Indicators scatter plots

Verification plot

Verification plot

Under-trained token verification results

70 entries below threshold of 0.724

token_id token indicator max_prob in_other_tokens
6968 \xa0anys 0.503183 3.8e-07
24847 \xa0milions 0.509945 2.1e-07
9232 \xa0persones 0.527892 4.7e-08
31142 ▁desocupats 0.52957 2e-08
28453 Polítics 0.531442 1.9e-07
26287 automòbils 0.533945 3e-07
30088 ▁capbaix 0.537156 1.6e-07
30188 ▁unipersonals 0.539675 2.6e-06
17744 Родени 0.547032 5.7e-07
26042 ▁херцо 0.549482 6.1e-08 ▁херцог
30963 ▁solteres 0.554075 1.9e-06
30168 Piràmide 0.568648 1.5e-07
29906 ▁херцог 0.570143 1.4e-07
28726 ▁disposaven 0.572149 3.9e-06
29471 Naixements 0.572227 1.7e-05
26851 ▁agrícoles 0.574596 6.1e-07
29542 ▁corresponia 0.580997 1.1e-08
16651 \xa0aC 0.581797 2.1e-07
30103 ▁llogaters 0.584133 1.4e-05
29856 ▁pàrqu 0.586816 4.1e-08 ▁pàrquing
50 additional entries below threshold
token_id token indicator max_prob in_other_tokens
8790 \xa0habitants 0.599214 1.7e-07
15510 ▁Olímpics 0.605718 7.3e-06
30427 ▁jubilades 0.608062 2.9e-05
18064 àmide 0.612484 2.8e-05 Piràmide, ▁piràmide
22551 ▁contemporanis 0.616108 4.8e-05
29894 ▁residències 0.618363 2.9e-05
29976 ▁censats 0.621773 0.068
24735 ▁alemanys 0.622736 0.0002
25186 òrnia 0.625991 2.4e-05 ▁Califòrnia
29115 ▁príncep 0.626678 4.5e-07
10708 ogrà 0.627548 3.9e-06 ▁geogràfica, ogràfic, ogràfica, ogràf
25055 Esportistes 0.628171 0.0011
29013 ▁automòbil 0.629375 8.2e-07
30090 ▁britànics 0.634724 4.9e-07
14837 Futbolistes 0.635706 0.00022
27783 ▁Califòrnia 0.638095 4.9e-06
25037 àbitat 0.642786 5e-06
13039 lemanya 0.64283 0.0059 Alemanya, ▁Alemanya
22969 Починали 0.645541 0.00074
31793 glésies 0.651159 2.7e-06
15366 unidenc 0.653983 3.1e-05 ▁estatunidencs, ▁estatunidenc
30659 ▁repartia 0.656056 1.4e-07
26261 Разпространение 0.659405 1e-05
31975 ▁Canadà 0.660188 3.6e-05
30507 ▁llogats 0.661058 4.8e-05
30401 ▁britànic 0.661628 4.4e-07
15850 ▁estatunidenc 0.663608 2.2e-07 ▁estatunidencs
21952 ▁francesos 0.663708 3.4e-05
30461 ▁explotacions 0.663847 0.021
30828 ▁aturades 0.665324 2e-06
19342 ▁façana 0.667547 0.00071
21788 Escriptors 0.67077 0.036
29278 ▁detallades 0.671464 1.7e-08
31273 Acadèmia 0.676665 2.2e-07
29121 ▁segones 0.679905 1.9e-07
22061 adèmia 0.682464 0.02 Acadèmia
29921 ▁Anglaterra 0.6844 1.1e-07
28243 ▁espanyols 0.685977 0.0021
30041 quitectònic 0.69054 4.9e-05
6433 мври 0.691087 0.0026 ▁октомври, ември, ктомври, ▁декември, кември, ...
16297 \xa0metres 0.694776 0.033
21558 ànics 0.696152 0.00033 ▁britànics
31564 ▁mascles 0.70156 4.2e-05
9805 ▁espèc 0.703921 4.2e-07 ▁espècie, ▁espècies
30030 ▁inactius 0.705957 0.024
28335 ▁омъ 0.707027 0.00047
25714 ▁italià 0.713196 0.031
29895 ▁pàrquing 0.716446 0.00014
27335 ▁influència 0.718459 1.3e-07
26672 ▁estatunidencs 0.720075 0.0017
558 additional entries above threshold
token_id token indicator max_prob in_other_tokens
24160 íncep 0.723528 0.00033 ▁príncep
28639 ▁allClassesLink 0.727283 0.44
16772 església 0.728486 0.0011
30264 òlegs 0.729631 0.0089
17441 ▁nomenat 0.729933 0.00037
30644 ▁Grècia 0.730249 8.4e-05
28612 ▁evolucionat 0.738137 0.0078
27425 ▁victòria 0.739517 0.016
18313 ▁селото 0.741411 2e-07
28777 aixements 0.742389 0.022 Naixements
12674 èrcit 0.743299 0.031 exèrcit
24834 ▁econòmiques 0.747341 0.038
27830 ▁църква 0.749044 1.6e-05
28545 ▁militars 0.749846 0.87
25060 щайн 0.75085 0.029
20993 ▁Mèxic 0.752339 0.0017
19319 exèrcit 0.754693 3.4e-05
25301 ▁comtat 0.757928 4.8e-05
25412 Itàlia 0.758529 0.66
18656 ▁дъщеря 0.75952 0.00077
10723 ▁препратки 0.759559 0.017
29322 Habitatges 0.760315 0.015
10187 glésia 0.760714 0.0061 església, Església
28065 ловди 0.766125 0.03 ловдив
30879 ▁общината 0.768708 0.0088
27661 ▁actriu 0.771121 0.018
21864 ▁Alemanya 0.771155 0.066
30610 ▁nombrosos 0.772582 9e-05
9714 ▁espany 0.775009 0.021 ▁espanyola, ▁espanyol, ▁espanyols
18367 ▁ocupats 0.775126 0.025
22583 ▁Japó 0.776316 0.021
30265 ètics 0.778119 0.6
24686 ▁Itàlia 0.778657 0.023
5569 lícul 0.779889 0.0021 lícules, lícula
24289 ▁classificades 0.781315 0.0066
14849 ítics 0.781816 0.39 Polítics, ▁polítics
3123 Referències 0.783123 0.26
29602 ▁polítics 0.784546 0.00055
7638 Източници 0.785845 0.55
23390 ▁internacionals 0.793682 0.58
10742 Външни 0.793917 0.82
31788 ▁monestir 0.79416 1.8e-05
19784 ▁trasllad 0.795329 0.0022 ▁traslladar
31561 ▁reial 0.796322 4.2e-06
24091 ▁llatí 0.797383 0.13
25466 талиан 0.798018 0.29
18616 ▁establiments 0.801193 0.65
25926 ▁Гърция 0.802642 0.0064
27512 ▁fabricació 0.805011 0.0031
26307 ▁geogràfica 0.805194 0.26
31347 ▁malgrat 0.80569 0.81
22546 ▁световна 0.808362 0.018
27652 ífics 0.809539 0.024
22079 ▁bisbe 0.809842 0.0043
28410 ▁aparèixer 0.810101 0.031
24441 ▁Гър 0.81023 1e-05 ▁Гърция
21608 ximadament 0.811935 0.0046 ▁aproximadament
28044 ustràlia 0.812998 0.062
28805 ▁ocupades 0.813157 0.00052
18097 ▁Spacewatch 0.814843 0.25
18182 ▁ноември 0.818944 0.2
28464 òmetres 0.821613 0.21
28167 ▁piràmide 0.822302 0.021
16292 ècia 0.823027 0.2 ▁Grècia
28636 ▁traslladar 0.8253 0.13
28382 亿亿亿亿 0.825579 0.045
31361 onesos 0.828629 0.37
26323 ▁населението 0.828637 0.76
18185 кември 0.830136 0.25 ▁декември
19434 època 0.830504 2.6e-05 ▁època
13574 ïsos 0.83259 0.0014 ▁Països, ▁països
11134 ▁properes 0.832618 0.84
12123 ▁dècada 0.833375 0.26
31434 ▁inclosa 0.834003 0.15
26670 ▁Congrés 0.83582 0.085
30009 ogràf 0.836106 0.061
19271 евру 0.83721 0.078 ▁февруари, евруари
28956 ▁Tanmateix 0.839098 0.0036
22688 ▁època 0.839102 0.0027
25978 ▁reparació 0.839965 0.24
30050 ▁importància 0.840806 0.49
16461 ▁цър 0.842136 0.12 ▁църква
7390 точници 0.845498 0.17 Източници
29300 ▁tradició 0.850243 0.00061
21146 ▁alemany 0.850571 0.96 ▁alemanys
18311 ▁germà 0.852569 0.1
18566 ▁habitatge 0.855972 0.53
16553 ▁econòm 0.86065 0.2 ▁econòmiques
20430 ▁espanyola 0.861114 0.039
10865 ▁dèc 0.861432 4.9e-06 ▁dècada
17273 ogràfica 0.863128 0.28 ▁geogràfica
27099 ▁segles 0.864287 0.038
17567 èmia 0.864365 0.091 Acadèmia, adèmia
16901 Бележки 0.864725 0.95
31829 ▁muntanyes 0.86496 0.35
17340 òleg 0.86734 0.018 òlegs
27573 ▁pobresa 0.86857 0.28
27816 ▁restauració 0.869494 0.58
17926 ▁дъщер 0.870327 0.27 ▁дъщеря
7642 ▁habitatges 0.871729 0.00025
12998 Vegeu 0.872036 0.51
26783 òlica 0.87473 0.0026
29970 Amèrica 0.874822 0.32
31865 Aragó 0.876083 0.7
26580 йската 0.878288 0.15
30686 ▁casades 0.879985 0.78
16086 òlic 0.880283 0.8 òlica
28399 ▁Països 0.880551 0.74
27730 eriorment 0.88111 0.094
26204 òrica 0.881179 0.15
10200 ▁francès 0.882812 0.055
29609 ▁generalment 0.882846 0.00076
27331 ▁Nacions 0.885005 0.11
11110 ▁juliol 0.886747 0.98
18670 alsevol 0.887267 0.26 ▁qualsevol
10579 ▁desembre 0.888967 0.94
23709 ▁clàss 0.889588 0.51
29028 Alemanya 0.890589 0.63
29665 ▁esdevenir 0.89132 0.053
9550 lícules 0.891468 0.068
22215 ▁смърт 0.892621 0.2 ▁смъртта
19601 ▁февруари 0.896072 0.32
21218 ческата 0.896617 0.13
18585 ръц 0.897433 0.31 ▁гръц
23959 ▁гръц 0.897485 0.013
27921 ▁malalt 0.89914 0.94 ▁malaltia
19509 Poblacions 0.899335 0.85
25646 ▁castellà 0.899601 0.27
22418 йския 0.899867 0.037
15588 ▁havien 0.9012 0.27
16904 ▁tèc 0.903429 0.29 ▁tècnica, ▁tècn
20069 ▁Segona 0.904717 1
16763 éixer 0.904737 0.025 ▁néixer
26615 ▁pobles 0.905544 0.76
29245 ògraf 0.906818 0.11
27966 ▁смъртта 0.906859 0.055
31483 ▁malaltia 0.906907 0.93
27824 ▁competició 0.906928 0.38
27405 administració 0.907845 0.99
19243 ▁nombros 0.911605 0.15 ▁nombrosos
28155 стеза 0.914238 0.19 ▁състеза
6105 Enllaços 0.915173 0.82
24559 ▁esment 0.915773 0.28
30493 ▁composició 0.915848 0.91
11044 Història 0.915956 0.98
24839 Edificis 0.91647 0.84
22641 òbils 0.916575 0.25 automòbils
25115 ▁propietaris 0.918785 0.99
29065 ческите 0.919067 0.033
18668 ▁coneguda 0.919743 9.2e-05
17345 ▁октомври 0.91977 0.091
28103 ▁estadístiques 0.91988 0.85
9300 ▁setembre 0.922735 0.95
23850 ▁presència 0.923884 0.98
16544 ележки 0.924817 0.017 Бележки
16350 ▁histò 0.92589 0.11 ▁històric
28037 ▁Lliga 0.926048 0.99
5695 ▁estaven 0.926351 0.013
27713 ▁манасти 0.926434 0.38
28470 ▁treballs 0.927033 0.94
24641 ïnes 0.928667 0.83
21216 ▁sobretot 0.929198 0.024
22392 ▁Reial 0.92993 0.65
30422 ▁històric 0.929951 0.024
16936 ктомври 0.930675 0.27 ▁октомври
15939 Municipis 0.93169 0.96
25820 ▁assolir 0.931782 0.0048
26354 ▁desenvolupar 0.933598 0.95
27776 квата 0.934174 0.73
29464 ▁баща 0.934639 0.0015
10605 Вън 0.936838 0.56 Външни
23757 espèc 0.937079 0.58
18375 ▁декември 0.9385 0.62
10834 ▁famílies 0.93908 0.99
20267 ▁gairebé 0.939318 5e-06
27860 ▁lluita 0.941476 0.6
21072 ínce 0.941725 0.0046 íncep, ▁príncep
29729 ▁Александър 0.941818 0.98
20705 ▁съпру 0.942255 0.077
26129 ▁Està 0.942383 0.98
21310 ítiques 0.943423 0.039
28313 ческия 0.943789 0.34
30323 ▁tècnica 0.944474 0.97
24488 Església 0.945121 0.097
21555 òmic 0.945199 0.83
30174 ▁gratuït 0.946608 0.77
28125 ▁роден 0.948419 0.83
17281 ▁януари 0.949227 0.92
27377 ▁Patrimoni 0.94985 0.47
23005 ▁romà 0.950653 0.069
18602 ▁edats 0.951477 0.98
27224 ítols 0.951548 0.074
24495 ▁Русия 0.951574 0.69
20498 ▁néixer 0.952258 0.47
18505 ▁especialment 0.953336 0.19
24549 Patrimoni 0.954843 0.93 ▁Patrimoni
29072 ▁cèl 0.95524 0.54
27420 ▁съюз 0.957096 0.039
22673 onès 0.957243 0.35
24164 àtics 0.958653 0.16
27879 emperador 0.959095 1
8829 lícula 0.95988 0.85
8426 ▁tenien 0.960944 0.0014
15822 ànic 0.961271 0.8 ▁britànics, ànica, ▁britànic, ànics
19304 ▁països 0.96167 0.48
28936 ▁matrimoni 0.961846 0.65
30253 ▁Aquestes 0.962203 0.79
31500 Palmarès 0.963076 0.93
17933 àcies 0.963833 0.68 ▁gràcies
30416 escacs 0.963841 0.98
17809 ▁trasll 0.964346 0.86 ▁traslladar, ▁trasllad
16379 късно 0.96507 0.98
25372 ▁gràcies 0.965591 1
27282 NavBarFont 0.967101 0.49
21924 ▁llind 0.96834 0.98 ▁llindar
30025 itució 0.969068 0.24
29874 ._-- 0.969992 0.99
31036 ▁tècn 0.970292 0.66
27977 ïta 0.971663 0.98
11631 èrc 0.972905 0.7 èrcit, exèrcit
27230 ològic 0.973489 0.43
28256 Població 0.97382 0.98
30439 ▁Българ 0.974431 0.77
22936 erència 0.974885 0.42 ▁referència, ▁diferència
29747 ▁aproximadament 0.975717 0.81
17207 ▁Македония 0.977276 0.93
26456 ▁pròpia 0.977326 0.82
5752 ългар 0.97772 0.13 ългарски, ▁Българ, ▁български, ▁българ, ългария, ...
16514 ▁септември 0.977722 0.76
24676 àrqu 0.979194 0.66 ▁pàrqu, ▁pàrquing
29090 изто 0.979448 0.83 ▁изто
13181 ▁espècie 0.979693 0.74 ▁espècies
18812 ministració 0.980454 0.17 administració
24220 ▁densitat 0.981746 1
13499 èixer 0.982156 0.01 ▁aparèixer, ▁conèixer
20470 àtiques 0.983567 0.74
28902 ▁бълга 0.985654 0.82
29985 ▁изто 0.986758 0.19
15803 ▁anglès 0.987864 0.83
30922 olució 0.988181 0.35
21585 ▁èxit 0.990298 0.97
26726 habitatge 0.991166 0.94
17774 ▁eleccions 0.991361 0.99
5981 llaços 0.992273 0.26 Enllaços
21213 icà 0.992735 0.061
29604 яването 0.992845 0.055
30448 ▁sòl 0.99355 0.075
23952 ▁център 0.993715 0.97
12779 ològ 0.993983 0.26 ològic
15247 ▁càrrec 0.994642 0.78
22490 ▁anomenada 0.994725 0.66
27771 àlis 0.995427 0.35 àlisi
22487 ▁Campionat 0.995602 0.98
15048 ▁guanyar 0.995648 0.99
12024 ▁història 0.995781 0.63
25957 ▁fusta 0.995914 0.96
30833 ▁atorg 0.995947 0.98
18000 èria 0.996975 0.93
28848 ▁провежда 0.997801 0.8
26966 Вижте 0.999423 0.98
24469 ònim 1.00037 0.57
26248 ▁cançons 1.00173 0.94
29386 àmica 1.00197 0.36
16299 ▁poblacions 1.00364 0.99
23642 ▁muntanya 1.00436 0.93
17883 ември 1.00437 0.34 ▁декември, кември, ▁ноември
31973 ▁филми 1.00514 0.98
30343 ▁joves 1.0052 0.49
19373 евруари 1.00571 0.065 ▁февруари
19511 ▁classificació 1.00599 0.98
30729 organització 1.00606 0.97
14337 ▁període 1.00616 0.46
19446 ▁catalans 1.00632 1
25622 ogràfic 1.00744 0.27 ▁geogràfica
28073 ▁Millor 1.00818 1
16702 ànica 1.01058 0.25
20294 ▁fiscals 1.01132 1
20371 ▁principalment 1.01151 0.068
28950 ▁davall 1.01168 0.43
11457 ▁febrer 1.01295 0.96
17996 ▁април 1.01409 0.32
29023 ▁reconeg 1.01411 0.091
17468 ▁Espanya 1.01451 0.96
15442 ▁districte 1.01591 0.99
21156 ▁espècies 1.0164 0.38
9065 ▁anomen 1.01677 0.29 ▁anomenat, ▁anomenada
23171 òbil 1.01736 0.092 ▁automòbil, automòbils
24369 ▁cançó 1.01772 0.76
29515 дрих 1.01802 0.096
21806 ▁formació 1.01891 0.77
22172 ▁posteriorment 1.01918 0.0087
30266 inació 1.01981 0.18
29155 ▁cantant 1.01988 0.99
17090 нуари 1.02063 0.38 ▁януари
26595 ▁recerca 1.0243 1
29130 ▁llindar 1.02445 0.65
30749 ènia 1.02497 0.48
26370 òries 1.02656 0.47
21339 ▁империя 1.0276 0.79
23109 ▁situació 1.0292 0.98
16879 ▁gènere 1.03026 0.78
31340 ▁millors 1.03195 0.84
12087 ístiques 1.03211 0.57 ▁estadístiques, ▁característiques
17642 ▁sovint 1.03246 0.16
15800 ètica 1.03314 0.98
21489 ▁албу 1.03459 0.7
30936 ▁езе 1.0347 0.63
26639 aquestes 1.03478 0.91
11318 ▁aconsegu 1.03544 0.29 ▁aconseguir
26056 ▁Aquests 1.0356 0.75
26489 ▁височина 1.0357 0.85
31316 ▁Димитър 1.03593 0.98
1614 ènc 1.03707 0.57 ▁presència, ències, ència, Referències, ▁València, ...
11573 empreses 1.03757 1
14264 ▁vivint 1.03813 0.98
23892 ▁Déu 1.03923 0.65
13768 èrica 1.04084 0.16 Amèrica
20220 ▁крал 1.04101 0.67
26912 Obres 1.04124 0.99
11246 ània 1.04374 0.096
18062 ▁община 1.04553 0.86 ▁общината
26666 ▁sistemes 1.04568 1
25052 ▁personatges 1.04617 0.99
31097 кновено 1.04685 0.0034
20639 ▁establir 1.049 0.98
30038 ersonals 1.05014 0.98 ▁unipersonals
20535 ▁espanyol 1.05087 0.99 ▁espanyols
30161 ▁Teatre 1.05146 1
30867 àmb 1.05331 0.99
22081 encià 1.05442 0.1
31210 шната 1.05522 0.064
19614 ▁teatre 1.05658 0.99
14535 ènere 1.05668 0.93 ▁gènere
23237 ▁разположе 1.05852 0.84
17184 ▁llengua 1.05944 0.96
2991 erències 1.06009 0.3 Referències
24690 ▁завършва 1.06029 0.89
10806 àlia 1.0619 0.61 Itàlia, ▁Itàlia, ustràlia
28351 ▁икономи 1.06231 0.63
22383 ▁comerç 1.06246 0.97
26845 ▁característiques 1.06304 0.97
21212 issió 1.0638 0.76
19485 ▁seua 1.06404 0.49
27665 ▁conèixer 1.06409 0.82
15639 ▁algunes 1.06409 0.88
29461 ▁изслед 1.06698 0.96
13798 ▁parelles 1.06776 1
29752 interès 1.06792 0.61
28713 ▁cambra 1.06862 0.99
22421 ▁mitjans 1.06955 0.99
13461 ▁conegut 1.07003 0.9
17807 ▁САЩ 1.07135 0.47
15589 птември 1.07173 0.027 ▁септември
17274 ският 1.07435 0.52
21040 NavBarCell 1.07593 0.8
31186 ▁състеза 1.07635 0.73
31536 ▁pèr 1.07675 0.17
19370 ▁finalment 1.07678 0.49
27624 зъм 1.07776 0.72
29458 ▁състав 1.07909 0.96
15479 ърт 1.07944 0.76 ▁смърт, ▁смъртта
16707 ▁Segons 1.07965 0.98
12673 ▁càr 1.08071 0.67 ▁càrrec
26185 яват 1.08134 0.39
20754 ▁mantenir 1.08165 1
28191 ▁Според 1.08204 0.63
16804 ▁lluit 1.08242 0.99 ▁lluita
27653 ▁cantó 1.08388 0.43
14618 ▁majoria 1.0848 0.55
21828 ▁ciutats 1.08521 0.96
25100 ▁incloent 1.08556 0.12
20710 ▁produir 1.0861 0.99
31656 àncies 1.0863 0.2
26345 ▁окръ 1.08703 0.94
17534 ▁juntament 1.08707 0.46
23417 ▁Италия 1.08763 1
17342 ▁plaça 1.08768 0.89
27182 ingué 1.08814 0.41
21719 ▁primeres 1.08842 0.98
29420 ▁печели 1.09056 0.6
23258 ïna 1.09062 0.99
25750 винция 1.09141 0.51
26142 ▁ràpid 1.09142 0.82
28481 ▁partits 1.09144 1
27868 ▁relacions 1.09273 1
28285 ▁оръ 1.09368 0.47
30335 лението 1.09397 0.72
18619 ▁estudis 1.09413 0.99
22822 ▁drets 1.09421 0.99
29345 ▁utilitzat 1.09531 0.97
12773 òb 1.09582 0.99 ▁automòbil, òbil, automòbils, òbils
16287 кедония 1.09652 0.49 ▁Македония
29257 ▁escriptor 1.09755 1
18465 Després 1.09908 0.81
26192 ▁llei 1.09942 0.96
28944 Activitats 1.09954 1
29677 ▁realitat 1.10067 0.81
22043 ètic 1.10282 0.83 ètics
24208 marès 1.10386 0.076 Palmarès
16989 ▁obstant 1.104 0.00062
22123 тората 1.10403 0.77
25093 ▁personatge 1.10421 0.99
31154 ▁màxima 1.10512 0.9
20268 ueixen 1.10562 0.16
24498 ▁Франция 1.10602 0.99
17193 ▁anomenat 1.10722 0.53
31171 ▁produeix 1.10932 0.99
28477 ▁император 1.10944 0.23
19963 ▁заедно 1.10958 0.99
20285 ▁actualment 1.11121 0.94
26608 Entitats 1.11185 0.97
29229 àst 1.11217 0.96
17563 ▁llanç 1.11227 0.98
27828 ▁diferència 1.11367 0.97
27153 ▁обаче 1.11368 0.062
31910 ▁продължава 1.11389 0.54
23199 ▁музика 1.1158 0.97
30621 ▁групата 1.11611 0.9
25442 ▁companyia 1.11623 0.98
28502 ▁филм 1.11705 0.95 ▁филми
16073 ificis 1.11759 0.86 Edificis
24204 ▁viure 1.11788 0.77
9630 ългария 1.11819 0.043 ▁България
17603 ▁юли 1.1185 0.64
27627 ▁barcelon 1.11943 1
25218 сън 1.12125 0.99
30967 ▁anteriors 1.12178 0.93
18424 liments 1.12335 1 ▁establiments
14811 unicipis 1.12358 0.45 ▁municipis, Municipis
25358 ▁reconeix 1.12414 1
11605 ònia 1.12503 0.98
19908 uretat 1.12517 0.15 ▁seguretat
28863 ▁деца 1.12699 0.86
23628 Imperi 1.12856 1 ▁Imperial
22302 ▁vuit 1.12879 1
18210 ▁moltes 1.12882 0.68
31422 ▁Castella 1.13058 1
8244 ▁българ 1.13231 0.64 ▁български
29687 ▁llac 1.13375 0.99
27486 ▁comença 1.13436 0.98
25927 ▁enfront 1.13794 0.92
7920 ▁començ 1.13875 0.94 ▁començar, ▁comença
21292 uït 1.13899 0.99 ▁gratuït
24566 ▁caràcter 1.14062 0.96
26678 ▁територия 1.14208 0.63
22066 ▁activitats 1.1425 1
22997 ▁участва 1.143 0.97
30243 ленове 1.14376 0.5
13716 ▁Fitxa 1.14614 0.96
18935 ▁Unió 1.14639 0.71
15717 ясто 1.14648 0.96 ▁място
30906 ▁motiu 1.14701 0.93
29762 вния 1.14721 0.64
12657 ▁obres 1.14804 1
30983 icionals 1.14827 0.91
6535 ▁daugh 1.14867 1 ▁daughter, ▁daughters
24223 мът 1.14886 0.72
20135 ▁troben 1.1502 0.2
24094 ▁meitat 1.15023 0.97
17515 ▁voltant 1.15233 0.58
22230 чинали 1.15245 0.8 Починали
15199 acionals 1.15291 1 ▁internacionals
26738 itzacions 1.15293 0.98
26437 èct 1.1539 0.8
28369 ръб 1.15457 0.71
14063 ▁mitjà 1.15472 0.97
29373 ристия 1.15569 0.49
22022 ▁училище 1.15651 0.96
29366 ▁ciutad 1.15816 0.87
27593 ▁campanya 1.15817 0.97
27684 ▁permetre 1.15845 0.95
30714 рията 1.15944 0.94
25720 ▁comunicació 1.15966 0.95
30237 ▁Évolution 1.1597 1
17439 àss 1.1606 0.95 ▁clàss
21136 ▁catalana 1.1618 0.96
21617 ▁Així 1.16593 0.73
12200 ▁Després 1.16623 0.98
13180 ▁Jocs 1.16777 1
16273 Espanya 1.16781 1 ▁Espanya
23853 usió 1.16782 0.93
28957 ▁сгра 1.1684 0.94
23068 ▁Però 1.16863 0.76
26319 ▁gràfic 1.16872 0.89
23193 ▁referència 1.16896 0.99
30057 ▁aconseg 1.16904 0.67
21760 ▁realitz 1.16971 0.68
17190 ▁gaire 1.17099 0.91 ▁gairebé
22174 mateix 1.17143 1 ▁Tanmateix
16607 вършва 1.17198 0.28 ▁завършва
23820 ▁llibres 1.17238 0.98
27426 ▁включва 1.17241 0.025
22830 aquests 1.17471 1
29756 ▁излиза 1.17491 0.98
19758 òpia 1.17574 0.91 ▁pròpia
30853 ▁distància 1.17593 0.99
22194 ▁vaix 1.17755 0.95
24243 \xa0mil 1.17795 1 \xa0milions
28680 ▁четири 1.17804 0.71
22243 ▁ръко 1.17864 0.45
31727 ▁llic 1.17918 0.95
23946 чват 1.17971 0.76
13896 àries 1.1798 0.84
16458 ▁срещу 1.18091 1
7962 ▁Estats 1.18101 0.99
18159 Segons 1.18245 0.98
29063 ▁Unides 1.18466 0.99
12454 ▁títol 1.18479 1
22611 ▁армия 1.18682 0.97
31386 ▁línies 1.1869 0.96
11466 ▁sèrie 1.18871 0.99
23835 ▁френ 1.19066 0.93
13674 ▁ѝ 1.19097 0.085
20117 èdia 1.1919 0.9
21589 ▁petita 1.19382 1
25993 ▁camí 1.19411 0.97
22376 ▁llocs 1.19499 0.99
19919 ▁inclo 1.19517 1 ▁incloent, ▁inclosa
27138 Índia 1.19568 0.99
13717 ▁treballar 1.19732 0.98
9443 ържа 1.19804 0.45 ▁държа, ▁съдържа, държа
18160 ▁desenvolupament 1.19873 0.66
18018 ▁началото 1.19996 0.93
17150 àcia 1.20157 0.26
20141 поред 1.20237 0.96 ▁според, ▁Според
20008 ▁apareix 1.20291 0.99
28616 ▁изгра 1.20602 0.78
28792 Американски 1.20611 0.95
30369 ▁тъй 1.20628 0.24
9894 ▁vivien 1.20891 1
21774 ▁съвет 1.2099 0.53
21471 laterra 1.20993 0.97 ▁Anglaterra
9465 ▁desenvolup 1.21037 0.84 ▁desenvolupar, ▁desenvolupament
27173 àp 1.21104 1
15695 Persones 1.21256 0.99
15762 ▁срещ 1.21527 0.73 ▁срещу, ▁среща
22850 ▁creació 1.21588 0.9
13906 ▁segona 1.21638 0.98
23700 вната 1.21716 0.77
17097 ▁mitjançant 1.21912 0.99
14927 вява 1.21946 0.36
28797 ▁condicions 1.22312 1
29117 ▁dià 1.22589 0.99
25257 ▁отново 1.22702 0.9
17459 мерикански 1.22744 0.53 Американски, ▁американски
4010 ълга 1.22815 0.53 ▁бълга, ългарски, ▁Българ, ▁български, ▁българ, ...
17891 ▁aquestes 1.23028 0.85
14619 ▁aconseguir 1.2305 0.96
31673 ▁Ciutat 1.23061 1
23225 ▁societat 1.23079 0.95
18556 ▁Геор 1.23132 1 ▁Георги
26304 ▁esdev 1.23178 0.97 ▁esdevenir
29275 ▁temes 1.23193 1
22455 ▁някои 1.23263 0.67
28731 ловдив 1.23372 0.64
22625 ▁Германия 1.23418 1
17632 ▁август 1.23549 0.75
21768 ▁Xina 1.23579 1

Tokens with partial UTF-8 sequences

0 entries below threshold of 0.724

327 additional entries above threshold
token_id token indicator in_other_tokens
6950 <0x89>s 1.23694 És, ▁És
12730 <0xB1>乐 1.39933 娱乐圈, 娱乐, 俱乐
868 <0xA6><0x81> 2.54123 就要, 只要, , 需要, 的重要, ...
20353 <0xEF><0xBB> 2.58194 \ufeff
22709 ▁<0xF0><0x9F><0x99> 2.6995 ▁🙂
2720 <0xA5><0xBF> 2.76006 西, 山西, 西方, 的东西, 西安, ...
7703 <0xA4><0x90> 2.76583 , 餐厅, 餐饮
7793 <0xE9><0xB1> 2.78158
684 <0x83><0xBD> 2.84403 才能, 都不, 性能, 都能, 也能, ...
9547 <0xE9><0xBD> 2.88576 , 齿
18780 <0xE9><0xAC> 3.04327
16476 <0xE9><0x89> 3.04485 , 鉴定
4897 <0xE8><0x9E> 3.05897 融资, 金融, 融合, ,
2210 <0xE7><0xB1> 3.06911 类型, 平方米, 这类, , 类的, ...
1747 <0xE7><0xA4> 3.09822 , , 显示, 数据显示, 社交, ...
9548 <0xEF><0xBF> 3.19834 ��,
796 <0xE8><0xA7> 3.20723 规定, 角度, , 意见, 理解, ...
6855 <0xE9><0xBC> 3.25024 , 鼓励, ,
287 ▁<0xD0> 3.26365 ▁Р, ▁мал, ▁Ра, ▁Иван, ▁Ан, ...
5219 <0xE5><0xA1> 3.31421 , , , ,
6680 <0xE9><0x86> 3.33592 , 提醒, , ,
6553 <0xE8><0x92> 3.33776 蒙古, , , , , ...
7182 <0xE9><0xAD> 3.34788 , , , 魅力,
8506 <0xE7><0x87> 3.36013 , ,
1297 <0xE6><0xB4> 3.36284 , 生活, 天津, , , ...
678 <0xE9><0x87> 3.36777 采用了, 基金, 那里, 在这里, 销量, ...
814 <0xE7><0x8E> 3.3687 现在, 效率, 循环, 现在的, , ...
7348 <0xE5><0xAA> 3.38174 媒体,
27910 <0xE5><0x9A> 3.39219
8400 <0xE5><0xAB> 3.39698 , 嫌疑, ,
1944 <0xE8><0xA2> 3.39953 , 被告, , , , ...
25950 <0xE8><0x9F> 3.39958
3600 <0xE6><0x91> 3.40089 , 按摩, , 拍摄, , ...
9417 <0xE8><0xB8> 3.40263 , ,
916 <0xE6><0x94> 3.4171 支持, 改革, 收到, 发放, 支撑, ...
18319 <0xE6><0x86> 3.42822
12162 <0xE9><0x9E> 3.42886
1482 <0xE7><0xAE> 3.42886 不管, 算是, , 简直, 火箭, ...
3432 <0xE7><0x8A> 3.43292 , 状态, , , 状况, ...
1346 <0xE8><0xB7> 3.43563 线路, 实践, 路上, , 一路, ...
336 <0xE7><0x9A> 3.43618 爱的, 物的, 队的, 的过程中, 的那, ...
6198 <0xE7><0x93> 3.45167 , , ,
1135 <0xE6><0xAC> 3.45332 欢迎, 这次, 再次, 一次, 多次, ...
3065 <0xE5><0x94> 3.45352 , 唯一, , 售价, , ...
9554 <0xE7><0x98> 3.4565 , 肿瘤,
6202 <0xE6><0xBF> 3.46053 刺激,
1463 <0xE8><0xB6> 3.48742 超过, 超级, 兴趣, 足够, , ...
2378 <0xE7><0xA1> 3.49794 确实, 确认, 正确的, 正确, 明确, ...
1882 <0xE5><0xA2> 3.50479 环境, , 增加, 新增, 增强, ...
837 <0xE8><0x87> 3.50584 自行, 甚至, 来自, 精致, 至今, ...
3989 <0xE6><0x9A> 3.51021 , , 温暖, , , ...
1655 <0xE8><0x89> 3.51182 绿色, 良好, 不良, , 特色, ...
901 <0xE7><0x89> 3.52657 出版, , 物的, 物质, 博物馆, ...
1931 <0xE7><0xB3> 3.52743 , 糖尿, , 的关系, , ...
1562 <0xE9><0xA3> 3.52803 风景, 食用, , 风格, 饮食, ...
1209 <0xE5><0x81> 3.53293 做好, , 健身, , , ...
815 <0xE5><0xBF> 3.54033 志愿者, 快乐, 必须, 志愿, 心灵, ...
8354 <0xE7><0xA3> 3.54275 ,
3184 <0xE7><0x85> 3.5498 , , 照顾, , 照片, ...
3770 <0xE9><0x9F> 3.56255 , 韩国, , , 声音, ...
1955 <0xE7><0x96> 3.56827 嫌疑, , 无疑, , , ...
864 <0xE7><0xA7> 3.57624 移动, 一种, 那种, 转移, 称为, ...
571 <0xE5><0x9B> 3.58072 , 团队, 贫困, 中国, 国家, ...
951 <0xE8><0xBD> 3.58872 转变, 车辆, 转移, 火车, 年轻人, ...
2175 <0xE7><0x81> 3.59189 心灵, , , 火车, 火箭, ...
3636 <0xE6><0xB9> 3.59881 台湾, , , 湖南, 湖北, ...
4275 <0xE9><0xBE> 3.59884 , , 年龄
2254 <0xE9><0xA6> 3.60096 博物馆, , , , , ...
777 <0xE8><0xB5> 3.60362 , , 投资者, 融资, 赚钱, ...
7734 <0xE8><0x93> 3.60641 ,
17031 <0xE8><0x95> 3.60836
7601 <0xE8><0x86> 3.6171 , ,
4231 <0xE5><0xA9> 3.62296 老婆, , 结婚, 离婚, 婚姻, ...
8640 <0xE8><0x9C> 3.62479 ,
549 <0xE6><0x97> 3.6261 , 无人, 依旧, 每日, 无限, ...
1381 <0xE7><0x9D> 3.62626 带着, , 睡觉, 监督, 穿着, ...
2046 <0xE8><0x83> 3.62632 才能, 性能, 都能, 也能, 的能力, ...
10692 <0xE6><0xBE> 3.62866
596 <0xE4><0xBC> 3.63 也不会, 就会, 似乎, 大众, 退休, ...
13589 <0xE7><0x92> 3.64966 , 玻璃
2543 <0xE5><0x9E> 3.65076 类型, , 转型, , 型的, ...
966 <0xE6><0xAF> 3.65332 , 每日, 每年, 对比, , ...
932 <0xE5><0x91> 3.66665 会员, 委员会, 周围, 意味, 球员, ...
3128 <0xE9><0xA5> 3.67425 内饰, 吃饭, , 饮食, , ...
1986 <0xE8><0xBA> 3.67741 健身, 身体, 身上, 身份, 全身, ...
3022 <0xE6><0xBC> 3.67781 , , 演员, , 导演, ...
7515 <0xE5><0xB3> 3.68362 ,
1331 <0xE7><0xAB> 3.69174 , 究竟, 文章, 设立, 立即, ...
17473 <0xE8><0x9D> 3.69487
869 <0xE5><0x8E> 3.69618 出去, , , 工厂, 过去, ...
30291 <0xE6><0xAA> 3.69726
5747 <0xE9><0xB2> 3.70474 , 新鲜,
5894 <0xE6><0xA4> 3.70522 , 植物, 种植, ,
2489 <0xE6><0xBB> 3.70523 , , , 下滑, , ...
1701 <0xE7><0x88> 3.70538 爱的, , 爱情, , 父亲, ...
602 <0xE5><0xB9> 3.71155 , 平台, 三年, 广, 广东, ...
1954 <0xE9><0x9C> 3.71208 需要, , 透露, 不需要, , ...
7187 <0xE9><0xBA> 3.7125 , , 麻烦
7447 <0xE8><0x97> 3.71492 , 收藏
4908 <0xE8><0x91> 3.71658 著名, 董事长, 董事, , , ...
6421 <0xE5><0x98> 3.719 , ,
13515 <0xB9><0x81> 3.72453
1345 <0xE5><0x9F> 3.72464 基金, 基层, 培训, 基地, 区域, ...
1514 <0xE7><0xAC> 3.72943 第一, 第五, , 第十, 第二, ...
1518 <0xE7><0x9F> 3.72983 , , 通知, 不知道, 知识, ...
525 <0xE5><0x8A> 3.72991 推动, 移动, , 服务, 财务, ...
4261 <0xE5><0x99> 3.73077 机器人, , 武器, 机器
2081 <0xE7><0xB2> 3.73307 精致, , , 精神, 粉丝, ...
2262 <0xE7><0xA0> 3.73501 突破, 调研, 破坏, , 研究, ...
712 <0xE5><0xA5> 3.73621 , 女性, 做好, 子女, 好好, ...
1318 <0xE9><0xAB> 3.73768 提高, , 最高, 高于, 高中, ...
2940 <0xE6><0xAE> 3.73925 一段时间, 段时间, 养殖, 殿, 手段, ...
2060 <0xE7><0x83> 3.74365 , , , , , ...
1131 <0xE7><0xAD> 3.74769 签订, 决策, , 等待, , ...
9992 <0xE8><0x94> 3.76003 , , 蔬菜
3343 <0xE7><0x8B> 3.76651 , , , , 独立, ...
824 <0xE6><0x80> 3.76848 总统, 性能, 女性, 个性, 怀孕, ...
501 <0xE4><0xB9> 3.77342 也不会, , 之外, 似乎, 快乐, ...
766 <0xE7><0x9B> 3.77536 , 直播, 目的, 监督, 相信, ...
2546 <0xE7><0xA6> 3.77706 离开, 福利, , , , ...
443 <0xE8><0xBF> 3.77985 连续, 的过程中, 进一步, 超过, , ...
3914 <0xE6><0x90> 3.78228 , , , , 搜索, ...
2089 <0xE8><0x84> 3.7832 脱贫, , , 心脏, , ...
3679 <0xE6><0x85> 3.78341 , , 智慧, , , ...
2930 <0xE8><0xB1> 3.78399 形象, 现象, 想象, 对象, , ...
3163 <0xE8><0x85> 3.78733 , 腾讯, , , , ...
947 <0xE6><0x83> 3.79094 不想, 爱情, 的情况, 情绪, 想象, ...
14593 <0xE8><0xB9> 3.79855
2550 <0xE6><0x82> 3.80192 , , , , 隐患, ...
1921 <0xE6><0x81> 3.80245 , , 休息, , , ...
1769 <0xE8><0x81> 3.80417 聪明, , , 职业, , ...
1124 <0xE8><0x82> 3.80877 个股, 肯定, , 肌肉, 肺炎, ...
354 <0xE4><0xBA> 3.80975 采用了, 用了, 人体, 公交, 负责人, ...
31274 <0xE8><0xA4> 3.81094
892 <0xE9><0x9D> 3.81324 非常, 改革, , 面的, 依靠, ...
4238 <0xE7><0x8C> 3.8142 , 贡献, , , , ...
31121 <0xE9><0xB3> 3.81601
15201 <0xE5><0x97> 3.82005
3273 <0xE5><0x84> 3.82168 女儿, 幼儿园, 儿童, , 儿子, ...
11089 <0xE7><0x9E> 3.82858 瞬间,
6276 <0xE6><0xA6> 3.83349 概念, 大概, ,
6396 <0xE8><0x9B> 3.85013 , , 蛋白, 鸡蛋
3841 <0xE5><0x83> 3.85383 就像, 好像,
1611 <0xE6><0x8F> 3.85664 提高, , 提醒, 把握, , ...
5231 <0xE9><0xB8> 3.86018 , , , 鸡蛋,
3899 <0xE8><0x8F> 3.86206 , , 蔬菜, ,
1662 <0xE6><0x8D> 3.86781 证据, , 数据显示, , 大数据, ...
1937 <0xE7><0x97> 3.86807 痛苦, , 病例, , , ...
1827 <0xE5><0xBB> 3.86841 建设, 建成, 构建, 延续, , ...
2578 <0xE9><0xBB> 3.8698 , , , 黄金, , ...
1035 <0xE6><0x9E> 3.87162 机构, 如果你, 苹果, 分析, 如果是, ...
7995 <0xE8><0x96> 3.87286 ,
1350 <0xE9><0x95> 3.87394 长沙, , 董事长, 长的, 镜头, ...
921 <0xE7><0xBA> 3.87419 , , 线路, 超级, , ...
15109 <0xE8><0x9A> 3.8755
3979 <0xE6><0x92> 3.87663 直播, , 支撑, , 传播, ...
1498 <0xE9><0x83> 3.87742 都不, 部分, 都能, , , ...
1376 <0xE7><0xBD> 3.87743 , , , 处罚, 网友, ...
918 <0xE7><0x9C> 3.87819 全省, 真是, 看到, , , ...
8468 <0xE7><0x91> 3.87824
2876 <0xE5><0xB2> 3.88675 , , 岁的, , , ...
5703 <0xE8><0xAD> 3.88725 民警, 警方, , 交警
2329 <0xE8><0x8D> 3.89039 推荐, 荣耀, , , 震荡, ...
801 <0xE6><0x8A> 3.89602 , 技巧, , 投资者, , ...
1805 <0xE9><0x94> 3.89647 , 销量, 锻炼, , , ...
914 <0xE5><0xBD> 3.90586 形象, 的影响, , 应当, 当时, ...
1842 <0xE7><0xA9> 3.90597 究竟, 航空, 空调, , 穿着, ...
2396 <0xE5><0xA3> 3.90877 , , 博士, , 女士, ...
2196 <0xE9><0xA9> 3.9127 , 行驶, , , , ...
7745 <0xE7><0xAF> 3.91801 ,
2279 <0xE6><0xA1> 3.91861 方案, , , , , ...
2072 <0xE8><0x8B> 3.92512 苹果, 痛苦, 江苏, , , ...
2177 <0xE6><0xB7> 3.93142 , 混合, 深度, , 深化, ...
6704 <0xE5><0x82> 3.94007 , , , ,
635 <0xE8><0xAE> 3.95118 , 建设, 让孩子, 承认, 培训, ...
8464 <0xE6><0x87> 3.95371 , , 懂得
775 <0xE5><0x8C> 3.95483 化学, 包含, 地区, 包括, , ...
1167 <0xE6><0x8C> 3.95507 支持, , 指导, , , ...
1122 <0xE9><0xA2> 3.95639 颜值, 预测, , , 预计, ...
964 <0xE6><0xB3> 3.96138 , 执法, 分泌, 注重, , ...
3958 <0xE5><0xA8> 3.96164 , , 娱乐圈, 姑娘, , ...
418 <0xE5><0xA4> 3.96272 , 大学, 准备, 多元, , ...
643 <0xE6><0x89> 3.96333 才能, , 承认, , 执法, ...
1100 <0xE6><0x84> 3.96681 志愿者, 感受到, 意见, 志愿, , ...
2038 <0xE8><0x90> 3.96991 , 运营, , 营养, 营造, ...
9375 <0xE9><0xB9> 3.98041 鹿,
614 <0xE5><0xAD> 3.98271 文学, 大学, 化学, 让孩子, 生存, ...
3692 <0xE6><0xA2> 3.98422 , 机械, 梦想, , , ...
10698 <0xE5><0xB4> 3.98637
5343 <0xE7><0x86> 3.99504 , , 成熟, 熟悉,
1104 <0xE6><0xB5> 4.00174 流行, , 预测, , , ...
677 <0xE5><0xB7> 4.00398 工业, 技巧, , 工厂, , ...
1054 <0xE4><0xBF> 4.00906 保证, , 促进, 相信, 保健, ...
470 <0xE5><0x88> 4.01364 , 判决, 机制, 部分, 刺激, ...
3870 <0xE7><0xAA> 4.02124 突破, , , , 突出, ...
6348 <0xE6><0xBD> 4.02131 ,
1867 <0xE6><0x9F> 4.02704 某某, , , 审查, , ...
2528 <0xE9><0xAA> 4.02911 实验, 试验, 体验, , 经验, ...
478 <0xE5><0x9C> 4.03218 地球, 现在, , 地区, 在这里, ...
606 <0xE6><0x9D> 4.0363 用来, 结束, 来自, 板块, 老板, ...
1448 <0xE7><0xBE> 4.03833 亿美元, 美国, , , , ...
739 <0xE5><0xBA> 4.03867 角度, 深度, , , 制度, ...
1347 <0xE6><0x9B> 4.04211 曾经, 更多, 更好的, 更为, , ...
395 <0xE5><0x8F> 4.04211 平台, 感受到, 转变, 反而, 只要, ...
3047 <0xE8><0x8E> 4.04611 , 获得, 获取, , , ...
4148 <0xE7><0x8F> 4.04644 上班, , ,
900 <0xE9><0x97> 4.04798 瞬间, 房间, , 问题, 一段时间, ...
3389 <0xE6><0xA3> 4.0505 , , , 检测, 检查, ...
2168 <0xE5><0x95> 4.05332 咖啡, , , , 商务, ...
3862 <0xE6><0xA8> 4.05366 规模, , 模式,
595 <0xE6><0x96> 4.05478 文学, , 全新, , 战斗, ...
5802 <0xE7><0xBF> 4.05857 , , ,
1073 <0xE5><0xA6> 4.06178 如果你, 如此, , 化妆, 如何, ...
1678 <0xE5><0xA7> 4.06836 委员会, 姿, 就开始, 开始, 市委, ...
475 <0xE4><0xBD> 4.0692 一体, 人体, 如果你, 你的, 身体, ...
682 <0xE8><0x80> 4.0756 志愿者, 考察, 考试, 而且, 反而, ...
1174 <0xE9><0x98> 4.07582 防控, 队的, 团队, 预防, 防止, ...
803 <0xE8><0xB4> 4.07675 负责, 责任, 负担, 物质, 财务, ...
16854 <0xE6><0xA7> 4.08362
1676 <0xE6><0xB6> 4.08604 消化, , , , , ...
2158 <0xE5><0x96> 4.08607 , 完善, , , , ...
737 <0xE8><0xA1> 4.08646 流行, 自行, 行为, , 的行为, ...
1940 <0xE9><0x85> 4.09216 , 分配, , 酒店, 配备, ...
3083 <0xE6><0xBA> 4.09264 , 来源, 能源, , , ...
1608 <0xE9><0x82> 4.094 那里, , 的那, 那种, , ...
5114 <0xE6><0xA5> 4.09652 清楚, ,
16932 <0xE2><0x91> 4.09769
1911 <0xE7><0x95> 4.10032 , , 留言, , 世界上, ...
23516 <0xE0><0xA5> 4.10545
514 <0xE7><0x94> 4.10586 , 采用了, 用了, 用来, 甚至, ...
1041 <0xE6><0x8E> 4.10587 推动, 防控, 推荐, 探索, 控制, ...
1094 <0xE8><0xBE> 4.1072 车辆, 输出, , , , ...
1845 <0xE7><0x99> 4.1083 , , 百姓, 百分, 明白, ...
433 <0xE5><0x85> 4.11095 全新, , 万元, 多元, 养老, ...
16485 <0xE8><0xB2> 4.11898
2078 <0xE7><0xA5> 4.11982 , , 精神, , , ...
5513 <0xE6><0x93> 4.12254 , 操作,
2278 <0xE7><0xBC> 4.12361 小编, 缺乏, 缓解, , 编辑, ...
2616 <0xE8><0x99> 4.12609 , , 考虑, , , ...
1158 <0xE7><0x90> 4.1271 地球, 理解, 球员, 球队, 足球, ...
933 <0xE9><0x99> 4.12821 , , 医院, 无限, , ...
831 <0xE5><0x92> 4.12912 , 咨询, 共和国, 咖啡, 和平, ...
483 <0xE5><0x90> 4.13483 混合, 包含, 以后, 不同, 著名, ...
586 <0xE8><0xAF> 4.138 考试, , 保证, 的话, , ...
2222 <0xE8><0x88> 4.13921 , , , 航空, 一般, ...
2688 ▁<0xC2> 4.14014 ▁«, ▁§, ▁¿, ▁©, ▁·, ...
1533 <0xE7><0x84> 4.15462 , 不然, 依然, 竟然, 显然, ...
1637 <0xE8><0x8A> 4.16088 , , 节奏, 节目, 环节, ...
1592 <0xE5><0x9D> 4.16352 板块, 破坏, , , 坐在, ...
16756 <0xE6><0xA9> 4.1668
2556 <0xE8><0xA3> 4.17173 , , , 装修, 装饰, ...
2206 <0xE7><0xB4> 4.17569 探索, , 积累, 因素, , ...
718 <0xE5><0x86> 4.17875 判决, 内饰, 的情况, 新冠, , ...
1123 <0xE5><0x93> 4.1845 哪个, 的影响, , 哪里, , ...
1136 <0xE5><0x89> 4.1865 的前, 目前, , , 当前, ...
398 <0xE4><0xBB> 4.19132 仔细, 他是, 责任, 不仅, , ...
1665 <0xE9><0xA1> 4.19254 必须, , , 项目, , ...
1291 <0xE6><0xB1> 4.20493 , 武汉, 江苏, , , ...
1285 <0xE7><0x82> 4.20758 肺炎, , 锻炼, 一点, 点的, ...
18886 ▁<0xC5> 4.21288 ▁ž, ▁ří
455 <0xE5><0xAE> 4.2272 确实, 肯定, , 规定, 实践, ...
880 <0xE5><0xB1> 4.23021 , 基层, , 展开, 屏幕, ...
894 <0xE6><0xB0> 4.23035 民警, 国民, 天气, 村民, 氧化, ...
4667 <0xE7><0xA2> 4.23228 障碍, , , , , ...
1282 <0xE6><0xB8> 4.23405 逐渐, , 清晰, , 清楚, ...
693 <0xE5><0xBC> 4.2397 , 展开, , 离开, , ...
29855 <0xE8><0xA9> 4.24744
1357 <0xE4><0xBE> 4.26097 依旧, , 便, 依然, 便是, ...
884 <0xE6><0xAD> 4.26098 逐步, 进一步, 武汉, , , ...
2529 <0xE9><0x93> 4.27059 , , , , , ...
510 <0xE6><0x88> 4.27705 我是, 我说, 变成了, 房产, 战斗, ...
448 <0xE6><0x98> 4.27712 他是, 聪明, 是有, 交易, 我是, ...
1520 <0xE6><0x99> 4.27779 风景, 普遍, , , 清晰, ...
1681 <0xE9><0x9A> 4.27918 , , 障碍, , 困难, ...
1722 <0xE7><0xA8> 4.28664 , 的过程中, 稿, , 课程, ...
1534 <0xE8><0xB0> 4.30553 , 调研, , , 调整, ...
391 <0xE6><0x9C> 4.33039 机构, 没有, 服务, 机制, 是有, ...
620 <0xE5><0x8D> 4.33151 博物馆, 千万, 上升, , , ...
539 <0xE7><0xBB> 4.34804 仔细, 经常, 总统, 连续, 曾经, ...
749 <0xE5><0xAF> 4.35055 考察, , , 财富, 指导, ...
15429 <0xE8><0xA6> 4.3534 要有, 不需要, 要注意, 重要的是, 覆盖, ...
663 <0xE5><0xBE> 4.36669 , , 循环, 显得, , ...
819 <0xE6><0xA0> 4.38275 一样的, , , , 的价格, ...
11662 ▁<0xD1> 4.38737 ▁така, ▁ръ, ▁смърт, ▁уби, ▁род, ...
5308 <0xE5><0xA0> 4.38806 , , , , 课堂, ...
31298 <0xE2><0x98> 4.40259
924 <0xE6><0xB2> 4.40606 长沙, 没有, 还没, 有没有, , ...
28513 <0xE2><0x97> 4.41086
4668 <0xE5><0x8B> 4.43052 , , , , , ...
3085 <0xE8><0x8C> 4.4618 规范, 范围内, 范围, , , ...
1653 <0xE9><0x9B> 4.48718 , , , , 集体, ...
808 <0xE6><0x95> 4.4959 效率, 的故事, 教师, 整个, 少数, ...
298 <0xE4><0xB8> 4.50554 个股, 一体, 也不会, 工业, 都不, ...
1095 <0xE6><0x8B> 4.52593 , 负担, , 包括, , ...
13099 <0xE8><0xAA> 4.5414
2101 <0xE9><0x92> 4.56203 , 赚钱, , , , ...
743 <0xE9><0x80> 4.59662 逐步, 逐渐, , , 退休, ...
517 <0xE5><0xB0> 4.60304 , 就要, , 就会, , ...
8797 <0xE2><0x86> 4.61572 ,
661 <0xE5><0xB8> 4.62123 经常, 带着, 非常, , , ...
13247 <0xE1><0x83> 4.63162
1394 <0xE5><0x80> 4.6391 颜值, , , 值得, 债务, ...
21305 ▁<0xD7> 4.64791
1247 <0xE9><0x81> 4.72804 遇到, 大道, , 普遍, 报道, ...
7813 <0xE2><0x95> 4.74441 , ════, ══,
4556 <0xE8><0xA8> 4.74678 留言, 而言, 语言,
9441 <0xE2><0x84> 4.74956 , ,
343 <0xE3><0x80> 4.85257 , , , 、《, , ...
12394 ▁<0xF0><0x9F> 4.85467 ▁🙂, ▁<0xF0><0x9F><0x99>
20965 ▁<0xC4> 4.91763 ▁červ, ▁Č
3892 <0xE2><0x94> 4.95594 ──, , , , ────
7935 <0xE2><0x82> 4.97643 ,
10073 <0xE0><0xA4> 4.9991
3831 ▁<0xC3> 5.04717 ▁èxit, ▁×, ▁època, ▁É, ▁Á, ...
697 <0xE5><0x87> 5.05148 出版, 出去, 准备, , , ...
10047 <0xF0><0x9F> 5.05949 ▁<0xF0><0x9F>, ▁🙂, ▁<0xF0><0x9F><0x99>
350 <0xE2><0x80> 5.06552 , , , ……, \u200b, ...
17726 ▁<0xD8> 5.19848 ▁ا
15065 <0xE2><0x88> 5.45823
9158 <0xE3><0x82> 5.59235
7559 ▁<0xCE> 5.63295 ▁μ
11028 <0xE2><0x96> 5.83468
8553 <0xE3><0x83> 5.885
7222 <0xE3><0x81> 5.89523
16567 <0xE0><0xB8> 5.89839
24625 <0xEC><0x9D> 6.2541
942 <0xEF><0xBC> 6.95335 , , , %;,

Byte tokens

0 entries below threshold of 0.688

256 additional entries above threshold
token_id token indicator ord hex byte_type
172 <0xF2> 1.68776 242 0xF2 utf8
171 <0xF1> 1.70461 241 0xF1 utf8
200 \x19 1.79427 25 0x19 ascii
196 \x15 1.83506 21 0x15 ascii
199 \x18 1.84762 24 0x18 ascii
192 \x11 1.84967 17 0x11 ascii
193 \x12 1.85323 18 0x12 ascii
205 \x1e 1.86743 30 0x1E ascii
194 \x13 1.89916 19 0x13 ascii
204 \x1d 1.98117 29 0x1D ascii
189 \x0e 1.98499 14 0x0E ascii
198 \x17 2.00868 23 0x17 ascii
180 \x05 2.00963 5 0x05 ascii
190 \x0f 2.01196 15 0x0F ascii
181 \x06 2.01567 6 0x06 ascii
191 \x10 2.01793 16 0x10 ascii
206 \x1f 2.07004 31 0x1F ascii
186 \x0b 2.11729 11 0x0B ascii
151 <0xDD> 2.18398 221 0xDD utf8
174 <0xF4> 2.26021 244 0xF4 utf8
195 \x14 2.26062 20 0x14 ascii
179 \x04 2.29537 4 0x04 ascii
203 \x1c 2.30716 28 0x1C ascii
197 \x16 2.31226 22 0x16 ascii
177 \x02 2.44366 2 0x02 ascii
178 \x03 2.4685 3 0x03 ascii
32005 <0xFF> 2.53469 255 0xFF unused_utf8
175 \x00 2.55362 0x00 ascii
173 <0xF3> 2.55464 243 0xF3 utf8
208 \x7f 2.58278 127 0x7F ascii
32001 <0xF7> 2.61127 247 0xF7 unused_utf8
160 <0xE6> 2.65257 230 0xE6 utf8
150 <0xDC> 2.65265 220 0xDC utf8
32008 <0xFE> 2.76117 254 0xFE unused_utf8
32004 <0xC0> 2.81291 192 0xC0 unused_utf8
176 \x01 2.83015 1 0x01 ascii
182 \x07 2.87459 7 0x07 ascii
32012 <0xFB> 2.95699 251 0xFB unused_utf8
201 \x1a 3.01315 26 0x1A ascii
142 <0xD4> 3.08731 212 0xD4 utf8
158 <0xE4> 3.27606 228 0xE4 utf8
32002 <0xC1> 3.31036 193 0xC1 unused_utf8
183 \x08 3.38304 8 0x08 ascii
152 <0xDE> 3.5258 222 0xDE utf8
135 <0xCD> 3.56171 205 0xCD utf8
32010 <0xF9> 3.63091 249 0xF9 unused_utf8
153 <0xDF> 3.63738 223 0xDF utf8
141 <0xD3> 3.7974 211 0xD3 utf8
133 <0xCB> 3.83116 203 0xCB utf8
168 <0xEE> 3.86047 238 0xEE utf8
32003 <0xFD> 3.91303 253 0xFD unused_utf8
159 <0xE5> 3.9473 229 0xE5 utf8
187 \x0c 4.13811 12 0x0C ascii
32006 <0xF8> 4.17687 248 0xF8 unused_utf8
130 <0xC8> 4.17898 200 0xC8 utf8
32000 <0xF5> 4.19654 245 0xF5 unused_utf8
132 <0xCA> 4.31236 202 0xCA utf8
129 <0xC7> 4.34595 199 0xC7 utf8
140 <0xD2> 4.39198 210 0xD2 utf8
32007 <0xFA> 4.42482 250 0xFA unused_utf8
138 <0xD0> 4.43724 208 0xD0 utf8
131 <0xC9> 4.46073 201 0xC9 utf8
157 <0xE3> 4.5521 227 0xE3 utf8
143 <0xD5> 4.58517 213 0xD5 utf8
202 \x1b 4.59355 27 0x1B ascii
144 <0xD6> 4.60268 214 0xD6 utf8
185 \n 4.73981 10 0x0A ascii
170 <0xF0> 4.77316 240 0xF0 utf8
162 <0xE8> 4.81693 232 0xE8 utf8
149 <0xDB> 4.84277 219 0xDB utf8
137 <0xCF> 4.87447 207 0xCF utf8
128 <0xC6> 4.87847 198 0xC6 utf8
134 <0xCC> 4.90701 204 0xCC utf8
139 <0xD1> 4.90705 209 0xD1 utf8
161 <0xE7> 4.96243 231 0xE7 utf8
169 <0xEF> 4.97141 239 0xEF utf8
124 <0xC2> 4.99854 194 0xC2 utf8
32009 <0xFC> 5.06167 252 0xFC unused_utf8
148 <0xDA> 5.07932 218 0xDA utf8
11 , 5.1986 44 0x2C ascii
147 <0xD9> 5.22316 217 0xD9 utf8
32011 <0xF6> 5.24119 246 0xF6 unused_utf8
136 <0xCE> 5.26679 206 0xCE utf8
13 . 5.30703 46 0x2E ascii
146 <0xD8> 5.31254 216 0xD8 utf8
145 <0xD7> 5.37254 215 0xD7 utf8
163 <0xE9> 5.43167 233 0xE9 utf8
7 ( 5.4577 40 0x28 ascii
125 <0xC3> 5.54326 195 0xC3 utf8
127 <0xC5> 5.56855 197 0xC5 utf8
62 _ 5.62372 95 0x5F ascii
126 <0xC4> 5.6698 196 0xC4 utf8
156 <0xE2> 6.06381 226 0xE2 utf8
154 <0xE0> 6.07905 224 0xE0 utf8
8 ) 6.09765 41 0x29 ascii
25 : 6.19115 58 0x3A ascii
155 <0xE1> 6.19288 225 0xE1 utf8
118 <0xBA> 6.23924 186 0xBA utf8
93 ~ 6.24197 126 0x7E ascii
26 ; 6.24336 59 0x3B ascii
207 6.2542 32 0x20 ascii
212 <0x83> 6.25453 131 0x83 utf8
71 h 6.25724 104 0x68 ascii
123 <0xBF> 6.33106 191 0xBF utf8
15 0 6.33536 48 0x30 ascii
28 = 6.35854 61 0x3D ascii
95 <0xA2> 6.37026 162 0xA2 utf8
110 <0xB2> 6.37897 178 0xB2 utf8
14 / 6.37909 47 0x2F ascii
12 - 6.38309 45 0x2D ascii
99 <0xA6> 6.39995 166 0xA6 utf8
119 <0xBB> 6.43414 187 0xBB utf8
239 <0x9E> 6.45458 158 0x9E utf8
69 f 6.45621 102 0x66 ascii
46 O 6.46244 79 0x4F ascii
164 <0xEA> 6.46801 234 0xEA utf8
29 > 6.47252 62 0x3E ascii
114 <0xB6> 6.47503 182 0xB6 utf8
167 <0xED> 6.47694 237 0xED utf8
50 S 6.51315 83 0x53 ascii
49 R 6.51483 82 0x52 ascii
115 <0xB7> 6.52099 183 0xB7 utf8
20 5 6.53716 53 0x35 ascii
216 <0x87> 6.55352 135 0x87 utf8
76 m 6.55794 109 0x6D ascii
106 <0xAE> 6.56644 174 0xAE utf8
222 <0x8D> 6.60074 141 0x8D utf8
34 C 6.63108 67 0x43 ascii
98 <0xA5> 6.63852 165 0xA5 utf8
80 q 6.64145 113 0x71 ascii
240 <0x9F> 6.64214 159 0x9F utf8
231 <0x96> 6.64228 150 0x96 utf8
5 & 6.64293 38 0x26 ascii
100 <0xA7> 6.64463 167 0xA7 utf8
210 <0x81> 6.66378 129 0x81 utf8
44 M 6.67363 77 0x4D ascii
48 Q 6.68049 81 0x51 ascii
122 <0xBE> 6.6827 190 0xBE utf8
223 <0x8E> 6.70952 142 0x8E utf8
96 <0xA3> 6.71676 163 0xA3 utf8
37 F 6.72305 70 0x46 ascii
215 <0x86> 6.72601 134 0x86 utf8
113 <0xB5> 6.74552 181 0xB5 utf8
107 <0xAF> 6.74905 175 0xAF utf8
104 <0xAB> 6.75294 171 0xAB utf8
232 <0x97> 6.75444 151 0x97 utf8
211 <0x82> 6.75916 130 0x82 utf8
92 } 6.77338 125 0x7D ascii
94 <0xA1> 6.77917 161 0xA1 utf8
53 V 6.81613 86 0x56 ascii
103 <0xAA> 6.83614 170 0xAA utf8
227 <0x92> 6.85279 146 0x92 utf8
18 3 6.85811 51 0x33 ascii
241 <0xA0> 6.86063 160 0xA0 utf8
77 n 6.86179 110 0x6E ascii
36 E 6.86511 69 0x45 ascii
236 <0x9B> 6.87329 155 0x9B utf8
83 t 6.87386 116 0x74 ascii
121 <0xBD> 6.88929 189 0xBD utf8
60 ] 6.90534 93 0x5D ascii
238 <0x9D> 6.91919 157 0x9D utf8
42 K 6.9196 75 0x4B ascii
224 <0x8F> 6.92131 143 0x8F utf8
1 " 6.92428 34 0x22 ascii
219 <0x8A> 6.92477 138 0x8A utf8
61 ^ 6.92582 94 0x5E ascii
109 <0xB1> 6.92849 177 0xB1 utf8
47 P 6.93111 80 0x50 ascii
85 v 6.93349 118 0x76 ascii
2 # 6.94063 35 0x23 ascii
242 <0xAD> 6.94441 173 0xAD utf8
228 <0x93> 6.95394 147 0x93 utf8
33 B 6.96141 66 0x42 ascii
56 Y 6.9659 89 0x59 ascii
39 H 6.96659 72 0x48 ascii
102 <0xA9> 6.97375 169 0xA9 utf8
70 g 6.99341 103 0x67 ascii
81 r 6.99462 114 0x72 ascii
51 T 7.00263 84 0x54 ascii
16 1 7.0045 49 0x31 ascii
89 z 7.00812 122 0x7A ascii
41 J 7.01278 74 0x4A ascii
10 + 7.01417 43 0x2B ascii
214 <0x85> 7.01597 133 0x85 utf8
90 { 7.01732 123 0x7B ascii
0 ! 7.02541 33 0x21 ascii
57 Z 7.02645 90 0x5A ascii
234 <0x99> 7.03215 153 0x99 utf8
82 s 7.03977 115 0x73 ascii
117 <0xB9> 7.04719 185 0xB9 utf8
32 A 7.04979 65 0x41 ascii
101 <0xA8> 7.05057 168 0xA8 utf8
72 i 7.05272 105 0x69 ascii
58 [ 7.0715 91 0x5B ascii
75 l 7.07805 108 0x6C ascii
97 <0xA4> 7.0789 164 0xA4 utf8
45 N 7.07918 78 0x4E ascii
3 $ 7.08308 36 0x24 ascii
220 <0x8B> 7.08407 139 0x8B utf8
6 ' 7.08985 39 0x27 ascii
30 ? 7.09325 63 0x3F ascii
230 <0x95> 7.10176 149 0x95 utf8
111 <0xB3> 7.10441 179 0xB3 utf8
105 <0xAC> 7.10534 172 0xAC utf8
225 <0x90> 7.11371 144 0x90 utf8
88 y 7.11608 121 0x79 ascii
217 <0x88> 7.11815 136 0x88 utf8
74 k 7.13978 107 0x6B ascii
68 e 7.14008 101 0x65 ascii
65 b 7.14782 98 0x62 ascii
43 L 7.14907 76 0x4C ascii
226 <0x91> 7.15023 145 0x91 utf8
165 <0xEB> 7.15195 235 0xEB utf8
184 \t 7.16204 9 0x09 ascii
40 I 7.16629 73 0x49 ascii
59 \ 7.17374 92 0x5C ascii
19 4 7.20066 52 0x34 ascii
73 j 7.22105 106 0x6A ascii
4 % 7.22185 37 0x25 ascii
54 W 7.23527 87 0x57 ascii
38 G 7.23981 71 0x47 ascii
17 2 7.24608 50 0x32 ascii
52 U 7.25646 85 0x55 ascii
22 7 7.25664 55 0x37 ascii
84 u 7.25815 117 0x75 ascii
63 ` 7.26047 96 0x60 ascii
55 X 7.27648 88 0x58 ascii
229 <0x94> 7.28418 148 0x94 utf8
35 D 7.31044 68 0x44 ascii
116 <0xB8> 7.31844 184 0xB8 utf8
218 <0x89> 7.32024 137 0x89 utf8
86 w 7.32043 119 0x77 ascii
27 < 7.32143 60 0x3C ascii
31 @ 7.33743 64 0x40 ascii
66 c 7.3444 99 0x63 ascii
87 x 7.35131 120 0x78 ascii
237 <0x9C> 7.35496 156 0x9C utf8
64 a 7.35962 97 0x61 ascii
67 d 7.36596 100 0x64 ascii
235 <0x9A> 7.38827 154 0x9A utf8
91 | 7.40658 124 0x7C ascii
166 <0xEC> 7.40769 236 0xEC utf8
79 p 7.43415 112 0x70 ascii
112 <0xB4> 7.44087 180 0xB4 utf8
21 6 7.44971 54 0x36 ascii
209 <0x80> 7.4663 128 0x80 utf8
78 o 7.46842 111 0x6F ascii
23 8 7.49008 56 0x38 ascii
24 9 7.53544 57 0x39 ascii
221 <0x8C> 7.57134 140 0x8C utf8
9 * 7.574 42 0x2A ascii
233 <0x98> 7.60996 152 0x98 utf8
213 <0x84> 7.62374 132 0x84 utf8
108 <0xB0> 7.64476 176 0xB0 utf8
120 <0xBC> 7.72815 188 0xBC utf8
188 \r 7.94412 13 0x0D ascii

Special tokens

3 entries below threshold of 0.688

token_id token indicator max_prob
32019 <|User|> 0.5096 2.4e-07
32020 <|Assistant|> 0.509701 5e-07
32021 <|EOT|> 0.515563 2.3e-07
6 additional entries above threshold
token_id token indicator max_prob
32018 <pad> 2.499
32014 ¿<|end▁of▁sentence|>? 5.7846
32013 ¿<|begin▁of▁sentence|>? 5.79269
32015 ¿<|fim▁hole|>? 6.22548 2.4e-08
32017 ¿<|fim▁end|>? 6.63103 3.4e-07
32016 ¿<|fim▁begin|>? 6.66528 8.6e-08

Unreachable tokens

53 entries below threshold of 0.688

token_id token indicator reencoded
31750 ▁indústria 0.496724 1539: ▁ind, 32007: <0xFA>, 292: st, 2122: ria
14862 ▁últ 0.500333 207: , 32007: <0xFA>, 4025: lt
9660 ública 0.500659 32007: <0xFA>, 65: b, 28120: lica
19498 ▁següents 0.50129 2048: ▁seg, 32009: <0xFC>, 708: ents
1601 ú 0.501457 32007: <0xFA>
23333 ▁pública 0.502575 265: ▁p, 32007: <0xFA>, 65: b, 28120: lica
13921 ▁República 0.503042 4396: ▁Rep, 32007: <0xFA>, 65: b, 28120: lica
5547 ús 0.503524 32007: <0xFA>, 82: s
17665 últ 0.503793 32007: <0xFA>, 4025: lt
26633 igües 0.504358 311: ig, 32009: <0xFC>, 257: es
16549 ússia 0.504379 32007: <0xFA>, 15965: ssia
15195 ún 0.504562 32007: <0xFA>, 77: n
12789 ▁música 0.504724 273: ▁m, 32007: <0xFA>, 82: s, 1168: ica
15886 ▁públic 0.504736 265: ▁p, 32007: <0xFA>, 65: b, 807: lic
21795 ický 0.504738 767: ick, 32003: <0xFD>
24553 únic 0.505019 32007: <0xFA>, 5072: nic
10815 úsica 0.505234 32007: <0xFA>, 82: s, 1168: ica
30604 ▁comú 0.505463 385: ▁com, 32007: <0xFA>
18411 ür 0.505948 32009: <0xFC>, 81: r
11499 0.506093 80: q, 32009: <0xFC>
33 additional entries below threshold
token_id token indicator reencoded
28052 ústria 0.506341 32007: <0xFA>, 292: st, 2122: ria
30914 ▁freqü 0.506356 2491: ▁fre, 80: q, 32009: <0xFC>
19771 ▁Rússia 0.506409 432: ▁R, 32007: <0xFA>, 15965: ssia
27658 ▁núm 0.506626 291: ▁n, 32007: <0xFA>, 76: m
15356 ▁À 0.507567 207: , 32004: <0xC0>
20095 qüència 0.507576 80: q, 32009: <0xFC>, 2859: ència
9407 ▁nú 0.507797 291: ▁n, 32007: <0xFA>
28069 ▁Á 0.507899 207: , 32002: <0xC1>
28350 Àfrica 0.508551 32004: <0xC0>, 15591: frica
30251 ▁números 0.508815 291: ▁n, 32007: <0xFA>, 1320: mer, 378: os
29699 ▁ús 0.509047 207: , 32007: <0xFA>, 82: s
5009 ý 0.509236 32003: <0xFD>
14976 0.509242 74: k, 32003: <0xFD>
15411 ües 0.509414 32009: <0xFC>, 257: es
27495 ▁llengües 0.510193 11185: ▁lleng, 32009: <0xFC>, 257: es
25591 ø 0.510211 32006: <0xF8>
29640 ▁ún 0.510539 207: , 32007: <0xFA>, 77: n
8575 ▁següent 0.510763 2048: ▁seg, 32009: <0xFC>, 289: ent
7157 úblic 0.510763 32007: <0xFA>, 65: b, 807: lic
21280 ▁únic 0.510998 207: , 32007: <0xFA>, 5072: nic
2864 ü 0.511202 32009: <0xFC>
12794 À 0.511406 32004: <0xC0>
25638 ých 0.511888 32003: <0xFD>, 358: ch
11998 ▁númer 0.512092 291: ▁n, 32007: <0xFA>, 1320: mer
7068 ▁segü 0.512663 2048: ▁seg, 32009: <0xFC>
30970 ▁mús 0.513038 273: ▁m, 32007: <0xFA>, 82: s
7051 ▁ú 0.513144 207: , 32007: <0xFA>
30434 ▁qü 0.51369 4652: ▁q, 32009: <0xFC>
7972 ö 0.514278 32011: <0xF6>
20658 ský 0.514622 2939: sk, 32003: <0xFD>
21912 úst 0.514701 32007: <0xFA>, 292: st
14689 ▁número 0.515995 291: ▁n, 32007: <0xFA>, 1320: mer, 78: o
6576 úb 0.517918 32007: <0xFA>, 65: b