-
Notifications
You must be signed in to change notification settings - Fork 0
/
lazytensor_bert_example_output.txt
2675 lines (2672 loc) · 124 KB
/
lazytensor_bert_example_output.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
Running bert.forward...
Metrics report:
Metric: IrValueTensorToDataHandle
TotalSamples: 204
Accumulator: 691.986us
ValueRate: 286.386us / second
Rate: 84.4275 / second
Percentiles: 1%=002.259us; 5%=002.321us; 10%=002.397us; 20%=002.512us; 50%=002.801us; 80%=003.142us; 90%=003.314us; 95%=004.588us; 99%=014.209us
Counter: CreateLtcTensor
Value: 1008
Counter: DestroyLtcTensor
Value: 421
Counter: DeviceDataCacheMiss
Value: 2
Counter: lazy::_copy_from
Value: 277
Counter: lazy::_softmax
Value: 12
Counter: lazy::add
Value: 110
Counter: lazy::addmm
Value: 2
Counter: lazy::bmm
Value: 24
Counter: lazy::div
Value: 12
Counter: lazy::expand
Value: 49
Counter: lazy::fill_
Value: 1
Counter: lazy::gelu
Value: 12
Counter: lazy::index_select
Value: 3
Counter: lazy::mm
Value: 72
Counter: lazy::mul
Value: 1
Counter: lazy::native_layer_norm
Value: 25
Counter: lazy::permute
Value: 48
Counter: lazy::select
Value: 1
Counter: lazy::slice
Value: 7
Counter: lazy::sub
Value: 1
Counter: lazy::t
Value: 74
Counter: lazy::tanh
Value: 1
Counter: lazy::transpose
Value: 12
Counter: lazy::unsqueeze
Value: 2
Counter: lazy::view
Value: 270
graph(%p0 : Tensor,
%p1 : Tensor,
%p2 : Tensor,
%p3 : Tensor,
%p4 : Tensor,
%p5 : Tensor,
%p6 : Tensor,
%p7 : Tensor,
%p8 : Tensor,
%p9 : Tensor,
%p10 : Tensor,
%p11 : Tensor,
%p12 : Tensor,
%p13 : Tensor,
%p14 : Tensor,
%p15 : Tensor,
%p16 : Tensor,
%p17 : Tensor,
%p18 : Tensor,
%p19 : Tensor,
%p20 : Tensor,
%p21 : Tensor,
%p22 : Tensor,
%p23 : Tensor,
%p24 : Tensor,
%p25 : Tensor,
%p26 : Tensor,
%p27 : Tensor,
%p28 : Tensor,
%p29 : Tensor,
%p30 : Tensor,
%p31 : Tensor,
%p32 : Tensor,
%p33 : Tensor,
%p34 : Tensor,
%p35 : Tensor,
%p36 : Tensor,
%p37 : Tensor,
%p38 : Tensor,
%p39 : Tensor,
%p40 : Tensor,
%p41 : Tensor,
%p42 : Tensor,
%p43 : Tensor,
%p44 : Tensor,
%p45 : Tensor,
%p46 : Tensor,
%p47 : Tensor,
%p48 : Tensor,
%p49 : Tensor,
%p50 : Tensor,
%p51 : Tensor,
%p52 : Tensor,
%p53 : Tensor,
%p54 : Tensor,
%p55 : Tensor,
%p56 : Tensor,
%p57 : Tensor,
%p58 : Tensor,
%p59 : Tensor,
%p60 : Tensor,
%p61 : Tensor,
%p62 : Tensor,
%p63 : Tensor,
%p64 : Tensor,
%p65 : Tensor,
%p66 : Tensor,
%p67 : Tensor,
%p68 : Tensor,
%p69 : Tensor,
%p70 : Tensor,
%p71 : Tensor,
%p72 : Tensor,
%p73 : Tensor,
%p74 : Tensor,
%p75 : Tensor,
%p76 : Tensor,
%p77 : Tensor,
%p78 : Tensor,
%p79 : Tensor,
%p80 : Tensor,
%p81 : Tensor,
%p82 : Tensor,
%p83 : Tensor,
%p84 : Tensor,
%p85 : Tensor,
%p86 : Tensor,
%p87 : Tensor,
%p88 : Tensor,
%p89 : Tensor,
%p90 : Tensor,
%p91 : Tensor,
%p92 : Tensor,
%p93 : Tensor,
%p94 : Tensor,
%p95 : Tensor,
%p96 : Tensor,
%p97 : Tensor,
%p98 : Tensor,
%p99 : Tensor,
%p100 : Tensor,
%p101 : Tensor,
%p102 : Tensor,
%p103 : Tensor,
%p104 : Tensor,
%p105 : Tensor,
%p106 : Tensor,
%p107 : Tensor,
%p108 : Tensor,
%p109 : Tensor,
%p110 : Tensor,
%p111 : Tensor,
%p112 : Tensor,
%p113 : Tensor,
%p114 : Tensor,
%p115 : Tensor,
%p116 : Tensor,
%p117 : Tensor,
%p118 : Tensor,
%p119 : Tensor,
%p120 : Tensor,
%p121 : Tensor,
%p122 : Tensor,
%p123 : Tensor,
%p124 : Tensor,
%p125 : Tensor,
%p126 : Tensor,
%p127 : Tensor,
%p128 : Tensor,
%p129 : Tensor,
%p130 : Tensor,
%p131 : Tensor,
%p132 : Tensor,
%p133 : Tensor,
%p134 : Tensor,
%p135 : Tensor,
%p136 : Tensor,
%p137 : Tensor,
%p138 : Tensor,
%p139 : Tensor,
%p140 : Tensor,
%p141 : Tensor,
%p142 : Tensor,
%p143 : Tensor,
%p144 : Tensor,
%p145 : Tensor,
%p146 : Tensor,
%p147 : Tensor,
%p148 : Tensor,
%p149 : Tensor,
%p150 : Tensor,
%p151 : Tensor,
%p152 : Tensor,
%p153 : Tensor,
%p154 : Tensor,
%p155 : Tensor,
%p156 : Tensor,
%p157 : Tensor,
%p158 : Tensor,
%p159 : Tensor,
%p160 : Tensor,
%p161 : Tensor,
%p162 : Tensor,
%p163 : Tensor,
%p164 : Tensor,
%p165 : Tensor,
%p166 : Tensor,
%p167 : Tensor,
%p168 : Tensor,
%p169 : Tensor,
%p170 : Tensor,
%p171 : Tensor,
%p172 : Tensor,
%p173 : Tensor,
%p174 : Tensor,
%p175 : Tensor,
%p176 : Tensor,
%p177 : Tensor,
%p178 : Tensor,
%p179 : Tensor,
%p180 : Tensor,
%p181 : Tensor,
%p182 : Tensor,
%p183 : Tensor,
%p184 : Tensor,
%p185 : Tensor,
%p186 : Tensor,
%p187 : Tensor,
%p188 : Tensor,
%p189 : Tensor,
%p190 : Tensor,
%p191 : Tensor,
%p192 : Tensor,
%p193 : Tensor,
%p194 : Tensor,
%p195 : Tensor,
%p196 : Tensor,
%p197 : Tensor,
%p198 : Tensor,
%p199 : Tensor,
%p200 : Tensor,
%p201 : Tensor,
%p202 : Tensor,
%p203 : Tensor,
%p204 : Tensor,
%p205 : Tensor):
%206 : int[] = prim::Constant[value=[1, 0]]()
%207 : int[] = prim::Constant[value=[1, 0]]()
%208 : Tensor = aten::permute(%p0, %207)
%209 : int[] = prim::Constant[value=[1, 0]]()
%210 : int[] = prim::Constant[value=[1, 0]]()
%211 : Tensor = aten::permute(%p1, %210)
%212 : int = prim::Constant[value=0]()
%213 : int = prim::Constant[value=0]()
%214 : int = prim::Constant[value=1]()
%215 : int = prim::Constant[value=1]()
%216 : Tensor = aten::slice(%p52, %212, %213, %214, %215)
%217 : int = prim::Constant[value=1]()
%218 : int = prim::Constant[value=0]()
%219 : int = prim::Constant[value=7]()
%220 : int = prim::Constant[value=1]()
%221 : Tensor = aten::slice(%216, %217, %218, %219, %220)
%222 : int[] = prim::Constant[value=[7]]()
%223 : int[] = prim::Constant[value=[7]]()
%224 : Tensor = aten::reshape(%221, %223)
%225 : int = prim::Constant[value=0]()
%226 : Tensor = aten::index_select(%p53, %225, %224)
%227 : int[] = prim::Constant[value=[1, 7, 768]]()
%228 : int[] = prim::Constant[value=[1, 7, 768]]()
%229 : Tensor = aten::reshape(%226, %228)
%230 : int = prim::Constant[value=0]()
%231 : int = prim::Constant[value=0]()
%232 : int = prim::Constant[value=1]()
%233 : int = prim::Constant[value=1]()
%234 : Tensor = aten::slice(%p54, %230, %231, %232, %233)
%235 : int = prim::Constant[value=1]()
%236 : int = prim::Constant[value=0]()
%237 : int = prim::Constant[value=7]()
%238 : int = prim::Constant[value=1]()
%239 : Tensor = aten::slice(%234, %235, %236, %237, %238)
%240 : int[] = prim::Constant[value=[1, 7]]()
%241 : int[] = prim::Constant[value=[1, 7]]()
%242 : bool = prim::Constant[value=0]()
%243 : Tensor = aten::expand(%239, %241, %242)
%244 : int[] = prim::Constant[value=[7]]()
%245 : int[] = prim::Constant[value=[7]]()
%246 : Tensor = aten::reshape(%243, %245)
%247 : int = prim::Constant[value=0]()
%248 : Tensor = aten::index_select(%p55, %247, %246)
%249 : int[] = prim::Constant[value=[1, 7, 768]]()
%250 : int[] = prim::Constant[value=[1, 7, 768]]()
%251 : Tensor = aten::reshape(%248, %250)
%252 : int[] = prim::Constant[value=[7]]()
%253 : int[] = prim::Constant[value=[7]]()
%254 : Tensor = aten::reshape(%p56, %253)
%255 : int = prim::Constant[value=0]()
%256 : Tensor = aten::index_select(%p57, %255, %254)
%257 : int[] = prim::Constant[value=[1, 7, 768]]()
%258 : int[] = prim::Constant[value=[1, 7, 768]]()
%259 : Tensor = aten::reshape(%256, %258)
%260 : int = prim::Constant[value=1]()
%261 : Tensor = aten::add(%259, %251, %260)
%262 : int = prim::Constant[value=1]()
%263 : Tensor = aten::add(%261, %229, %262)
%264 : int[] = prim::Constant[value=[768]]()
%265 : float = prim::Constant[value=9.9999999999999998e-13]()
%266 : Tensor, %267 : Tensor, %268 : Tensor = aten::native_layer_norm(%263, %264, %p51, %p50, %265)
%269 : (Tensor, Tensor, Tensor) = prim::TupleConstruct(%266, %267, %268)
%270 : int[] = prim::Constant[value=[1, 0]]()
%271 : int[] = prim::Constant[value=[1, 0]]()
%272 : Tensor = aten::permute(%p59, %271)
%273 : int[] = prim::Constant[value=[1, 0]]()
%274 : int[] = prim::Constant[value=[1, 0]]()
%275 : Tensor = aten::permute(%p61, %274)
%276 : int[] = prim::Constant[value=[7, 768]]()
%277 : int[] = prim::Constant[value=[7, 768]]()
%278 : Tensor = aten::reshape(%266, %277)
%279 : Tensor = aten::mm(%278, %275)
%280 : int[] = prim::Constant[value=[1, 7, 768]]()
%281 : int[] = prim::Constant[value=[1, 7, 768]]()
%282 : Tensor = aten::reshape(%279, %281)
%283 : int = prim::Constant[value=1]()
%284 : Tensor = aten::add(%282, %p60, %283)
%285 : int[] = prim::Constant[value=[7, 768]]()
%286 : int[] = prim::Constant[value=[7, 768]]()
%287 : Tensor = aten::reshape(%284, %286)
%288 : int[] = prim::Constant[value=[1, 7, 768]]()
%289 : int[] = prim::Constant[value=[1, 7, 768]]()
%290 : Tensor = aten::reshape(%287, %289)
%291 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%292 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%293 : Tensor = aten::reshape(%290, %292)
%294 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%295 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%296 : Tensor = aten::permute(%293, %295)
%297 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%298 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%299 : bool = prim::Constant[value=0]()
%300 : Tensor = aten::expand(%296, %298, %299)
%301 : int[] = prim::Constant[value=[12, 7, 64]]()
%302 : int[] = prim::Constant[value=[12, 7, 64]]()
%303 : Tensor = aten::reshape(%300, %302)
%304 : Tensor = prim::Constant[value={1}]()
%305 : int[] = prim::Constant[value=[1, 1, 1, 7]]()
%306 : int[] = prim::Constant[value=[1, 1, 1, 7]]()
%307 : bool = prim::Constant[value=0]()
%308 : Tensor = aten::expand(%304, %306, %307)
%309 : NoneType = prim::Constant()
%310 : Tensor = aten::clone(%308, %309)
%311 : Tensor = prim::Constant[value={1}]()
%312 : int[] = prim::Constant[value=[1, 7]]()
%313 : int[] = prim::Constant[value=[1, 7]]()
%314 : bool = prim::Constant[value=0]()
%315 : Tensor = aten::expand(%311, %313, %314)
%316 : NoneType = prim::Constant()
%317 : Tensor = aten::clone(%315, %316)
%318 : int = prim::Constant[value=0]()
%319 : int = prim::Constant[value=0]()
%320 : int = prim::Constant[value=1]()
%321 : int = prim::Constant[value=1]()
%322 : Tensor = aten::slice(%317, %318, %319, %320, %321)
%323 : int[] = prim::Constant[value=[1, 1, 7]]()
%324 : int[] = prim::Constant[value=[1, 1, 7]]()
%325 : Tensor = aten::reshape(%322, %324)
%326 : int[] = prim::Constant[value=[1, 1, 1, 7]]()
%327 : int[] = prim::Constant[value=[1, 1, 1, 7]]()
%328 : Tensor = aten::reshape(%325, %327)
%329 : int = prim::Constant[value=3]()
%330 : int = prim::Constant[value=0]()
%331 : int = prim::Constant[value=7]()
%332 : int = prim::Constant[value=1]()
%333 : Tensor = aten::slice(%328, %329, %330, %331, %332)
%334 : Tensor = aten::mul(%333, %310)
%335 : Tensor = prim::Constant[value={1}]()
%336 : int = prim::Constant[value=1]()
%337 : Tensor = aten::sub(%335, %334, %336)
%338 : Tensor = aten::mul(%337, %p62)
%339 : int[] = prim::Constant[value=[1, 0]]()
%340 : int[] = prim::Constant[value=[1, 0]]()
%341 : Tensor = aten::permute(%p65, %340)
%342 : int[] = prim::Constant[value=[7, 768]]()
%343 : int[] = prim::Constant[value=[7, 768]]()
%344 : Tensor = aten::reshape(%266, %343)
%345 : Tensor = aten::mm(%344, %341)
%346 : int[] = prim::Constant[value=[1, 7, 768]]()
%347 : int[] = prim::Constant[value=[1, 7, 768]]()
%348 : Tensor = aten::reshape(%345, %347)
%349 : int = prim::Constant[value=1]()
%350 : Tensor = aten::add(%348, %p64, %349)
%351 : int[] = prim::Constant[value=[7, 768]]()
%352 : int[] = prim::Constant[value=[7, 768]]()
%353 : Tensor = aten::reshape(%350, %352)
%354 : int[] = prim::Constant[value=[1, 7, 768]]()
%355 : int[] = prim::Constant[value=[1, 7, 768]]()
%356 : Tensor = aten::reshape(%353, %355)
%357 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%358 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%359 : Tensor = aten::reshape(%356, %358)
%360 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%361 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%362 : Tensor = aten::permute(%359, %361)
%363 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%364 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%365 : Tensor = aten::permute(%362, %364)
%366 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%367 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%368 : bool = prim::Constant[value=0]()
%369 : Tensor = aten::expand(%365, %367, %368)
%370 : int[] = prim::Constant[value=[12, 64, 7]]()
%371 : int[] = prim::Constant[value=[12, 64, 7]]()
%372 : Tensor = aten::reshape(%369, %371)
%373 : int[] = prim::Constant[value=[1, 0]]()
%374 : int[] = prim::Constant[value=[1, 0]]()
%375 : Tensor = aten::permute(%p67, %374)
%376 : int[] = prim::Constant[value=[7, 768]]()
%377 : int[] = prim::Constant[value=[7, 768]]()
%378 : Tensor = aten::reshape(%266, %377)
%379 : Tensor = aten::mm(%378, %375)
%380 : int[] = prim::Constant[value=[1, 7, 768]]()
%381 : int[] = prim::Constant[value=[1, 7, 768]]()
%382 : Tensor = aten::reshape(%379, %381)
%383 : int = prim::Constant[value=1]()
%384 : Tensor = aten::add(%382, %p66, %383)
%385 : int[] = prim::Constant[value=[7, 768]]()
%386 : int[] = prim::Constant[value=[7, 768]]()
%387 : Tensor = aten::reshape(%384, %386)
%388 : int[] = prim::Constant[value=[1, 7, 768]]()
%389 : int[] = prim::Constant[value=[1, 7, 768]]()
%390 : Tensor = aten::reshape(%387, %389)
%391 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%392 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%393 : Tensor = aten::reshape(%390, %392)
%394 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%395 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%396 : Tensor = aten::permute(%393, %395)
%397 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%398 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%399 : bool = prim::Constant[value=0]()
%400 : Tensor = aten::expand(%396, %398, %399)
%401 : int[] = prim::Constant[value=[12, 7, 64]]()
%402 : int[] = prim::Constant[value=[12, 7, 64]]()
%403 : Tensor = aten::reshape(%400, %402)
%404 : Tensor = aten::bmm(%403, %372)
%405 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%406 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%407 : Tensor = aten::reshape(%404, %406)
%408 : Tensor = aten::div(%407, %p63)
%409 : int = prim::Constant[value=1]()
%410 : Tensor = aten::add(%408, %338, %409)
%411 : int = prim::Constant[value=-1]()
%412 : bool = prim::Constant[value=0]()
%413 : Tensor = aten::_softmax(%410, %411, %412)
%414 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%415 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%416 : bool = prim::Constant[value=0]()
%417 : Tensor = aten::expand(%413, %415, %416)
%418 : int[] = prim::Constant[value=[12, 7, 7]]()
%419 : int[] = prim::Constant[value=[12, 7, 7]]()
%420 : Tensor = aten::reshape(%417, %419)
%421 : Tensor = aten::bmm(%420, %303)
%422 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%423 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%424 : Tensor = aten::reshape(%421, %423)
%425 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%426 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%427 : Tensor = aten::permute(%424, %426)
%428 : int[] = prim::Constant[value=[1, 7, 768]]()
%429 : int[] = prim::Constant[value=[1, 7, 768]]()
%430 : Tensor = aten::reshape(%427, %429)
%431 : int[] = prim::Constant[value=[7, 768]]()
%432 : int[] = prim::Constant[value=[7, 768]]()
%433 : Tensor = aten::reshape(%430, %432)
%434 : Tensor = aten::mm(%433, %272)
%435 : int[] = prim::Constant[value=[1, 7, 768]]()
%436 : int[] = prim::Constant[value=[1, 7, 768]]()
%437 : Tensor = aten::reshape(%434, %436)
%438 : int = prim::Constant[value=1]()
%439 : Tensor = aten::add(%437, %p58, %438)
%440 : int[] = prim::Constant[value=[7, 768]]()
%441 : int[] = prim::Constant[value=[7, 768]]()
%442 : Tensor = aten::reshape(%439, %441)
%443 : int[] = prim::Constant[value=[1, 7, 768]]()
%444 : int[] = prim::Constant[value=[1, 7, 768]]()
%445 : Tensor = aten::reshape(%442, %444)
%446 : int = prim::Constant[value=1]()
%447 : Tensor = aten::add(%445, %266, %446)
%448 : int[] = prim::Constant[value=[768]]()
%449 : float = prim::Constant[value=9.9999999999999998e-13]()
%450 : Tensor, %451 : Tensor, %452 : Tensor = aten::native_layer_norm(%447, %448, %p49, %p48, %449)
%453 : (Tensor, Tensor, Tensor) = prim::TupleConstruct(%450, %451, %452)
%454 : int[] = prim::Constant[value=[1, 0]]()
%455 : int[] = prim::Constant[value=[1, 0]]()
%456 : Tensor = aten::permute(%p69, %455)
%457 : int[] = prim::Constant[value=[1, 0]]()
%458 : int[] = prim::Constant[value=[1, 0]]()
%459 : Tensor = aten::permute(%p71, %458)
%460 : int[] = prim::Constant[value=[7, 768]]()
%461 : int[] = prim::Constant[value=[7, 768]]()
%462 : Tensor = aten::reshape(%450, %461)
%463 : Tensor = aten::mm(%462, %459)
%464 : int[] = prim::Constant[value=[1, 7, 3072]]()
%465 : int[] = prim::Constant[value=[1, 7, 3072]]()
%466 : Tensor = aten::reshape(%463, %465)
%467 : int = prim::Constant[value=1]()
%468 : Tensor = aten::add(%466, %p70, %467)
%469 : int[] = prim::Constant[value=[7, 3072]]()
%470 : int[] = prim::Constant[value=[7, 3072]]()
%471 : Tensor = aten::reshape(%468, %470)
%472 : int[] = prim::Constant[value=[1, 7, 3072]]()
%473 : int[] = prim::Constant[value=[1, 7, 3072]]()
%474 : Tensor = aten::reshape(%471, %473)
%475 : Tensor = aten::gelu(%474)
%476 : int[] = prim::Constant[value=[7, 3072]]()
%477 : int[] = prim::Constant[value=[7, 3072]]()
%478 : Tensor = aten::reshape(%475, %477)
%479 : Tensor = aten::mm(%478, %456)
%480 : int[] = prim::Constant[value=[1, 7, 768]]()
%481 : int[] = prim::Constant[value=[1, 7, 768]]()
%482 : Tensor = aten::reshape(%479, %481)
%483 : int = prim::Constant[value=1]()
%484 : Tensor = aten::add(%482, %p68, %483)
%485 : int[] = prim::Constant[value=[7, 768]]()
%486 : int[] = prim::Constant[value=[7, 768]]()
%487 : Tensor = aten::reshape(%484, %486)
%488 : int[] = prim::Constant[value=[1, 7, 768]]()
%489 : int[] = prim::Constant[value=[1, 7, 768]]()
%490 : Tensor = aten::reshape(%487, %489)
%491 : int = prim::Constant[value=1]()
%492 : Tensor = aten::add(%490, %450, %491)
%493 : int[] = prim::Constant[value=[768]]()
%494 : float = prim::Constant[value=9.9999999999999998e-13]()
%495 : Tensor, %496 : Tensor, %497 : Tensor = aten::native_layer_norm(%492, %493, %p47, %p46, %494)
%498 : (Tensor, Tensor, Tensor) = prim::TupleConstruct(%495, %496, %497)
%499 : int[] = prim::Constant[value=[1, 0]]()
%500 : int[] = prim::Constant[value=[1, 0]]()
%501 : Tensor = aten::permute(%p73, %500)
%502 : int[] = prim::Constant[value=[1, 0]]()
%503 : int[] = prim::Constant[value=[1, 0]]()
%504 : Tensor = aten::permute(%p75, %503)
%505 : int[] = prim::Constant[value=[7, 768]]()
%506 : int[] = prim::Constant[value=[7, 768]]()
%507 : Tensor = aten::reshape(%495, %506)
%508 : Tensor = aten::mm(%507, %504)
%509 : int[] = prim::Constant[value=[1, 7, 768]]()
%510 : int[] = prim::Constant[value=[1, 7, 768]]()
%511 : Tensor = aten::reshape(%508, %510)
%512 : int = prim::Constant[value=1]()
%513 : Tensor = aten::add(%511, %p74, %512)
%514 : int[] = prim::Constant[value=[7, 768]]()
%515 : int[] = prim::Constant[value=[7, 768]]()
%516 : Tensor = aten::reshape(%513, %515)
%517 : int[] = prim::Constant[value=[1, 7, 768]]()
%518 : int[] = prim::Constant[value=[1, 7, 768]]()
%519 : Tensor = aten::reshape(%516, %518)
%520 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%521 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%522 : Tensor = aten::reshape(%519, %521)
%523 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%524 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%525 : Tensor = aten::permute(%522, %524)
%526 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%527 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%528 : bool = prim::Constant[value=0]()
%529 : Tensor = aten::expand(%525, %527, %528)
%530 : int[] = prim::Constant[value=[12, 7, 64]]()
%531 : int[] = prim::Constant[value=[12, 7, 64]]()
%532 : Tensor = aten::reshape(%529, %531)
%533 : int[] = prim::Constant[value=[1, 0]]()
%534 : int[] = prim::Constant[value=[1, 0]]()
%535 : Tensor = aten::permute(%p77, %534)
%536 : int[] = prim::Constant[value=[7, 768]]()
%537 : int[] = prim::Constant[value=[7, 768]]()
%538 : Tensor = aten::reshape(%495, %537)
%539 : Tensor = aten::mm(%538, %535)
%540 : int[] = prim::Constant[value=[1, 7, 768]]()
%541 : int[] = prim::Constant[value=[1, 7, 768]]()
%542 : Tensor = aten::reshape(%539, %541)
%543 : int = prim::Constant[value=1]()
%544 : Tensor = aten::add(%542, %p76, %543)
%545 : int[] = prim::Constant[value=[7, 768]]()
%546 : int[] = prim::Constant[value=[7, 768]]()
%547 : Tensor = aten::reshape(%544, %546)
%548 : int[] = prim::Constant[value=[1, 7, 768]]()
%549 : int[] = prim::Constant[value=[1, 7, 768]]()
%550 : Tensor = aten::reshape(%547, %549)
%551 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%552 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%553 : Tensor = aten::reshape(%550, %552)
%554 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%555 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%556 : Tensor = aten::permute(%553, %555)
%557 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%558 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%559 : Tensor = aten::permute(%556, %558)
%560 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%561 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%562 : bool = prim::Constant[value=0]()
%563 : Tensor = aten::expand(%559, %561, %562)
%564 : int[] = prim::Constant[value=[12, 64, 7]]()
%565 : int[] = prim::Constant[value=[12, 64, 7]]()
%566 : Tensor = aten::reshape(%563, %565)
%567 : int[] = prim::Constant[value=[1, 0]]()
%568 : int[] = prim::Constant[value=[1, 0]]()
%569 : Tensor = aten::permute(%p79, %568)
%570 : int[] = prim::Constant[value=[7, 768]]()
%571 : int[] = prim::Constant[value=[7, 768]]()
%572 : Tensor = aten::reshape(%495, %571)
%573 : Tensor = aten::mm(%572, %569)
%574 : int[] = prim::Constant[value=[1, 7, 768]]()
%575 : int[] = prim::Constant[value=[1, 7, 768]]()
%576 : Tensor = aten::reshape(%573, %575)
%577 : int = prim::Constant[value=1]()
%578 : Tensor = aten::add(%576, %p78, %577)
%579 : int[] = prim::Constant[value=[7, 768]]()
%580 : int[] = prim::Constant[value=[7, 768]]()
%581 : Tensor = aten::reshape(%578, %580)
%582 : int[] = prim::Constant[value=[1, 7, 768]]()
%583 : int[] = prim::Constant[value=[1, 7, 768]]()
%584 : Tensor = aten::reshape(%581, %583)
%585 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%586 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%587 : Tensor = aten::reshape(%584, %586)
%588 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%589 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%590 : Tensor = aten::permute(%587, %589)
%591 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%592 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%593 : bool = prim::Constant[value=0]()
%594 : Tensor = aten::expand(%590, %592, %593)
%595 : int[] = prim::Constant[value=[12, 7, 64]]()
%596 : int[] = prim::Constant[value=[12, 7, 64]]()
%597 : Tensor = aten::reshape(%594, %596)
%598 : Tensor = aten::bmm(%597, %566)
%599 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%600 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%601 : Tensor = aten::reshape(%598, %600)
%602 : Tensor = aten::div(%601, %p63)
%603 : int = prim::Constant[value=1]()
%604 : Tensor = aten::add(%602, %338, %603)
%605 : int = prim::Constant[value=-1]()
%606 : bool = prim::Constant[value=0]()
%607 : Tensor = aten::_softmax(%604, %605, %606)
%608 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%609 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%610 : bool = prim::Constant[value=0]()
%611 : Tensor = aten::expand(%607, %609, %610)
%612 : int[] = prim::Constant[value=[12, 7, 7]]()
%613 : int[] = prim::Constant[value=[12, 7, 7]]()
%614 : Tensor = aten::reshape(%611, %613)
%615 : Tensor = aten::bmm(%614, %532)
%616 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%617 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%618 : Tensor = aten::reshape(%615, %617)
%619 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%620 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%621 : Tensor = aten::permute(%618, %620)
%622 : int[] = prim::Constant[value=[1, 7, 768]]()
%623 : int[] = prim::Constant[value=[1, 7, 768]]()
%624 : Tensor = aten::reshape(%621, %623)
%625 : int[] = prim::Constant[value=[7, 768]]()
%626 : int[] = prim::Constant[value=[7, 768]]()
%627 : Tensor = aten::reshape(%624, %626)
%628 : Tensor = aten::mm(%627, %501)
%629 : int[] = prim::Constant[value=[1, 7, 768]]()
%630 : int[] = prim::Constant[value=[1, 7, 768]]()
%631 : Tensor = aten::reshape(%628, %630)
%632 : int = prim::Constant[value=1]()
%633 : Tensor = aten::add(%631, %p72, %632)
%634 : int[] = prim::Constant[value=[7, 768]]()
%635 : int[] = prim::Constant[value=[7, 768]]()
%636 : Tensor = aten::reshape(%633, %635)
%637 : int[] = prim::Constant[value=[1, 7, 768]]()
%638 : int[] = prim::Constant[value=[1, 7, 768]]()
%639 : Tensor = aten::reshape(%636, %638)
%640 : int = prim::Constant[value=1]()
%641 : Tensor = aten::add(%639, %495, %640)
%642 : int[] = prim::Constant[value=[768]]()
%643 : float = prim::Constant[value=9.9999999999999998e-13]()
%644 : Tensor, %645 : Tensor, %646 : Tensor = aten::native_layer_norm(%641, %642, %p45, %p44, %643)
%647 : (Tensor, Tensor, Tensor) = prim::TupleConstruct(%644, %645, %646)
%648 : int[] = prim::Constant[value=[1, 0]]()
%649 : int[] = prim::Constant[value=[1, 0]]()
%650 : Tensor = aten::permute(%p81, %649)
%651 : int[] = prim::Constant[value=[1, 0]]()
%652 : int[] = prim::Constant[value=[1, 0]]()
%653 : Tensor = aten::permute(%p83, %652)
%654 : int[] = prim::Constant[value=[7, 768]]()
%655 : int[] = prim::Constant[value=[7, 768]]()
%656 : Tensor = aten::reshape(%644, %655)
%657 : Tensor = aten::mm(%656, %653)
%658 : int[] = prim::Constant[value=[1, 7, 3072]]()
%659 : int[] = prim::Constant[value=[1, 7, 3072]]()
%660 : Tensor = aten::reshape(%657, %659)
%661 : int = prim::Constant[value=1]()
%662 : Tensor = aten::add(%660, %p82, %661)
%663 : int[] = prim::Constant[value=[7, 3072]]()
%664 : int[] = prim::Constant[value=[7, 3072]]()
%665 : Tensor = aten::reshape(%662, %664)
%666 : int[] = prim::Constant[value=[1, 7, 3072]]()
%667 : int[] = prim::Constant[value=[1, 7, 3072]]()
%668 : Tensor = aten::reshape(%665, %667)
%669 : Tensor = aten::gelu(%668)
%670 : int[] = prim::Constant[value=[7, 3072]]()
%671 : int[] = prim::Constant[value=[7, 3072]]()
%672 : Tensor = aten::reshape(%669, %671)
%673 : Tensor = aten::mm(%672, %650)
%674 : int[] = prim::Constant[value=[1, 7, 768]]()
%675 : int[] = prim::Constant[value=[1, 7, 768]]()
%676 : Tensor = aten::reshape(%673, %675)
%677 : int = prim::Constant[value=1]()
%678 : Tensor = aten::add(%676, %p80, %677)
%679 : int[] = prim::Constant[value=[7, 768]]()
%680 : int[] = prim::Constant[value=[7, 768]]()
%681 : Tensor = aten::reshape(%678, %680)
%682 : int[] = prim::Constant[value=[1, 7, 768]]()
%683 : int[] = prim::Constant[value=[1, 7, 768]]()
%684 : Tensor = aten::reshape(%681, %683)
%685 : int = prim::Constant[value=1]()
%686 : Tensor = aten::add(%684, %644, %685)
%687 : int[] = prim::Constant[value=[768]]()
%688 : float = prim::Constant[value=9.9999999999999998e-13]()
%689 : Tensor, %690 : Tensor, %691 : Tensor = aten::native_layer_norm(%686, %687, %p43, %p42, %688)
%692 : (Tensor, Tensor, Tensor) = prim::TupleConstruct(%689, %690, %691)
%693 : int[] = prim::Constant[value=[1, 0]]()
%694 : int[] = prim::Constant[value=[1, 0]]()
%695 : Tensor = aten::permute(%p85, %694)
%696 : int[] = prim::Constant[value=[1, 0]]()
%697 : int[] = prim::Constant[value=[1, 0]]()
%698 : Tensor = aten::permute(%p87, %697)
%699 : int[] = prim::Constant[value=[7, 768]]()
%700 : int[] = prim::Constant[value=[7, 768]]()
%701 : Tensor = aten::reshape(%689, %700)
%702 : Tensor = aten::mm(%701, %698)
%703 : int[] = prim::Constant[value=[1, 7, 768]]()
%704 : int[] = prim::Constant[value=[1, 7, 768]]()
%705 : Tensor = aten::reshape(%702, %704)
%706 : int = prim::Constant[value=1]()
%707 : Tensor = aten::add(%705, %p86, %706)
%708 : int[] = prim::Constant[value=[7, 768]]()
%709 : int[] = prim::Constant[value=[7, 768]]()
%710 : Tensor = aten::reshape(%707, %709)
%711 : int[] = prim::Constant[value=[1, 7, 768]]()
%712 : int[] = prim::Constant[value=[1, 7, 768]]()
%713 : Tensor = aten::reshape(%710, %712)
%714 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%715 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%716 : Tensor = aten::reshape(%713, %715)
%717 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%718 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%719 : Tensor = aten::permute(%716, %718)
%720 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%721 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%722 : bool = prim::Constant[value=0]()
%723 : Tensor = aten::expand(%719, %721, %722)
%724 : int[] = prim::Constant[value=[12, 7, 64]]()
%725 : int[] = prim::Constant[value=[12, 7, 64]]()
%726 : Tensor = aten::reshape(%723, %725)
%727 : int[] = prim::Constant[value=[1, 0]]()
%728 : int[] = prim::Constant[value=[1, 0]]()
%729 : Tensor = aten::permute(%p89, %728)
%730 : int[] = prim::Constant[value=[7, 768]]()
%731 : int[] = prim::Constant[value=[7, 768]]()
%732 : Tensor = aten::reshape(%689, %731)
%733 : Tensor = aten::mm(%732, %729)
%734 : int[] = prim::Constant[value=[1, 7, 768]]()
%735 : int[] = prim::Constant[value=[1, 7, 768]]()
%736 : Tensor = aten::reshape(%733, %735)
%737 : int = prim::Constant[value=1]()
%738 : Tensor = aten::add(%736, %p88, %737)
%739 : int[] = prim::Constant[value=[7, 768]]()
%740 : int[] = prim::Constant[value=[7, 768]]()
%741 : Tensor = aten::reshape(%738, %740)
%742 : int[] = prim::Constant[value=[1, 7, 768]]()
%743 : int[] = prim::Constant[value=[1, 7, 768]]()
%744 : Tensor = aten::reshape(%741, %743)
%745 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%746 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%747 : Tensor = aten::reshape(%744, %746)
%748 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%749 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%750 : Tensor = aten::permute(%747, %749)
%751 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%752 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%753 : Tensor = aten::permute(%750, %752)
%754 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%755 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%756 : bool = prim::Constant[value=0]()
%757 : Tensor = aten::expand(%753, %755, %756)
%758 : int[] = prim::Constant[value=[12, 64, 7]]()
%759 : int[] = prim::Constant[value=[12, 64, 7]]()
%760 : Tensor = aten::reshape(%757, %759)
%761 : int[] = prim::Constant[value=[1, 0]]()
%762 : int[] = prim::Constant[value=[1, 0]]()
%763 : Tensor = aten::permute(%p91, %762)
%764 : int[] = prim::Constant[value=[7, 768]]()
%765 : int[] = prim::Constant[value=[7, 768]]()
%766 : Tensor = aten::reshape(%689, %765)
%767 : Tensor = aten::mm(%766, %763)
%768 : int[] = prim::Constant[value=[1, 7, 768]]()
%769 : int[] = prim::Constant[value=[1, 7, 768]]()
%770 : Tensor = aten::reshape(%767, %769)
%771 : int = prim::Constant[value=1]()
%772 : Tensor = aten::add(%770, %p90, %771)
%773 : int[] = prim::Constant[value=[7, 768]]()
%774 : int[] = prim::Constant[value=[7, 768]]()
%775 : Tensor = aten::reshape(%772, %774)
%776 : int[] = prim::Constant[value=[1, 7, 768]]()
%777 : int[] = prim::Constant[value=[1, 7, 768]]()
%778 : Tensor = aten::reshape(%775, %777)
%779 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%780 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%781 : Tensor = aten::reshape(%778, %780)
%782 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%783 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%784 : Tensor = aten::permute(%781, %783)
%785 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%786 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%787 : bool = prim::Constant[value=0]()
%788 : Tensor = aten::expand(%784, %786, %787)
%789 : int[] = prim::Constant[value=[12, 7, 64]]()
%790 : int[] = prim::Constant[value=[12, 7, 64]]()
%791 : Tensor = aten::reshape(%788, %790)
%792 : Tensor = aten::bmm(%791, %760)
%793 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%794 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%795 : Tensor = aten::reshape(%792, %794)
%796 : Tensor = aten::div(%795, %p63)
%797 : int = prim::Constant[value=1]()
%798 : Tensor = aten::add(%796, %338, %797)
%799 : int = prim::Constant[value=-1]()
%800 : bool = prim::Constant[value=0]()
%801 : Tensor = aten::_softmax(%798, %799, %800)
%802 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%803 : int[] = prim::Constant[value=[1, 12, 7, 7]]()
%804 : bool = prim::Constant[value=0]()
%805 : Tensor = aten::expand(%801, %803, %804)
%806 : int[] = prim::Constant[value=[12, 7, 7]]()
%807 : int[] = prim::Constant[value=[12, 7, 7]]()
%808 : Tensor = aten::reshape(%805, %807)
%809 : Tensor = aten::bmm(%808, %726)
%810 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%811 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%812 : Tensor = aten::reshape(%809, %811)
%813 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%814 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%815 : Tensor = aten::permute(%812, %814)
%816 : int[] = prim::Constant[value=[1, 7, 768]]()
%817 : int[] = prim::Constant[value=[1, 7, 768]]()
%818 : Tensor = aten::reshape(%815, %817)
%819 : int[] = prim::Constant[value=[7, 768]]()
%820 : int[] = prim::Constant[value=[7, 768]]()
%821 : Tensor = aten::reshape(%818, %820)
%822 : Tensor = aten::mm(%821, %695)
%823 : int[] = prim::Constant[value=[1, 7, 768]]()
%824 : int[] = prim::Constant[value=[1, 7, 768]]()
%825 : Tensor = aten::reshape(%822, %824)
%826 : int = prim::Constant[value=1]()
%827 : Tensor = aten::add(%825, %p84, %826)
%828 : int[] = prim::Constant[value=[7, 768]]()
%829 : int[] = prim::Constant[value=[7, 768]]()
%830 : Tensor = aten::reshape(%827, %829)
%831 : int[] = prim::Constant[value=[1, 7, 768]]()
%832 : int[] = prim::Constant[value=[1, 7, 768]]()
%833 : Tensor = aten::reshape(%830, %832)
%834 : int = prim::Constant[value=1]()
%835 : Tensor = aten::add(%833, %689, %834)
%836 : int[] = prim::Constant[value=[768]]()
%837 : float = prim::Constant[value=9.9999999999999998e-13]()
%838 : Tensor, %839 : Tensor, %840 : Tensor = aten::native_layer_norm(%835, %836, %p41, %p40, %837)
%841 : (Tensor, Tensor, Tensor) = prim::TupleConstruct(%838, %839, %840)
%842 : int[] = prim::Constant[value=[1, 0]]()
%843 : int[] = prim::Constant[value=[1, 0]]()
%844 : Tensor = aten::permute(%p93, %843)
%845 : int[] = prim::Constant[value=[1, 0]]()
%846 : int[] = prim::Constant[value=[1, 0]]()
%847 : Tensor = aten::permute(%p95, %846)
%848 : int[] = prim::Constant[value=[7, 768]]()
%849 : int[] = prim::Constant[value=[7, 768]]()
%850 : Tensor = aten::reshape(%838, %849)
%851 : Tensor = aten::mm(%850, %847)
%852 : int[] = prim::Constant[value=[1, 7, 3072]]()
%853 : int[] = prim::Constant[value=[1, 7, 3072]]()
%854 : Tensor = aten::reshape(%851, %853)
%855 : int = prim::Constant[value=1]()
%856 : Tensor = aten::add(%854, %p94, %855)
%857 : int[] = prim::Constant[value=[7, 3072]]()
%858 : int[] = prim::Constant[value=[7, 3072]]()
%859 : Tensor = aten::reshape(%856, %858)
%860 : int[] = prim::Constant[value=[1, 7, 3072]]()
%861 : int[] = prim::Constant[value=[1, 7, 3072]]()
%862 : Tensor = aten::reshape(%859, %861)
%863 : Tensor = aten::gelu(%862)
%864 : int[] = prim::Constant[value=[7, 3072]]()
%865 : int[] = prim::Constant[value=[7, 3072]]()
%866 : Tensor = aten::reshape(%863, %865)
%867 : Tensor = aten::mm(%866, %844)
%868 : int[] = prim::Constant[value=[1, 7, 768]]()
%869 : int[] = prim::Constant[value=[1, 7, 768]]()
%870 : Tensor = aten::reshape(%867, %869)
%871 : int = prim::Constant[value=1]()
%872 : Tensor = aten::add(%870, %p92, %871)
%873 : int[] = prim::Constant[value=[7, 768]]()
%874 : int[] = prim::Constant[value=[7, 768]]()
%875 : Tensor = aten::reshape(%872, %874)
%876 : int[] = prim::Constant[value=[1, 7, 768]]()
%877 : int[] = prim::Constant[value=[1, 7, 768]]()
%878 : Tensor = aten::reshape(%875, %877)
%879 : int = prim::Constant[value=1]()
%880 : Tensor = aten::add(%878, %838, %879)
%881 : int[] = prim::Constant[value=[768]]()
%882 : float = prim::Constant[value=9.9999999999999998e-13]()
%883 : Tensor, %884 : Tensor, %885 : Tensor = aten::native_layer_norm(%880, %881, %p39, %p38, %882)
%886 : (Tensor, Tensor, Tensor) = prim::TupleConstruct(%883, %884, %885)
%887 : int[] = prim::Constant[value=[1, 0]]()
%888 : int[] = prim::Constant[value=[1, 0]]()
%889 : Tensor = aten::permute(%p97, %888)
%890 : int[] = prim::Constant[value=[1, 0]]()
%891 : int[] = prim::Constant[value=[1, 0]]()
%892 : Tensor = aten::permute(%p99, %891)
%893 : int[] = prim::Constant[value=[7, 768]]()
%894 : int[] = prim::Constant[value=[7, 768]]()
%895 : Tensor = aten::reshape(%883, %894)
%896 : Tensor = aten::mm(%895, %892)
%897 : int[] = prim::Constant[value=[1, 7, 768]]()
%898 : int[] = prim::Constant[value=[1, 7, 768]]()
%899 : Tensor = aten::reshape(%896, %898)
%900 : int = prim::Constant[value=1]()
%901 : Tensor = aten::add(%899, %p98, %900)
%902 : int[] = prim::Constant[value=[7, 768]]()
%903 : int[] = prim::Constant[value=[7, 768]]()
%904 : Tensor = aten::reshape(%901, %903)
%905 : int[] = prim::Constant[value=[1, 7, 768]]()
%906 : int[] = prim::Constant[value=[1, 7, 768]]()
%907 : Tensor = aten::reshape(%904, %906)
%908 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%909 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%910 : Tensor = aten::reshape(%907, %909)
%911 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%912 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%913 : Tensor = aten::permute(%910, %912)
%914 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%915 : int[] = prim::Constant[value=[1, 12, 7, 64]]()
%916 : bool = prim::Constant[value=0]()
%917 : Tensor = aten::expand(%913, %915, %916)
%918 : int[] = prim::Constant[value=[12, 7, 64]]()
%919 : int[] = prim::Constant[value=[12, 7, 64]]()
%920 : Tensor = aten::reshape(%917, %919)
%921 : int[] = prim::Constant[value=[1, 0]]()
%922 : int[] = prim::Constant[value=[1, 0]]()
%923 : Tensor = aten::permute(%p101, %922)
%924 : int[] = prim::Constant[value=[7, 768]]()
%925 : int[] = prim::Constant[value=[7, 768]]()
%926 : Tensor = aten::reshape(%883, %925)
%927 : Tensor = aten::mm(%926, %923)
%928 : int[] = prim::Constant[value=[1, 7, 768]]()
%929 : int[] = prim::Constant[value=[1, 7, 768]]()
%930 : Tensor = aten::reshape(%927, %929)
%931 : int = prim::Constant[value=1]()
%932 : Tensor = aten::add(%930, %p100, %931)
%933 : int[] = prim::Constant[value=[7, 768]]()
%934 : int[] = prim::Constant[value=[7, 768]]()
%935 : Tensor = aten::reshape(%932, %934)
%936 : int[] = prim::Constant[value=[1, 7, 768]]()
%937 : int[] = prim::Constant[value=[1, 7, 768]]()
%938 : Tensor = aten::reshape(%935, %937)
%939 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%940 : int[] = prim::Constant[value=[1, 7, 12, 64]]()
%941 : Tensor = aten::reshape(%938, %940)
%942 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%943 : int[] = prim::Constant[value=[0, 2, 1, 3]]()
%944 : Tensor = aten::permute(%941, %943)
%945 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%946 : int[] = prim::Constant[value=[0, 1, 3, 2]]()
%947 : Tensor = aten::permute(%944, %946)
%948 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%949 : int[] = prim::Constant[value=[1, 12, 64, 7]]()
%950 : bool = prim::Constant[value=0]()
%951 : Tensor = aten::expand(%947, %949, %950)
%952 : int[] = prim::Constant[value=[12, 64, 7]]()
%953 : int[] = prim::Constant[value=[12, 64, 7]]()