Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Unexpected speed values for Combining File Chunks and Calculating md5 #232

Open
SuhasSrinivasan opened this issue Jul 15, 2024 · 0 comments
Labels
bug Something isn't working

Comments

@SuhasSrinivasan
Copy link

Dear EGA Team,

This is related to #231.

When observing the speed calculation for post download steps

  1. Combining file chunks (displayed in hundreds of GB/s)
  2. Combining file chunks (displayed in hundreds of MB/s)

It is not clear if this speed information is helpful in a meaningful way and the speeds displayed do not match current hardware performance characteristics.

$ pyega3 -c 4 -cf ./ega_cred.json fetch EGAD00001005039 --output-dir .
[2024-07-15 11:25:17 -0700]
[2024-07-15 11:25:17 -0700] pyEGA3 - EGA python client version 5.2.0 (https://github.com/EGA-archive/ega-download-client)
[2024-07-15 11:25:17 -0700] Parts of this software are derived from pyEGA (https://github.com/blachlylab/pyega) by James Blachly
[2024-07-15 11:25:17 -0700] Python version : 3.12.4
[2024-07-15 11:25:17 -0700] OS version : Darwin Darwin Kernel Version 23.5.0: Wed May  1 20:09:52 PDT 2024; root:xnu-10063.121.3~5/RELEASE_X86_64
[2024-07-15 11:25:17 -0700] MacOS version : 10.16
[2024-07-15 11:25:17 -0700] Server URL: https://ega.ebi.ac.uk:8443/v2
[2024-07-15 11:25:17 -0700] Session-Id: 868711876
[2024-07-15 11:25:30 -0700]
[2024-07-15 11:25:30 -0700] Authentication success for user 
[2024-07-15 11:26:24 -0700] File Id: 'EGAF00002464835'(6365930 bytes).
[2024-07-15 11:26:24 -0700] Total space : 233.47 GiB
[2024-07-15 11:26:24 -0700] Used space : 136.59 GiB
[2024-07-15 11:26:24 -0700] Free space : 96.87 GiB
[2024-07-15 11:26:24 -0700] Download starting [using 1 connection(s), file size 6365914 and chunk length 104857600]...
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6.37M/6.37M [01:59<00:00, 53.2kB/s]
[2024-07-15 11:28:24 -0700] Combining file chunks (this operation can take a long time depending on the file size)
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6.37M/6.37M [00:00<00:00, 25.5GB/s]
[2024-07-15 11:28:24 -0700] Calculating md5 (this operation can take a long time depending on the file size)
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6.37M/6.37M [00:00<00:00, 528MB/s]
[2024-07-15 11:28:24 -0700] Verifying file checksum
[2024-07-15 11:28:24 -0700] Saved to : '/EGAF00002464835/SLE_200_49bp_v15_gene_raw_counts.txt.gz'(6365914 bytes, md5=35916eb7594a32c8e866fcb1f862010c)
[2024-07-15 11:28:42 -0700] File Id: 'EGAF00002464836'(5590205 bytes).
[2024-07-15 11:28:42 -0700] Total space : 233.47 GiB
[2024-07-15 11:28:42 -0700] Used space : 136.60 GiB
[2024-07-15 11:28:42 -0700] Free space : 96.87 GiB
[2024-07-15 11:28:42 -0700] Download starting [using 1 connection(s), file size 5590189 and chunk length 104857600]...
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.59M/5.59M [01:09<00:00, 80.9kB/s]
[2024-07-15 11:29:51 -0700] Combining file chunks (this operation can take a long time depending on the file size)
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.59M/5.59M [00:00<00:00, 27.6GB/s]
[2024-07-15 11:29:51 -0700] Calculating md5 (this operation can take a long time depending on the file size)
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5.59M/5.59M [00:00<00:00, 543MB/s]
[2024-07-15 11:29:51 -0700] Verifying file checksum
[2024-07-15 11:29:51 -0700] Saved to : '/EGAF00002464836/SLE_200_49bp_v15_gene_raw_counts_filtered_21851.txt.gz'(5590189 bytes, md5=862f320ee3dca9736f19f81c54a0aa44)
[2024-07-15 11:30:00 -0700] File Id: 'EGAF00002464837'(38590903 bytes).
[2024-07-15 11:30:00 -0700] Total space : 233.47 GiB
[2024-07-15 11:30:00 -0700] Used space : 136.61 GiB
[2024-07-15 11:30:00 -0700] Free space : 96.86 GiB
[2024-07-15 11:30:00 -0700] Download starting [using 1 connection(s), file size 38590887 and chunk length 104857600]...
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38.6M/38.6M [04:11<00:00, 153kB/s]
[2024-07-15 11:34:11 -0700] Combining file chunks (this operation can take a long time depending on the file size)
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38.6M/38.6M [00:00<00:00, 168GB/s]
[2024-07-15 11:34:11 -0700] Calculating md5 (this operation can take a long time depending on the file size)
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38.6M/38.6M [00:00<00:00, 540MB/s]
[2024-07-15 11:34:11 -0700] Verifying file checksum
[2024-07-15 11:34:11 -0700] Saved to : '/EGAF00002464837/SLE_200_49bp_v15_gene_RPKM.txt.gz'(38590887 bytes, md5=168bce8ba612049ef957f6ae41a25e33)
@SuhasSrinivasan SuhasSrinivasan added the bug Something isn't working label Jul 15, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

1 participant