From c127513477c3b56e1e34441ed6db5586f135a5d0 Mon Sep 17 00:00:00 2001 From: Mariella CC Date: Thu, 17 Oct 2024 15:10:09 +0200 Subject: [PATCH] doc: add metadata extraction and corpus dist parts --- docs/jupyter/kiara_topic_modelling.ipynb | 508 ++++++++++++++++++++--- 1 file changed, 445 insertions(+), 63 deletions(-) diff --git a/docs/jupyter/kiara_topic_modelling.ipynb b/docs/jupyter/kiara_topic_modelling.ipynb index e65fcec..5ec9d24 100644 --- a/docs/jupyter/kiara_topic_modelling.ipynb +++ b/docs/jupyter/kiara_topic_modelling.ipynb @@ -46,7 +46,7 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 23, "metadata": {}, "outputs": [ { @@ -98,7 +98,7 @@ }, { "cell_type": "code", - "execution_count": 3, + "execution_count": 24, "metadata": {}, "outputs": [], "source": [ @@ -110,7 +110,7 @@ }, { "cell_type": "code", - "execution_count": 4, + "execution_count": 25, "metadata": {}, "outputs": [], "source": [ @@ -119,7 +119,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 26, "metadata": {}, "outputs": [], "source": [ @@ -128,7 +128,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 27, "metadata": {}, "outputs": [ { @@ -227,7 +227,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 6, + "execution_count": 27, "metadata": {}, "output_type": "execute_result" } @@ -245,7 +245,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 28, "metadata": {}, "outputs": [ { @@ -359,7 +359,7 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 29, "metadata": {}, "outputs": [], "source": [ @@ -373,7 +373,7 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 30, "metadata": {}, "outputs": [], "source": [ @@ -382,7 +382,7 @@ }, { "cell_type": "code", - "execution_count": 10, + "execution_count": 31, "metadata": {}, "outputs": [ { @@ -496,7 +496,7 @@ "│ \"cross-origin-resource-policy\": │\n", "│ \"cross-origin\", │\n", "│ \"etag\": │\n", - "│ \"W/\\\"3efbf7a290a10e0a079850cfee3e21cf88e12a2afe5061… │\n", + "│ \"W/\\\"396b5898be79ff55797d701ebd42110c488262f8db6f4f… │\n", "│ \"strict-transport-security\": │\n", "│ \"max-age=31536000\", │\n", "│ \"vary\": │\n", @@ -504,14 +504,14 @@ "│ \"x-content-type-options\": \"nosniff\", │\n", "│ \"x-frame-options\": \"deny\", │\n", "│ \"x-xss-protection\": \"1; mode=block\", │\n", - "│ \"date\": \"Wed, 09 Oct 2024 08:15:11 GMT\", │\n", + "│ \"date\": \"Tue, 15 Oct 2024 11:37:04 GMT\", │\n", "│ \"transfer-encoding\": \"chunked\", │\n", "│ \"x-github-request-id\": │\n", - "│ \"E576:324200:3C1C7A:493E92:67063B8F\" │\n", + "│ \"E4A8:36E73D:3597EE:3ED623:670E53E0\" │\n", "│ }, │\n", "│ { │\n", "│ \"server\": \"GitHub.com\", │\n", - "│ \"date\": \"Wed, 09 Oct 2024 08:15:11 GMT\", │\n", + "│ \"date\": \"Tue, 15 Oct 2024 11:37:04 GMT\", │\n", "│ \"content-type\": \"text/html; charset=utf-8\", │\n", "│ \"vary\": \"X-PJAX, X-PJAX-Container, │\n", "│ Turbo-Visit, Turbo-Frame, Accept-Encoding, Accept, │\n", @@ -609,12 +609,12 @@ "│ gist.github.com/assets-cdn/worker/\", │\n", "│ \"content-length\": \"0\", │\n", "│ \"x-github-request-id\": │\n", - "│ \"E4E5:10B96C:3119C4:31C9B0:67063B8F\" │\n", + "│ \"E4FB:34ACE0:39F00E5:3B2BB26:670E53E0\" │\n", "│ } │\n", "│ ], │\n", "│ \"request_time\": │\n", - "│ \"2024-10-09T10:15:10.882039+02:00\", │\n", - "│ \"download_time_in_seconds\": 9.171702 │\n", + "│ \"2024-10-15T13:37:03.915333+02:00\", │\n", + "│ \"download_time_in_seconds\": 8.044517 │\n", "│ } │\n", "│ │\n", "│ │\n", @@ -731,7 +731,7 @@ "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"cross-origin-resource-policy\": \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"cross-origin\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"etag\": \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", - "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"W/\\\"3efbf7a290a10e0a079850cfee3e21cf88e12a2afe5061…\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"W/\\\"396b5898be79ff55797d701ebd42110c488262f8db6f4f…\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"strict-transport-security\": \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"max-age=31536000\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"vary\": \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", @@ -739,14 +739,14 @@ "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"x-content-type-options\": \"nosniff\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"x-frame-options\": \"deny\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"x-xss-protection\": \"1; mode=block\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", - "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"date\": \"Wed, 09 Oct 2024 08:15:11 GMT\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"date\": \"Tue, 15 Oct 2024 11:37:04 GMT\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"transfer-encoding\": \"chunked\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"x-github-request-id\": \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", - "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"E576:324200:3C1C7A:493E92:67063B8F\" \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"E4A8:36E73D:3597EE:3ED623:670E53E0\" \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m }, \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m { \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"server\": \"GitHub.com\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", - "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"date\": \"Wed, 09 Oct 2024 08:15:11 GMT\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"date\": \"Tue, 15 Oct 2024 11:37:04 GMT\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"content-type\": \"text/html; charset=utf-8\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"vary\": \"X-PJAX, X-PJAX-Container, \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mTurbo-Visit, Turbo-Frame, Accept-Encoding, Accept, \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", @@ -844,12 +844,12 @@ "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mgist.github.com/assets-cdn/worker/\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"content-length\": \"0\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"x-github-request-id\": \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", - "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"E4E5:10B96C:3119C4:31C9B0:67063B8F\" \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"E4FB:34ACE0:39F00E5:3B2BB26:670E53E0\" \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m } \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m ], \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"request_time\": \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", - "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"2024-10-09T10:15:10.882039+02:00\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", - "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"download_time_in_seconds\": 9.171702 \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m\"2024-10-15T13:37:03.915333+02:00\", \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \"download_time_in_seconds\": 8.044517 \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m} \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", @@ -857,7 +857,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 10, + "execution_count": 31, "metadata": {}, "output_type": "execute_result" } @@ -868,7 +868,7 @@ }, { "cell_type": "code", - "execution_count": 11, + "execution_count": 32, "metadata": {}, "outputs": [], "source": [ @@ -884,7 +884,7 @@ }, { "cell_type": "code", - "execution_count": 3, + "execution_count": 2, "metadata": {}, "outputs": [ { @@ -930,7 +930,7 @@ }, { "cell_type": "code", - "execution_count": 4, + "execution_count": 3, "metadata": {}, "outputs": [], "source": [ @@ -942,7 +942,7 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 4, "metadata": {}, "outputs": [], "source": [ @@ -951,7 +951,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 5, "metadata": {}, "outputs": [ { @@ -1068,7 +1068,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 6, + "execution_count": 5, "metadata": {}, "output_type": "execute_result" } @@ -1081,13 +1081,381 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2. Tokenize corpus" + "## 2. Subset creation" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 2.1. Get metadata from file names" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "To visualize the distribution of the corpus, we start by extracting the metadata from the file names." + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "╭─ Operation: \u001b[1;3mtopic_modelling.lccn_metadata\u001b[0m ───────────────────────────────────╮\n", + "│ │\n", + "│ \u001b[3m \u001b[0m\u001b[3mDocumentation\u001b[0m\u001b[3m \u001b[0m This module will get metadata from strings that comply │\n", + "│ \u001b[3m \u001b[0m with LCCN pattern: '/sn86069873/1900-01-05/' to get the │\n", + "│ \u001b[3m \u001b[0m publication references and the dates and add those │\n", + "│ \u001b[3m \u001b[0m informations as two new columns. │\n", + "│ \u001b[3m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m In addition, if a mapping scheme is provided between │\n", + "│ \u001b[3m \u001b[0m publication references and publication names, it will │\n", + "│ \u001b[3m \u001b[0m add a column with the publication names. Such a map is │\n", + "│ \u001b[3m \u001b[0m provided in the form of a list of lists with publication │\n", + "│ \u001b[3m \u001b[0m references and publication names in the same order. Here │\n", + "│ \u001b[3m \u001b[0m is an example of how it should look: │\n", + "│ \u001b[3m \u001b[0m [[\"2012271201\",\"sn85054967\",\"sn93053873\"],[\"Cronaca_Sov… │\n", + "│ │\n", + "│ \u001b[3m \u001b[0m\u001b[3mInputs \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mfield \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mname \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mtype \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mdescrip…\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mRequired\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mDefault \u001b[0m\u001b[1m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m ────────────────────────────────────────────────────── │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mcorpus_ta\u001b[0m\u001b[3m \u001b[0m table Table \u001b[1myes\u001b[0m -- no │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mble \u001b[0m\u001b[3m \u001b[0m that default │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m contains -- │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m a column │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m with the │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m file │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m names. │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mcolumn_na\u001b[0m\u001b[3m \u001b[0m string Name of \u001b[1myes\u001b[0m -- no │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mme \u001b[0m\u001b[3m \u001b[0m the default │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m column -- │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m that │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m contains │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m the file │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m names. │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mmap \u001b[0m\u001b[3m \u001b[0m list List of no -- no │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m lists of default │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m unique -- │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m publica… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m referen… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m and │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m publica… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m names in │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m the │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m collect… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m provided │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m in the │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m same │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m order. │\n", + "│ \u001b[3m \u001b[0m │\n", + "│ │\n", + "│ \u001b[3m \u001b[0m\u001b[3mOutputs \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mfield name \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mtype \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mdescription \u001b[0m\u001b[1m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m ────────────────────────────────────────────────────── │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mcorpus_table\u001b[0m\u001b[3m \u001b[0m table The augmented table with │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m extracted metadata. │\n", + "│ \u001b[3m \u001b[0m │\n", + "│ │\n", + "╰──────────────────────────────────────────────────────────────────────────────╯\n" + ] + } + ], + "source": [ + "! kiara operation explain topic_modelling.lccn_metadata" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, + "outputs": [], + "source": [ + "lccn_metadata_inputs = {\n", + " \"corpus_table\": import_table_from_local_folder_results['table'],\n", + " \"column_name\": \"file_name\",\n", + " \"map\": [[\"sn84037024\",\"sn84037025\"],[\"La Ragione\",\"La Rassegna\"]] \n", + "}" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [], + "source": [ + "lccn_metadata_results = kiara.run_job('topic_modelling.lccn_metadata', inputs=lccn_metadata_inputs, comment = \" \")" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮\n",
+       "│                                                                                                                                          │\n",
+       "│   field          value                                                                                                                   │\n",
+       "│  ──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────  │\n",
+       "│   corpus_table                                                                                                                           │\n",
+       "│                    id   rel_path       mime_type    size    content         file_name      date         publication_r   publication_     │\n",
+       "│                   ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────    │\n",
+       "│                    0    La_Ragione/s   text/plain   16613   LA RAGIONE      sn84037024_1   1917-04-25   sn84037024      La Ragione       │\n",
+       "│                    1    La_Ragione/s   text/plain   16679   LA RAG ONE      sn84037024_1   1917-04-25   sn84037024      La Ragione       │\n",
+       "│                    2    La_Ragione/s   text/plain   16793   LA RAGIONE      sn84037024_1   1917-04-25   sn84037024      La Ragione       │\n",
+       "│                    3    La_Ragione/s   text/plain   16235   contro i vili   sn84037024_1   1917-04-25   sn84037024      La Ragione       │\n",
+       "│                    4    La_Ragione/s   text/plain   18346   contro i vili   sn84037024_1   1917-05-05   sn84037024      La Ragione       │\n",
+       "│                    5    La_Ragione/s   text/plain   18474   LA RAGIONA      sn84037024_1   1917-05-05   sn84037024      La Ragione       │\n",
+       "│                    6    La_Ragione/s   text/plain   18280   LA RAGIONE      sn84037024_1   1917-05-05   sn84037024      La Ragione       │\n",
+       "│                    7    La_Ragione/s   text/plain   18481   LA RAGIONE      sn84037024_1   1917-05-05   sn84037024      La Ragione       │\n",
+       "│                    8    La_Ragione/s   text/plain   18620   contro i vili   sn84037024_1   1917-05-16   sn84037024      La Ragione       │\n",
+       "│                    9    La_Ragione/s   text/plain   18698   LA RAG ONE      sn84037024_1   1917-05-16   sn84037024      La Ragione       │\n",
+       "│                    10   La_Ragione/s   text/plain   18540   contro 1 vili   sn84037024_1   1917-05-16   sn84037024      La Ragione       │\n",
+       "│                    11   La_Rassegna/   text/plain   19397   ■■■             sn84037025_1   1917-04-07   sn84037025      La Rassegna      │\n",
+       "│                    12   La_Rassegna/   text/plain   20647   La Rassegna     sn84037025_1   1917-04-14   sn84037025      La Rassegna      │\n",
+       "│                    13   La_Rassegna/   text/plain   20650   Both Phones     sn84037025_1   1917-04-14   sn84037025      La Rassegna      │\n",
+       "│                    14   La_Rassegna/   text/plain   21017   ■ jSrìt** W??   sn84037025_1   1917-04-21   sn84037025      La Rassegna      │\n",
+       "│                    15   La_Rassegna/   text/plain   20982   ■Both Phones    sn84037025_1   1917-04-21   sn84037025      La Rassegna      │\n",
+       "│                                                                                                                                          │\n",
+       "│                                                                                                                                          │\n",
+       "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n",
+       "
\n" + ], + "text/plain": [ + "╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮\n", + "│ │\n", + "│ \u001b[1m \u001b[0m\u001b[1mfield \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mvalue \u001b[0m\u001b[1m \u001b[0m │\n", + "│ ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │\n", + "│ \u001b[1m \u001b[0m\u001b[1mcorpus_table\u001b[0m\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mid\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mrel_path\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mmime_type\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3msize\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mcontent\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mfile_name\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mdate\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mpublication_r\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mpublication_\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────── \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m0\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m16613\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLA RAGIONE\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-25\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m16679\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLA RAG ONE\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-25\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m2\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m16793\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLA RAGIONE\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-25\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m3\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m16235\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mcontro i vili\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-25\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m4\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m18346\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mcontro i vili\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-05-05\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m5\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m18474\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLA RAGIONA\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-05-05\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m6\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m18280\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLA RAGIONE\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-05-05\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m7\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m18481\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLA RAGIONE\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-05-05\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m8\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m18620\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mcontro i vili\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-05-16\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m9\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m18698\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLA RAG ONE\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-05-16\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m10\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Ragione/s\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m18540\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mcontro 1 vili\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-05-16\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037024\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m11\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Rassegna/\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m19397\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m■■■\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-07\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Rassegna\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m12\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Rassegna/\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m20647\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Rassegna\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-14\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Rassegna\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m13\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Rassegna/\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m20650\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mBoth Phones\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-14\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Rassegna\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m14\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Rassegna/\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m21017\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m■ jSrìt** W??\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-21\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Rassegna\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m15\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa_Rassegna/\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mtext/plain\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m20982\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m■Both Phones\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025_1\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917-04-21\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3msn84037025\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Rassegna\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ │\n", + "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" + ] + }, + "execution_count": 9, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "lccn_metadata_results" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 2.2. Visualize corpus distribution" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "We start by getting the distribution data." + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "╭─ Operation: \u001b[1;3mtopic_modelling.corpus_distribution\u001b[0m ─────────────────────────────╮\n", + "│ │\n", + "│ \u001b[3m \u001b[0m\u001b[3mDocumentation\u001b[0m\u001b[3m \u001b[0m This module aggregates a table by day, month or year │\n", + "│ \u001b[3m \u001b[0m from a corpus table that contains a date column. It │\n", + "│ \u001b[3m \u001b[0m returns the distribution over time, which can be used │\n", + "│ \u001b[3m \u001b[0m for display purposes, such as visualization. │\n", + "│ │\n", + "│ \u001b[3m \u001b[0m\u001b[3mInputs \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mfield \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mname \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mtype \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mdescrip…\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mRequired\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mDefault \u001b[0m\u001b[1m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m ────────────────────────────────────────────────────── │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mperiodici\u001b[0m\u001b[3m \u001b[0m string The \u001b[1myes\u001b[0m -- no │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mty \u001b[0m\u001b[3m \u001b[0m desired default │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m data -- │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m periodi… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m to │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m aggrega… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m the │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m data. │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m Values │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m can be │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m either │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m 'day','… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m or │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m 'year'. │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mdate_col \u001b[0m\u001b[3m \u001b[0m string Column \u001b[1myes\u001b[0m -- no │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m name of default │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m the -- │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m column │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m that │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m contains │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m the │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m date. │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m Values │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m in this │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m column │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m need to │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m comply │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m with │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m date │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m format: │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m https:/… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mpublicati\u001b[0m\u001b[3m \u001b[0m string Column \u001b[1myes\u001b[0m -- no │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mon_ref_co\u001b[0m\u001b[3m \u001b[0m name of default │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3ml \u001b[0m\u001b[3m \u001b[0m the -- │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m values │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m contain… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m publica… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m names or │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m ref/id. │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m This │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m column │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m will be │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m used in │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m the │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m output. │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mcorpus_ta\u001b[0m\u001b[3m \u001b[0m table The \u001b[1myes\u001b[0m -- no │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mble \u001b[0m\u001b[3m \u001b[0m corpus default │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m table -- │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m for │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m which │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m the │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m distrib… │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m over │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m time is │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m needed. │\n", + "│ \u001b[3m \u001b[0m │\n", + "│ │\n", + "│ \u001b[3m \u001b[0m\u001b[3mOutputs \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mfield name\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mtype \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mdescription \u001b[0m\u001b[1m \u001b[0m │\n", + "│ \u001b[3m \u001b[0m ────────────────────────────────────────────────────── │\n", + "│ \u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mdist_table\u001b[0m\u001b[3m \u001b[0m table The aggregated data table. │\n", + "│ \u001b[3m \u001b[0m │\n", + "│ │\n", + "╰──────────────────────────────────────────────────────────────────────────────╯\n" + ] + } + ], + "source": [ + "! kiara operation explain topic_modelling.corpus_distribution" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [], + "source": [ + "corpus_dist_inputs = {\n", + " \"corpus_table\": lccn_metadata_results[\"corpus_table\"],\n", + " \"periodicity\": \"month\",\n", + " \"date_col\": \"date\",\n", + " \"publication_ref_col\": \"publication_name\",\n", + "}" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": {}, + "outputs": [], + "source": [ + "corpus_dist_results = kiara.run_job('topic_modelling.corpus_distribution', inputs=corpus_dist_inputs, comment = \" \")" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮\n",
+       "│                                                                                                                                          │\n",
+       "│   field        value                                                                                                                     │\n",
+       "│  ──────────────────────────────────────────────────────────                                                                              │\n",
+       "│   dist_table                                                                                                                             │\n",
+       "│                  month   year   publication_name   count                                                                                 │\n",
+       "│                 ─────────────────────────────────────────                                                                                │\n",
+       "│                  4       1917   La Ragione         4                                                                                     │\n",
+       "│                  4       1917   La Rassegna        5                                                                                     │\n",
+       "│                  5       1917   La Ragione         7                                                                                     │\n",
+       "│                                                                                                                                          │\n",
+       "│                                                                                                                                          │\n",
+       "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n",
+       "
\n" + ], + "text/plain": [ + "╭──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮\n", + "│ │\n", + "│ \u001b[1m \u001b[0m\u001b[1mfield \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mvalue \u001b[0m\u001b[1m \u001b[0m │\n", + "│ ────────────────────────────────────────────────────────── │\n", + "│ \u001b[1m \u001b[0m\u001b[1mdist_table\u001b[0m\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mmonth\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3myear\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mpublication_name\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mcount\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m ───────────────────────────────────────── \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m4\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m4\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m4\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Rassegna\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m5\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m5\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1917\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mLa Ragione\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m7\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ \u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n", + "│ │\n", + "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" + ] + }, + "execution_count": 13, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "corpus_dist_results" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 3. Tokenize corpus" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, "outputs": [ { "name": "stdout", @@ -1146,7 +1514,7 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": 7, "metadata": {}, "outputs": [ { @@ -1187,7 +1555,7 @@ }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 8, "metadata": {}, "outputs": [], "source": [ @@ -1199,7 +1567,7 @@ }, { "cell_type": "code", - "execution_count": 10, + "execution_count": 9, "metadata": {}, "outputs": [], "source": [ @@ -1215,7 +1583,7 @@ }, { "cell_type": "code", - "execution_count": 11, + "execution_count": 10, "metadata": {}, "outputs": [], "source": [ @@ -1227,7 +1595,7 @@ }, { "cell_type": "code", - "execution_count": 12, + "execution_count": 11, "metadata": {}, "outputs": [ { @@ -1246,7 +1614,7 @@ }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 12, "metadata": {}, "outputs": [ { @@ -1305,7 +1673,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 13, + "execution_count": 12, "metadata": {}, "output_type": "execute_result" } @@ -1316,7 +1684,7 @@ }, { "cell_type": "code", - "execution_count": 14, + "execution_count": 13, "metadata": {}, "outputs": [ { @@ -1384,7 +1752,7 @@ }, { "cell_type": "code", - "execution_count": 15, + "execution_count": 14, "metadata": {}, "outputs": [], "source": [ @@ -1398,7 +1766,7 @@ }, { "cell_type": "code", - "execution_count": 16, + "execution_count": 15, "metadata": {}, "outputs": [], "source": [ @@ -1407,7 +1775,7 @@ }, { "cell_type": "code", - "execution_count": 17, + "execution_count": 16, "metadata": {}, "outputs": [ { @@ -1466,7 +1834,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 17, + "execution_count": 16, "metadata": {}, "output_type": "execute_result" } @@ -1479,19 +1847,19 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3. Remove stopwords" + "## 4. Remove stopwords" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "### 3.1. Create stopwords list" + "### 4.1. Create stopwords list" ] }, { "cell_type": "code", - "execution_count": 18, + "execution_count": 17, "metadata": {}, "outputs": [ { @@ -1550,7 +1918,7 @@ }, { "cell_type": "code", - "execution_count": 23, + "execution_count": 18, "metadata": {}, "outputs": [], "source": [ @@ -1562,7 +1930,7 @@ }, { "cell_type": "code", - "execution_count": 24, + "execution_count": 19, "metadata": {}, "outputs": [], "source": [ @@ -1571,7 +1939,7 @@ }, { "cell_type": "code", - "execution_count": 25, + "execution_count": 20, "metadata": {}, "outputs": [ { @@ -2530,7 +2898,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 25, + "execution_count": 20, "metadata": {}, "output_type": "execute_result" } @@ -2543,12 +2911,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 3.1. Remove stopwords" + "### 4.2. Remove stopwords" ] }, { "cell_type": "code", - "execution_count": 26, + "execution_count": 21, "metadata": {}, "outputs": [ { @@ -2593,7 +2961,7 @@ }, { "cell_type": "code", - "execution_count": 27, + "execution_count": 22, "metadata": {}, "outputs": [], "source": [ @@ -2605,7 +2973,7 @@ }, { "cell_type": "code", - "execution_count": 28, + "execution_count": 23, "metadata": {}, "outputs": [], "source": [ @@ -2614,7 +2982,7 @@ }, { "cell_type": "code", - "execution_count": 29, + "execution_count": 24, "metadata": {}, "outputs": [ { @@ -2673,7 +3041,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 29, + "execution_count": 24, "metadata": {}, "output_type": "execute_result" } @@ -2686,12 +3054,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "# 4. LDA" + "# 5. LDA" ] }, { "cell_type": "code", - "execution_count": 30, + "execution_count": 25, "metadata": {}, "outputs": [ { @@ -2766,7 +3134,7 @@ }, { "cell_type": "code", - "execution_count": 31, + "execution_count": 26, "metadata": {}, "outputs": [], "source": [ @@ -2780,7 +3148,7 @@ }, { "cell_type": "code", - "execution_count": 32, + "execution_count": 27, "metadata": {}, "outputs": [], "source": [ @@ -2789,7 +3157,7 @@ }, { "cell_type": "code", - "execution_count": 33, + "execution_count": 28, "metadata": {}, "outputs": [ { @@ -3036,7 +3404,7 @@ "╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯\n" ] }, - "execution_count": 33, + "execution_count": 28, "metadata": {}, "output_type": "execute_result" } @@ -3044,6 +3412,20 @@ "source": [ "lda_results" ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] } ], "metadata": {