import os
from datetime import datetime
from pathlib import Path

import pandas as pd
from dotenv import load_dotenv
from IPython.display import HTML, display
from slugify import slugify

import crate_maker

load_dotenv()

True

# Load the pre-harvested datasets

dfc = pd.read_json(
    "https://github.com/GLAM-Workbench/trove-web-archives-collections/raw/main/pandora-collections.ndjson",
    lines=True,
)
dfs = pd.read_json(
    "https://github.com/GLAM-Workbench/trove-web-archives-collections/raw/main/pandora-subjects.ndjson",
    lines=True,
)
dft = pd.read_csv(
    "https://github.com/GLAM-Workbench/trove-web-archives-titles/raw/main/pandora-titles.csv"
)

def get_title_ids_in_collection(coll_id, include_subcollections=True):
    """
    Get all the title ids in a collection.
    """
    title_ids = []
    coll = dfc.loc[dfc["id"] == coll_id].iloc[0]
    title_ids += coll["titles"]
    if include_subcollections:
        for scoll_id in coll["subcollections"]:
            scoll = dfc.loc[dfc["id"] == scoll_id].iloc[0]
            title_ids += scoll["titles"]
    return title_ids


def get_titles_by_subject(
    subject, include_subcategories=False, include_collections=False
):

    title_ids = []
    title_ids += subject["titles"]
    if include_subcategories:
        for subc_id in subject["subcategories"]:
            subc = dfs.loc[dfs["id"] == subc_id].iloc[0]
            title_ids += subc["titles"]
            if include_collections:
                for coll_id in subc["collections"]:
                    title_ids += get_title_ids_in_collection(coll_id)
    if include_collections:
        for coll_id in subject["collections"]:
            title_ids += get_title_ids_in_collection(coll_id)
    titles = dft.loc[dft["tep_id"].isin(title_ids)]
    return titles


def create_subject_dataset(
    id, include_subcategories=False, include_collections=False, include_crate=True
):
    start_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    subject = dfs.loc[dfs["id"] == id].iloc[0]

    df = get_titles_by_subject(
        subject,
        include_subcategories=include_subcategories,
        include_collections=include_collections,
    )

    end_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    subject_slug = slugify(f"pandora-{id}-{subject['name']}")
    output_path = Path("datasets", subject_slug)
    output_path.mkdir(exist_ok=True, parents=True)
    output_file = Path(output_path, f"pandora-{subject_slug}.csv")
    df.to_csv(output_file, index=False)
    if include_crate:
        crate_maker.create_rocrate(subject, output_file, start_date, end_date)
    display(
        HTML(
            f"Download dataset: <a href='datasets/{subject_slug}.zip', download>datasets/{subject_slug}.zip</a>"
        )
    )

create_subject_dataset(
    "/subject/3", include_subcategories=True, include_collections=True
)

def get_titles_by_collection(coll, include_subcollections=True):
    title_ids = get_title_ids_in_collection(
        coll["id"], include_subcollections=include_subcollections
    )
    titles = dft.loc[dft["tep_id"].isin(title_ids)]
    return titles


def create_collection_dataset(id, include_subcollections=False, include_crate=True):
    start_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    coll = dfc.loc[dfc["id"] == id].iloc[0]
    df = get_titles_by_collection(
        coll,
        include_subcollections=include_subcollections,
    )
    end_date = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    coll_slug = slugify(f"pandora-{id}-{coll['name']}")

    output_path = Path("datasets", coll_slug)
    output_path.mkdir(exist_ok=True, parents=True)
    output_file = Path(output_path, f"pandora-{coll_slug}.csv")
    df.to_csv(output_file, index=False)
    if include_crate:
        crate_maker.create_rocrate(coll, output_file, start_date, end_date)
    display(
        HTML(
            f"Download dataset: <a href='datasets/{coll_slug}.zip', download>datasets/{coll_slug}.zip</a>"
        )
    )

create_collection_dataset("/col/21326", include_subcollections=True)

# IGNORE CELL -- TESTING ONLY

if os.getenv("GW_STATUS") == "dev":
    create_subject_dataset(
        "/subject/3",
        include_subcategories=True,
        include_collections=True,
        include_crate=False,
    )
    create_collection_dataset(
        "/col/21326", include_subcollections=True, include_crate=False
    )

Create archived url datasets from Pandora's collections and subjects¶

Using this notebook¶

Datasets¶

What can you do with a collection of archived urls?¶

Get title urls from a Pandora subject group¶

Get title urls from a Pandora collection¶