#!/usr/bin/env python3

# This file is part of the LibreOffice project.
#
# This Source Code Form is subject to the terms of the Mozilla Public
# License, v. 2.0. If a copy of the MPL was not distributed with this
# file, You can obtain one at http://mozilla.org/MPL/2.0/.

# Use this script to retrieve information from https://crashreport.libreoffice.org
# about a specific version of LibreOffice
# Usage sample: ./crashreportScraper.py --version 7.2.0.4 --repository /path/to/libreoffice/repository/

import argparse
import requests
from bs4 import BeautifulSoup
import sys
import os
from datetime import datetime
import urllib.parse
import re

def convert_str_to_date(value):
    value = value.replace('.', '')
    value = value.replace('March', 'Mar')
    value = value.replace('April', 'Apr')
    value = value.replace('June', 'Jun')
    value = value.replace('July', 'Jul')
    value = value.replace('Sept', 'Sep')
    # reset the time leaving the date
    value = ", ".join(value.split(", ")[:-1])
    return datetime.strptime(value, '%b %d, %Y')

def parse_version_url(url):
    crashReports = {}

    try:
        html_text = requests.get(url, timeout=200).text
        soup = BeautifulSoup(html_text, 'html.parser')
    except requests.exceptions.Timeout:
        print("Timeout requesting " + url)
        sys.exit(1)

    table = soup.find("table", {"id": "data-table"}).tbody
    for tr in table.find_all("tr"):
        td_list = tr.find_all("td")
        crashName = td_list[0].a.text.strip()
        crashNumber = int(td_list[1].text.strip())
        firstCrashDate = convert_str_to_date(td_list[5].text.strip())
        lastCrashDate = convert_str_to_date(td_list[6].text.strip())
        crashReports[crashName] = [crashNumber, firstCrashDate, lastCrashDate]

    return crashReports

def parse_reports_and_get_most_recent_report_from_last_page(url):
    try:
        html_text = requests.get(url, timeout=200).text
        soup = BeautifulSoup(html_text, 'html.parser')
    except requests.exceptions.Timeout:
        print("Timeout")
        raise

    count = 0
    try:
        os_tab = soup.find("table", {"id": "os_tab"}).tbody
    except AttributeError:
        print("os_tab not found")
        raise

    tr_list = os_tab.find_all("tr")
    for tr in tr_list:
        td_list = tr.find_all("td")
        count += int(td_list[1].text.strip())

    reports = soup.find("div", {"id": "reports"}).tbody
    ID, currentID = "", ""
    version, currentVersion = 0, 0
    OS, currentOS = "", ""

    tr_list = reports.find_all("tr")
    for tr in tr_list:
        td_list = tr.find_all("td")

        currentID = td_list[0].a.text.strip()
        currentVersion = int(''.join(re.findall("\d+", td_list[2].text)))
        currentOS = td_list[3].text.strip()

        # get most recent version
        # symbols on linux are not very informative generally
        if currentOS == "windows" and currentVersion > version:
            version = currentVersion
            ID = currentID
            OS = currentOS

    if not ID:
        ID = currentID

    if not OS:
        OS = currentOS

    return count, ID, OS

def parse_details_and_get_info(url, gitRepo):
    try:
        html_text = requests.get(url, timeout=200).text
        soup = BeautifulSoup(html_text, 'html.parser')
    except requests.exceptions.Timeout:
        print("Timeout")
        raise

    details = soup.find("div", {"id": "details"}).tbody
    tr_list = details.find_all("tr")
    reason = tr_list[8].td.text.strip()

    stack = ""
    codeLine = ""

    count = 0
    frames = soup.find("div", {"id": "frames"}).tbody
    for tr in frames.find_all("tr"):
        td_list = tr.find_all("td")
        source = td_list[3].text.strip()
        if source and count <= 10:
            source = source.replace("\\", "/").replace("C:/cygwin64/home/buildslave/source/libo-core/", "")
            stack += source + "\n"
            count += 1

            codeFile = source.split(":")[0]
            codeNumber = source.split(":")[1]
            try:
                with open(os.path.join(gitRepo, codeFile)) as f:
                    lines = f.readlines()
                    for index, line in enumerate(lines):
                        if index + 1 == int(codeNumber):
                            codeLine += line.strip().replace("\"", "'") + "\n"
            except FileNotFoundError:
                codeLine += "\n"
                continue

    if stack:
        #multiline
        stack = "\"" + stack + "\""

    if codeLine:
        #multiline
        codeLine = "\"" + codeLine + "\""

    metadata = soup.find("div", {"id": "metadata"}).tbody
    tr_list = metadata.find_all("tr")
    unoCommands = ""
    for tr in tr_list:
        if tr.th.text.strip() == "Last-4-Uno-Commands":
            unoCommands = tr.td.text.strip()

    return reason, stack, codeLine, unoCommands


if __name__ == '__main__':

    parser = argparse.ArgumentParser()

    parser.add_argument('--version', action='store', dest="version", required=True)
    parser.add_argument('--repository', action="store", dest="repository", required=True)

    args = parser.parse_args()

    crashes = parse_version_url(
            "https://crashreport.libreoffice.org/stats/version/" + args.version + "?limit=1000&days=30")

    print(str(len(crashes)) + " crash reports in version " + args.version)

    crashesInFile = []
    fileName = "crashes_" + args.version.replace(".", "_") + ".csv"
    print("Using " + fileName)

    bInsertHeader = False
    if os.path.exists(fileName):
        with open(fileName, "r") as f:
            lines = f.readlines()
            for line in lines:
                crashesInFile.append(line.split("\t")[0])
    else:
        bInsertHeader = True

    with open(fileName, "a") as f:
        if bInsertHeader:
            line = '\t'.join(["Name", "Ratio", "Count", "First report", "Last Report",
                "ID", "Reason", "OS", "Stack", "Code Lines", "Last 4 UNO Commands", '\n'])
            f.write(line)
            f.flush()

        for k, lDate in crashes.items():
            if k not in crashesInFile:
                print("Parsing " + k)
                try:
                    crashCount, crashID, crashOS = parse_reports_and_get_most_recent_report_from_last_page(
                            "https://crashreport.libreoffice.org/stats/signature/" + urllib.parse.quote(k))
                    crashReason, crashStack, codeLine, unoCommands = parse_details_and_get_info(
                            "https://crashreport.libreoffice.org/stats/crash_details/" + crashID, args.repository)
                    ratio = round(crashCount / ((lDate[2] - lDate[1]).days + 1), 2)
                    line = '\t'.join([k, str(ratio), str(crashCount) , lDate[1].strftime('%y/%m/%d'), lDate[2].strftime('%y/%m/%d'),
                            crashID, crashReason, crashOS, crashStack, codeLine, unoCommands, '\n'])
                    f.write(line)
                    f.flush()
                except (requests.exceptions.Timeout, AttributeError):
                    continue
o/mimo-4-1-4-2'>distro/mimo/mimo-4-1-4-2</option>
<option value='distro/mimo/mimo-5-4-7-2'>distro/mimo/mimo-5-4-7-2</option>
<option value='distro/mimo/mimo-6-0'>distro/mimo/mimo-6-0</option>
<option value='distro/mimo/mimo-6-1'>distro/mimo/mimo-6-1</option>
<option value='distro/mimo/mimo-6-2'>distro/mimo/mimo-6-2</option>
<option value='distro/mimo/mimo-6-3'>distro/mimo/mimo-6-3</option>
<option value='distro/mimo/mimo-6-4'>distro/mimo/mimo-6-4</option>
<option value='distro/mimo/mimo-7-0'>distro/mimo/mimo-7-0</option>
<option value='distro/mimo/mimo-7-1'>distro/mimo/mimo-7-1</option>
<option value='distro/mimo/mimo-7-2'>distro/mimo/mimo-7-2</option>
<option value='distro/mimo/mimo-7-3'>distro/mimo/mimo-7-3</option>
<option value='distro/mimo/mimo-7-4'>distro/mimo/mimo-7-4</option>
<option value='distro/mimo/mimo-7-5'>distro/mimo/mimo-7-5</option>
<option value='distro/mimo/mimo-7-6'>distro/mimo/mimo-7-6</option>
<option value='distro/nisz/libreoffice-6-4'>distro/nisz/libreoffice-6-4</option>
<option value='distro/nisz/libreoffice-7-0'>distro/nisz/libreoffice-7-0</option>
<option value='distro/nisz/libreoffice-7-1'>distro/nisz/libreoffice-7-1</option>
<option value='distro/suse/suse-3.6'>distro/suse/suse-3.6</option>
<option value='distro/suse/suse-3.6-appup'>distro/suse/suse-3.6-appup</option>
<option value='distro/suse/suse-3.6.3'>distro/suse/suse-3.6.3</option>
<option value='distro/suse/suse-4.0'>distro/suse/suse-4.0</option>
<option value='distro/suse/suse-4.0.3'>distro/suse/suse-4.0.3</option>
<option value='distro/ubuntu/oneiric-3.4'>distro/ubuntu/oneiric-3.4</option>
<option value='distro/ubuntu/oneiric-3.4-all'>distro/ubuntu/oneiric-3.4-all</option>
<option value='distro/vector/vector-24.2'>distro/vector/vector-24.2</option>
<option value='distro/vector/vector-24.2-release'>distro/vector/vector-24.2-release</option>
<option value='distro/vector/vector-5.4'>distro/vector/vector-5.4</option>
<option value='distro/vector/vector-7.0'>distro/vector/vector-7.0</option>
<option value='distro/vector/vector-7.0-10.0'>distro/vector/vector-7.0-10.0</option>
<option value='distro/vector/vector-7.5'>distro/vector/vector-7.5</option>
<option value='distro/vector/vector-7.5.9'>distro/vector/vector-7.5.9</option>
<option value='distro/vector/vector-7.5.9-release'>distro/vector/vector-7.5.9-release</option>
<option value='distro/vector/vtext-6.5'>distro/vector/vtext-6.5</option>
<option value='feature/5-1-pick'>feature/5-1-pick</option>
<option value='feature/BorderlineFix'>feature/BorderlineFix</option>
<option value='feature/OperationSmiley'>feature/OperationSmiley</option>
<option value='feature/RotGrfFlyFrame'>feature/RotGrfFlyFrame</option>
<option value='feature/RotateFlyFrame'>feature/RotateFlyFrame</option>
<option value='feature/RotateFlyFrame2'>feature/RotateFlyFrame2</option>
<option value='feature/RotateFlyFrame3'>feature/RotateFlyFrame3</option>
<option value='feature/SOSAW080'>feature/SOSAW080</option>
<option value='feature/SfxShell_refcount'>feature/SfxShell_refcount</option>
<option value='feature/SwFrameBorder'>feature/SwFrameBorder</option>
<option value='feature/accessibilitycheck'>feature/accessibilitycheck</option>
<option value='feature/accfixes2'>feature/accfixes2</option>
<option value='feature/allo_contract34185'>feature/allo_contract34185</option>
<option value='feature/allo_contract45533'>feature/allo_contract45533</option>
<option value='feature/allo_contract45533b'>feature/allo_contract45533b</option>
<option value='feature/autostyle'>feature/autostyle</option>
<option value='feature/barcode'>feature/barcode</option>
<option value='feature/base-preview'>feature/base-preview</option>
<option value='feature/benchmarks'>feature/benchmarks</option>
<option value='feature/borderline3'>feature/borderline3</option>
<option value='feature/bplustree'>feature/bplustree</option>
<option value='feature/cairo'>feature/cairo</option>
<option value='feature/calc-coordinates'>feature/calc-coordinates</option>
<option value='feature/calc-data-table'>feature/calc-data-table</option>
<option value='feature/calc-parallel'>feature/calc-parallel</option>
<option value='feature/calctiledrendering'>feature/calctiledrendering</option>
<option value='feature/calctiledrendering2'>feature/calctiledrendering2</option>
<option value='feature/calctiledrendering3'>feature/calctiledrendering3</option>
<option value='feature/calctiledrendering4'>feature/calctiledrendering4</option>
<option value='feature/calctiledrendering5'>feature/calctiledrendering5</option>
<option value='feature/calctiledrendering_alt'>feature/calctiledrendering_alt</option>
<option value='feature/calctiledrendering_attempt3'>feature/calctiledrendering_attempt3</option>
<option value='feature/calctiledrendering_attempt3_2'>feature/calctiledrendering_attempt3_2</option>
<option value='feature/calczoom'>feature/calczoom</option>
<option value='feature/chained-text-boxes'>feature/chained-text-boxes</option>
<option value='feature/change-tracking'>feature/change-tracking</option>
<option value='feature/chart-style-experiment-markus'>feature/chart-style-experiment-markus</option>
<option value='feature/chartdatatable'>feature/chartdatatable</option>
<option value='feature/cib_contract101'>feature/cib_contract101</option>
<option value='feature/cib_contract116'>feature/cib_contract116</option>
<option value='feature/cib_contract136'>feature/cib_contract136</option>
<option value='feature/cib_contract138'>feature/cib_contract138</option>
<option value='feature/cib_contract138b'>feature/cib_contract138b</option>
<option value='feature/cib_contract138c'>feature/cib_contract138c</option>
<option value='feature/cib_contract138d'>feature/cib_contract138d</option>
<option value='feature/cib_contract138e'>feature/cib_contract138e</option>
<option value='feature/cib_contract139'>feature/cib_contract139</option>
<option value='feature/cib_contract152'>feature/cib_contract152</option>
<option value='feature/cib_contract152b'>feature/cib_contract152b</option>
<option value='feature/cib_contract3197'>feature/cib_contract3197</option>
<option value='feature/cib_contract3753'>feature/cib_contract3753</option>
<option value='feature/cib_contract3756'>feature/cib_contract3756</option>
<option value='feature/cib_contract3756b'>feature/cib_contract3756b</option>
<option value='feature/cib_contract4236'>feature/cib_contract4236</option>
<option value='feature/cib_contract4236b'>feature/cib_contract4236b</option>
<option value='feature/cib_contract49'>feature/cib_contract49</option>
<option value='feature/cib_contract49b'>feature/cib_contract49b</option>
<option value='feature/cib_contract49c'>feature/cib_contract49c</option>
<option value='feature/cib_contract49d'>feature/cib_contract49d</option>
<option value='feature/cib_contract561'>feature/cib_contract561</option>
<option value='feature/cib_contract57'>feature/cib_contract57</option>
<option value='feature/cib_contract57b'>feature/cib_contract57b</option>
<option value='feature/cib_contract57c'>feature/cib_contract57c</option>
<option value='feature/cib_contract57d'>feature/cib_contract57d</option>
<option value='feature/cib_contract57d+hotfix'>feature/cib_contract57d+hotfix</option>
<option value='feature/cib_contract57d_p1'>feature/cib_contract57d_p1</option>
<option value='feature/cib_contract57e'>feature/cib_contract57e</option>
<option value='feature/cib_contract57l'>feature/cib_contract57l</option>
<option value='feature/cib_contract6721b'>feature/cib_contract6721b</option>
<option value='feature/cib_contract6721c'>feature/cib_contract6721c</option>
<option value='feature/cib_contract7409'>feature/cib_contract7409</option>
<option value='feature/cib_contract8161'>feature/cib_contract8161</option>
<option value='feature/cib_contract891'>feature/cib_contract891</option>
<option value='feature/cib_contract891b'>feature/cib_contract891b</option>
<option value='feature/cib_contract891c'>feature/cib_contract891c</option>
<option value='feature/cib_contract935'>feature/cib_contract935</option>
<option value='feature/cib_contract935b'>feature/cib_contract935b</option>
<option value='feature/clipboard'>feature/clipboard</option>
<option value='feature/cmis'>feature/cmis</option>
<option value='feature/components'>feature/components</option>
<option value='feature/controlstate'>feature/controlstate</option>
<option value='feature/coretext'>feature/coretext</option>
<option value='feature/coverrest-featuretests'>feature/coverrest-featuretests</option>
<option value='feature/cp-5.0-cairo-svp'>feature/cp-5.0-cairo-svp</option>
<option value='feature/cpu_intrinsics_support'>feature/cpu_intrinsics_support</option>
<option value='feature/custom-widgets'>feature/custom-widgets</option>
<option value='feature/dataprovider'>feature/dataprovider</option>
<option value='feature/debugevent'>feature/debugevent</option>
<option value='feature/dematurize01'>feature/dematurize01</option>
<option value='feature/dialog-screenshots'>feature/dialog-screenshots</option>
<option value='feature/docking_windows'>feature/docking_windows</option>
<option value='feature/docx-commentsex'>feature/docx-commentsex</option>
<option value='feature/drawinglayercore'>feature/drawinglayercore</option>
<option value='feature/drawinglayercore2'>feature/drawinglayercore2</option>
<option value='feature/droid_calcimpress3'>feature/droid_calcimpress3</option>
<option value='feature/droid_calimpress4'>feature/droid_calimpress4</option>
<option value='feature/drop-findcmap'>feature/drop-findcmap</option>
<option value='feature/editviewoverlay'>feature/editviewoverlay</option>
<option value='feature/eszka'>feature/eszka</option>
<option value='feature/extended-tooltips'>feature/extended-tooltips</option>
<option value='feature/external-data-ui'>feature/external-data-ui</option>
<option value='feature/fastparser'>feature/fastparser</option>
<option value='feature/firebird-sdbc'>feature/firebird-sdbc</option>
<option value='feature/firebird-sdbc2'>feature/firebird-sdbc2</option>
<option value='feature/firebird-sdbc3'>feature/firebird-sdbc3</option>
<option value='feature/fixstyles3'>feature/fixstyles3</option>
<option value='feature/fontsubtitutions'>feature/fontsubtitutions</option>
<option value='feature/foo'>feature/foo</option>
<option value='feature/gbuild_cli'>feature/gbuild_cli</option>
<option value='feature/gccwrapper'>feature/gccwrapper</option>
<option value='feature/glyphy'>feature/glyphy</option>
<option value='feature/go2'>feature/go2</option>
<option value='feature/gpg4libre'>feature/gpg4libre</option>
<option value='feature/gpg4libre-5-4'>feature/gpg4libre-5-4</option>
<option value='feature/gpg4libre-6-0'>feature/gpg4libre-6-0</option>
<option value='feature/gpg4libre2'>feature/gpg4libre2</option>
<option value='feature/graphicobject'>feature/graphicobject</option>
<option value='feature/gsoc-basic-ide-completion-and-other-bits'>feature/gsoc-basic-ide-completion-and-other-bits</option>
<option value='feature/gsoc-calc-enhanced-db-range'>feature/gsoc-calc-enhanced-db-range</option>
<option value='feature/gsoc-svm-writer'>feature/gsoc-svm-writer</option>
<option value='feature/gsoc-uitest-2019'>feature/gsoc-uitest-2019</option>
<option value='feature/gsoc14-colors'>feature/gsoc14-colors</option>
<option value='feature/gsoc14-draw-chained-text-boxes'>feature/gsoc14-draw-chained-text-boxes</option>
<option value='feature/gsoc14-draw-text-background-color'>feature/gsoc14-draw-text-background-color</option>
<option value='feature/gsoc14-libcmis'>feature/gsoc14-libcmis</option>
<option value='feature/gsoc14-libcmis2'>feature/gsoc14-libcmis2</option>
<option value='feature/gsoc14-personas'>feature/gsoc14-personas</option>
<option value='feature/gsoc14-personas2'>feature/gsoc14-personas2</option>
<option value='feature/gsoc15-online-update'>feature/gsoc15-online-update</option>
<option value='feature/gsoc15-open-remote-files-dialog'>feature/gsoc15-open-remote-files-dialog</option>
<option value='feature/gsoc17-revamp-customize-dialog'>feature/gsoc17-revamp-customize-dialog</option>
<option value='feature/gsoc19-chart-style'>feature/gsoc19-chart-style</option>
<option value='feature/gsoc2011_wizards'>feature/gsoc2011_wizards</option>
<option value='feature/gsoc24-lua'>feature/gsoc24-lua</option>
<option value='feature/gtk3_kde5'>feature/gtk3_kde5</option>
<option value='feature/gtk3nativedialogs'>feature/gtk3nativedialogs</option>
<option value='feature/gtktiledviewer'>feature/gtktiledviewer</option>
<option value='feature/ia2'>feature/ia2</option>
<option value='feature/ia2.2'>feature/ia2.2</option>
<option value='feature/ia2.3'>feature/ia2.3</option>
<option value='feature/ia2.4'>