- Python 3.10
- Pip
- Git
Postavljanje projekta za prikupljanje podataka sa FOI stranice
git clone https://github.com/dsabljic/PAP-FOI-docs.git
cd PAP-FOI-docspython3 -m venv envsource env/bin/activatepip3 install notebookdeactivatesudo apt updatesudo apt install tesseract-ocrsudo apt-get install tesseract-ocr-hrvexport PATH=$PATH:/putanja/do/tesseractNakon toga može se pokrenuti Main.ipynb notebook kako bi se dokumenti preuzeli lokalno.
Priložena je i finalna csv datoteka data.csv te docs.db za brzi pristup podacima (bez scrapinga i ekstrakcije teksta).
Priprema za upotrebu (csv)
df = pd.read_csv('./data.csv')
df['datum'] = pd.to_datetime(df['datum'])Nakon toga može se odmah pokrenuti baza i nastaviti s radom.
Učitavanje podataka iz baze u DataFrame
df = pd.read_sql('dokument', 'sqlite:///docs.db')