From e25e6b6112770d56a40c27b82f2f04ce20fcc66b Mon Sep 17 00:00:00 2001
From: Abhishek Kumar Rai <rai.abhishek5140@gmail.com>
Date: Fri, 27 Mar 2026 14:31:19 +0530
Subject: [PATCH] feat: add Python PSI-MI TAB v2.7 parser for openPIP 2.0 (GSoC
 2025)

- mitab_parser.py: full PSI-MI TAB v2.7 parser mapping to openpip.sql schema
- csv_parser.py: new CSV format support normalizing to same ParsedInteraction model
- models.py: Python dataclasses mirroring protein, interaction, dataset, organism tables
- validator.py: per-row validation with errors and warnings before DB insertion
- tests/: 34 passing tests covering all parsers and validator
- Updated requirements.txt with pytest
---
 data-upload/csv_parser.py                     |  91 +++++
 data-upload/mitab_parser.py                   | 287 ++++++++++++++
 data-upload/models.py                         |  72 ++++
 data-upload/requirements.txt                  |   1 +
 .../test_parser.cpython-311-pytest-9.0.2.pyc  | Bin 0 -> 53715 bytes
 data-upload/tests/sample.mitab27.txt          |   4 +
 data-upload/tests/test_parser.py              | 350 ++++++++++++++++++
 data-upload/validator.py                      |  83 +++++
 8 files changed, 888 insertions(+)
 create mode 100644 data-upload/csv_parser.py
 create mode 100644 data-upload/mitab_parser.py
 create mode 100644 data-upload/models.py
 create mode 100644 data-upload/tests/__pycache__/test_parser.cpython-311-pytest-9.0.2.pyc
 create mode 100644 data-upload/tests/sample.mitab27.txt
 create mode 100644 data-upload/tests/test_parser.py
 create mode 100644 data-upload/validator.py

diff --git a/data-upload/csv_parser.py b/data-upload/csv_parser.py
new file mode 100644
index 00000000..1a108b32
--- /dev/null
+++ b/data-upload/csv_parser.py
@@ -0,0 +1,91 @@
+"""
+CSV Parser for openPIP 2.0
+Accepts a simplified flat CSV and normalizes it to the same
+ParsedInteraction model used by the PSI-MI TAB parser so that
+the same validation and DB insertion pipeline handles both formats.
+
+Minimum required CSV columns: protein_a, protein_b
+Optional columns: interaction_type, score, publication,
+                  author, dataset, year
+"""
+
+import csv
+import re
+from models import ParsedInteraction, Protein, Dataset, InteractionCategory
+
+
+REQUIRED_CSV_COLUMNS = {"protein_a", "protein_b"}
+
+
+def parse_csv(filepath: str) -> list:
+    """
+    Parse a CSV file and return a list of ParsedInteraction objects.
+    """
+    interactions = []
+
+    with open(filepath, 'r', encoding='utf-8') as f:
+        reader = csv.DictReader(f)
+        headers = set(reader.fieldnames or [])
+
+        missing = REQUIRED_CSV_COLUMNS - headers
+        if missing:
+            raise ValueError(
+                f"CSV is missing required columns: {missing}. "
+                f"At minimum 'protein_a' and 'protein_b' are required."
+            )
+
+        for row in reader:
+            protein_a_raw = row.get("protein_a", "").strip()
+            protein_b_raw = row.get("protein_b", "").strip()
+
+            if not protein_a_raw or not protein_b_raw:
+                continue
+
+            is_uniprot_a = _looks_like_uniprot(protein_a_raw)
+            is_uniprot_b = _looks_like_uniprot(protein_b_raw)
+
+            protein_a = Protein(
+                uniprot_id=protein_a_raw if is_uniprot_a else None,
+                gene_name=None if is_uniprot_a else protein_a_raw,
+            )
+            protein_b = Protein(
+                uniprot_id=protein_b_raw if is_uniprot_b else None,
+                gene_name=None if is_uniprot_b else protein_b_raw,
+            )
+
+            score_raw = row.get("score", "").strip()
+            score = score_raw if score_raw else None
+
+            interaction_type_raw = row.get("interaction_type", "").strip()
+            category = InteractionCategory(
+                category_name=interaction_type_raw
+            ) if interaction_type_raw else None
+
+            dataset = Dataset(
+                pubmed_id=row.get("publication", "").strip() or None,
+                author=row.get("author", "").strip() or None,
+                name=row.get("dataset", "").strip() or None,
+                year=row.get("year", "").strip() or None,
+            )
+
+            interactions.append(ParsedInteraction(
+                protein_a=protein_a,
+                protein_b=protein_b,
+                score=score,
+                category=category,
+                dataset=dataset,
+                raw=dict(row),
+            ))
+
+    return interactions
+
+
+def _looks_like_uniprot(s: str) -> bool:
+    """
+    Rough check for UniProt accession format.
+    Examples: P12345, Q67890, A0A000
+    """
+    return bool(re.match(
+        r'^[OPQ][0-9][A-Z0-9]{3}[0-9]$|^[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}$',
+        s
+    ))
\ No newline at end of file
diff --git a/data-upload/mitab_parser.py b/data-upload/mitab_parser.py
new file mode 100644
index 00000000..d1ba44c9
--- /dev/null
+++ b/data-upload/mitab_parser.py
@@ -0,0 +1,287 @@
+"""
+PSI-MI TAB v2.7 Parser for openPIP 2.0
+Replaces the PHP upload parsing logic with a clean Python implementation.
+Spec: https://psicquic.github.io/MITAB27Format.html
+
+Output maps directly to openpip.sql schema via models.py
+"""
+
+import csv
+import re
+import io
+from dataclasses import dataclass
+from typing import Optional
+from models import ParsedInteraction, Protein, Organism, Dataset, InteractionCategory
+
+
+MITAB27_COLUMNS = [
+    "unique_id_a", "unique_id_b",
+    "alt_id_a", "alt_id_b",
+    "alias_a", "alias_b",
+    "interaction_detection_method",
+    "author",
+    "publication_id",
+    "taxid_a", "taxid_b",
+    "interaction_type",
+    "source_database",
+    "interaction_id",
+    "confidence_score",
+    "complex_expansion",
+    "bio_role_a", "bio_role_b",
+    "exp_role_a", "exp_role_b",
+    "interactor_type_a", "interactor_type_b",
+    "xref_a", "xref_b", "xref_interaction",
+    "annotation_a", "annotation_b", "annotation_interaction",
+    "host_organism_taxid",
+    "parameters",
+    "creation_date",
+    "update_date",
+    "checksum_a", "checksum_b", "checksum_interaction",
+    "negative",
+    "features_a", "features_b",
+    "stoichiometry_a", "stoichiometry_b",
+    "participant_identification_a", "participant_identification_b",
+]
+
+MITAB27_COLUMN_COUNT = 42
+
+
+@dataclass
+class MITABField:
+    """Represents a parsed db:value(description) field."""
+    db: str
+    value: str
+    description: Optional[str] = None
+
+
+class MITABParseError(Exception):
+    pass
+
+
+# ─────────────────────────────────────────────────────────────
+# Field-level parsing
+# ─────────────────────────────────────────────────────────────
+
+def parse_field(raw: str) -> list:
+    """
+    Parse one PSI-MI TAB cell into a list of MITABField objects.
+    Handles: db:value(description) | db:value | - (empty)
+    """
+    if raw.strip() in ("-", ""):
+        return []
+
+    results = []
+    entries = _split_pipe(raw)
+
+    for entry in entries:
+        entry = entry.strip()
+        if not entry or entry == "-":
+            continue
+        # Remove surrounding quotes from value if present
+        match = re.match(
+            r'^([^:(]+):"?([^"(|]+?)"?(?:\((.+)\))?$',
+            entry
+        )
+        if match:
+            db, value, desc = match.groups()
+            results.append(MITABField(
+                db=db.strip(),
+                value=value.strip(),
+                description=desc.strip() if desc else None
+            ))
+        else:
+            results.append(MITABField(db="unknown", value=entry))
+    return results
+
+
+def _split_pipe(s: str) -> list:
+    """Split by | while respecting quoted strings."""
+    parts = []
+    current = []
+    in_quotes = False
+    for char in s:
+        if char == '"':
+            in_quotes = not in_quotes
+            current.append(char)
+        elif char == '|' and not in_quotes:
+            parts.append(''.join(current))
+            current = []
+        else:
+            current.append(char)
+    if current:
+        parts.append(''.join(current))
+    return parts
+
+
+# ─────────────────────────────────────────────────────────────
+# Extraction helpers — map MITABFields to openpip.sql columns
+# ─────────────────────────────────────────────────────────────
+
+def _extract_id(fields: list, db_names: tuple) -> Optional[str]:
+    """Extract value from MITABFields matching any of the given db names."""
+    for f in fields:
+        if f.db.lower() in db_names:
+            return f.value
+    return None
+
+
+def _extract_description(fields: list) -> Optional[str]:
+    """
+    Extract gene name from alias fields.
+    In PSI-MI TAB alias fields, the VALUE is the gene name
+    and the description tells us the type e.g. (gene name).
+    We return the value only when description confirms it is a gene name.
+    """
+    for f in fields:
+        if f.description and "gene name" in f.description.lower():
+            return f.value
+    # fallback — return first value if no gene name type found
+    for f in fields:
+        if f.value:
+            return f.value
+    return None
+
+
+def _extract_taxid(fields: list) -> Optional[str]:
+    """Extract numeric taxid from taxid:9606(human) format."""
+    for f in fields:
+        if f.db.lower() == "taxid":
+            return f.value
+    return None
+
+
+def _extract_common_name(fields: list) -> Optional[str]:
+    """Extract organism common name from taxid field description."""
+    for f in fields:
+        if f.db.lower() == "taxid" and f.description:
+            return f.description
+    return None
+
+
+# ─────────────────────────────────────────────────────────────
+# Core builder — maps one parsed row to openpip.sql schema
+# ─────────────────────────────────────────────────────────────
+
+def _build_interaction(row: list, raw: dict) -> ParsedInteraction:
+    """
+    Build a ParsedInteraction from a raw tab-separated row.
+    Maps PSI-MI TAB 2.7 columns directly to openpip.sql schema fields.
+    """
+    uid_a    = parse_field(row[0])
+    uid_b    = parse_field(row[1])
+    alt_a    = parse_field(row[2])
+    alt_b    = parse_field(row[3])
+    alias_a  = parse_field(row[4])
+    alias_b  = parse_field(row[5])
+    author   = parse_field(row[7])
+    pub_id   = parse_field(row[8])
+    taxid_a  = parse_field(row[9])
+    taxid_b  = parse_field(row[10])
+    int_type = parse_field(row[11])
+    conf     = parse_field(row[14])
+
+    # protein table
+    protein_a = Protein(
+        uniprot_id=_extract_id(uid_a + alt_a, ("uniprotkb", "uniprot")),
+        ensembl_id=_extract_id(uid_a + alt_a, ("ensembl",)),
+        entrez_id=_extract_id(uid_a + alt_a, ("entrez", "entrezgene")),
+        gene_name=_extract_description(alias_a),
+    )
+    protein_b = Protein(
+        uniprot_id=_extract_id(uid_b + alt_b, ("uniprotkb", "uniprot")),
+        ensembl_id=_extract_id(uid_b + alt_b, ("ensembl",)),
+        entrez_id=_extract_id(uid_b + alt_b, ("entrez", "entrezgene")),
+        gene_name=_extract_description(alias_b),
+    )
+
+    # organism table
+    organism_a = Organism(
+        taxid_id=_extract_taxid(taxid_a),
+        common_name=_extract_common_name(taxid_a),
+    )
+    organism_b = Organism(
+        taxid_id=_extract_taxid(taxid_b),
+        common_name=_extract_common_name(taxid_b),
+    )
+
+    # interaction_category table
+    category = None
+    if int_type:
+        category = InteractionCategory(
+            category_name=int_type[0].description or int_type[0].value
+        )
+
+    # dataset table
+    pubmed    = _extract_id(pub_id, ("pubmed",))
+    author_str = author[0].value if author else None
+    dataset = Dataset(
+        pubmed_id=pubmed,
+        author=author_str,
+    ) if (pubmed or author_str) else None
+
+    # interaction.score — varchar(10) in DB, keep as string
+    score = None
+    if conf:
+        try:
+            score = str(round(float(conf[0].value), 6))[:10]
+        except ValueError:
+            score = None
+
+    return ParsedInteraction(
+        protein_a=protein_a,
+        protein_b=protein_b,
+        organism_a=organism_a,
+        organism_b=organism_b,
+        score=score,
+        category=category,
+        dataset=dataset,
+        raw=raw,
+    )
+
+
+# ─────────────────────────────────────────────────────────────
+# Public API
+# ─────────────────────────────────────────────────────────────
+
+def parse_mitab27(filepath: str) -> list:
+    """
+    Parse a PSI-MI TAB 2.7 file.
+    Returns a list of ParsedInteraction objects.
+    """
+    interactions = []
+    with open(filepath, 'r', encoding='utf-8') as f:
+        reader = csv.reader(f, delimiter='\t')
+        for line_num, row in enumerate(reader, start=1):
+            if not row or row[0].startswith('#'):
+                continue
+            if len(row) < 15:
+                raise MITABParseError(
+                    f"Line {line_num}: Expected at least 15 columns, "
+                    f"got {len(row)}."
+                )
+            while len(row) < MITAB27_COLUMN_COUNT:
+                row.append('-')
+            raw = dict(zip(MITAB27_COLUMNS, row))
+            interactions.append(_build_interaction(row, raw))
+    return interactions
+
+
+def parse_mitab27_from_string(content: str) -> list:
+    """
+    Parse PSI-MI TAB 2.7 from a raw string.
+    Useful for API upload endpoints that receive file content directly.
+    """
+    interactions = []
+    reader = csv.reader(io.StringIO(content), delimiter='\t')
+    for line_num, row in enumerate(reader, start=1):
+        if not row or row[0].startswith('#'):
+            continue
+        if len(row) < 15:
+            raise MITABParseError(
+                f"Line {line_num}: Too few columns ({len(row)})"
+            )
+        while len(row) < MITAB27_COLUMN_COUNT:
+            row.append('-')
+        raw = dict(zip(MITAB27_COLUMNS, row))
+        interactions.append(_build_interaction(row, raw))
+    return interactions
\ No newline at end of file
diff --git a/data-upload/models.py b/data-upload/models.py
new file mode 100644
index 00000000..0839cdaf
--- /dev/null
+++ b/data-upload/models.py
@@ -0,0 +1,72 @@
+"""
+Data models for openPIP 2.0 — Python dataclasses that directly mirror
+the openpip.sql database schema. These are the target output objects
+of the PSI-MI TAB and CSV parsers in this directory.
+
+Table mappings:
+    Protein             -> protein table
+    Organism            -> organism table
+    Dataset             -> dataset table
+    InteractionCategory -> interaction_category table
+    ParsedInteraction   -> interaction table + interaction_dataset +
+                           interaction_interaction_category +
+                           interaction_support_information
+"""
+
+from dataclasses import dataclass, field
+from typing import Optional
+
+
+@dataclass
+class Protein:
+    """Maps to the `protein` table in openpip.sql"""
+    gene_name: Optional[str] = None
+    protein_name: Optional[str] = None
+    uniprot_id: Optional[str] = None
+    ensembl_id: Optional[str] = None
+    entrez_id: Optional[str] = None
+    sequence: Optional[str] = None
+    description: Optional[str] = None
+
+
+@dataclass
+class Organism:
+    """Maps to the `organism` table in openpip.sql"""
+    taxid_id: Optional[str] = None
+    common_name: Optional[str] = None
+    scientific_name: Optional[str] = None
+
+
+@dataclass
+class Dataset:
+    """Maps to the `dataset` table in openpip.sql"""
+    name: Optional[str] = None
+    pubmed_id: Optional[str] = None
+    author: Optional[str] = None
+    year: Optional[str] = None
+    interaction_status: Optional[str] = None
+    description: Optional[str] = None
+
+
+@dataclass
+class InteractionCategory:
+    """Maps to the `interaction_category` table in openpip.sql"""
+    category_name: Optional[str] = None
+
+
+@dataclass
+class ParsedInteraction:
+    """
+    Maps to the `interaction` table plus related junction tables:
+    interaction_dataset, interaction_interaction_category,
+    interaction_support_information
+    """
+    protein_a: Protein = field(default_factory=Protein)
+    protein_b: Protein = field(default_factory=Protein)
+    organism_a: Organism = field(default_factory=Organism)
+    organism_b: Organism = field(default_factory=Organism)
+    score: Optional[str] = None
+    category: Optional[InteractionCategory] = None
+    dataset: Optional[Dataset] = None
+    support_info: dict = field(default_factory=dict)
+    raw: dict = field(default_factory=dict)
\ No newline at end of file
diff --git a/data-upload/requirements.txt b/data-upload/requirements.txt
index 7cb6656b..9deb423b 100644
--- a/data-upload/requirements.txt
+++ b/data-upload/requirements.txt
@@ -1 +1,2 @@
 selenium
+pytest
\ No newline at end of file
diff --git a/data-upload/tests/__pycache__/test_parser.cpython-311-pytest-9.0.2.pyc b/data-upload/tests/__pycache__/test_parser.cpython-311-pytest-9.0.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..72d767964fbcedec5543c0d267231677419f8a20
GIT binary patch
literal 53715
zcmeHwdvIIVnIAx0fFQt!M9F$f21PwciK0kJltft%OR*h0wq)6IvKv(i0`fu<WDub5
z1@%C{M6;WnGCTHENu8Rzm3O)6Zelf=R-4^4nVp?J_K!|y+CKm-*sz$o<7V4!vOC=>
z>rFS~{?p%gzI)F-_X3xK<VWI|An@^=?|kQR&%NiI?|hGQzuD0d3*htQv45ZW?cqS+
zFDPPvL<%Bre^v_wUJK{}J(vxg4T}FQ6QS{zU|>Q!8xC?x<ZMKww4QBEM=nL}Lgw1+
zkosQ_q+1mlyC#*yO%Zn`SrJzm?F}h9z7Y%rzJ(uu^p<b5AdVk@+^Oy~ab2No=S0`p
zu8C!5mx;KRT|Uu$wp)b5*%cEj&#n~VNcN$LRcBXCtUkMXV$In#6Kl_|4Zc5D(CTjG
z*>!sKOM$cN^)|o_dJJ%*9tYf{w*x+`cK{~zPQV_$3vjc(46s*U4!A|{2HdKz0Nkdp
z1l+Da1lXsq0_@jU1Mbk*0PfV+0uJcw0C(x@0SEOBfV=gLfJ6Ewz+wGiz&&~baIfA2
zxKG~<IHLCg?$@^f9?-V}9@Mu1j_TV159xh?kLdk?hto&&9WRQzWBgr9Aie$@xJ}=(
zZ&n}}0B%DA+{OmDO$~4lH^3zt;CdS1HaEcaHo$FZfZN&tx2*wgdjniw16+Rt+>Qpg
zoegjU4RE^};07Dub~nHcHNYL!ce+QGxN}GK0WVe$p24hgCeXj@$8?uZ6<Y=e`&()q
zlPSYYCnqw6)YzT_wKzx5XVO`{KUizy=(u?qk&er$Y(`HN(#i9gY`R~oEk8|p^`~-$
zw2>MwWb(OM>uDojNM~}j=(EO!R4!vq)LI`)6;fupQ0z8S6O-BWpjFpk;c8)AK5z)M
z;upg2?Uo2lf(1F11kiBz<xB?(L}`6W0Z(dBZ<%f>1xqdbfKP`?A@gqwVVgb>xFmDy
zNIM_YHKIP>@(oPC-@=bSdbprWsh4Da_ieZwFxR@uM(g=gkdt4)(?Y|YgRWeB{Bz`j
zdRUJ%*`Ae++vDvg!%Zh!;iW^}5m$*0rRTo*P_?-4kKTGyE25XCH9e}gm9$Jy#KMK;
zc0U9Hu9D<kD23f6xnsW;)MHnJ(?R?~xc>n?zE&1E9VtaF$;EFvsJGWWAzyUW>3u>v
z8a*Md98Rx9-0kwAda%Chycv2Q`!2F*|4G&W{nvG${kLqX|1L?!3H=x2{+kMj*~#zO
zTP|j&?vGmE=`k!+D~fB*6jC`oW#|cg>=0I;sdVCe-k3-gip!>QnMo`)FOD5LJ-lb{
zzL6i(YH=(0PRo%aw}Qo?t$mZ%_V$~x&s%}SkpzW?`prK2KiqHj$EFiU7`wmUtc9}a
zTrFax&8ckRmR1XamcTH9y#)5Z)0r~Ov{4WR9i%Li*AAXCXpXP7$>yN)9X^$#(m{R9
zRqd^iu@d=>hX|~qk|KOLC}!6p#fZLemlUkEWX%3xaqlA8^t3r{WF~2)M&^tuE(KSA
ztHYp0&sat+h&?)at&lbg$&^uBo*YkQvq>X8X^iJ5zzn2o?MP0JO=Yr$OwO!DvUyOL
zwKYleVty*C3)19;Y<?`2P3BS)=~`RTOr1|t3AN7Sq61O;<A#wpYAcd_H<RhBli5@*
zB{+x{eXJH1*H?=x?Y-4%(CSc&Q}ui!_Nb8&HL{N*TsoK<%EOUSm2AkQDLcWRcb@s!
zp>v<a4K~jisZ2I??%7=WF(Y$1eeSXR_|!x?S1`|g{9JxAojd*1>2qL%QoE)mv-y;M
zjylT}Fe%t2V{r0XZI$RkW}gH%l^jc%nQ>zuYFv$<IfVu0df<O{tSPVES?L(4b_`s9
z;>~#H%;hgX^712PZT)Nyz|14FJ$K^k5#sN>w!UhI8AB8ZRqO<&kWnNt=9Rq?SBFr`
zmQ*t5%w>t=oC?ArdW4CXVzx(S0R_TbgM^F$Et4}1E=<iOi8-(kUw)(K<<YXXZD#c4
z!}vFgPTDqec=nMy@ofn4cV638wZn`d3WO>mfs<!OU9rPzY!=ty6oIfTngfhMIkG0E
zS95u?aMacQW5CT`1eiHCd+{Fa2L%YZ{D$p6rl!qaR9k{D*DfJr-c9@aW=5;=L|N;b
zdkml)PvC#NkAmVmuk}^!u!R&PT3<z^a5~)rqO+*u2{k(R7{@p}!m@A`gRHVHrdM-$
zvZ&FwG5P}I1ndvZ0>tjU9a-9Vpc~xG>(a)99+RbwhrYD&pa%h;(uZ&3rfxiz-{;2d
zqq_OnVDCBl6gITq-hgbB9KW>z={xcK$BqvtpZw&><EQ!!>TsijKo<dGtOfsSbW?~J
zKw}L6ZyyX2QyA+AtS7L6z(#;tTqzV=g64U9XJ=z1sI&n9mD@G;Qt>@?OzM?P;bKy`
zUSkw=3CgVSs|PC`qt%YlC4O~@Usaf8<}rz*{e|LJhb?|}c<y9b8zz4B<em611;uw>
z8?M@63rQphRzwP?6TeDy7B%s!PIT@h$2dE}RylTnF~}<GVtO@~CyN?2Mlk#u^Q$=s
zJ?<qazYv%Xmat}7qVSedi}{)=JijD`)H>223J(!=ohV!@Nbx4b=TbyoCkkKbDqD)o
zy&`3Zo{8hOK9{7(+)D@UQ}dzptipQuW{VJvhV+QuS_)-YsH_!e0=7P`lBC|Wq`5g>
zcML-1D1@Rd5ZOf`lxizJyepBINT+gUB9~9FP%4v4oIdl^u9HtCUO0ZD7ThIfe$3b1
zB#VK}$rdz0A|+OVTP?;4G)ahkTw<jW7AuXMy4A)KnI0nBOrV#*76MxdY$LFpKp()Z
zFt0AV5LP7|!>a7VB^B9k(!CL)4_*t_*R2KViOIsXq@FS_8jpjvA3yUy0|=?b?21aq
z#%jmL>rX5^w7RUVp4orn`QOC8oWl6dYpbhvm@!0vP{mGQ3K^AoX7)=QlPCyDbmMtR
z#AO1iU!*dvYzNb;xm0?Dmxfv60r~S9W{Jn?@k^KmBa^$3fQ&Kk8Fe*_!8(jblArz~
z6go=a7{DpxQ3@Uh@ILDseV%o$%y<%6c2l-006*>BUrxT9{3tx@PhgtA*OH=6quvP{
z)8vxw6^{*n{1>(*-K$GG@2CG_?fjDNHF9Z5_o^6|)v;)#_jl{AmoK9G@4inF$Vc({
z^Y)+m{H?gp{`<)3{)PT}WwGZZw8<IRJn=rkOqgkC1Ytp?C&sQNCNq=i;#RL5sg%x{
z>4~xIp~p|1IX%Rm;UCi`?cK|hgjlN9YSmC{SF7l6cXYr;liLo1_5{Wb0*wVsi8@AW
z!s?Nv*g2WTNo1xCt~rc7rKJyjw9;|B+HrhIzO*D?`o)(oZDD=%mRabgw?NxGdMCaG
zA^y&5TdH=LF+_n-MI>-C373e>ia{Uk#AdBD&WsceNXQuElr?c~hLWs4AobA$Xg~DP
z1G6~*NbhoY;sXfrcU~K)+F`~J1ws{(z{%8pBC}%9M?10E9LG2_!W@v0F~})vVtO@~
zB(4uEvT0v3BE_t_q|2pF5T8p+Mx>Ay^XG%p<-$xf;xWW+Eww6}nU+$d)N+|*)Irm4
z6A1PZa_Qwn>6J_SnASFDfZOWcM);KFHD2!iKn!qO!D81NFspjp`(?scek6@ZA1Xd+
ziROhBo|(v>FQjvci>b@$#7k4~RnTqTJezqjotQK;yCyP+HlKXz(9qEE!OeYzEBVC5
zYhy-6?=NmxEcO0WzQqWa<!F72tyZ14$dWS$OHN?`3Zu~k)C;6YfT1Savm#*Gv+jdQ
zsbvdlnUa!K>ONsgT8ueuHx6Rp3r%o;)X@|egM=kXr!hnTUTFbi4}hvd*lUuagl!}f
z3Dy;Cs$=VMHSi%xa*rA>AP0$HRi*KPO2@%!$H670z8R*zmzm1m*@I=R7cAq!JMmtG
z_&cxlR_!ojhytOCNZ@2*%81O0fvI$2vj;iGnGxoIgp5H>SrgN%xg@a~SctDIYujfd
zvoGCjqd?ouF8rGro$V^ew<E;gd2M^u4l_njXxl3yfs?8IM8>h%Hdm~RW1JabS+t5l
zPFWMvtGPT`I4YUqAxmjIH1|wd8zQCgGk4-c6cpciZK!I8EhLd3SP?0lPM1J*7Bwl2
zo#@;%9OLW=TjkgR#vrS#i|N%|o-Ar~5ytp5WC?BwzrWWJ{H&x37luzBb`r9FC`M^n
zars#_R1`zGOnz3OMvD+syi&RZ<+4-;*D06Rx|Gneo&rP%_Q$=X!_P`mp=7D@_0K^H
zXZU?J*PfNG(q&EFeuAuDrm3y)(vhj952Z&7=R@UXRU*>Qs#T9FepaM>wmz<sq<_>s
z%^lkuKOwyhYVla{ku$=(FG0S6SYFM<-UJ!RCye|RGtoDkxR_4qX=69s2*{Q`k<H}N
ziOhvu-bm~HKPJ_qN4!;Q&p3XCrq^z&KW<Q-TKk#fCr>}~c=F^^(7dymRg<!-{)q7_
zR4b{>8!dz;J%+sO@uIiZwdiHjNnBZSJU^8y7@r2|Gx(V!V6h>@T9NpJ4V4vx)fI!+
zpCOz6QYF5j8sAXXdgg)v<@koV;GH<^_O0){)>E~^7LrI1tk@|`BBMxR4B7Qtnd=Z-
zlwVG?%AHd|$l}pdrs7iOf-(;`j;oLmshpL`nFg1p=90u}V3GNXMs)M@6`1CrBKgO*
z!ZC2cT-D-ueolv=snklLl4i|b;ZoTAYGV&e%v)j1UV^%A3nDj`>fBXlB-)tDGh$t}
z%XzRAa?ff$R30-H7{subWkeXnL@a}tR+mAH+A29amOL9HckPxz40&0$;1|L#OrD&=
zIA)Zbvf%%lObuFs?PNwzjOPs_JzmIOOQf$B$W<6z_jw~fkpRt0Q)!UE*+_`Eh3O;N
zO~QKSIbwQY5yMO`0v6NTz^{v3t7OfwX{Bz*NeV7ow=~7wiWpR3g!xXF;@C9|bDf$7
z$FHGN{cU27F@6<<@PxK6tQK>wOc9iCqvEy`=mWSF<=KU}X`W(;%~ttp%Ponk-Y<A>
z_N`(^rQzWQe7D<P6H}0ERMKjbkw!Jo<M;O819+yQh4|{(APM^(nK@P^Ddi*O_?BvX
zHv+f8KO(mKHaJcA%UIue?UAY-wva@EU`3>G`V1s~L}yXQA>34>yVdAzu%1qt2+O)S
zz!;Pyt7dvNmnTbobZIidy@w06I=Da7lgXGepqrUY#@H(}^4$Id2S<l&YrF@XPvEhs
zRPUNkjC1H_<1++43*a+jj2WLJ3WqOoPZdTAsrNJ3$K+st5jkmgGR_n5w-a4jLO(=H
z=w?ejOADuGxlCmX%34Vrr+Bs@D|*0ZJB4T4sjlf~+eo77TFlA$-aXu@q*bbsLmf1#
z7G24XTPxXddnG%5`)FB1Z1?S>cjCt>D8BRB@v0rRkVJxDMWk>#tz<-JQPWDMMzNAP
z(c4Ek#-$-_6>A3=gOX&`Ot0qhWT}rXjcGgpzXU7Uy~nh*WT_?@d*0>XriIHHqRkKP
zOXzW9g1~#YWZ9$IK)E`VohPugWT6*6{EXV33+Y^19QRPaVr5chGL=wV${-=a;ZnTa
zJ3tQsZTGN*oqq7`o~*w4hg_^+Z8GD1Kk9CG32en=QP|2(;fiP!nTu`0j#*3BF|l+F
zmbGKIcL9{+gSU6xiDQ>$edo1fRXc1Ui3GulNa1u^x`@uArlm`b4yw`HyEw+BAuQ`s
zF(^q^&Gc$6PnP=V(%8lW@DUi>V?JZM7JK3J$X@n`eV0R=7BV@!njhj~9V_4-yqAM}
z%(#jYC-GZ!a38e>_fdOrAH5CJC&UJC58R1^@3g-2+R>^Vwva@EU`3>GIt^~3v#4os
zt5FPYCwd#USx%V<%epwg7?dQdW_mT3Crf>Fk-=T>len0AX>oBa1hk<N6i1eTRx4?+
z5m8ksQt<-;ttJGtq-OFQ<LAmD)me1{TD4q<$}6C4Oyv>KLiEaqwBg7;_#%ca(QBkY
zOP%#`wMv#+@>s4cDtgr*!e+7Sq49j~d`3^_#?uKC($=&hB@t&3=?Q3LEMF=J7!!}3
zKrC;hE~LdmT-1gJ4~~do3c>4QCr^peoiPYg1ol~9jmu(}c8ETOI!B02!-C#-0OC}q
zU!jbSn6!aOLcQPmLta%3*YX7vbs0bNzX15jK6lW_#Q8Nl=AHl`)$S8_;yWlPzVq6S
zsvWkFM1o*Nq;NV7NTRc-Nww=l=bqpgXGhp7#||(CS!G>JujcY(QKO5Dy-V+*s>B|9
zIG}E6+`*~MQh3sT8h0&FcSMUDCNic;{)s&3Xh=b|fuVLPpGzB`z+-sI*aQgnwwXbd
zktecw29@!76k<#R)DH%?Gb1=r(H2<ah?W`Gk*P!(8w`rKY=uCdH7MTQp-vbSKd(cb
z78w*v!p{$r@H1~68=NSlt~S;jvTR=)-9NPd0r^V1jwFdcMLm$JI%^sfg^LRIV^02B
z)Xwg^#QBN$-8OU>wz5=Fr12XVv%gN`cCkI=K^nJP%i6(md}}q1J><dLIPnd!!Q0#J
z#G$COzVq6_svWkFM1o*Nq;NW|YD8yI$G5tpU^AW6+c=WWDHCB?7Y7)Fl4R9PujcY(
zsgKr=YEo$tck%WMfbW%6fL!V@wJ))lbxU284iIr!Rgeicsq4ju&aZVWtEQu+sAFnB
z-PRH)wS5D0-?FH2>T?V>U@@3{(@`Yfcd@|^JKrXbA`z7DDLe16Y;e`?F#R5O-iIpc
zX3l-6+M1$@xvBK{&4@V6B(AsX9i_OnfoN}H1JUj-$sL33hRVpaTJ{@sz)9P5OfWT_
z#S@C*70!Pxq%Y)+YlC)x#e9?b$*HVxWE6HBYL3FSN#0bP>JPpX0ZWt17r_7QBk`V(
z>4sf4=3u6`?VUYrP;uqt#cMc4HI)UAW#-2-;>cLzSv*^);mcHmVlO?s$F?1zkYzkV
z_8n|cLLm!@8J}?oSSTN3Yp12|4#7f_&0k3yvFSb>EDYPSm1vVeh8V&YTkMR4j#${1
z>?yiTPGH3?(EIvh%GN1r*X6sk)H-YuK592Cn$X|T#GcAHLroh4P;F91*#d=aQig|J
z_9%N@u@RHDvbI&Y_|H~yTfAE{_0h1KYkUQnzl@)W*G%~C)OOS22HWJ_Z|nmo$9wUg
zj8&}fytcb)hb^Qa(V(WI6i%l#&55B9HTuRrj&XK`W#K9Y1<AUYUd`pn!qEjX?mIJg
z?sm`bCn=DuZasqk<*i4mTb~wzr>k3^6M^T-Tc4|JJyYF!hN8%aKwN|o)y~XoXR0DV
zsr+Rc?My`^Sp;#|*bya1=aOm+)w-ikyQ9y!qgKIO8<L!wMVK+DM>dVKGxQKQ6Rlt6
zNgN_pd78c6t5tr<_HX+Awf);o_P%)0$Kd4D*hE@yV84KbEM{*y=NqZa$VbKT?J(4_
zrBA2sPY+~OiV0X&+dM1ZYUPG`pWSBP*|up$-YPT6MH;W+VZK3g-C~UVA)4zpm$gIX
z_~vRH^4~+ZV<I+iJ9a02h=SrfuN|t|VG9`t34#@o!s#^W5uHUH-|UV;LhPj8j&Y1j
zL)a?T4lo8K$*P%N&E?5bA6;aKfBn9OI2;a$8EsKae95TS&5Y92AwFQ|gCz~DW;3R}
zpsZsx8(YwMjqw{(c_qh<sl2RaW2z6{v^NZvP?+~h)7~BS@J>w?E<%LtwM}BIQ0~^k
zXYi7ri>%|dxU;7{+*$KHmovh-X7E>*9j}MKYHWySd=1Y+Ey8(yM>qW997(ibj)Wwd
zI3%{;70z)wq76*->h|*X6kt{QPm%4PP}YW1KzCW&cOyGD{A!*8`RXd@cK4N6?W(Q<
z-?MM#KpFqz6y)!`wy$c38N(zRm>Ejp^qB){>_%RVp=@{5%E_f6N!F!eP_C?+vorJ%
z`$g-g0J1k1tNe8g-}_nR9}C<FerD@*(B+#HEJzbqxV@vqZ#k0!ridFsGpb|v<1&hs
zJ3jXgRlLzjQPo_M>KT8(A$S_8IixMUe-3#2wCJHG+q2SDx@?bEi3LxihOO|@q3#g8
zuGGoq{`*4hZ%pFOtN(oa!Z!zbUHP=!GmT2GhEPHEVp6X<hUZFrymHUFy>Mh2&&A8z
z^$3Ldt;JoBr^YXmzf!_T7p4px@R>@S_P*f^&bTICN;95*XGHNDzz&W#kO){CNbD}{
zSIrEF?JV}7*c#Si87K_62>AJ4HRxW#FM%#bY#PadcaPXPp0b>rgad-{J48Ul%1NL-
z6x~W-8-eWv$ol~EqnONomk>0WsmFkhm?UPQEgSFHc6fJe*46XNOu)uDZdk@YL(ZG{
znZvl@UJYC4y1Rj3c=#s-W?J6tT06UWe$(zs*HE=<s2m+CcMVkl#dkhBRE<&;P{q7b
zlsG0)5GtLd0+I=5H%nX{V)2~RM!O-LRmI2(xcRcZ$ihjS1z|2k7R8k!dN+jr5IwWV
z6!<&1C-*Z2y2NoFCnr@9Rca~7si<yRq}Srz6_ZeN?v86!*C9vb=bCuE6G0cA7VG1P
z1^si-#N?_)PEp<|%!kT5T{Q1ns<u@2nXC7jyEd7(!Rafm(}<n^@J>{i<ih-tx57hq
z@4=KvZK1ql_dLDWJ{FH`DcoXQdTyK(C0g$DxoO3nlC4l(-x@5YYRhH+_&)_$K-3)a
z8Su}s^xV*M@_s!xVu6encS(1%1YXOQuw!EhycaBSn*HPC`e?FY$qULVdB9#J5%8>%
z4Hi(Wm#R-6FQV`Q#3IUzAw5X_VO}|Z4`CL!l3O3Gp$ASC-<!H&eWun8@hUN`yeN|u
zsneJyR%U~Y($HwJJfEQ4Vy`idkh(@6^qyG!uy>KRJ3l{m37(av@lBLKtFyTgY_E4^
zUbUHb7o)VhfRJ<al|$uKyT7}-634roa2(lanIQt&=)5*s)o^qHK}xbQuRz3L;h020
zNFv&35D`<L5>Fl(l{wG~cd-gW5}|#P3P^-G$*RU~u1W&}^}Ddt2UdU7b0Nf4(lh-w
zZJV0sLYk1p1WO@EUz$;>g0fEfLhZ6Xm*n=Ojt^)|<>3R=wM{9@BYpV*?DjO0tH6G!
z?VfV1rM?sQUU4_K`;KfLW5w;yr?6AQZcWdO7f5e7X{7P`#>?be4)K(p9-F#w0k&DS
zc%7H|vnUw~!<`<Hl#kBONL|5_^BnRhFYZxG9fR;lt_ige=>5e^s==d}`h}Qj7Zong
zU~0m~3w6Nx+qz!k+sOXU@iSj<uq}(Pflg}nnKzc-e3k;wRyUBEYvxE9{})xKF^NZ=
z22GNqPMdvJjiEqQF@`WJ!z5(P1F6$K{MW#}z>_cTlKjZY_f;|Z5{q60TTKVz%}F9P
zpnImapzB@eZkd={;^B@>dl-ICYDf=Z;&z{o@wbg7MmQHE4CCuCQF|wGyg6Kz&B)2R
z!6ren`RW-t{wzN>32F`*_RoP$0?e_SY|lzp>2lLj^7K9=Zn9>yTZX-KsJqpN(z6Kp
zP<d4VQF*#Yn;t7Ur+cUyM%fy)Om5ZgdAdj3vI?P7J>r;Z+lxad=-su6kDd8cf?f~?
z`PfTS8M1U8&u6D5ASe?y=B8tG{!Wzm)xmM|a`9_6r<xkDLt_JqOesnBA_Kx^bwJS%
z#`rzR1MI>-(8%s%U}$i3z}6ndPLCcuuzzIWxncSY=x83T3Xbdw)FT5#vTyI6;h3<^
z6&gq71#N;U@5WeD=K22iTI`CEDWsDHQg{#>QVYS5{{GGyio#HEViFRy!o^w?y^^F;
zl6Vs!rv64&@ASx#l#V_usbjNu$}albuwE(rM<Dzzex@#F|F^nU&+e#nZMpvBg4X^6
zZS@^(_1%`1wnIM&Y2nD<1pw|6_-QP#a^ve~=GOeyXKsF`vSMd-#m=R}io}6PO&(U%
za1#G3U|)m1^#?bJm!L#Yw4r2-N4$vm5a;c@t7|%}YdDQHT#8u!G%(}Cfk$#;P-Qrn
z%v&*~3u^C_?#dx2bgvA{hsraJ`A~)3i;)kN$5%#gwWh?V9@X1QQOjtqt+3qg56IBe
ztCiCuOcZh790i6u1`d>7FF^+#5eG_|(bnmRIO0EE+-y&3DLTxEB4qdA9C!qK2;*O%
z{&yTgXC8D<axvDIZU8mUO#gsF=Ljg8&6x2o2}2W+ahrgUL41xvJp?uraH|7u#f(2B
z>~{!=Np25?#LTmsLSqER2{>9#(xQmDM*#H*G-U#k7jJwI<o^!8x3{4uuLl}VLcz9m
zKM93s5(2nO;HS|Blh8-&m?CtS{77DKX&SNn#5G`@$>x`K8W~%B8Zl_0=Xv5Hg^0H{
zG6e29Pmtu%_#6ShdBXTtNHy<k;Ex%9f;|6;O8q{85rFZAkMwtd{Y6?Cu@;6)*tl40
zVWbp+Z>d}nuog;*6V}3rSPN;J<Ml07b3}0Q;#0R4Hm34E#Eq#uYav!S_ASMco>=8t
ztyM0nYD`?$;cQ(z2J4HiauIL~F);t};#&4?bCxt|_#+lJMJwPeY|PKQmp5Y9M|h1R
zchgaJH#LgrF^`!youlPh<Vr;4_uPWqcYSNbSyMmDrOk)678h;&DJXw{pBcr|>$|Ew
zd|#{DFNp)HI>_k}69VM_i$U{XgS_nlr5M2g<P_vd@~lh5tD!~Wqk9IK9;OElQVF@1
zs6*YmYqthhNR=75a>`P?L%wcs;Xr@A^-Q2QP*`R)4ga<TZnPMmo!0P@-mo5>j<}>Z
zo|aFy;spq;5U0b#23H(4S3`*0wrGx6sZDs=#7lANqZ=(|r>pgH!hr-KiYYEmHPlUU
z@)}(|<z>FxRaLbkZD=6pQOlF+XMZ~>$a&Npa$5G!0a**YW}0k|`)p>}9<N&6bB42Q
zg_jO>cQkIVSMGwBaPax8?RuBKtkiBjYaONVoFXxEo|RIE`<V&`@C^K=t1k6^#&JKF
z)BSJqetNb*`qKRrUBAfv^!jXdTlce5U!kuobz1kc%lCeEdGDv|UUu4dz7*CUa@#Xz
z0>U_CnZ8P2U0P<<v%HBpYPq{ccMRKH@&_ZMU)ti5*$DZC5sps#j!(xv9nf2+wJ&Hi
zk8$Wq@Jirn=+l8K!TvSHp_7&~yxbKgpog&|V+kXbG1F$^Q>pA!`f<a+nZUF$E<Qv@
zyI2gviRV9de3%%8*b~K#XD;TavO2%2L*&(!yv1d)ql#$(+`feM+$r7;3trdK@(hud
z2aad<Ycv`d9>c0Y*y=$6MAikgt*!;ru%aVjs(6{O<Hc2s3at^$`-DGNf3P?r5K0Zh
zvI+`WmJY*qCBs}xzb1UX_6j&6;C=xQat(V>1I70Yi8qV5JjV8*GLg2ozst)h5tCF~
zp5#-6liWoU<^_*PpcYeZgAf_?(xq-8u$4-Pq$VfRIlb0tmo%2oXY-T&-3qHkQUuj%
zVUO{zDgOxqLbxF03M650`IYT)#SXY)`y2^`%iqlMOyjHC<MK?~W0hy6?K4S&E7?04
zU_P%;*ik4F4C|PLq%G3MiS9zAZB$Uo5AicEg0t~u{Z@Hczq?T_eDuxe@~`#YxcHS_
zukNZu6V+&<98D~Att>}JW~Kn<qa)SmNO{#rg#%FvNc_xHJ=)442$5A1Ad~$5?9KQ?
zWMz1i>@Sas&_eV`IeKK~^8l}p&-MJ)`J3lOeD-{~YYRf^_l-DW-!;EK{D+tS_%ecT
z#BX0N_qj+a(IfNGBUN|4na`uN=n<qLfs<!G&oQ7GA)^xW`nbd~iGl!;q?1$<GuI<=
zoKrzaqS^D32snfR)vv_-AbRAENK)x#F=`gkAMWdXBQA6KUFUaA4~c@{(*1INf7p{#
zLC6N)zATA=Ls)IGimAU&u9xX$A$}!*Skg1G%;Kr>0ir*{hiqhz;=f6f?3>4jPjm(T
ztSkQX!O)+rduqkgdqe+mZy1rrf(4R>JlLK?eUG_|kM=nDxYtSIq}?KSb=@w7TqdJv
zo8pH+hA?m5$NNRxW{`3t@2}x}Aj8S9DmqX!m>#_(_DrhqTnalHaQI!gi`GXm6PE4w
z8pisz+BXNdvWQQsJ-a5U6bP&P0aspmRrh@B3GqYFid%<n4U#^THF45oz~5iM6x@y@
zzbmT#1K<t3Z#l622Ve%t=7(7GrRgJWh`^q#z(3>n2uMcd6yD?Ok)7O^=RibR--W8+
z1QkzfxbYZ3-CI%Edq7!G7x5nWa};ow3fZ-oG^IHmfi&lP<<O1%{Pu(IpD80-8a6bE
zq<Y=Piz-HDeD~Iii^x@%R0VjV#K$!~Ns)nfgYHA+k+S+wd4(Q74~?U0C1Dw0Bqmam
zW}=W6Z(MSDVDlF1fV~M*Z7}?eEu>8aD;oYWdY2UquTtn7fyES(Un2r?ck~t5`YRe%
zdHHk8iFzKz{XhK7ZHrAEy&i6SarNRy&gYtzY$2xoK02{^J6{)T)Zi6xUka3hj|JRp
zz`cyi;Cb}5`*44BJ6FoFy(lB32+<TKM6xYjCIl>nOU&!!@d|}iL5o7=WtTMjJ+VzV
zDted}H^T|RjPS;W)o>UZnMiT_@objgtA;m&n#ya}Cb8Y8*O_MEe~dF0T>LUP(ZF8(
z-ljeN(}AGinLiUJJ42F|@aI#3*Mh;o%k6pq6$NpCPc51;lcL1_mRif;P%UVfRFY+q
z^iJDhlHOdMG>#Sr#L%^B&l{Xe7&;9e&gOAuk9l-ZQg`ABG^r&&!r%2kxpODJv#FVv
zUM_N2g<|z94k+TD2JRvXzeH}9p;R{8A5u7^=TVv4qmmv4<G&JcWFI{gB>{*>UShdy
z)LLP4JC%jMg<y-$5aHJWyzUzOuDC{hVf;6c$LQ)85b!u^yxF;a_L)j&f3>s!`o|YU
zpUfRVPgFX0RuR*7zOt8M@txH;#mWp3(00yiJFD8xihz`4W9a>Gl+p+xaa5?F;!;qq
z%mf;QnbJzNt5In{pnjQO!3D~XR1y6RW+2bpLvxb#anB;^22Brs+hcn9?T}k6Ivt>`
zRkmd!G>wNC2anN75s`1VdZ@5{Q*5GOFV)T-3Rg*=>RR{ZT;XmN+{0J8HV|@~;+-j=
zG*GufQataa!`##6L+PDWVmDia@b|sg&Im(K*od_#UVxFpdi!4B+)xj{Gu;ZUd9>78
zioU23)pT2_4UYBh4WtxY>+PjBC?PtC-m8SrJDcojzb)`Or<Ly6(swiIn*+Vy`3rdG
zJ$>)<e0UGEYy7-<H2->+<zE`pmqAGsvs4K2Cbr0NcW=96SgGilBGrLV8%#%q0daS6
z_<8tg2-D$QUTOqV2|BU5kin55M&f)blU3I)<05YGt)MVixz(ab^=b9NE3#KwlPg{x
z=-BuQNjVau^mfr?ZffG4A#2gV8FaQ2K5w+06XCFM4BCqvg#XK_{1#{7IEC_pM<M1H
z2be6fQOEwAizZFL5m6hxmM~444ijgV;8dcc0t=mhupYi;`7Vm1;^YRNkBXE0H3a;`
z?ie)3)Y{~VV*CXmX$fg!@v23*5p1)(8JQp?5N893Qs|16_3UF572<ob>mQ@&IDugT
zI)F)9(uDG1*?Pjm0NA2+x%n{uH}Wl~wXYv{5o=%Dx;MMmex?7_e*ByJ)pGY>rF*d2
zJ$N@9ibZ}B0Dz@nEOPzC-Dn^TXA+!m>U<YEddeL=bDQ6IsoXJK=@_nd3}1g@q3fZS
zzgX5b&3v&O--Q1bL_pg#uWhPon<@fQl8u?UEOAVtARMAEN+RG8<`mAr7*F9q@|W5)
zjdz{CvUg^>65m*jZ$!j;59~(eJ+Lr4mTygUUX2<D31ZSF+3#(x@8UhMxc(k~{VW$w
z*KZ+EvxS>xoYlhkMm74ry%m<bp`Mu_?RyBnx4(*q$)B01XBkw6!o8?3F%#%d@o_CQ
z&C5nDX2S9qX*l7JEjr<EK<&m`1pYe#n&*ul5}?_}_#XuRl7N`5{ue?d>XdV%@z<0l
z=CdYeMI6$(=p0xl>b%$dHfH=Ev|%I7Z-0Y;J-;avn>E}0a?Ni%%heB3$?^XPL-j!i
zsUE81`ZW(fk5doyh==QM{dUwtRmb(4S9Lf}HOYm#`S|yO-;cS5nX@zS^80a%-`ASp
z&F&>dXs5TSD7=2y#p`<{pzv@Av&oso>%;795njJT7?5=~G9c5tn(XBdhS%@<1-$E?
zzV~@H9%x6PFSB_4HhsC?U23y<{a6#vlgGfRj@NGopD#^?us3Xn&}fB=*U#<xWG-_W
zPBH4tPZA>oXGfcfD=8yK9@=4H_tPIV=xt3kjb0q(y9l`CK;Yt=VCN07S{Oe<;o##>
zlDW?P^YK<&8*=i-U!iD6Ca&`A_rEUHqIOjZzaDS2R;ji(d+))r(?VXyvGb`Sa#N9{
zip^v$FJCbHQ{?KS1+7P6*ylc8?jERg4^+Dch;M(Q+`Y5Xy|dcA^IfcK@#XYh@^v!=
z_&cwyt7_{i0;-sq{SwC{3IcQ%4hNu8cFu?}r*I;|oT}0QX>A^Q!Ki<+5`VZFf4Hpm
z&fy^E-g5lmxt=?87Bzh<TJOBpTNPo(*d(0DDNF)dNyr#t)Gb^cf=lzuNqo60r-DFE
z&W5H7B95WqY819Ib_v{6u24dxazR#Zajj^-noAPb2kLnMTGs@lUIWYS;Q@%jvp(*b
zWje69#=&K75nROFf=r(6V;?0W3nONKxt`w&By)JR2ENiJ-yD!O(Xo%swa1U|@EEB0
z${9U$q~pLri_O*T*B6reX}T|bbD%wbC!%>|y~?qVBq^~zu60sg)jdt|aqMHkahZjj
z*z^2pu2iqa%i}eKC+w=L9a8UvH@}hJP?Wrk>g1ozN}B!d!Wz2|n!XFZIdB)+ex6UH
ztM?pE*u%{>EusCOdhFfq9X!vK?-=&b;cofu9Xwp5e2EA+Gm^qvoL{sF&d(z+c8?E8
zc}c=czR=_)Mu(?%7Pm`zEFEni?V(bMY{o1k^5=nJ#o6n4aQVozHxa67ly1x+cuLq9
zfI$-nz&DVl+8RDcRY{n7gk`MK*4i<(wk@qKb8hmt5pK`e@voq;N8q}Oa5Op;4zANV
z(8r*uoLl_&6zV0gg+LF12FgN(Z);<JYr0fE>Fw(j64KQ%3JDRbBUq)UUvg<IRpl2A
zJ3N|gUnTnOXQ1Cl{Mo-@{%l3!4>nX*3|3bR;w%SMnF!<H8y8+LRN`Bz@hxR-3tmfF
z0TkbPZA(?7D4>d=^W7{QlPCz4PErBMgf}ioTpeQZoM@uEP6Z*0=f=y{A_pgNT?lg-
zvLvqZ&3Na`l`kKD`EXeqczy3|sj_~cx*jL(56m1cug6PSDTr@H8<^Jysv^u7n}icN
zg-Jjw2^mA&orSAIaA|%yXRdg1DhTA{Y%_;FL^3K#UiY>@K`h<^bcws|3PKi-u98$h
zBFu$K$QU%2Tg)`*B{i2MRs({2tVNT_iBu++OimravrQJ3bkwAL{Dln8v=5+3OkN|M
zL*j?mUriWOxkGlGkml~<+87y1Or&yCcwvyh!Cccc)B0flv08L&Dw8eXC}uIBYipBS
z)*vg4U_CKtq{YE6wKj<&^}oQ0p^tN5u9>x#Jh@`f!7dRLmNp8t*3_6O5Za}DCRc04
zSv0xSM4B#*=Eh{Q){fKhQ)AXCE<Dp{xY}CGv7_Vz9{w6wG5^#e6L~$IH5Gv;%@qbY
zYx7Z*`zSO@;Bf*^5;#fV1p=QYkS6dVfgAyYz!ZV21inDvI)UFH@D&2D5unrS#mUd&
zkV$danDIx1`yPQmA@HXJDg^$Vz&rsmbPyUJAr>`gD{0VtMg2hifqn>28qnU|Vz+TI
z-Mte%j0>I0rjHu!nAh+Pm^aWjFc1$07f7h;^B21={uTml*Tvu6NFb<vDf$n)ey!_9
z@W!5354?8ltH<W{{QiM&9{&2_+bw_G`n|62bp6|CW$3Bu&{O|mU#0hSwfA&o#dFma
z&s74?R|C(N1JAz|*jsM&T?iz~?(agNx9t8d1RgEl>wC97u&n##EB~nUo2A(kH$VQn
z&;ItaZ#-GqFjCzxQa<o>rR$k$*E84K?{-Fl{dWTrbVq`FC~AT3P;d>-(y&3h3<+F&
zYjD@yfCMWeK^#Rb!MadzGv&1a@*bwB1?r<Gf|M*F2xOS?z&t8wBn0LdWwHRGJ1J^`
zc8xAgg3eHIlu|8#)E7{i0zvQy5m*4FjZoAApvToo(5VFvQPcv64pGzstJ>(YC0G-s
z%a&l33<(^fXt4yV;z4-WNU$MFbw~hWv`>OfT5y2swLqt=QdEw5A0}c8pjBI_RTfwi
zrrRgMnt;|mQ@j&eTMn&#O9(Y8+J>sOp{#9K(C`{ays&Y5Roh<Hwl8Q9USRKU>G2jc
zh%uba|AJUCE84cIhIc@2ThQ?48N4ILTI?}&!q8np#rJSk6jN8Wr>e!Ho`!g$Ys=c&
zinhM0tuJfq>ze6m*Minp*81dIl0B`ii;}9iq77BGp|Uo#U`cMaRz*K~DxxcnU4OhB
md#a*+qN;tOtbO7wt&I?P%ca$$=u~{~9toh|Lu<ui_5T58oMTJ?

literal 0
HcmV?d00001

diff --git a/data-upload/tests/sample.mitab27.txt b/data-upload/tests/sample.mitab27.txt
new file mode 100644
index 00000000..788a5a4b
--- /dev/null
+++ b/data-upload/tests/sample.mitab27.txt
@@ -0,0 +1,4 @@
+#unique_id_a	unique_id_b	alt_id_a	alt_id_b	alias_a	alias_b	interaction_detection_method	author	publication_id	taxid_a	taxid_b	interaction_type	source_database	interaction_id	confidence_score	complex_expansion	bio_role_a	bio_role_b	exp_role_a	exp_role_b	interactor_type_a	interactor_type_b	xref_a	xref_b	xref_interaction	annotation_a	annotation_b	annotation_interaction	host_organism_taxid	parameters	creation_date	update_date	checksum_a	checksum_b	checksum_interaction	negative	features_a	features_b	stoichiometry_a	stoichiometry_b	participant_identification_a	participant_identification_b
+uniprotkb:P12345	uniprotkb:Q67890	ensembl:ENSP00000001	ensembl:ENSP00000002	uniprotkb:BRCA1_HUMAN(gene name)	uniprotkb:TP53_HUMAN(gene name)	psi-mi:"MI:0018"(two hybrid)	Smith et al. (2020)	pubmed:12345678	taxid:9606(human)	taxid:9606(human)	psi-mi:"MI:0915"(physical association)	psi-mi:"MI:0469"(IntAct)	intact:EBI-12345	author-score:0.85	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
+uniprotkb:P98765	uniprotkb:Q11111	-	-	uniprotkb:MYC_HUMAN(gene name)	uniprotkb:MAX_HUMAN(gene name)	psi-mi:"MI:0096"(pull down)	Jones et al. (2021)	pubmed:87654321	taxid:9606(human)	taxid:9606(human)	psi-mi:"MI:0915"(physical association)	psi-mi:"MI:0469"(IntAct)	intact:EBI-67890	author-score:0.72	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
+uniprotkb:A00001	uniprotkb:A00002	-	-	-	-	psi-mi:"MI:0018"(two hybrid)	Brown et al. (2019)	pubmed:11111111	taxid:9606(human)	taxid:9606(human)	psi-mi:"MI:0407"(direct interaction)	psi-mi:"MI:0469"(IntAct)	intact:EBI-99999	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
\ No newline at end of file
diff --git a/data-upload/tests/test_parser.py b/data-upload/tests/test_parser.py
new file mode 100644
index 00000000..5220f663
--- /dev/null
+++ b/data-upload/tests/test_parser.py
@@ -0,0 +1,350 @@
+import sys
+import os
+
+# Make sure imports work from tests/ subfolder
+sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))
+
+from mitab_parser import parse_mitab27, parse_field
+from csv_parser import parse_csv
+from validator import validate_file
+from models import ParsedInteraction, Protein, Organism, Dataset
+
+# ─────────────────────────────────────────────
+# Helpers
+# ─────────────────────────────────────────────
+
+SAMPLE_MITAB = os.path.join(os.path.dirname(__file__), "sample.mitab27.txt")
+
+
+# ─────────────────────────────────────────────
+# parse_field tests
+# ─────────────────────────────────────────────
+
+def test_parse_field_basic():
+    """Standard db:value format"""
+    result = parse_field("uniprotkb:P12345")
+    assert len(result) == 1
+    assert result[0].db == "uniprotkb"
+    assert result[0].value == "P12345"
+    assert result[0].description is None
+
+
+def test_parse_field_with_description():
+    """db:value(description) format"""
+    result = parse_field("uniprotkb:P12345(BRCA1_HUMAN)")
+    assert len(result) == 1
+    assert result[0].db == "uniprotkb"
+    assert result[0].value == "P12345"
+    assert result[0].description == "BRCA1_HUMAN"
+
+
+def test_parse_field_empty_dash():
+    """-  means no value in PSI-MI TAB"""
+    result = parse_field("-")
+    assert result == []
+
+
+def test_parse_field_empty_string():
+    """Empty string also means no value"""
+    result = parse_field("")
+    assert result == []
+
+
+def test_parse_field_multiple_values():
+    """Multiple values separated by pipe"""
+    result = parse_field("uniprotkb:P12345|ensembl:ENSP00000001")
+    assert len(result) == 2
+    assert result[0].db == "uniprotkb"
+    assert result[0].value == "P12345"
+    assert result[1].db == "ensembl"
+    assert result[1].value == "ENSP00000001"
+
+
+def test_parse_field_psi_mi_quoted():
+    """PSI-MI fields often have quoted values like psi-mi:"MI:0018"(two hybrid)"""
+    result = parse_field('psi-mi:"MI:0018"(two hybrid)')
+    assert len(result) == 1
+    assert result[0].db == "psi-mi"
+    assert "MI:0018" in result[0].value
+    assert result[0].description == "two hybrid"
+
+
+# ─────────────────────────────────────────────
+# parse_mitab27 file tests
+# ─────────────────────────────────────────────
+
+def test_parse_file_row_count():
+    """Sample file has 3 data rows (1 header/comment line ignored)"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert len(interactions) == 3
+
+
+def test_parse_file_protein_a_uniprot():
+    """protein_a.uniprot_id correctly extracted from unique_id_a"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].protein_a.uniprot_id == "P12345"
+
+
+def test_parse_file_protein_b_uniprot():
+    """protein_b.uniprot_id correctly extracted from unique_id_b"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].protein_b.uniprot_id == "Q67890"
+
+
+def test_parse_file_protein_a_ensembl():
+    """ensembl_id extracted from alt_id_a"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].protein_a.ensembl_id == "ENSP00000001"
+
+
+def test_parse_file_protein_b_ensembl():
+    """ensembl_id extracted from alt_id_b"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].protein_b.ensembl_id == "ENSP00000002"
+
+
+def test_parse_file_gene_name_a():
+    """gene_name extracted from alias_a description field"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].protein_a.gene_name == "BRCA1_HUMAN"
+
+
+def test_parse_file_gene_name_b():
+    """gene_name extracted from alias_b description field"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].protein_b.gene_name == "TP53_HUMAN"
+
+
+def test_parse_file_score():
+    """confidence score correctly parsed as string for DB storage"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].score == "0.85"
+
+
+def test_parse_file_score_missing():
+    """missing score stored as None"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    # third row has no score
+    assert interactions[2].score is None
+
+
+def test_parse_file_organism_taxid():
+    """organism taxid correctly extracted"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].organism_a.taxid_id == "9606"
+
+
+def test_parse_file_interaction_category():
+    """interaction_category.category_name populated from interaction_type"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].category is not None
+    assert "physical association" in interactions[0].category.category_name.lower()
+
+
+def test_parse_file_dataset_pubmed():
+    """dataset.pubmed_id extracted from publication_id"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert interactions[0].dataset.pubmed_id == "12345678"
+
+
+def test_parse_file_dataset_author():
+    """dataset.author extracted from author field"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert "Smith" in interactions[0].dataset.author
+
+
+def test_parse_file_returns_parsed_interaction():
+    """Each row returns a ParsedInteraction instance"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    for ix in interactions:
+        assert isinstance(ix, ParsedInteraction)
+
+
+def test_parse_file_protein_objects():
+    """protein_a and protein_b are Protein instances"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert isinstance(interactions[0].protein_a, Protein)
+    assert isinstance(interactions[0].protein_b, Protein)
+
+
+def test_parse_file_raw_preserved():
+    """Raw row dict is preserved for debugging"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    assert "unique_id_a" in interactions[0].raw
+    assert "unique_id_b" in interactions[0].raw
+
+
+# ─────────────────────────────────────────────
+# CSV parser tests
+# ─────────────────────────────────────────────
+
+def test_csv_parser_basic(tmp_path):
+    """Basic CSV with required columns parses correctly"""
+    csv_file = tmp_path / "test.csv"
+    csv_file.write_text(
+        "protein_a,protein_b,interaction_type,score,publication\n"
+        "P12345,Q67890,physical association,0.9,12345678\n"
+        "P98765,Q11111,direct interaction,0.5,87654321\n"
+    )
+    interactions = parse_csv(str(csv_file))
+    assert len(interactions) == 2
+
+
+def test_csv_parser_protein_a(tmp_path):
+    """protein_a uniprot_id correctly set"""
+    csv_file = tmp_path / "test.csv"
+    csv_file.write_text(
+        "protein_a,protein_b\n"
+        "P12345,Q67890\n"
+    )
+    interactions = parse_csv(str(csv_file))
+    assert interactions[0].protein_a.uniprot_id == "P12345"
+
+
+def test_csv_parser_protein_b(tmp_path):
+    """protein_b uniprot_id correctly set"""
+    csv_file = tmp_path / "test.csv"
+    csv_file.write_text(
+        "protein_a,protein_b\n"
+        "P12345,Q67890\n"
+    )
+    interactions = parse_csv(str(csv_file))
+    assert interactions[0].protein_b.uniprot_id == "Q67890"
+
+
+def test_csv_parser_score(tmp_path):
+    """score correctly extracted"""
+    csv_file = tmp_path / "test.csv"
+    csv_file.write_text(
+        "protein_a,protein_b,score\n"
+        "P12345,Q67890,0.95\n"
+    )
+    interactions = parse_csv(str(csv_file))
+    assert interactions[0].score == "0.95"
+
+
+def test_csv_parser_missing_required_columns(tmp_path):
+    """Missing protein_a or protein_b raises ValueError"""
+    csv_file = tmp_path / "test.csv"
+    csv_file.write_text(
+        "gene,score\n"
+        "BRCA1,0.9\n"
+    )
+    try:
+        parse_csv(str(csv_file))
+        assert False, "Should have raised ValueError"
+    except ValueError as e:
+        assert "protein_a" in str(e) or "protein_b" in str(e)
+
+
+def test_csv_parser_returns_parsed_interaction(tmp_path):
+    """CSV parser returns ParsedInteraction instances"""
+    csv_file = tmp_path / "test.csv"
+    csv_file.write_text(
+        "protein_a,protein_b\n"
+        "P12345,Q67890\n"
+    )
+    interactions = parse_csv(str(csv_file))
+    assert isinstance(interactions[0], ParsedInteraction)
+
+
+def test_csv_parser_pubmed(tmp_path):
+    """publication column maps to dataset.pubmed_id"""
+    csv_file = tmp_path / "test.csv"
+    csv_file.write_text(
+        "protein_a,protein_b,publication\n"
+        "P12345,Q67890,12345678\n"
+    )
+    interactions = parse_csv(str(csv_file))
+    assert interactions[0].dataset.pubmed_id == "12345678"
+
+
+# ─────────────────────────────────────────────
+# Validator tests
+# ─────────────────────────────────────────────
+
+def test_validator_valid_file():
+    """All rows in sample file pass validation"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    results = validate_file(interactions)
+    assert all(r.is_valid for r in results)
+
+
+def test_validator_missing_protein_a():
+    """Row with no protein_a identifier fails validation"""
+    ix = ParsedInteraction(
+        protein_a=Protein(),  # no uniprot_id, no gene_name
+        protein_b=Protein(uniprot_id="Q67890")
+    )
+    from validator import validate_interaction
+    result = validate_interaction(ix, line_num=1)
+    assert not result.is_valid
+    assert len(result.errors) > 0
+
+
+def test_validator_missing_protein_b():
+    """Row with no protein_b identifier fails validation"""
+    ix = ParsedInteraction(
+        protein_a=Protein(uniprot_id="P12345"),
+        protein_b=Protein()
+    )
+    from validator import validate_interaction
+    result = validate_interaction(ix, line_num=1)
+    assert not result.is_valid
+
+
+def test_validator_warns_no_uniprot():
+    """Row with non-UniProt identifier generates warning"""
+    ix = ParsedInteraction(
+        protein_a=Protein(gene_name="BRCA1"),  # has gene_name but no uniprot_id
+        protein_b=Protein(gene_name="TP53")
+    )
+    from validator import validate_interaction
+    result = validate_interaction(ix, line_num=1)
+    assert result.is_valid  # not an error, just a warning
+    assert len(result.warnings) > 0
+
+
+def test_validator_returns_list():
+    """validate_file returns a list of results"""
+    interactions = parse_mitab27(SAMPLE_MITAB)
+    results = validate_file(interactions)
+    assert isinstance(results, list)
+    assert len(results) == len(interactions)
+
+
+# ─────────────────────────────────────────────
+# Run all tests manually if needed
+# ─────────────────────────────────────────────
+
+if __name__ == "__main__":
+    # parse_field tests
+    test_parse_field_basic()
+    test_parse_field_with_description()
+    test_parse_field_empty_dash()
+    test_parse_field_empty_string()
+    test_parse_field_multiple_values()
+    test_parse_field_psi_mi_quoted()
+
+    # mitab parser tests
+    test_parse_file_row_count()
+    test_parse_file_protein_a_uniprot()
+    test_parse_file_protein_b_uniprot()
+    test_parse_file_protein_a_ensembl()
+    test_parse_file_protein_b_ensembl()
+    test_parse_file_gene_name_a()
+    test_parse_file_gene_name_b()
+    test_parse_file_score()
+    test_parse_file_score_missing()
+    test_parse_file_organism_taxid()
+    test_parse_file_interaction_category()
+    test_parse_file_dataset_pubmed()
+    test_parse_file_dataset_author()
+    test_parse_file_returns_parsed_interaction()
+    test_parse_file_protein_objects()
+    test_parse_file_raw_preserved()
+
+    # CSV tests need tmp_path — skip in manual run
+    print("CSV and validator tests require pytest — run: pytest tests/")
+
+    print("\nAll manual tests passed.")
\ No newline at end of file
diff --git a/data-upload/validator.py b/data-upload/validator.py
new file mode 100644
index 00000000..a56e53bb
--- /dev/null
+++ b/data-upload/validator.py
@@ -0,0 +1,83 @@
+"""
+Validation layer for openPIP 2.0
+Validates ParsedInteraction objects before DB insertion.
+Works for both PSI-MI TAB and CSV parsed data since both
+produce the same ParsedInteraction model.
+"""
+
+from dataclasses import dataclass
+from models import ParsedInteraction
+
+
+@dataclass
+class ValidationResult:
+    is_valid: bool
+    errors: list
+    warnings: list
+
+
+def validate_interaction(ix: ParsedInteraction, line_num: int) -> ValidationResult:
+    """
+    Validate a single ParsedInteraction.
+    Errors block DB insertion. Warnings are logged but allowed.
+    """
+    errors = []
+    warnings = []
+
+    # At least one identifier required for each interactor
+    has_a = (
+        ix.protein_a.uniprot_id or
+        ix.protein_a.gene_name or
+        ix.protein_a.ensembl_id
+    )
+    has_b = (
+        ix.protein_b.uniprot_id or
+        ix.protein_b.gene_name or
+        ix.protein_b.ensembl_id
+    )
+
+    if not has_a:
+        errors.append(
+            f"Line {line_num}: Interactor A has no identifier "
+            f"(uniprot_id, gene_name, or ensembl_id required)"
+        )
+    if not has_b:
+        errors.append(
+            f"Line {line_num}: Interactor B has no identifier "
+            f"(uniprot_id, gene_name, or ensembl_id required)"
+        )
+
+    # Warn if no UniProt ID — UniProt REST annotation will be skipped
+    if has_a and not ix.protein_a.uniprot_id:
+        warnings.append(
+            f"Line {line_num}: No UniProt ID for interactor A "
+            f"— UniProt annotation fetch will be skipped"
+        )
+    if has_b and not ix.protein_b.uniprot_id:
+        warnings.append(
+            f"Line {line_num}: No UniProt ID for interactor B "
+            f"— UniProt annotation fetch will be skipped"
+        )
+
+    # Warn if score present but not numeric
+    if ix.score is not None:
+        try:
+            float(ix.score)
+        except ValueError:
+            warnings.append(
+                f"Line {line_num}: Score '{ix.score}' is not numeric"
+            )
+
+    return ValidationResult(
+        is_valid=len(errors) == 0,
+        errors=errors,
+        warnings=warnings,
+    )
+
+
+def validate_file(interactions: list) -> list:
+    """Validate all interactions from a parsed file."""
+    return [
+        validate_interaction(ix, i + 1)
+        for i, ix in enumerate(interactions)
+    ]
\ No newline at end of file