From cd684928264b44afe6eecdb46ca5e85822cb1f29 Mon Sep 17 00:00:00 2001
From: whitehackr <k.waithaka@nithio.com>
Date: Thu, 4 Sep 2025 06:26:41 +0300
Subject: [PATCH 1/2] Fix experiment assignment generation to use correct date
 range

- Replace archived assignment import with modern method
- Use live assignment approach for Mar 1-15 experiment participants
- Switch to JSON upload method to avoid pyarrow dependency
- Fix syntax error in experiment_effects.py
- Results: 1,091 properly assigned users vs 1,043 random users
---
 scripts/experiment_effects.py      |  2 +-
 scripts/generate_synthetic_data.py | 19 +++++++++++--------
 2 files changed, 12 insertions(+), 9 deletions(-)

diff --git a/scripts/experiment_effects.py b/scripts/experiment_effects.py
index feee727..05e07e6 100644
--- a/scripts/experiment_effects.py
+++ b/scripts/experiment_effects.py
@@ -307,7 +307,7 @@ def generate_free_shipping_threshold_overlay(
     # Generate overlay data
     overlay_data = generator.generate_experiment_overlay(
         experiment_name='free_shipping_threshold_test_v1_1_1',
-        data_category='orders',WYC
+        data_category='orders',
         granularity='order_id',
         source_table_path='bigquery-public-data.thelook_ecommerce.orders',
         assignments_df=assignments_df
diff --git a/scripts/generate_synthetic_data.py b/scripts/generate_synthetic_data.py
index dfec02a..6573f20 100644
--- a/scripts/generate_synthetic_data.py
+++ b/scripts/generate_synthetic_data.py
@@ -93,10 +93,9 @@ def generate_and_upload_all(self, sample_pct: float = 100.0):
             orders_df = orders_df[orders_df['user_id'].isin(user_ids)]
             logging.info(f"Sampled {sample_pct}% of data: {len(users_df)} users")
         
-        # Generate synthetic datasets (LEGACY - imports from archives)
+        # Generate experiment assignments using modern method (independent of sampling)
         logging.info("Generating experiment assignments...")
-        from archives.experiment_assignments import generate_experiment_assignments
-        experiments_df = generate_experiment_assignments(users_df)
+        experiments_df = self._generate_free_shipping_threshold_assignments()
         self._upload_dataframe(experiments_df, "experiment_assignments")
         
         logging.info("Generating logistics data...")
@@ -232,15 +231,19 @@ def _upload_dataframe(self, df: pd.DataFrame, table_name: str):
         
         table_ref = f"{self.project_id}.{self.dataset_id}.{table_name}"
         
-        # Configure load job
+        # Convert DataFrame to records for JSON upload (same method as experiment_effects.py)
+        records = df.to_dict('records')
+        
+        # Configure load job for JSON format
         job_config = bigquery.LoadJobConfig(
             write_disposition="WRITE_TRUNCATE",  # Replace existing data
-            autodetect=True  # Auto-detect schema
+            autodetect=True,  # Auto-detect schema
+            source_format=bigquery.SourceFormat.NEWLINE_DELIMITED_JSON
         )
         
-        # Upload data
-        job = self.client.load_table_from_dataframe(
-            df, table_ref, job_config=job_config
+        # Upload data using JSON format
+        job = self.client.load_table_from_json(
+            records, table_ref, job_config=job_config
         )
         job.result()  # Wait for completion
         

From f89fa3095b7e0c4a5026a438a4e39af553c13acf Mon Sep 17 00:00:00 2001
From: whitehackr <k.waithaka@nithio.com>
Date: Thu, 4 Sep 2025 06:41:18 +0300
Subject: [PATCH 2/2] Fix timestamp serialization in JSON upload method

- Add timestamp to string conversion for JSON serialization
- Ensure proper result tracking and summary reports
- Align with experiment_effects.py timestamp handling approach
- Results: Complete overlay generation without JSON errors
---
 scripts/generate_synthetic_data.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/scripts/generate_synthetic_data.py b/scripts/generate_synthetic_data.py
index 6573f20..09964ec 100644
--- a/scripts/generate_synthetic_data.py
+++ b/scripts/generate_synthetic_data.py
@@ -232,7 +232,13 @@ def _upload_dataframe(self, df: pd.DataFrame, table_name: str):
         table_ref = f"{self.project_id}.{self.dataset_id}.{table_name}"
         
         # Convert DataFrame to records for JSON upload (same method as experiment_effects.py)
-        records = df.to_dict('records')
+        # Convert timestamps to strings for JSON serialization
+        df_copy = df.copy()
+        for col in df_copy.columns:
+            if df_copy[col].dtype == 'datetime64[ns]':
+                df_copy[col] = df_copy[col].dt.strftime('%Y-%m-%d %H:%M:%S')
+        
+        records = df_copy.to_dict('records')
         
         # Configure load job for JSON format
         job_config = bigquery.LoadJobConfig(