learningOrchestra
diff --git a/‎.gitignore‎
Lines changed: 4 additions & 1 deletion b/‎.gitignore‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎README.md‎
Lines changed: 3 additions & 177 deletions b/‎README.md‎
Lines changed: 3 additions & 177 deletions
diff --git a/‎examples/sentiment_analysis.py‎
Lines changed: 162 additions & 0 deletions b/‎examples/sentiment_analysis.py‎
Lines changed: 162 additions & 0 deletions
@@ -6,4 +6,7 @@ learning_orchestra_client/transform/__pycache__
 learning_orchestra_client/main.py
 learning_orchestra_client/explore/__pycache__
 learning_orchestra_client/builder/__pycache__
-docs
+docs
+sentiment_analysis_output.py
+mnist_output.py
+mnist_treatment.py
@@ -23,182 +23,8 @@ Each functionality in learningOrchestra is contained in its own class. Check the
 
 # Example
 
-Shown below is an example usage of learning-orchestra-client using the [Titanic Dataset](https://www.kaggle.com/c/titanic/overview):
+* [Here](examples/titanic.py) has an example using the [Titanic Dataset](https://www.kaggle.com/c/titanic/overview):
+* [Here](examples/sentiment_analysis.py) has an example using the [Sentiment Analysis On IMDb reviews](https://www.kaggle.com/avnika22/imdb-perform-sentiment-analysis-with-scikit-learn):
+* [Here](examples/mnist.py) has an example using the [MNIST Dataset](http://yann.lecun.com/exdb/mnist/):
 
-```python
-from learning_orchestra_client import (
-    dataset,
-    builder,
-    transform,
-)
 
-cluster_ip = "34.95.187.26"
-
-
-dataset = Dataset(cluster_ip)
-
-print(dataset.insert_dataset_sync(
-    "titanic_training",
-    "https://filebin.net/rpfdy8clm5984a4c/titanic_training.csv?t=gcnjz1yo"))
-print(dataset.insert_dataset_sync(
-    "titanic_testing",
-    "https://filebin.net/mguee52ke97k0x9h/titanic_testing.csv?t=ub4nc1rc"))
-
-print(dataset.search_all_datasets())
-
-
-projection = Projection(cluster_ip)
-required_columns = [
-    "PassengerId",
-    "Pclass",
-    "Age",
-    "SibSp",
-    "Parch",
-    "Fare",
-    "Name",
-    "Sex",
-    "Embarked",
-    "Survived"
-    ]
-print(projection.insert_dataset_attributes_sync(
-        "titanic_training",
-        "titanic_training_projection",
-        required_columns))
-
-required_columns.remove("Survived")
-
-print(projection.insert_dataset_attributes_sync(
-    "titanic_testing",
-    "titanic_testing_projection",
-    required_columns))
-
-
-data_type_handler = DataType(cluster_ip)
-type_fields = {
-    "Age": "number",
-    "Fare": "number",
-    "Parch": "number",
-    "PassengerId": "number",
-    "Pclass": "number",
-    "SibSp": "number"
-}
-
-print(data_type_handler.update_dataset_types(
-    "titanic_testing_projection",
-    type_fields))
-
-type_fields["Survived"] = "number"
-
-print(data_type_handler.update_dataset_types(
-    "titanic_training_projection",
-    type_fields))
-
-
-modeling_code = '''
-from pyspark.ml import Pipeline
-from pyspark.sql.functions import (
-    mean, col, split,
-    regexp_extract, when, lit)
-
-from pyspark.ml.feature import (
-    VectorAssembler,
-    StringIndexer
-)
-
-TRAINING_DF_INDEX = 0
-TESTING_DF_INDEX = 1
-
-training_df = training_df.withColumnRenamed('Survived', 'label')
-testing_df = testing_df.withColumn('label', lit(0))
-datasets_list = [training_df, testing_df]
-
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.withColumn(
-        "Initial",
-        regexp_extract(col("Name"), "([A-Za-z]+)\.", 1))
-    datasets_list[index] = dataset
-
-misspelled_initials = [
-    'Mlle', 'Mme', 'Ms', 'Dr',
-    'Major', 'Lady', 'Countess',
-    'Jonkheer', 'Col', 'Rev',
-    'Capt', 'Sir', 'Don'
-]
-correct_initials = [
-    'Miss', 'Miss', 'Miss', 'Mr',
-    'Mr', 'Mrs', 'Mrs',
-    'Other', 'Other', 'Other',
-    'Mr', 'Mr', 'Mr'
-]
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.replace(misspelled_initials, correct_initials)
-    datasets_list[index] = dataset
-
-
-initials_age = {"Miss": 22,
-                "Other": 46,
-                "Master": 5,
-                "Mr": 33,
-                "Mrs": 36}
-for index, dataset in enumerate(datasets_list):
-    for initial, initial_age in initials_age.items():
-        dataset = dataset.withColumn(
-            "Age",
-            when((dataset["Initial"] == initial) &
-                 (dataset["Age"].isNull()), initial_age).otherwise(
-                    dataset["Age"]))
-        datasets_list[index] = dataset
-
-
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.na.fill({"Embarked": 'S'})
-    datasets_list[index] = dataset
-
-
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.withColumn("Family_Size", col('SibSp')+col('Parch'))
-    dataset = dataset.withColumn('Alone', lit(0))
-    dataset = dataset.withColumn(
-        "Alone",
-        when(dataset["Family_Size"] == 0, 1).otherwise(dataset["Alone"]))
-    datasets_list[index] = dataset
-
-
-text_fields = ["Sex", "Embarked", "Initial"]
-for column in text_fields:
-    for index, dataset in enumerate(datasets_list):
-        dataset = StringIndexer(
-            inputCol=column, outputCol=column+"_index").\
-                fit(dataset).\
-                transform(dataset)
-        datasets_list[index] = dataset
-
-
-non_required_columns = ["Name", "Embarked", "Sex", "Initial"]
-for index, dataset in enumerate(datasets_list):
-    dataset = dataset.drop(*non_required_columns)
-    datasets_list[index] = dataset
-
-
-training_df = datasets_list[TRAINING_DF_INDEX]
-testing_df = datasets_list[TESTING_DF_INDEX]
-
-assembler = VectorAssembler(
-    inputCols=training_df.columns[:],
-    outputCol="features")
-assembler.setHandleInvalid('skip')
-
-features_training = assembler.transform(training_df)
-(features_training, features_evaluation) =\
-    features_training.randomSplit([0.8, 0.2], seed=33)
-features_testing = assembler.transform(testing_df)
-'''
-
-builder = Builder(cluster_ip)
-
-print(builder.run_builder_sync(
-    "titanic_training_projection",
-    "titanic_testing_projection",
-    modeling_code,
-    ["lr", "dt", "gb", "rf", "nb"]))
-```
@@ -0,0 +1,162 @@
+from learning_orchestra_client.dataset.csv import DatasetCsv
+from learning_orchestra_client.function.python import FunctionPython
+from learning_orchestra_client.model.scikitlearn import ModelScikitLearn
+from learning_orchestra_client.train.scikitlearn import TrainScikitLearn
+from learning_orchestra_client.predict.scikitlearn import PredictScikitLearn
+
+CLUSTER_IP = "http://34.68.100.96"
+
+dataset_csv = DatasetCsv(CLUSTER_IP)
+
+dataset_csv.insert_dataset_sync(
+    dataset_name="sentiment_analysis",
+    url="https://drive.google.com/u/0/uc?"
+        "id=1PSLWHbKR_cuKvGKeOSl913kCfs-DJE2n&export=download",
+)
+
+function_python = FunctionPython(CLUSTER_IP)
+
+explore_dataset = '''
+pos=data[data["label"]=="1"]
+neg=data[data["label"]=="0"]
+
+total_rows = len(pos) + len(neg)
+
+print("Positive = " + str(len(pos) / total_rows))
+print("Negative = " + str(len(neg) / total_rows))
+
+response = None
+'''
+
+function_python.run_function_sync(
+    name="sentiment_analysis_exploring",
+    parameters={"data": "$sentiment_analysis"},
+    code=explore_dataset)
+
+print(function_python.search_execution_content(
+    name="sentiment_analysis_exploring",
+    limit=1,
+    skip=1,
+    pretty_response=True))
+
+dataset_preprocessing = '''
+import re;
+
+
+def preprocessor(text):
+    global re
+    text = re.sub("<[^>]*>", "", text)
+    emojis = re.findall("(?::|;|=)(?:-)?(?:\)|\(|D|P)", text)
+    text = re.sub("[\W]+", " ", text.lower()) + \
+           " ".join(emojis).replace("-", "")
+    return text
+
+
+data["text"] = data["text"].apply(preprocessor)
+
+from nltk.stem.porter import PorterStemmer
+
+porter = PorterStemmer()
+
+
+def tokenizer_porter(text):
+    global porter
+    return [porter.stem(word) for word in text.split()]
+
+
+from sklearn.feature_extraction.text import TfidfVectorizer
+
+tfidf = TfidfVectorizer(strip_accents=None, 
+                        lowercase=False, 
+                        preprocessor=None,
+                        tokenizer=tokenizer_porter, 
+                        use_idf=True, 
+                        norm="l2",
+                        smooth_idf=True)
+
+y = data.label.values
+x = tfidf.fit_transform(data.text)
+
+from sklearn.model_selection import train_test_split
+
+X_train, X_test, y_train, y_test = train_test_split(x, y, 
+                                                    random_state=1,
+                                                    test_size=0.5,
+                                                    shuffle=False)
+        
+response = {
+    "X_train": X_train,
+    "X_test": X_test,
+    "y_train": y_train,
+    "y_test": y_test
+}
+'''
+
+function_python.run_function_sync(
+    name="sentiment_analysis_preprocessed",
+    parameters={
+        "data": "$sentiment_analysis"
+    },
+    code=dataset_preprocessing
+)
+
+model_scikitlearn = ModelScikitLearn(CLUSTER_IP)
+
+model_scikitlearn.create_model_sync(
+    name="sentiment_analysis_logistic_regression_cv",
+    module_path="sklearn.linear_model",
+    class_name="LogisticRegressionCV",
+    class_parameters={
+        "cv": 6,
+        "scoring": "accuracy",
+        "random_state": 0,
+        "n_jobs": -1,
+        "verbose": 3,
+        "max_iter": 500
+    }
+
+)
+
+train_scikitlearn = TrainScikitLearn(CLUSTER_IP)
+train_scikitlearn.create_training_sync(
+    parent_name="sentiment_analysis_logistic_regression_cv",
+    name="sentiment_analysis_logistic_regression_cv_trained",
+    model_name="sentiment_analysis_logistic_regression_cv",
+    method_name="fit",
+    parameters={
+        "X": "$sentiment_analysis_preprocessed.X_train",
+        "y": "$sentiment_analysis_preprocessed.y_train",
+    }
+)
+
+predict_scikitlearn = PredictScikitLearn(CLUSTER_IP)
+predict_scikitlearn.create_prediction_sync(
+    parent_name="sentiment_analysis_logistic_regression_cv_trained",
+    name="sentiment_analysis_logistic_regression_cv_predicted",
+    model_name="sentiment_analysis_logistic_regression_cv",
+    method_name="predict",
+    parameters={
+        "X": "$sentiment_analysis_preprocessed.X_test",
+    }
+
+)
+
+logistic_regression_cv_accuracy = '''
+from sklearn import metrics
+
+print("Accuracy: ",metrics.accuracy_score(y_test, y_pred))
+
+response = None
+'''
+function_python.run_function_sync(
+    name="sentiment_analysis_logistic_regression_cv_accuracy",
+    parameters={
+        "y_test": "$sentiment_analysis_preprocessed.y_test",
+        "y_pred": "$sentiment_analysis_logistic_regression_cv_predicted"
+    },
+    code=logistic_regression_cv_accuracy
+)
+
+print(function_python.search_execution_content(
+    name="sentiment_analysis_logistic_regression_cv_accuracy",
+    pretty_response=True))