start zookeeper and kafka server

Spark Configuration in window 10

https://drive.google.com/drive/folders/1rBauyUVCRTbnKXgkMGh4l9MdIOVj8CQc?usp=sharing

note: choose installtion path of java to "C:" drive

%SPARK_HOME%\bin

%HADOOP_HOME%\bin

%JAVA_HOME%\bin

C:\Java\jre1.8.0_281\bin

conda create -n <env_name> python=3.8 -y

select <env_name> created in previous step for project interpreter in pycharm.
Install all necessary python library specified in requirements.txt file using below command.

pip install -r requirements.txt

git init
git add .
git commit -m "first commit"
git branch -M main
git remote add origin <github_repo_link>
git push -u origin main

python training\stage_00_data_loader.py

python training\stage_01_data_validator.py

python training\stage_02_data_transformer.py

python training\stage_03_data_exporter.py

spark-submit training\stage_04_model_trainer.py

python prediction\stage_00_data_loader.py

python prediction\stage_01_data_validator.py

python prediction\stage_02_data_transformer.py

python prediction\stage_03_data_exporter.py

spark-submit prediction\stage_04_model_predictor.py

spark-submit csv_to_kafka.py

spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.0.1  spark_consumer_from_kafka.py

Credits: Avnish Yadav

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.idea		.idea
__pycache__		__pycache__
artifacts		artifacts
config		config
data		data
diagram		diagram
insurance_exception		insurance_exception
logger		logger
mongo_db		mongo_db
prediction		prediction
prediction_files		prediction_files
streaming		streaming
training		training
.gitignore		.gitignore
README.md		README.md
csv_to_kafka.py		csv_to_kafka.py
entry_point.py		entry_point.py
new_data.csv		new_data.csv
requirement.txt		requirement.txt
setup.py		setup.py
spark_consumer_from_kafka.py		spark_consumer_from_kafka.py
utility.py		utility.py