Data-deduplication

About

This is the Model for data deduplication challenge,which identifies unique patients from dataset by applying machine learning algorithms like clustering as well as logistic regression with help of python library dedupe. It takes in human training data and comes up with the best rules for your dataset to quickly and automatically find similar records, even with very large databases.

Installation

Install python and pip according to your system with the guide available here
git clone https://github.com/agarwalgaurav811/Data-deduplication && cd Data-deduplication
pip install -r requirements.txt
pip install -e .

Running Instructions

python main.py

A file named "Deduplication output.csv" will be created in the data directory with a new column called 'Cluster ID' which indicates which records refer to each other.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
Sample output		Sample output
Deduplication Problem - Sample Dataset.csv		Deduplication Problem - Sample Dataset.csv
README.md		README.md
assignment.pptx		assignment.pptx
main.py		main.py
requirements.txt		requirements.txt
settings		settings
training.json		training.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Sample output

Sample output

Deduplication Problem - Sample Dataset.csv

Deduplication Problem - Sample Dataset.csv

README.md

README.md

assignment.pptx

assignment.pptx

main.py

main.py

requirements.txt

requirements.txt

settings

settings

training.json

training.json

Repository files navigation

Data-deduplication

About

Installation

Running Instructions

About

Releases

Packages

Languages

agarwalgaurav811/Data-deduplication

Folders and files

Latest commit

History

Repository files navigation

Data-deduplication

About

Installation

Running Instructions

About

Topics

Resources

Stars

Watchers

Forks

Languages