data-profiling

Star

Here are 75 public repositories matching this topic...

mzj14 / function-dependency-exploration

Star

Homework for exploring function dependencies in data sets

python3 data-profiling function-dependency tane

Updated Apr 24, 2017
Python

wosaku / data-profiling-mask-analyzer

Star

Python function to generate a mask analysis

python data-quality data-profiling mask-analysis mask-analyzer

Updated Jul 22, 2017
Jupyter Notebook

rounayak / Data-Profiling-Tool

Star

The program compares two files at a time and does the following 1.Gathering metadata on the individual tables(column count,record count,list of columns with datatype etc) 2.Identifying matching columns between tables based on names as well as data. Using machine learning, we are handling syntactic as well as semantic variations of column names f…

python data-profiling

Updated Feb 17, 2018
Python

giagiannis / data-profiler

Star

Data profiler is an attempt to model the behavior of a given operator for a set of datasets.

data-science machine-learning dataset data-modeling similarity-matrix data-profiling bhattacharyya-coefficient

Updated Jan 9, 2019
Go

camillereaves / subreddit-crossposting

Star

Map naturally-occurring inter-subreddit content sharing patterns on Reddit by analyzing how posts are “cross-posted" between subreddits based on 2.5 million posts across the top 2,500 subreddits. Uses ECL and HPCC Systems.

data-mining reddit data-analysis social-network-analysis data-processing ecl data-cleaning data-profiling hpcc hpcc-platform mapping-tools hpcc-systems data-analysis-in-ecl

Updated Jul 14, 2019
ECL

bballamudi / deequ

Star

Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets.

data-quality-checks data-profiling

Updated Oct 24, 2019
Scala

bballamudi / great_expectations

Star

Always know what to expect from your data.

data-quality data-profiling

Updated Oct 26, 2019
Python

bballamudi / Optimus

Star

🚚 Agile Data Science Workflows made easy with Pyspark

pyspark data-quality data-profiling

Updated Oct 27, 2019
Jupyter Notebook

b-feldmann / hitucc

Star

Distributable UCC Discovery Algorithm based on Akka

akka distributed java8 data-profiling unique-column-combination

Updated Jan 7, 2020
Java

christianbors / OpenRefineQualityMetrics

Star

MetricDoc is an interactive visual exploration environment for assessing data quality

data-wrangling data-quality-checks visual-analytics interactive-visualizations data-quality data-profiling quality-metrics

Updated Mar 30, 2020
JavaScript

p-disha / NYC-Open-Dataset-Analysis

Star

Identified data types for each distinct column value on 1900 data sets. For each column, summarized semantic types present in the column, using Fuzzy Logic, Levenshtein distance. Identified & derived inference the 3 most frequent 311 complaint types by borough.

visualization json big-data python3 pyspark levenshtein-distance matplotlib fuzzy-logic data-profiling big-data-analytics nyc-opendata nyc-open-data 311-data

Updated Apr 15, 2020
Python

Divya171997 / Big-Data-for-Computational-Finance-Forex_Exchange_Rate

Star

Analysis of forex exchange rate dataset, covering the historical aspects over the period of time, in short doing Timeseries Analysis ,Data Cleansing and Transformation of Forex Exchange Dataset in order to transform it in format or structure required during Timeseries Analysis and Machine Learning ,Visualization of Forex Exchange Dataset based …

data-wrangling data-cleaning data-profiling loading-dataset html-report-of-data-analysis visualization-of-each-currency timeseries-analysis-of-single-year timeseries-analysis-of-single-month visualizing-actual-vs-predicted apply-ml-algo

Updated Jun 8, 2020
Jupyter Notebook

gandalf1819 / NYCOpenData-Profiling-Analysis

Star

Open Data Profiling, Quality and Analysis on NYC OpenData dataset with semantic profiling using fuzzy ratio, Levenshtein distance and regex

big-data pandas pyspark levenshtein-distance hdfs dask regular-expressions fuzzywuzzy fuzzy-logic data-profiling nyc-opendata modin nyc-311-dataset dask-distributed

Updated Nov 10, 2020
Jupyter Notebook

VIDA-NYU / sato

Star

Fork of Sato for easy deployment as a Python package

table data-processing data-profiling

Updated Nov 26, 2020
Python

LieseB-1746743 / data-cleaning

Star

Data cleaning tool.

data-clustering data-cleaning data-profiling data-cleansing cleaning-data

Updated Apr 20, 2021
JavaScript

arghyab0 / FIFA19DreamTeam

Star

A R Notebook to perform basic data profiling and exploratory data analysis on the FIFA19 players dataset and create a dream-team of the top 11 players considering various player attributes.

r exploratory-data-analysis data-profiling