Anomaly Medicare Part D Fraud Detection Using Supervised and Unsupervised Learning

Mentor: Dr. Janos Hajagos, Stony Brook University

Medicare fraud costs the US hundreds of billions of dollars each year and current efforts are insufficient in efficiently detecting fraud prescribers. The primary problem in the detection of fraud in Medicare Part D is that fraud providers only make up 0.000116% of all the providers. Thus far, no machine learning models in detecting Part D fraud have produced an area-under-the-curve (AUC) score of over 0.8. Utilizing training data augmentation, upsampling, and downsampling, eight classification algorithms were tested on the Part D data from 2013-2017, along with an LSTM RNN. Two exploratory data analytical methods were also conducted: distance matrices calculating the euclidean distance between two providers based on the similarity of their prescription patterns and market basket analysis detecting potential fraud based on pairs of drugs. The AUC scores of the machine learning models were significantly improved with the training data augmentation while the ROS, RUS, and ROS+RUS that previous studies used, had a much less positive effect. Surprisingly, the K-Nearest Neighbors algorithm performed the best with an AUC of 0.86, the highest out of any prior models in Medicare fraud detection. Additionally, an 80%-20% training/testing data split performed the best and that the inclusion of 188 specialty features and schedule 2 drug features improved each model’s AUC by an average of 0.04. Finally, the RNN for the top 4 fraud states yielded an AUC of 0.82, a big triumph as it is the first sequential Medicare fraud machine learning model.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Anomaly Medicare Part D Fraud Detection Using Supervised and Unsupervised Learning

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
2013_part_d_e_npi.csv		2013_part_d_e_npi.csv
2014_part_d_e_npi.csv		2014_part_d_e_npi.csv
2015_part_d_e_npi.csv		2015_part_d_e_npi.csv
2016_part_d_e_npi.csv		2016_part_d_e_npi.csv
2017_part_d_e_npi.csv		2017_part_d_e_npi.csv
5year_npi_generic_NJ_small.hdf5		5year_npi_generic_NJ_small.hdf5
5year_npi_generic_NJ_small_sortbyNPI.csv		5year_npi_generic_NJ_small_sortbyNPI.csv
Analyzing Medicare Part D Prescriber Data - 2013 - Fraud - DistanceMatrix - Test.ipynb		Analyzing Medicare Part D Prescriber Data - 2013 - Fraud - DistanceMatrix - Test.ipynb
Analyzing Medicare Part D Prescriber Data - 2013 - Fraud - DistanceMatrix.ipynb		Analyzing Medicare Part D Prescriber Data - 2013 - Fraud - DistanceMatrix.ipynb
Analyzing Medicare Part D Prescriber Data - 2013 - Fraud - ML - V6.ipynb		Analyzing Medicare Part D Prescriber Data - 2013 - Fraud - ML - V6.ipynb
Analyzing Medicare Part D Prescriber Data - 2014 - Fraud - DistanceMatrix.ipynb		Analyzing Medicare Part D Prescriber Data - 2014 - Fraud - DistanceMatrix.ipynb
Analyzing Medicare Part D Prescriber Data - 2015 - Fraud - DistanceMatrix.ipynb		Analyzing Medicare Part D Prescriber Data - 2015 - Fraud - DistanceMatrix.ipynb
Analyzing Medicare Part D Prescriber Data - 2016 - Fraud - DistanceMatrix.ipynb		Analyzing Medicare Part D Prescriber Data - 2016 - Fraud - DistanceMatrix.ipynb
Analyzing Medicare Part D Prescriber Data - 2017 - Fraud - DistanceMatrix - Test.ipynb		Analyzing Medicare Part D Prescriber Data - 2017 - Fraud - DistanceMatrix - Test.ipynb
Analyzing Medicare Part D Prescriber Data - 2017 - Fraud - DistanceMatrix.ipynb		Analyzing Medicare Part D Prescriber Data - 2017 - Fraud - DistanceMatrix.ipynb
Analyzing Medicare Part D Prescriber Data - 2017 - Fraud - ML.ipynb		Analyzing Medicare Part D Prescriber Data - 2017 - Fraud - ML.ipynb
Analyzing Medicare Part D Prescriber Data - 5year - Fraud - RNN-US.ipynb		Analyzing Medicare Part D Prescriber Data - 5year - Fraud - RNN-US.ipynb
Analyzing Medicare Part D Prescriber Data 2 2017 - Fraud - DistanceMatrix.ipynb		Analyzing Medicare Part D Prescriber Data 2 2017 - Fraud - DistanceMatrix.ipynb
Analyzing Medicare Part D Prescriber Data 2.ipynb		Analyzing Medicare Part D Prescriber Data 2.ipynb
Machine Learning Medicare Fraud 2013.ipynb		Machine Learning Medicare Fraud 2013.ipynb
Machine Learning Medicare Fraud 2013_mod.ipynb		Machine Learning Medicare Fraud 2013_mod.ipynb
Machine Learning Medicare Fraud 2014.ipynb		Machine Learning Medicare Fraud 2014.ipynb
Machine Learning Medicare Fraud 2014_mod.ipynb		Machine Learning Medicare Fraud 2014_mod.ipynb
Machine Learning Medicare Fraud 2015.ipynb		Machine Learning Medicare Fraud 2015.ipynb
Machine Learning Medicare Fraud 2015_mod.ipynb		Machine Learning Medicare Fraud 2015_mod.ipynb
Machine Learning Medicare Fraud 2016.ipynb		Machine Learning Medicare Fraud 2016.ipynb
Machine Learning Medicare Fraud 2016_mod.ipynb		Machine Learning Medicare Fraud 2016_mod.ipynb
Machine Learning Medicare Fraud 2017-ED - ET.ipynb		Machine Learning Medicare Fraud 2017-ED - ET.ipynb
Machine Learning Medicare Fraud 2017-ED - KNN.ipynb		Machine Learning Medicare Fraud 2017-ED - KNN.ipynb
Machine Learning Medicare Fraud 2017-ED - RF.ipynb		Machine Learning Medicare Fraud 2017-ED - RF.ipynb
Machine Learning Medicare Fraud 2017-ED.ipynb		Machine Learning Medicare Fraud 2017-ED.ipynb
Machine Learning Medicare Fraud 2017.ipynb		Machine Learning Medicare Fraud 2017.ipynb
Machine Learning Medicare Fraud 2017_mod - ExtraTrees.ipynb		Machine Learning Medicare Fraud 2017_mod - ExtraTrees.ipynb
Machine Learning Medicare Fraud 2017_mod - KNN.ipynb		Machine Learning Medicare Fraud 2017_mod - KNN.ipynb
Machine Learning Medicare Fraud 2017_mod - KNN1.ipynb		Machine Learning Medicare Fraud 2017_mod - KNN1.ipynb
Machine Learning Medicare Fraud 2017_mod - KNN2.ipynb		Machine Learning Medicare Fraud 2017_mod - KNN2.ipynb
Machine Learning Medicare Fraud 2017_mod - RF.ipynb		Machine Learning Medicare Fraud 2017_mod - RF.ipynb
Machine Learning Medicare Fraud 2017_mod - V1.ipynb		Machine Learning Medicare Fraud 2017_mod - V1.ipynb
Machine Learning Medicare Fraud 2017_mod - V2.ipynb		Machine Learning Medicare Fraud 2017_mod - V2.ipynb
Machine Learning Medicare Fraud 2017_mod.ipynb		Machine Learning Medicare Fraud 2017_mod.ipynb
README.md		README.md
analyze prescriber multi year hdf5.ipynb		analyze prescriber multi year hdf5.ipynb
build_multi_year_prescriber_array.py		build_multi_year_prescriber_array.py
build_multi_year_prescriber_array_mod.py		build_multi_year_prescriber_array_mod.py
doxepin_hcl_coeffs.hdf5		doxepin_hcl_coeffs.hdf5
health-open-data-workshop-master.7z		health-open-data-workshop-master.7z

xegux/Medicare-Part-D-Fraud-Detection

Folders and files

Latest commit

History

Repository files navigation

Anomaly Medicare Part D Fraud Detection Using Supervised and Unsupervised Learning

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages