Banking ML Attacks PoC

Proof-of-Concept моделирует три класса атаки на простую ML-модель кредитного скоринга. Здесь же собраны выводы по mitigation strategies и тонкостям атаки

Цель: понять, как уязвимости моделей проявляются в реальных задачах, и на какие признаки стоит обращать внимание при продакшн-развёртывании

📈 Ключевые результаты

Простая табличная модель скоринга может быть легко атакована:
от снижения качества на 64 % (HopSkipJump) до утечки приватности клиентов (MIA)

🧨 1. Decision-based Adversarial Attack (HopSkipJump)

Clean Accuracy: 82.0 %
Adv. Accuracy: 18.0 %

2. Model Extraction Attack

Fidelity (surrogate vs victim): 95.4 %
Surrogate Accuracy: 81.7 %

🔓 3. Membership Inference Attack

Threshold: 0.93
Attack Accuracy: 55.6 %
AUC: 72.4 %

🚀 Быстрый старт

git clone https://github.com/proovethetruth/POC-Banking-ML-Attacks.git
cd POC-Banking-ML-Attacks

# Локально через Makefile
make setup        # ставит Python-зависимости
make all          # train + все PoC-атаки + генерация summary.png

# Или в Docker
docker build -t poc-banking-ml-attacks .
docker run --rm poc-banking-ml-attacks

Структура проекта

├── src/
│   ├── model_train.py
│   ├── extraction_attack.py
│   ├── membership_attack.py
│   ├── adversarial_tabular_attack.py
│   └── report.py
├── data/                        # raw + preprocessed
├── results/
│   ├── extraction_plot.png
│   ├── membership_roc.png
│   ├── tabular_adv_plot.png
├── docs/                        # defenses, architecture, findings
├── Makefile
├── Dockerfile
├── requirements.txt
└── README.md

Анализ

Все технические детали и выводы описаны в [docs/findings.md], а рекомендации по защите — в [docs/defenses.md].

Без rate-limiting и adversarial training модель легко сломать через HopSkipJump (Decision-based Adversarial), даже не зная её градиентов
По "чёрному" API можно обучить surrogate-модель с fidelity ~95% и accuracy ~82% на оригинальных данных (Model Extraction)
Простейший threshold-based подход к Membership Inference даёт AUC >72% и позволяет узнать, какие клиенты были в тренировочном наборе

Что дальше

Проект не претендует на полноту покрытия всех классов угроз, но демонстрирует, насколько низкий порог входа у атак на ML-модели даже без доступа к коду или градиентам

Какие вижу направления для развития:

Реализовать и сравнить методы детектирования атак (confidence thresholding, anomaly detection, DP defense и др.)
В реальных условиях продакшн-среды (например, с ограничением числа запросов, добавлением логирования и алертов)
Минимальный API, позволяющий имитировать атаки на модель в изолированной среде (полезно для обучения и демонстраций внутри команды)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Banking ML Attacks PoC

📈 Ключевые результаты

🧨 1. Decision-based Adversarial Attack (HopSkipJump)

2. Model Extraction Attack

🔓 3. Membership Inference Attack

🚀 Быстрый старт

Структура проекта

Анализ

Что дальше

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.github/workflows		.github/workflows
data		data
docs		docs
results		results
src		src
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
Makefile		Makefile
README.md		README.md
requirements.txt		requirements.txt

proovethetruth/POC-Banking-ML-Attacks

Folders and files

Latest commit

History

Repository files navigation

Banking ML Attacks PoC

📈 Ключевые результаты

🧨 1. Decision-based Adversarial Attack (HopSkipJump)

2. Model Extraction Attack

🔓 3. Membership Inference Attack

🚀 Быстрый старт

Структура проекта

Анализ

Что дальше

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages