Merhaba THT Ailesi,
Siber güvenlik alanında threat intelligence için geliştirdiğim bir proje paylaşmak istiyorum. Rust dilinde yazılmış, minimal kaynak tüketen bir tehdit sınıflandırma sistemi.
Proje Özellikleri
- 5 tehdit kategorisi: Malware, Phishing, Exploit, Botnet, Ransomware
- %99.8 training accuracy
- Hafif: ~400MB RAM, 7.8MB binary
- Hızlı: <1 saniye inference
- Cross-platform: Linux/Windows/macOS
Kullanılan Teknolojiler
Backend:
- Rust - Sistem programlama dili (performans + güvenlik)
- Candle - Rust ML framework (PyTorch benzeri)
- DistilBERT - NLP modeli (66M parametre, BERT'in hafif versiyonu)
- Tokenizers - HuggingFace tokenizer kütüphanesi
ML Yaklaşımı:
- Simple Neural Network + Bag-of-Words
- 500 CTI örnek veri ile fine-tuning
- Gradient descent optimization
- Softmax classification
Çalışma Mantığı
1. Text Input → Tokenization
2. Feature Extraction (1000 kelimelik vocabulary)
3. Neural Network Forward Pass
4. Softmax → Probability Distribution
5. Argmax → Threat Category
Test Sonuçları
Genel Test Sonucu
Projeyi şuanda tek başıma geliştirmeye çalışıyorum. Güven skorunun bu denli düşük olup gerçek dünyada kullanılamasının sebebi tek başıma modeli eğitecek kadar veri topluyamamış olmam.
Şuana kadar kullandığım veriler. Umarım ilerleyen zamanlarda gerçek dünyada kullanıma hazır hale getireceğim.
Siber güvenlik alanında threat intelligence için geliştirdiğim bir proje paylaşmak istiyorum. Rust dilinde yazılmış, minimal kaynak tüketen bir tehdit sınıflandırma sistemi.
Proje Özellikleri
- 5 tehdit kategorisi: Malware, Phishing, Exploit, Botnet, Ransomware
- %99.8 training accuracy
- Hafif: ~400MB RAM, 7.8MB binary
- Hızlı: <1 saniye inference
- Cross-platform: Linux/Windows/macOS
Kullanılan Teknolojiler
Backend:
- Rust - Sistem programlama dili (performans + güvenlik)
- Candle - Rust ML framework (PyTorch benzeri)
- DistilBERT - NLP modeli (66M parametre, BERT'in hafif versiyonu)
- Tokenizers - HuggingFace tokenizer kütüphanesi
ML Yaklaşımı:
- Simple Neural Network + Bag-of-Words
- 500 CTI örnek veri ile fine-tuning
- Gradient descent optimization
- Softmax classification
Çalışma Mantığı
1. Text Input → Tokenization
2. Feature Extraction (1000 kelimelik vocabulary)
3. Neural Network Forward Pass
4. Softmax → Probability Distribution
5. Argmax → Threat Category
Test Sonuçları
Rich (BB code):
cargo run --bin cti-ai --release -- classify -t "Emotet malware detected"
Genel Test Sonucu
Projeyi şuanda tek başıma geliştirmeye çalışıyorum. Güven skorunun bu denli düşük olup gerçek dünyada kullanılamasının sebebi tek başıma modeli eğitecek kadar veri topluyamamış olmam.
JSON:
[
{
"text": "Trojan.Win32.Generic detected in system32 folder attempting to modify registry keys",
"label": "malware",
"label_id": 0
},
{
"text": "Emotet malware spreading through malicious Office macros",
"label": "malware",
"label_id": 0
},
{
"text": "Cobalt Strike beacon detected communicating with command server",
"label": "malware",
"label_id": 0
},
{
"text": "Trickbot banking trojan stealing browser credentials and cookies",
"label": "malware",
"label_id": 0
},
{
"text": "Qbot malware observed downloading additional payloads from remote server",
"label": "malware",
"label_id": 0
},
{
"text": "Suspicious email with fake banking domain requesting password reset",
"label": "phishing",
"label_id": 1
},
{
"text": "Spear phishing campaign targeting executives with DocuSign impersonation",
"label": "phishing",
"label_id": 1
},
{
"text": "Fake Microsoft 365 login page harvesting user credentials",
"label": "phishing",
"label_id": 1
},
{
"text": "Business email compromise targeting finance department with invoice fraud",
"label": "phishing",
"label_id": 1
},
{
"text": "WhatsApp phishing message with malicious link to fake verification page",
"label": "phishing",
"label_id": 1
},
{
"text": "CVE-2024-1234 RCE vulnerability actively exploited in Apache servers",
"label": "exploit",
"label_id": 2
},
{
"text": "Zero-day exploit in Windows Print Spooler service allows privilege escalation",
"label": "exploit",
"label_id": 2
},
{
"text": "Log4Shell vulnerability exploitation attempts detected in web traffic",
"label": "exploit",
"label_id": 2
},
{
"text": "ProxyLogon Exchange Server exploit chain observed in wild",
"label": "exploit",
"label_id": 2
},
{
"text": "BlueKeep RDP vulnerability scanner activity detected on network",
"label": "exploit",
"label_id": 2
},
{
"text": "Mirai variant communicating with C2 server at 192.168.1.100",
"label": "botnet",
"label_id": 3
},
{
"text": "Zeus botnet variant using domain generation algorithm for C2 communication",
"label": "botnet",
"label_id": 3
},
{
"text": "IoT devices infected with Mozi botnet performing DDoS attacks",
"label": "botnet",
"label_id": 3
},
{
"text": "Necurs botnet distributing spam emails with malicious attachments",
"label": "botnet",
"label_id": 3
},
{
"text": "Andromeda botnet loader downloading secondary malware payloads",
"label": "botnet",
"label_id": 3
},
{
"text": "LockBit 3.0 encryption detected, ransom note found in affected directories",
"label": "ransomware",
"label_id": 4
},
{
"text": "Conti ransomware group leaked internal playbooks and tools",
"label": "ransomware",
"label_id": 4
},
{
"text": "BlackCat ransomware encrypting files with .locked extension",
"label": "ransomware",
"label_id": 4
},
{
"text": "REvil ransomware demanding bitcoin payment for decryption key",
"label": "ransomware",
"label_id": 4
},
{
"text": "WannaCry ransomware spreading via SMBv1 vulnerability exploitation",
"label": "ransomware",
"label_id": 4
}
]
