Description

Almost 30 years of AI experience (Artificial Intelligence): Deep Learning, Data Science, Big Data, NLP

Key Skills: Deep Learning (CNN, RNN, TensorFlow, MXNet, Caffe, Torch, etc.), Deep NLP (Natural Language Processing: BERT, ULM-FiT, ELMo, Transfer Learning, OpenNMT, OpenAI Transformer, AllenNLP, Stanford CoreNLP), Data Science (Apache Spark MlLib, Mahout, R, spaCy, Anaconda), Hybrid Models (predefined structures + neural networks + weights/stochastics), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Attention, Feast AI), ONNX, PMML, OpenScoring.io, TransmogrifAI, Facebook XLM, storage of deep learning intermediate results + models, knowledge representation and inference (reasoning, drawing conclusions), semantics, virtualisation, management with Docker, Kubernetes, Airflow, etc.

Languages

German
Native or bilingual
English
Fluent
French
Fluent

Workplace preferences

Can work on-site

Karlsruhe (up to 50km), Karlsruhe (up to 100km), Straßburg (up to 100km)

Deutsche Bahn AG
IT-Architekt und fachlicher Projekt- & Team-Leiter von 10 Personen
TRANSPORTATION
April 2019 - Today (7 years and 3 months)
Frankfurt am Main, Germany
Konzeption eines Open Source SOCs (Security Operations Center)
1. Splunk: Installation, Konfiguration, Analyse und Anbindung an Input-Quellen, Erstellung von Splunk-Analyse- und Visualisierungs-Use Cases mit SPL (Search Processing Language).
2. Zukunftsvision der SOC-Architektur erstellt auf Basis von Apache Metron + Kafka + Spark + Elas-tic/ELK Stack (ElasticSearch, LogStash, Kibana) und Konzeption ihrer Komponentenarchitektur - möglichst mit Open-Source-Tools, um Kosten zu sparen. Dazu viele konkrete Vorschläge zur Ver-besserung des SOCs (Security Operations Center), Erstellen einer neuen SOC-Architektur mit KI-Elementen: Big Data/Data Science Ansatz zur Angriffs-/Malware-/APT-Erkennung mit Machine Learning und Fokus auf False-Positives-Reduzierung. Visualisierungskonzept zu Angriffs-Verdachtsfällen mit den jeweiligen Security-Kontexten per Design Thinking.
3. Aufsetzen + Starten des agilen Open Source SOC Projekts: Strategische Planung, Coaching: Zu-nächst SAFe + Design Thinking zur Beantragung der Projektfinanzierung, dann vereinfachte Durchführung als Scrum-Prozess; Coaching zur Verbesserung der Produktivität und Zusammenar-beit.
4. Recherche, Test und Analyse der führenden Open Source SIEM/SOC Systeme: Apache Metron / HCP (Hortonworks Cybersecurity Platform), Apache Spot, dataShark, Alienvault OSSIM, Graylog, SIEMonster, Hunting ELK (HELK), RockNSM, Wazuh, MozDef, OSSEC, Prelude OSS, Snort, Quad-rantSec Sagan, Suricata, OpenStack Vitrage.
5. Requirements Engineering, Use Case 2.0 Engineering der SIEM-/SOC-Features allgemein und im Bahnkontext mit Walking-Skeleton-Ansatz. Analyse der Kosten-/Nutzen-Aspekte der Use Cases und deren Abhängigkeiten als Input für agiles Kunden-Wert-basiertes Produktmanage-ment/Product Owner Tätigkeiten.
6. Detail-Vergleich von Elastic mit Solr, der führenden JavaScript-Frameworks: React, Angular und Vue.js, die jeweiligen Native-Frameworks (Ionic etc.) sowie Electron Platform sowie der führen-den Clouds: Amazon AWS, Google GCP und Microsoft Azure sowie Docker/Kubernetes, Webso-ckets vs REST, GraphQL vs Odata vs ORDS, Vergleich geeigneter DBs, z.B. für Range-Scans, AWS RedShift vs Athena.
7. Erstellung einer SOC-Gesamtarchitektur mit Umfängen für Minimal-, Basic-, Advanced- und Pre-mium-Konfiguration mit bis zu 100 Komponenten. Auf dieser Basis Analyse und Präsentation der Chancen/Kosten/Risiken zur Erfüllung von Requirements und Use Cases gegenüber Management und Engineering-Gruppen.
8. Erstellung der SOC Open Source SOC PoC (Proof of Concept) Architektur basierend auf 3 Säulen: Log-Verarbeitung mit Solr/Elastic, Open Source SOC Elementen (RegEx, Match Expressions mit Spark, Kafka, Solr etc.) sowie einer KI-Säule bestehend aus Data Science und Regel-basierter KI mit Spark sowie Deep Learning mit TensorFlow und PyTorch.
9. Erstellung und Abstimmung des Open Source SOC PoC Projektplans und der Architektur mit dem Top-Management der Bahn (CISO, Technik-Vorstands-Bereich), Erstellung von ca. 10 Job-Profilen und Staffing/Job-Interviews auf dieser Basis.
10. Beschaffung von Deep Learning GPU PC- und Server-Hardware und von Cloud-Zugängen (AWS+Azure).
11. Konzeption und Entwicklung zur Einführung von Docker/Kubernetes für TensorFlow- und Py-Torch-Machine-Learning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Ku-be-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risi-ken und Ableitung von Best Practices/Empfehlungen.
12. Evaluierung von Memory-Centric-Tools: Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
13. Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-Centric Computing, Data-Locality-Optimierung und Minimierung datenin-tensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
14. Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Conti-nuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
15. Analyse von möglichen Deep Learning Nachfolgetechnologien wie Hierarchical Temporal Memory (HTM), Graph/Memory/Transformer ConvNets (Convolutional Networks) incl. deren frei verfügba-ren Implementierungen sowie PLNs (Probabilistic Logic Network): [Naive] Bayesian Belief Net-works (BNNs), Markov Logic Networks (MLNs), Conditional Random Fields (CRFs), Direct Graphical Models (DGMs), Statistical Relational Learning (SRL), Stochastic And-Or Grammars (AOGs/SAOGs), Probabilistic Relational Models (PRMs), Markov Logic Networks (MLNs), Relational Dependency Networks (RDNs), Bayesian Logic Programs (BLPs), Probabilistic Graphical Models (PGMs), Markov Random Fields (MRFs), Contextual Graph Markov Models (CGMMs), Hidden Markov Models (HMMs), Human brain neurons (HBNs).
16. Konzeption + Entwicklung eines neuen Explainable AI (XAI) Verfahrens, das Deep Learning ablö-sen kann durch Verbindung und Weiterentwicklung mehrerer anderer Modelle und Techniken, darunter ICE, PDP, SHAP, LIME, LOCO, LRP, GAM, Counterfactual, Causality, Rationalization, An-chors, Learn to Explain.
17. Förderantrag ausgearbeitet zur Beantragung der Förderprogramme KI-für IT-Sicherheit und Er-klärbare KI (Explainable AI, XAI) der Bundesregierung: Innovative Ideen entwickelt, neueste KI-, Data Science und Big Data Verfahren und Weiterentwicklungen vorgeschlagen zur Erkennung von ungewöhnlichem Verhalten/Angriffen/Malware sowie neueste NLP-Verfahren zur automatisier-ten Analyse von textuellen Angriffs- und Malware-Beschreibungen im Internet oder in E-Mails/Wikis sowie der Umsetzung der Cyber Grand Challenge Elemente über Deep Learning, RNNs, CNNs. Hierzu Entwicklung der Geschäftsstrategie und des Geschäftsplans zur separaten Vermarktung der damit geplanten Innovationen.
18. Erstellen von Sicherheitskonzepten für Windows- und Linux PCs und Sever u.A. bzgl. zahlreicher Sicherheitseinstellungen, IAM mit Red Hat Identity Manager / FreeIPA (Identity, Policy, Audit), keycloak, mehr Logging, etc. sowie durch Installation von bis zu 50 Analyse- und Überwachungs-Tools zur Generierung eigener Logging- und Incident-Daten mit Tools wie Sigar, Config. Discovery, File Integrity Checker (Afick), CGC Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, Strace, ZZUF, BitBlaze.
19. Konzeption von klassischen Data Science Analysen bzgl. verdächtiger Aktivitäten mit GBM(Gradient Boosting Machine), XGBoost, CatBoost, LightGBM, stacked ensembles, blending, MART (Multiple Additive Regression Trees), Generalized Linear Models (GLM), Distributed Rand-om Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.
20. Analyse der besten Deep Learning Netzwerk-Architekturen in den jeweiligen Teilfeldern: Res-Net, ResNext, DenseNet, MSDNet (Multi-Scale DenseNet), RepMet, EfficientNet sowie der folgen-den NLP-Implementierungen (z.B. zur Extraktion strukturierter Beschreibungen aus textuellen IoC – Indicators of Compromise): BERT, FastBert, SenseBERT, RoBERTa, ALBERT, GPT, GPT-2.
21. Konzeption/Entwicklung von neuronalen Deep Learning Netzwerk-Architekturen für TensorFlow, Keras, PyTorch mit diesen Elementen: (De-)Convolution, [Dimensional][Min/Max/Average] (Un-)Pooling, Activation Functions, ReLUs (Rectified Linear Units), ELU (Exponential Linear Unit), SELU (Scaled Exponential Linear Unit), GELU (Gaussian Error Linear Unit), SNN (Self Normalizing Net-work), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Differentiable Associative Memory (Soft RAM/Hash Table), Episodic Memory, Memory Networks, Self-Attention, Multi-Head-Attention, (Masked Multi) Self Attention, NAC (Neural Accumulator), NALU (Neural Arithmetic Lo-gic Unit), Squeeze-and-Excitation (SE) / SENet, SPN (Sum-Product Network), VAE (Variational Auto-Encoders), FCLs (Fully Connected Layers), PLNs (Probabilistic Logic Networks), GANs (Generative Adversarial Networks), Capsule Networks, gcForest, Differentiable Programming, Neural Architec-ture Search (NAS), Differentiable Neural Networks, [Transposed](De-)Convolutions, ETL (Extract, Transform, Load) with Input/Output Embedding, (Layer) Normalizing, Softmax, Automatic Machine Learning, Episodic Memory, Differentiable Associative Memory, Large Memory Layers with Pro-duct Keys, Deep (Double) Q-Learning, Msc (Adding, Concatenation, Segmentation, Linearization, (Convol.) Filters), Reinforcement Learning, Q-learning, Convolutional Models/Learning, Google Dopamine.
22. Konzeption der Deep Learning Architekturen u.A. über erzeugte Grafiken/Computer Vision für folgende Use Cases / Use Case Slices: Ausbreitung von Malware durch Security-Zonen (Ausbrei-tungs-Grafik), Erkennung des (Check-, Verbreitungs-, Ausleitungs-)Verhaltens von Malware, häufi-ger Angriffe, insbesondere OS-API-Angriffe, Code Injection, etc., von gestohlenen CPU-Zyklen durch Malware, z.B. durch Hooks in Event-Queues zur Erkennung von deren Abarbeitung, von ROP (Return Oriented Programming) mit ROPNN-Variante auf Standard-Libraries durch Vergleich der üblichen mit den zu beurteilenden Einsprungpunkten; Modelle erstellt für Meta-Level: Netz-werk-Metadaten-Analyse; Detail-Level: Nutzdaten-Analyse auf Exploit-Code/-Daten etc., aktuelle Bedrohungen, bekannt gewordene IoCs, Afick-/tripwire-Daten neuronal analysieren (oft als Gra-fik), Erkennung von Verschlüsselung und von Schlüssel-Austauschen, SNMP Anomalie-Detektion, Rogue Device Detection, Erkennung bösartiger URLs/IP-Adressen, Erkennung von DNS-Exfiltration, Erkennung von Aktivität sonst inaktiver Konten, E-Mails an fragwürdige Empfän-ger/Exfiltration, verdächtige Netzwerk-Aktivitäten/ungewöhnliche Protokolle/Ports, Echtzeit-Scannen von Downloads und Kombination von dynamischer Dekompression (Laufzeit-Packer), Vi-ren- und Anomalie-Erkennung (statisch und dynmisch in Cuckoo Sandbox).
23. Nutzung von Computer Vision Muster-Erkennungsverfahren speziell zur Erkennung von Unre-gelmäßigkeiten bzw. Malware-/Hacking-Indikatoren: Prozess- und API Aufrufketten, ungewöhnli-che API-Nutzung, Indikatoren für Hacker-Bewegungen im Netzwerk, Indikatoren für Malware-Aktivität auf Datei- oder Prozess-Ebene, Nutzung von Laufzeit-Packern, etc.
24. Detail-Konzeption der folgenden Elastic-/Solr-Aspekte (Parallelnutzer beider Systeme wegen a) Integration von Elastic in Metron und seinen vielen Adaptern/Konnektoren/Beats und b) besserer Skalierbarkeit von Solr z.B. wegen kontrollierbarem dynamischem Shard-Rebalancing): SolrCloud/HDP Search, Integration mit Apache Ranger + Sentry + Atlas, Performance-optimierter SolrJ Client mit parallelen Queries, Distributed Indexing, Index Sharding, Shard Splitting und Reba-lancing (auch zur Laufzeit), Cross Data Center Replication (CDCR), Solr Security (Kerberos, AD-Anbindung, SASL, SSL), Versionierung mit Avro & LDP (Linked Data Platform) & Apache Marmot-ta/RFC 7089, Stretched Cluster vs synched Multi-Cluster, Sizing, Definition der Solr Index Identifi-er (UID), High Availability (HA) und Disaster Recovery (DR) Mechanismen, Solr HA, Load-Balancing-Konzept (HW-basiert über F5, Ping gegen SolrCloud Node, solr healthcheck, Zookeeper, Content-Query gegen Test-Collection, SolrJ Client), Q Replikation, Konzeption von Overlay-Netzen (SDN, Software-Defined Networking).
25. Konzeption der parallel genutzen Amazon AWS Cloud-Architektur sowie parallel der Azure Archi-tektur mit Migrationskonzept in die Cloud (möglichst cloud-unabhängig durch Nutzung von Do-cker/Kubernetes) unter Nutzung vond Microservices/Serverless (AWS Lambda), Risiko-Vermeidungsstrategie, Virtualisierung, effizientem JavaScript-UI mit React, Cloud-Sicherheitskonzept, Microservice-Architektur, Microservice-Versionierungsstrategien, optimier-tem Datenaustausch, Nutzung des AWS Storage Gateways, AWS Redshift, Relational Database Ser-vice (RDS), Simple Queue Service (SQS), Simple Notification Service (SNS), S3, Glue, Kinesis, Athe-na, DDD (Domain-Driven Design) and Bounded Contexts, Product Line Architecture, Single-Sign-On-Konzept (SSO), Spring Boot und Reactor Microservices, etc.
26. Recherche und Analyse verfügbarer Sicherheits-Incident- und Hacking-Daten als Input für klassi-sches Machine Learning (Spark MLlib etc.) sowie für Deep Learning (TensorFlow, PyTorch). Es gibt ca. 100 verschiedene Quellen, aber mit Labeling in unterschiedlicher Qualität, unterschiedlichem Konvertier- und Anpassungsaufwand, etc.
27. Generierung eigener IT-Sicherheits-Trainingsdaten für Machine Learning (ML) über voll-instrumentierte Linux- und Windows-basierte Umgebungen (PC, vmWare), in denen dann ca. 50 PenTesting Tools wie MetaSploit, AutoSploit etc. ausgeführt wurden. Anleitung zur Normalisierung und zum Labeling der so erstellten sowie der externen Daten. Erstellung/Extraktion von regulären Ausdrücken sowie Generierung von ähnlichen Angriffen/Payloads auf dieser Basis.
28. Konzeption+Entwicklung einer Kontroll- und Steuerungs-Library in Scala für Erkennung und KI, die alle Kernelemente des SOCs monitored und steuert.
29. Konzeption+Entwicklung einer UI- und Query-Library in Scala, die intelligente Analysen im Kiba-na-Dashboard mit React visualisiert sowie nach unten über Apache Drill mit Drillbits Query-Mapping in SQL, HQL, Solr und ähnliche Dialekte durchführt. Hierbei haben wir weitgehend Splunk’s SPL (Search Processing Language) als unsere OPL (Open Processing Lanaguage) nachge-bildet. Dabei handelt es sich im Wesentlichen um SQL erweitert um Infos zur Darstellung im UI.
30. Entwicklung/Nutzung einer Kombination von datensparsamen Lernverfahren als Antwort auf mangelnde Trainingsdaten. So lassen sich anfänglich aufgrund Datenmangel noch nicht per Deep Learning lernbare Gewichte/Zusammenhänge manuell / halbautomatisch oder datensparsam ler-nen:
a. Entwicklung probabilistischer Regeln durch Code-Generierung zur Anbindung von MS Excel bzw. PyTorch/PyProb mittel StringTemplate/VBA an Factorie, ProbLog und Probabi-listic Soft Logic (PSL). Diese werden dann später – nach Produktivsetzung – ersetzt durch aus Massendaten gelernte Regelsysteme/Autoencoder.
b. Probabilistische Programmierung, Bayes- bzw. Stochastik-Libraries, (PP) / Programmab-le Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen.jl oder Pyro o-der Edward oder Microsoft Infer.Net
c. (SSL) Semi-Supervised Learning/Self-Supervised Learning
d. Intelligentes Tokenizing, intelligente selektive Feature-Extraktion (hieraus Log- oder Security-Warning-Daten)
e. Case-Based Reasoning (CBR)/Memory-Based Reasoning (MBR): CRATER, ProCAKE, COLIBRI, etc.
f. Constraint-based Reasoning, Theory of Constraints (TOC) Frameworks, Hierarchical Cons-traint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
g. Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
h. (Heuristic non-linear) Optimization oder Operations Research Software wie ALGLIB, Ca-sADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
i. Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigati-on2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
j. SinGAN (Single Input GAN)
k. Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Op-timization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
l. klassische KI-Verfahren wie CBR, Constraints, Rules, RDF, OWL,
m. Gesamte Liste der klassischen datensparsamen Lernverfahren: Causality, lo-gic/deduction systems, deductive databases, semantic networks, heuristics, collective in-telligence, automata/state machines, blackboard systems, nonstandard logics/temporal logic, (knowledge) representation, automatic programming, genetic programming, quali-tative reasoning, agents, fuzzy logic, model-based reasoning, ontology, quantum compu-ting, analogy, pattern recognition/comparison, decision theory, cognitive science, con-trol system theory, dynamical systems, self-organizing systems, hybrid AI, modularity, op-timization, goal-oriented systems, feature extraction/detection, utili-ty/values/fitness/progress, formal grammars and languages, classifiers/concept formati-on, problem solving, argumentation/informal logic, common sense reasoning, cohe-rence/consistency, relevance/sensitivity analysis, semiotics, game theory, automation, behaviorism, knowledge engineering, semantic web, sorting/typology/taxonomy, coope-ration theory, systems theory.
31. NLP-Analyse und-Generation (Natural Language Processing) von Log- und Web-Inhalten und Kommandos zur Suche oder zur weiteren Verarbeitung auf diesen:
a. Extraktion von Fließtext-IoC-Inhalten (Indicator of Compromise) ins STIX-Format zur teil-automatischen Weiterverarbeitung, etwa automatisierte Suche nach Dateihashes, Analy-se & Sperren von offenen Ports und ein-/ausgehenden Verbindungen.
b. Semantische Kategorisierung (Problem-Kategorie, Schwere des Fehlers und möglicher Auswirkungen/Risiken, Dringlichkeit) und textuelle NLP-Analyse von Log-Inhalten mit genSim, spaCy und in Teilen auch mit Google BERT, ALBERT, GPT, Graph-ConvNets mit Octavian, Google Sling, TensorFlow graph_nets & gcn (Graph Convolutional Networks), PyTorch Geometric.
c. Für NLP-Analyse und-Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transfor-mer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirecti-onal Encoder Representations from Transformers)), ALBERT.
32. Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange : High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).Für NLP-Analyse und-Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers)), ALBERT.
33. Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den (Teil-)Projekten oder direkter Vorschlag der Lösungen:
a. Analyse von Semantik-Tools, Symbolic AI und Explainable AI für das KI-Security-Förderprogramm sowie für neue Arbeitspakete: KL-ONE: Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/ SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), Induktions-/Deduktions-Technologie wie OWL/OWL-DL (Ontology Web Language Description Logics), führende Implementierung: Apache Jena OWL, HPSG (Head-driven Phrase Structure Grammar) Parsing: DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logik, Explainable AI mit LOCO (Leave-One-Covariate-Out).
b. NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Ana-lysieren/Parsen von Screenshots mit OCR/ICR-Techniken (Computer Vision Ansätze mit Deep Leearning, Verarbeitung mit probabilistischen Regeln) zusammen mit dem textuel-len Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Machine Learning (ML) modellen; Stanford CoreNLP-Ansatz integriert; Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Ana-lyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrten-schwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene.
Tools/Algorithmen: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning Model (HMTL), semi-supervised Lernalgorithmen zur Erstellung von Proxy-Labels auf unmarkierten Daten, BiLSTM, SalesForce MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Wortta-schen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, ALBERT, Trans-fer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, genSim, O-penNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungs-lernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antwor-ten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
c. KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Neural Ordinary Differential Equations, Visual Common Sense Reason-ing, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent vir-tual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Ke-ras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side ren-dering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), U-ber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine rein-forcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Exten-ded (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Langu-age), Jaeger (OS distributed tracing system, optimized for microservices).
d. Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Mo-dell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Rein-forcement] Learning mit klassischen Lernverfahren kombiniert).
e. Konzept für AIops (Artificial Intelligence Operations) / KI-basierte Betriebs-Optimierung im Kontext Metadatamanagement und Ingest:
i. Konzept für die Einführung eines CMS (Config Management System)/ISMS zur Minimierung menschlicher Fehler bei der Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separa-te CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumge-bung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
ii. Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung sta-tistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenauf-nahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstel-lung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blu-eprints für Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vo-rausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priori-tät zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verscho-ben werden müssen, wann Diagnostik-Sammelprozesse nach Warnun-gen/Fehlern/Ausfällen gestartet werden, …

DS-Ansatz (Data Science) Eine Mischung aus Anomaly Detection, Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse + Seasonality Analysis, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke; TensorFlow+Keras sowie PyTorch – auch für semantische Sicherheits-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning. partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Visualisierung der Metadaten, KPIs, UMAP Dimensionality Reduction, STN-OCR, Scikit-learn, Pandas, Wowpal Wabbit.
Bibliotheken / Tools Docker, Kubernetes, Scala, Python, Airflow, Kubeflow, CeleryExecutor, RADOS + Ceph, TensorFlow-Stack mit Keras, AutoKeras oder PyTorch + Auto-PyTorch + AddOns, Uber Horovod, Apache Spark Stack mit Spark Streaming, Spark SQL, MLlib, GraphX, Alluxio, TransmogrifAI, Alluxio, TensorFlowOnSpark, PySpark mit Optimus, Apache Flink, Jupyter, Zeppelin, PyTorch, MXNet, Chainer, Keras, Horovod, XGBoost, CatBoost, RabbitMQ, ONNX, Hydrosphere Serving (model management), Zephyr (Continuous Testing Agility), Red Hat OpenShift, Elastic/ElasticSearch, MS Azure Hybrid Cloud, Kafka, Kafka-REST Proxy, KafkaCat, Confluent, Chukwa, Ansible, OpenTSDB, Apache Ignite DB mit TensorFlow/ML-Integration, MLflow, CollectD, Python 3.x, Flask (Python Microframework: REST, UI), Coconut Functional Programming für Python, Robot Framework (Python acceptance test-driven development (ATDD)), CNTLM, Red Hat Identity Manager / FreeIPA, keycloak, Samba, Nginx, Grafana, Jenkins, Nagios, Databricks (Spark, Kafka, Connectors to R, TensorFlow, etc.), Snowflake, RTLinux, RHEL, Ubuntu, Kali Linux, Scrum + Design Thinking + SAFe.
Memory-Centric/IMDG (In-Memory Data Grid): Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
PenTesting-Tools: AutoSploit, Metasploit, Burp Suite, NeXpose, Nessus, Tripwire, CORE Impact, Kali Linux, Snort, Bro, Argus, SiLK, tcpdump, WireShark, parosproxy, mitmproxy, nmap, Security Onion, Bro, Sguil, Squert, CyberChef, NetworkMiner, Silk, Netsniff-NG, Syslog-NG, Stenographer, osquery, GRR Rapid Response, Sysdig Falco, Fail2Ban, ClamAV, Rsyslog, Enterprise Log Search and Archive (ELSA), Nikto, OWASP Zap, Naxsi, modsecurity, SGUIL, Mimikatz, CORE Impact, Kali Linux.
Log-Processing-Toolsets: OpenSCAP, Moloch, ntopng, Wireshark + plugins, Fluentd Message Parser, SQL-basierte Abfragen: SploutSQL, Norikra + Esper (Stream /Event Processing)
Cyber Grand Challenge (CGC) Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, AFL (American fuzzy lop), Strace, ZZUF, Sulley, BitBlaze, Shellphish/Mechaphish Tools: how2heap, fuzzer, driller, rex
Protokolle: AES, RSA, SHA, Kerberos, SSL/TLS, Diffie-Hellman
DBs: HBase + Phoenix, Hive, PostgreSQL, Druid, Aerospike, Hive, Lucene/Solr/Elasticsearch, SploutSQL
NLP-Stack mit Google BERT/Sling, ALBERT, spaCy, GPT-2, Stanford CoreNLP, AllenNLP, OpenEphyra, DELPH-IN PET Parser, Enju, Grammix
Logik-/Semantik-Tools: Protégé, LOOM, RDF (Resource Description Framework)/ SPARQL, OpenCog, TinyCog, Apache Jena OWL, Frame-Logik
OCR/ICR Libraries: Tesseract OCR engine, OCRopus, Formcraft, Kofax KTM (Kofax Transformation Modules)
Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Optimization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
Diverses: Learn to Grow / Catastrophic Forgetting, Semi-Supervised Learning und/oder Self-Supervised Learning (SSL), SPNs (Sum-Product Networks) & VAEs (Variational Auto-Encoders), Hierarchical Temporal Memory (HTM)
Bayes- bzw. Stochastik-Libraries / Probabilistic programming (PP) / Programmable Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen, Pyro, Edward, Microsoft Infer.Net
Probabilistic Logic Networks (PLNs, Pyro-Programmiersprache), Differentiable Programming, Cloned Hidden Markov Models (CHMM)
Logik-/Semantik-Tools: Protégé, LOOM, RDF (Resource Description Framework)/ SPARQL, OpenCog, TinyCog, Apache Jena OWL, Ontobridge, Frame-Logik
Graph-ConvNets (Graph Convolutional Networks)
Case-Based Reasoning (CBR): CRATER, ProCAKE, COLIBRI, etc.
Theory of Constraints (TOC) Frameworks, Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
(Heuristic non-linear) Optimization Software wie ALGLIB, CasADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigation2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
Sonstige Sicherheits-Tools: IDS/IPS-, NetFlow- und Protokollerfassungs- und Analysetools wie z.B. Snort, Suricata, Bro, Argus, SiLK, tcpdump oder WireShark, Cuckoo-basierte Malware Analyse, Disassembler, Prometheus+Icinga Monitoring, OCS Inventory NG, System Config + Activity Analysis: Sigar, Config. Discovery, File Integrity Checker (Afick), Apache Nifi / Hortonworks DataFlow, Elastic Stack (Beats, Logstash, Elasticsearch, Kibana, React + Kibana, Solr Stack (SolrCloud, SolrJ Client, Banana), Apache Drill Queries, UIs, Entwicklung von Drillbits, DSL (Domain Specific Language), Eclipse Parser, JavaCC, Antlr, Lex, yacc/bison, Flex, JFlex, GLR/LALR/LL Parser, Ansible, Juju, MAAS, Kubernetes/K8s + Docker, ggf. Minikube, Microk8s, Blitz Incident Response, HDFS, Data Lake, Zookeeper, Hive, JDBC, Management Tools (Ambari, Ranger, etc.), Hadoop Secure Mode, SSO (Single Sign-On), Identity & Access Management (IAM/IdM), LDAP, Role Mapping, Kerberos, TLS, OAuth, OpenId Connect.
SOC AI KI Sicherheit Cybersicherheit SIEM Splunk Kubernetes Docker
HSBC Trinkaus & Burkhard AG / HSBC Deutschland, größte Bank Europas, World’s Best Bank 2017 nach EuroMoney
Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO, APIs, Cloud, Blockchain, KI/AI, Agile Coach
BANKING AND INSURANCE
December 2017 - December 2018 (1 year)
Düsseldorf, Germany
Aufbau des SOCs (Security Operations Centers) sowie die engere Verzahnung/Integration der Tools, Vulnerability Management, Security Assessments/Bewertungen/Security-Architektur und Vorgehens-Empfehlungen, insbesondere bei der Einführung von Blockchain-Technologie (We.Trade auf R3/Corda für Zahlungen + Voltron auf HyperLedger für Handels-Dokumente + Utility Settlement Coin (USC)) so-wie SAP für Kernbanking (Deposits Management, Collateral Management, Loans Management, Finan-cial Supply Chain Management, SAP Bank Analyzer) bei gleichzeitiger Betrachtung der DSGVO-/GDPR-Anforderungen.
1. Konzeption der Security-Maßnahmen für das neue SAP Core Banking System als Security Archi-tect.
2. Überprüfung von Use Cases auf Relevanz für DSGVO/Datenschutz und Erstellung entsprechender Bewertungen, Ausfüllen von DSGVO-Formularen.
3. IAM (Identity and Access Management): SAP NetWeaver Identity Management (IdM) eingeführt mit SAML, OAuth, OpenId Connect, Kerberos; Konsolidierung der IAM-/IdM-Funktionalität, die vorher über verschiedene Technologie-Inseln verteilt waren wie LDAP, Active Directory (AD) Fe-deration Services (ADFS), RACF, Oracle Enterprise Directory Server (OEDS), Lotus Notes Domino, etc.
4. Vorschlag von abgeleiteten IT-Security-Architektur- und DSGVO-Maßnahmen auf Basis der vor-handenen Grob-Architektur, Konzept für Privileged Account Management (PAM) und weiterge-hende Sicherheits-Maßnahmen.
5. Zukunftsvision der SOC-Architektur und Konzeption ihrer Komponentenarchitektur - mit mög-lichst vielen Open-Source-Tools, um Kosten zu sparen und neuesten KI/AI (Künstliche/Artificial In-telligence) und Machine Learning Frameworks: Spark + MLLib, XGBoost, ….
6. (Weiterer) Aufbau des SOCs (Security Operations Center) als Architekt/PM mit am Ende ca. 60 Security-Tools. Davon wurden ca. 15 Tools neu eingeführt. Deren Einführung sowie die Integrati-on und Automatisierung eines Großteils der Tools habe ich insbesondere konzipiert und in Teilen programmiert: Automatisierte Echtzeit-Datenflüsse und Reduktion von False-Positives.
7. Red-Blue-Team Testing / Penetration Testing / PenTesting und Verteidigung, insbesondere bzgl. der Verwundbarkeit gegenüber aktuellen Exploits und den Indikatoren im SIEM und den Fol-gen/Risiken für die IT und der Optimierung der möglichst schnellen Erkennung mit wenigen False Positives.
8. Evaluierung der Risk Management Frameworks IRAM2, FAIR, OCTAVE, COSO gegen den MaRisk-Standard von 2017 und BAIT (Bankaufsichtlichen Anforderungen an die IT).
9. Erweiterung und Umsetzung von Vulnerability Management, Patch Management und Security-Standards-Compliance sowie Dokumentation dazugehöriger Risiken.
10. Patching-/Risk-Projektmanager Germany bzgl. Meltdown/Spectre (CPU Bugs).
11. Mitarbeit bzgl. IT-Sicherheit an der R3/Corda Blockchain Implementierung der HSBC in Kotlin mit über 100 anderen Banken und Vorbereitung der Herausgabe des Utility Settlement Coins (USC) der Großbanken sowie der Anbindung der Big Data basierenden Bank-eigenen Fraud Detection Lösung, z.B. bzgl. Security-Anbindung per BlueTalon + Ranger.
12. Integration von Security-Systemen per Serverless-Architektur über Google Cloud Functions per REST APIs mit Go: Automatisierte Integration von Configuration Management, Nessus- + Tripwire-Security Scans (Windows/Linux Datenbanken: Verwundbarkeiten und Compliance-Einstellungen) sowie der datenbankbasierten Auswertung der Scans (manuelle Gewichtungen) und Weiterlei-tung/Eskalation der Ergebnisse.
13. Mitentwicklung von Mobile-App- und Cloud Security Standards, insbesondere für Hybrid Clouds mit dem Google Cloud Stack, z.B. der Software-Defined Perimeter Ansatz.
14. Architektur obiger APIs nach Open Banking Standard mit Mulesoft AnyPoint Platform (API Gate-way, App execution, API Repository & Portal, API Designer, Runtime Manager, CloudHub, Private Cloud, AnyPoint Studio).
15. Beratung der Architekten und Entwickler-Teams bzgl. sicherer Konzeption/Entwicklung, sicherer Anbindung von Security Libraries (z.B. Spring Security, SAML, OAuth, LDAP, OpenId Connect), Patchen von Library-Verwundbarkeiten (Vermeiden/Minimieren der Verwendung von anfälligen Versionen: Lösungen und Workarounds) und Security Code-Review mit Tool-Unterstützung (ConQAT + Teamscale von CQSE, Support Query Framework (SQF) und Code Inspector von SAP (ABAP), Micro Focus Fortify, LGTM, Semmle, FindBugs, PMD, SonarQube, Checkstyle, etc.) im Rahmen von TQE (Total Quality Engineering).
16. Beratung bei der Weiterentwicklung der Asset Management und Configuration Management Da-tenbanken/Systeme um priorisierte Risiko- und Gegenmaßnahmen-Einschätzung in Richtung des statistischen Common Criteria Ansatzes.
17. Internal Reviews/Assessments, Erstellen von Management Self-Identified Issue (MSII) Berichten als Vorbereitung für offizielle Reviews/Assessments.
18. Business Impact Analysis (BIA) und Global Application Security Risk Assessments (GASRA).
19. Business Process Definition / Optimization / Re-Engineering: Network Based Intrusion Prevention (NIPS), Vulnerability Management, Privileged Access Management, Testing & Patching, Anle-gen/Anpassen von Beantragungs-/Entziehungs- und Überwachungsprozes-sen mit Neocase Ad-vanced BPM Suite / NEO Process Manager.
20. Security-Architektur für einen Amazon-Cloud- und Serverless-PoC: AWS, Fargate, S3, EC2, VPC (Virtual Private Cloud), IAM, RDS, RedShift, Aurora, DynamoDB (Rel. DBs), Neptune (Graph DB), ElastiCache (In-Mem-DB), Elastic Beanstalk (Orchestration Srv), CloudTrail (Sec. Log), STS (Secure Token Srv), EKS (Elastic Kubernetes Service), EBS (Elastic Block Store), OpsWorks (Config Mgmt), SQS (Simple Queue Srv), CloudWatch (Billing/Metrics), Docker, Kubernetes, Kubeless, Go.
21. Security-Architektur für PoCs mit Blockchain for trade (We.Trade, Voltron, R3/Corda), Biocatch, Microplatforms, Eclipse Microprofile (Hammok, Red Hat Wildfly Swarm, Open Liberty/WebSphere Liberty), JWT, OpenTracing, MicroNaut, ThreatMetrix, UNSilo, Skytree, TidalScale, DataRobot, data iku, Ayasdi (AML), Quantexa, Seldon.io, gVisor.
22. Unterstützung bei der Einführung agiler Prozesse: Design Thinking (Empathie-Maps, Personas, U-ser Profile Canvas, Value Proposition Canvas, Business Model Canvas, Business Ecosystem Canvas, Customer Journeys, HOOK (Trigger, Action, Variable Reward, Investment), SCAMPER (Substitute, Combine, Adjust, Modify, Put to other uses, Eliminate, Rearrange), MVP, MVE (Minimum Viable Ecosystem), Virtuous Loops, Systems Thinking, Business Ecosystem Design, Lean Canvas, NABC (Needs Approach Benefits Competition), SWOT) in Kombination mit DAD (Disciplined Agile De-livery) und SAFe (Scaled Agile Framework) – insbesondere Coaching und Halten von Präsentatio-nen zu den Risiken agiler Verfahren – u.A. durch das Entfallen der Architektur-Phase (siehe mei-ne Social Media Accounts), Mit-Einführen von WorkHacks (= LifeHacks für den Beruf).
23. Konzeption + (Teil-)Implementierung einer automatisierten Microservice/Serverless System-Security- und Vulnerability-Assessment und Reporting-Komponente in Python3 und JavaScript (mit PhantomJS, CasperJS, Bootstrap, a2ps), die automatisiert HTML- und PDF-Reports erzeugte aus Statistical Common Criteria Bewertungsergebnissen, Nessus- + Tripwire-Scan-Ergebnissen, CMDB-Infos (Config Mgmt DB namens ITDoku) etc. mit Integration zu diversen Systemen (Lotus Notes, CMDB, Excel-Dateien, Oracle-DB, CyberArk Password Vault + IAM + + Privileged Threat Analytics (PTA), Inventory-Systemen zum Check der Kritikalität (BIA/GASRA), Installationsstatus von Security-Tools, etc.) per REST APIs, SysCalls und OAuth.
24. Insgesamt ca. 50 Verbesserungsvorschläge unterbreitet/umgesetzt, vor allem zur Verbesserung des SOCs / der effizienten Erkennung, Priorisierung und Beseitigung von Risiken/Angriffen.
25. Erstellung/Erweiterung/Schärfung von ca. 150 QRadar SIEM Use Cases für zielgerichteteres Security-Monitoring mit weniger False Positives oder weniger manuellem Nachrecherche-Bedarf bei Alerts (Minimierung der manuellen Aufwände).
26. SIEM-Alternativen: Evaluation von
a. ElasticSearch + Norikra Schemaless Stream Processing + Esper CEP (Complex Event Pro-cessing) + Apache Nifi + Kafka + Fluentd für SIEM Use Cases/Alerting, Datenextraktion aus Protokollen per WireShark-Plugins (z.B. bzgl. SMBv1 + v2 Exploits [EternalRomance, Eternal-Blue, EternalChampion, WannaCry]),
b. Apache Metron (ex: Cisco OpenSOC) + Blitz Incident Response + Apache Nifi + Hadoop + Apache Solr/HDP Search + Ranger + Atlas, Technologie-Workshops. Konzeptionen zu:
i. Dokumenten-Id-Vergabe und expliziter Verteilung der Dokumente auf Shards/Replicas und dessen Tracking.
ii. Parallelisiertem SolrJ-Client optimiert auf Antwort-Geschwindigkeit.
iii. Loadbalancer-Switching-Logik.
iv. Schutz gegen bösartige Ambari-Administratoren.
v. Integration der Lösung in das Single Sign On (SSO) Konzept mit Identity & Access Manage-ment per LDAP, SASL, explicit TLS.
27. Konzeption/Implementierung eines Apache Spark + MLlib + Kafka basierenden Data Science und Machine Learning Systems zur Erkennung von Incidents/Malware/Netzwerk Anomalien mit H2O.ai.
DXC.technology (Merger aus EDS, CSC, HP Enterprise, Luxoft - 130 000 Mitarbeiter) für Daimler (290 000 Mitarbeiter) und BMW (135 000 Mitarbeiter)
KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Management (MDM) & Ingest, Agile Coach
AUTOMOBILE
November 2018 - April 2019 (5 months)
Stuttgart, Germany
Autonomous Driving Projekt: Self-Driving Cars
KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Management (MDM) & Ingest, Agile Coach
1. Agile Coaching: Scrum + Design Thinking mit Elementen aus dem Flow-Framework (Project to Product) sowie SAFe-Elementen, Verbesserung der Produktivität, Code-Stabilität und Zusammenarbeit.
2. Security-Konzept für Docker/Kubernetes/K8s: kubectl, Docker Authentication on Kubernetes pods, AuthN/AuthZ Methods wie UMA 2.0 (Federated Authorization for User-Managed Access), OpenID Connect mit keycloak über Translations, Kubernetes RBAC & User Impersonation, Volume Type Whitelisting, SELinux/seccomp/AppArmor, System Call Filter, Kubernetes Helm Sicherheitslimits & Verbesserungen, DEX vs Keycloak, SSSD PAM module (POSIX) für MapR Filesystem/HDFS, MapR Container Location Database (CLDB), etc.
3. Zukunftsvision der SOC-Architektur erstellt auf Basis von Apache Metron + Kafka + Spark + ELK (Elastic, LogStash, Kibana) und Konzeption ihrer Komponentenarchitektur - möglichst mit Open-Source-Tools, um Kosten zu sparen. Dazu viele konkrete Vorschläge zur Verbesserung des SOCs (Security Operations Center), Erstellen einer neuen SOC-Architektur mit KI-Elementen: Big Data/Data Science Ansatz zur Angriffs-/Malware-/APT-Erkennung mit Machine Learning und Fokus auf False-Positives-Reduzierung. Visualisierungskonzept zu Angriffs-Verdachtsfällen mit den jeweiligen Security-Kontexten per Design Thinking.
4. Vorschlag von Architekturen / Verbesserungen: Zero-Downtime-Architekturen, schnelleres Dateneinlesen, Autonomes-Fahren-Analysierer / robotic-drive analyzer (RDA), Messaging/Workflow und Containerisierungsarchitekturen.
5. Konzeption der Microservices/APIs, u.A. für die Metadatenverwaltung, Machine Learning Parameter, ...
6. Optimierung der Real-time Data Ingestion Verfahren für hochauflösende Self-Driving Car Video- und Sensor-Daten (TB-PB Datenmengen) in einen MapR Hadoop Datalake mit MapR-DB und Ceph Storage (Reliable Autonomic Distributed Object Store (RADOS)), etcd (distributed key value store) mit LoadBalancer (LB), Real-Time Monitoring mit Prometheus und Elastic/ELK.
7. Konzeption der Einführung von Docker/Kubernetes für TensorFlow-MachineLearning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
8. Scheduling-Konzepte mit Airflow, LocalExecutor, Celery (Distributed Task Queue), CeleryExecutor, RabbitMQ, Dynamic Workflows mit DAGs/SubDAGs mit PythonOperator/BashOperator, upstream/downstream/X-COM, Backfill, Catchup, Kubeflow, Seldon Core.
9. Parallelisierung/Optimierung/Skalieren/Wiederaufsetzen/Fortführen von Deep Learning und speziell TensorFlow-Pipelines und supervised Optimierungszyklen, u.A. mit Spark: Horovod (Training + HorovodEstimator für TensorFlow, Keras, and PyTorch), TensorFlowOnSpark, TensorBoards, TensorFrames.
10. Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Alluxio-Caching, Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
11. Review aller Security-Aspekte: Airflow, Kubernetes, Docker, Zeppelin, Spark, Java-Sicherheit mit Apache Shiro/Spring Security, sichere Speicherung von Anmeldeinformationen im Unix-Dateisystem, Github, Soft/Hard PSE (Personal Security Environment) mit z.B. SSO (Single Sign On with CA SiteMinder, PAI, OpenId Connect), CyberArk Password Vault + IAM + Privileged Threat Analytics (PTA), SSO oder GPG + Ansible Vault, etc.
12. Hilfe/Review bei Angular-basierten Visualisierungen, insbesondere für Grafana (zunächst in Angular, dann in React weil Grafana von Angular auf React migriert wurde).
13. Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
14. Förderantrag ausgearbeitet zur Beantragung des Förderprogramm KI-für IT-Sicherheit der Bundesregierung: Innovative Ideen entwickelt, neueste KI-, Data Science und Big Data Verfahren und Weiterentwicklungen vorgeschlagen zur Erkennung von ungewöhnlichem Verhalten/Angriffen/Malware sowie neueste NLP-Verfahren zur automatisierten Analyse von textuellen Angriffs- und Malware-Beschreibungen im Internet oder in E-Mails/Wikis sowie der Umsetzung der Cyber Grand Challenge Elemente über Deep Learning, RNNs, CNNs. Hierzu Entwicklung der Geschäftsstrategie und des Geschäftsplans zur separaten Vermarktung der damit geplanten Innovationen.
15. Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den Projekten für den Lieferanten DXC und Weitergabe an den DXC-Vertrieb zur Akquise neuer Arbeitspakete oder direkter Vorschlag der Lösungen samt passenden Autonomous-Driving-Use-Cases an die relevanten Ansprechpartner in den Teilprojekten:
a. Analyse von Semantik-Tools, Symbolic AI und Explainable AI für das KI-Security-Förderprogramm sowie für neue Arbeitspakete: KL-ONE: Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/ SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), Induktions-/Deduktions-Technologie wie OWL/OWL-DL (Ontology Web Language Description Logics), führende Implementierung: Apache Jena OWL, HPSG (Head-driven Phrase Structure Grammar) Parsing: DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logik.
b. NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene; Generieren von a) Beschreibungen für Fahrer, welche Art von Trainings-Situationen im Straßenverkehr anzustreben sind, b) Um welche Art von Fehlerursachen es sich bei gegebenen Symptomen handeln könnte als Liste oder Text.
Tools/Algorithmen: OpenAI GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning Model (HMTL), semi-supervised Lernalgorithmen zur Erstellung von Proxy-Labels auf unmarkierten Daten, BiLSTM, SalesForce MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
c. Für NLP Generation: https://blog.openai.com/better-language-models/ (Interesting technologies: OpenAI GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers)).
d. KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Style GANs, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices).
e. Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
f. Machine Learning / Image / Video-Analyse-Tool Recherche und Integrationskonzepte für Sensor Fusion, sonstige Daten-Zusammenführung, Massendatenverarbeitung, UML-Software-Architektur: OpenCL (Computing Language für div. HW Plattformen), OpenCV (Computer Vision), OpenVX (Vision Cross-Platform), Vulkan, OpenGL (ES), CUDA, nVidia GPU Toolkits wie VulkanRT.
g. Konzept für AIops (Artificial Intelligence Operations) / KI-basierte Betriebs-Optimierung im Kontext Metadatamanagement und Ingest:
i. Konzept für die Einführung eines CMS (Config Management System) zur Minimierung menschlicher Fehler bei der Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
ii. Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Chef/Puppet/Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
h. Vorschlag, Ausarbeitung und Diskussion der geplanten/angebotenen Arbeitspakete zu Techniken, Tools und Innovationen mit Automobilherstellern und anderen Kunden.
i. Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange : High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).
Computer Vision Kubernetes Docker Python Airflow

Be the first to recommend Thomas

Help this freelancer shine by sharing your experience working together.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

Signup to reveal

Diplom-Informatiker
TU Kaiserslautern
1999
1. Diplomarbeit/Startup: Entwicklung von Lernalgorithmen für das Lernen und verlustlose Spei-chern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/Übergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Data Science (DS)-Ansatz: Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des künftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erhält mit optimalen hybrid gewichtetem Score für die mögliche Bedeutung aller Datenelemente. 2. DFKI (Dt. Forschungszentrum für KI), Projektarbeit: Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Geschäftsbrief-)Struktur-, Lage- und Segmen-tierungs-Daten für ICR (Intelligent Content Recognition) mit Student- und Gauss-Verteilung. DS-Ansatz: Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unte-ren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gauß-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fläche unter den Gauß-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maxi-mal) der Fehlklassifikation der zukünftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid ge-wichteter Punktzahl/Score für die Dokumenten-Segmentierung. 3. DFKI, Seminararbeit: Nichtlineare Planer, Score-Berechnung für Situationen und heuristi-sche/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.). DS-Ansatz: Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.

Thomas Pötter

iT architect: AI, big data, cloud, apps,enterprise

About Thomas

Experience

Recommendations

These freelancer profiles also match your criteria

Education

Skill set (29)

Categories