Die Synthese neuartiger, komplexer Arzneimoleküle zur Etablierung von Struktur-Aktivitäts-Beziehungen (structure-activity-relationships, SAR) ist oft der limitierende Schritt in der frühen Arzneimittelforschung. Um die Aufklärung von SAR zu beschleunigen und die pharmakologischen Profile von Leitstrukturen innerhalb des Design-Synthese-Test-Analyse (design-make-text-analyze, DMTA)-Zyklus zu verbessern, ist es von entscheidender Bedeutung, neue, synthetische Methoden zu explorieren. Die späte Funktionalisierung (late-stage functionalization, LSF) bietet einen effektiven, schrittsparenden Ansatz für die Modifizierung fortgeschrittener Leitstrukturen durch die direkte Substitution von C-H-Bindungen durch andere Reste oder funktionalle Gruppen Komponenten. Dadurch kann die Erforschung des chemischen Raums und die Modulation der Adsorption, Verteilung, Metabolismus und Ausscheidung (ADME) Eigenschaften erleichtert werden. Allerdings erfordert die Ähnlichkeit der C–H-Bindungen in komplexen arzneistoff- und wirkstoffähnlichen Molekülen für eine gezielte Funktionalisierung, ein detailliertes Verständnis ihrer Reaktivität, wodurch sich die standar-disierte Applikation von Reaktionsvorschriften schwierig gestaltet. Diese Komplexität führt häufig zu umfang-reichen Laborexperimenten, die mit den strengen Zeit- und Budgetplänen von Arzneimittel-entwicklungsprojekten in Konflikt geraten können.

Hochdurchsatz-Experimente (high-throughput experimentation, HTE) haben sich als Schlüsseltechnologie etabliert, um die Synthese von Molekülen durch paralleles Screening von Reaktionsbedingungen im Plattenformat unter Verwendung von Laborautomatisierung effizienter zu gestalten. Indem bestehende Limitierungen im Gebiet der HTE, insbesondere die Bereiche Software-/Hardware-Integration und Datenverwaltung, addressiert werden, hat die Technologie das Potenzial, die Anwendbarkeit von LSF-Reaktionen mit minimalem Verbrauch von Startmaterialien zu analyiseren. Es wird erwartet, dass die aus diesen Experimenten gewonnenen qualitativ hochwertigen Reaktionsdatensätze, kombiniert mit Datenanalyse und maschinellem Lernen (ML) die Entwicklung von computergestützten Modellen zur Vorhersage von LSF Transformationen ermöglichen könnten. Dies würde die Abschätzung von Reaktionsergebnissen ermöglichen, bevor ressourcen- und zeitintensive Experimente im Labor durchgeführt werden, wodurch die Synthese von Zielmolekülen in der medizinischen Chemie umweltbewusster und effizienter gestaltet werden könnte.

Trotz des Potenzials, LSF zu einer effizienteren Methode zu machen, die eine schnelle Derivati-sierung von arnzeimittel-ähnlichen Molekülen ermöglicht und damit die Entwicklung neuer Medikamente beschleunigt, wurde bisher keine nahtlose Verbindung zwischen den drei For-schungsbereichen, LSF, HTE und der computergestützten Vorhersage von Reaktionsprodukten, hergestellt.

Aus diesem Grund hat die vorliegende Dissertation ein digitales, halbautomatisierten HTE-System mit dem Namen Dolphin (Data-orchestrated laboratory platform harnessing innovative neural networks, deut. daten-getriebene Laborplatform, die innovative neuronale Netzwerke nutzt) entwickelt. Dolphin ist darauf ausgelegt, die Anwendbarkeit von LSF-Methoden an wirkstoffähnlichen Molekülen systematisch zu analysieren. Dabei integriert die Plattform Automatisierung, Digitalisierung und ML, um die Effizienz der Synthese von Verbindung-en in der frühen Arzneistoffforschung zu verbessern. Moderne, automatisierte Laborgeräte, wie zum Beispiel Feststoff- und Flüssigkeitsdosierroboter, werden eingesetzt, um Reaktionen gleichzeitig anzusetzen und den Reaktionsfortschritt zu kontrollieren. Ein hohes Maß an Software-Hardware-Integration unterstützt den Prozess von der Literaturanalyse über die Planung und Ausführung von Screening und Scale-up Experimenten bis hin zum Datenmanagement.

Um die Extraktion, Kuratierung, Speicherung und Analyse von Reaktionsdaten aus der Litera-tur zu ermöglichen, wurden parallel zur Entwicklung von Dolphin die Bemühungen auf die Entwicklung eines einfachen, benutzerfreundlichen Reaktionsformats (simple user-friendly reaction format, SURF) gerichtet. Nach einer Bewertung der derzeitigen Praktiken für die gemeinsame Nutzung von Daten und der Ermittlung von bestehenden Limitierungen wurde SURF so konzipiert, dass es sowohl von Menschen als auch von Maschinen verstanden werden kann und damit die Verwendung von Reaktionsdaten in ML-Modellen vereinfacht wird. Die Anwendung dieses Formats zur Kuratierung von Daten aus ausgewählten Veröffentlichungen ermöglichte das systematische Design von HTE-Platten und lieferte hochwertige Datensätze für die Entwicklung von ML-Algorithmen.

Die Anwendung von Dolphin und SURF in zwei Fallstudien mit verschiedenen LSF-Reak-tionstypen wurde genutzt, um ML Modelle zur Vorhersage der chemischen Reaktivität zu entwickeln. Die erste Fallstudie konzentrierte sich auf die Bewertung der Anwendbarkeit von C–H-Borylierungsreaktionen für die LSF von komplexen Molekülen. Hunderte von HTE-Reaktionen wurden unter einer Vielzahl von Bedingungen an systematisch ausgewählten kommerziellen Arzneistoffen durchgeführt. Die aus diesen Experimenten gewonnenen Daten wurden in SURF erfasst und für die Entwicklung eines ML-Algorithmus verwendet, der in der Lage ist, binäre Reaktionsergebnisse, Ausbeuten und Regioselektivität für neue Substrate vorherzusagen. Der Einfluss sterischer und elektronischer Effekte auf die Genauigkeit der Modelle wurde durch die Kodeierung der Startmaterialien mit 2D-, 3D- und quanten-mechanischen (QM) Informationen quantifiziert. Die Reaktivität neuartiger Reaktionen mit bekannten und unbekannten Substraten wurde mit einer ausgewogenen Genauigkeit von 92\% bzw. 67\% klassifiziert, während die Algorithmen die Reaktionsausbeuten für verschiedene Reaktionsbedingungen mit einer mittleren absoluten Fehlermarge (mean absolute error, MAE) von 4-5\% vorhersagten. Die Plattform lieferte zahlreiche Startpunkte für die strukturelle Diversifizierung kommerzieller Pharmazeutika und fortgeschrittener arzneistoffähnlicher Fragmente.

Die zweite Fallstudie untersuchte einen bibliotheksbasierten Screening-Ansatz zur Bestimmung des Substratspektrums von späten C-H-Alkylierungen des Minisci Reaktionstyps, um neue Exitvektoren zu erforschen. Diese Forschung zielte darauf ab, die in silico Vorhersage geeig-neter Substrate zu erleichtern, welche mit einer vielfältigen Palette von sp3-reichen Carbonsäuren gekoppelt werden können. Auch hier lieferten Dolphin und SURF die experimentellen Datensätze, um ML-Modelle für die beschriebene Aufgabe zu trainieren. Die Algorithmen sagten Reaktionsausbeuten mit einem MAE von 11-12\% voraus und schlugen Startpunkte für Reaktionen in grösserem Massstab ausgehend von einem Datensatz mit 3180 fortgeschrittenen heterozyklischen Bausteinen und verschiedenen Carbonsäurebausteinen vor. Aus den Vorhersagen wurden vielversprechende Kandidaten ausgewählt, die Reaktionen wurden auf einen Bereich von 50 bis 100~mg hochskaliert, und die Produkte isoliert und charakterisiert. Auf diese Weise entstanden 30 neuartige, funktionell veränderte Moleküle, die sich für eine weitere Optimierung eignen. Die Ergebnisse beider Fallstudien befürworten die Anwendung von ML auf der Grundlage hochwertiger HTE-Datensätze für die Reaktivitätsvorhersage von LSF Reaktionen und weiteren Reaktionstypen.

Zusammenfassend hat diese Dissertation eine halbautomatisierte Plattform (Dolphin) und ein neues Reaktionsformat (SURF) entwickelt, welche die Entwicklung von ML-Modellen für das \textit{in silico} Screening von LSF-Reaktionen ermöglicht haben. Damit hat diese Forschung dazu beigetragen, die Effizienz der chemischen Synthese in der Arzneistoffforschung durch die strategische Anwendung von Laborautomatisierung und künstlicher Intelligenz zu steigern.