Supplementary data to dissertation: "Improving compound synthesis efficiency through laboratory automation and artificial intelligence"

www.lmu.de | UB | Blättern | Hilfe

Zur erweiterten Suche

English

Zur erweiterten Suche

Zitation: Nippa, David Friedrich Erhard: Supplementary data to dissertation: "Improving compound synthesis efficiency through laboratory automation and artificial intelligence". 18. März 2024. Open Data LMU. 10.5282/ubm/data.469

Supplementary data to dissertation: "Improving compound synthesis efficiency through laboratory automation and artificial intelligence"

High-throughput experimentation (HTE) has emerged as a key technology to streamline synthesis by efficiently evaluating reaction conditions in a plate format using automation equipment. Tackling certain remaining bottlenecks of HTE, specifically in the field of software/hardware integration and data governance, the technology has the potential to efficiently assess LSF reaction methodologies with the lowest possible material consumption. The LSF reaction data sets from HTE campaigns combined with big data analytics and machine learning (ML) are expected to enable the development of predictive models for C–H bond transformations. This would allow the estimation of reaction outcomes before carrying out resource and time-intensive experimentation in the laboratory facilitating the synthesis of target molecules in an environmentally conscious and material-efficient manner.

Despite the potential of making LSF a more efficient methodology to enable fast drug diversification and, consequently, speed up the development of novel medicines, a seamless connection between all three research fields, namely, LSF, HTE and reactivity prediction has not been made so far.

This thesis presents the development of a digital, semi-automated HTE system designed to systematically evaluate LSF methodologies on drug-like molecules. Dolphin, the Data orchestrated laboratory platform harnessing innovative neural network, is an end-to-end platform tailored for LSF that incorporates automation, digitalization, and ML to enhance compound synthesis efficiency in early drug discovery. Advanced automated laboratory equipment, such as solid and liquid dosing robots, is employed to simultaneously initiate reactions and prepare controls, ensuring sample quality for subsequent analyses. A high level of software/hardware integration supports the workflow from literature analysis and reaction plate screening to scale-up planning and data management.

To allow the extraction, curation, storage and analysis of reaction data from the literature, in parallel with the development of Dolphin, efforts have been directed towards the development of a simple, user-friendly reaction format (SURF). After evaluating current data-sharing practices and identifying bottlenecks, SURF was designed to be both human- and machine-readable, streamlining the use of reaction data in ML applications. Application of this format to curate data from selected publications enabled systematic HTE plate design and provided high-quality data sets for ML model development.

Applying Dolphin and SURF in two case studies with different LSF reaction types enabled reactivity prediction. The first case study was centered around assessing the applicability of C–H borylation reactions for the late-stage diversification of complex molecules. Hundreds of HTE reactions were performed on systematically chosen commercial drugs under a wide array of conditions. The data generated from these experiments were captured in SURF and used to support the development of an ML algorithm capable of predicting binary reaction outcomes, yields, and regioselectivity for novel substrates. The influence of steric and electronic effects on model performance was quantified by featurization of the input molecular graphs with 2D, 3D and quantum mechanics (QM) augmented information. The reactivity of novel reactions with known and unknown substrates was classified with a balanced accuracy of 92% and 67%, respectively, while computational models predicted reaction yields for diverse reaction conditions with a mean absolute error (MAE) margin of 4–5%. The platform delivered numerous starting points for the structural diversification of commercial pharmaceuticals and advanced drug-like fragments.

The second case study investigated a library-type screening approach for determining the substrate scope of late-stage Minisci-type C–H alkylations to explore new exit vectors. This approach aimed to facilitate the in silico prediction of suitable substrates that can undergo coupling with a diverse array of sp3-rich carboxylic acids. Again, Dolphin and SURF provided the experimental data sets to train ML models for the described task. The algorithms predicted reaction yields with an MAE of 11–12% and suggested starting points for scale-up reactions of 3180 advanced heterocyclic building blocks with various carboxylic acid building blocks. From those, a set of promising candidates was chosen, reactions were scaled up to the 50 to 100 mg range and products were isolated and characterized. This process led to the creation of 30 novel, functionally modified molecules that hold potential for further optimization. The results from both case studies positively advocate the application of ML based on high-quality HTE data for reactivity prediction in the LSF space and beyond. \medskip

In summary, this thesis established a semi-automated platform (Dolphin) and a new reaction format (SURF), facilitating the development of ML models for LSF reaction screening, thereby contributing to enhancing the compound synthesis efficiency in drug discovery through the strategic application of laboratory automation and artificial intelligence.

Hochdurchsatz-Experimente (high-throughput experimentation, HTE) haben sich als Schlüsseltechnologie etabliert, um die Synthese von Molekülen durch paralleles Screening von Reaktionsbedingungen im Plattenformat unter Verwendung von Laborautomatisierung effizienter zu gestalten. Indem bestehende Limitierungen im Gebiet der HTE, insbesondere die Bereiche Software-/Hardware-Integration und Datenverwaltung, addressiert werden, hat die Technologie das Potenzial, die Anwendbarkeit von LSF-Reaktionen mit minimalem Verbrauch von Startmaterialien zu analyiseren. Es wird erwartet, dass die aus diesen Experimenten gewonnenen qualitativ hochwertigen Reaktionsdatensätze, kombiniert mit Datenanalyse und maschinellem Lernen (ML) die Entwicklung von computergestützten Modellen zur Vorhersage von LSF Transformationen ermöglichen könnten. Dies würde die Abschätzung von Reaktionsergebnissen ermöglichen, bevor ressourcen- und zeitintensive Experimente im Labor durchgeführt werden, wodurch die Synthese von Zielmolekülen in der medizinischen Chemie umweltbewusster und effizienter gestaltet werden könnte.

Trotz des Potenzials, LSF zu einer effizienteren Methode zu machen, die eine schnelle Derivati-sierung von arnzeimittel-ähnlichen Molekülen ermöglicht und damit die Entwicklung neuer Medikamente beschleunigt, wurde bisher keine nahtlose Verbindung zwischen den drei For-schungsbereichen, LSF, HTE und der computergestützten Vorhersage von Reaktionsprodukten, hergestellt.

Aus diesem Grund hat die vorliegende Dissertation ein digitales, halbautomatisierten HTE-System mit dem Namen Dolphin (Data-orchestrated laboratory platform harnessing innovative neural networks, deut. daten-getriebene Laborplatform, die innovative neuronale Netzwerke nutzt) entwickelt. Dolphin ist darauf ausgelegt, die Anwendbarkeit von LSF-Methoden an wirkstoffähnlichen Molekülen systematisch zu analysieren. Dabei integriert die Plattform Automatisierung, Digitalisierung und ML, um die Effizienz der Synthese von Verbindung-en in der frühen Arzneistoffforschung zu verbessern. Moderne, automatisierte Laborgeräte, wie zum Beispiel Feststoff- und Flüssigkeitsdosierroboter, werden eingesetzt, um Reaktionen gleichzeitig anzusetzen und den Reaktionsfortschritt zu kontrollieren. Ein hohes Maß an Software-Hardware-Integration unterstützt den Prozess von der Literaturanalyse über die Planung und Ausführung von Screening und Scale-up Experimenten bis hin zum Datenmanagement.

Um die Extraktion, Kuratierung, Speicherung und Analyse von Reaktionsdaten aus der Litera-tur zu ermöglichen, wurden parallel zur Entwicklung von Dolphin die Bemühungen auf die Entwicklung eines einfachen, benutzerfreundlichen Reaktionsformats (simple user-friendly reaction format, SURF) gerichtet. Nach einer Bewertung der derzeitigen Praktiken für die gemeinsame Nutzung von Daten und der Ermittlung von bestehenden Limitierungen wurde SURF so konzipiert, dass es sowohl von Menschen als auch von Maschinen verstanden werden kann und damit die Verwendung von Reaktionsdaten in ML-Modellen vereinfacht wird. Die Anwendung dieses Formats zur Kuratierung von Daten aus ausgewählten Veröffentlichungen ermöglichte das systematische Design von HTE-Platten und lieferte hochwertige Datensätze für die Entwicklung von ML-Algorithmen.

Die Anwendung von Dolphin und SURF in zwei Fallstudien mit verschiedenen LSF-Reak-tionstypen wurde genutzt, um ML Modelle zur Vorhersage der chemischen Reaktivität zu entwickeln. Die erste Fallstudie konzentrierte sich auf die Bewertung der Anwendbarkeit von C–H-Borylierungsreaktionen für die LSF von komplexen Molekülen. Hunderte von HTE-Reaktionen wurden unter einer Vielzahl von Bedingungen an systematisch ausgewählten kommerziellen Arzneistoffen durchgeführt. Die aus diesen Experimenten gewonnenen Daten wurden in SURF erfasst und für die Entwicklung eines ML-Algorithmus verwendet, der in der Lage ist, binäre Reaktionsergebnisse, Ausbeuten und Regioselektivität für neue Substrate vorherzusagen. Der Einfluss sterischer und elektronischer Effekte auf die Genauigkeit der Modelle wurde durch die Kodeierung der Startmaterialien mit 2D-, 3D- und quanten-mechanischen (QM) Informationen quantifiziert. Die Reaktivität neuartiger Reaktionen mit bekannten und unbekannten Substraten wurde mit einer ausgewogenen Genauigkeit von 92\% bzw. 67\% klassifiziert, während die Algorithmen die Reaktionsausbeuten für verschiedene Reaktionsbedingungen mit einer mittleren absoluten Fehlermarge (mean absolute error, MAE) von 4-5\% vorhersagten. Die Plattform lieferte zahlreiche Startpunkte für die strukturelle Diversifizierung kommerzieller Pharmazeutika und fortgeschrittener arzneistoffähnlicher Fragmente.

Die zweite Fallstudie untersuchte einen bibliotheksbasierten Screening-Ansatz zur Bestimmung des Substratspektrums von späten C-H-Alkylierungen des Minisci Reaktionstyps, um neue Exitvektoren zu erforschen. Diese Forschung zielte darauf ab, die in silico Vorhersage geeig-neter Substrate zu erleichtern, welche mit einer vielfältigen Palette von sp3-reichen Carbonsäuren gekoppelt werden können. Auch hier lieferten Dolphin und SURF die experimentellen Datensätze, um ML-Modelle für die beschriebene Aufgabe zu trainieren. Die Algorithmen sagten Reaktionsausbeuten mit einem MAE von 11-12\% voraus und schlugen Startpunkte für Reaktionen in grösserem Massstab ausgehend von einem Datensatz mit 3180 fortgeschrittenen heterozyklischen Bausteinen und verschiedenen Carbonsäurebausteinen vor. Aus den Vorhersagen wurden vielversprechende Kandidaten ausgewählt, die Reaktionen wurden auf einen Bereich von 50 bis 100~mg hochskaliert, und die Produkte isoliert und charakterisiert. Auf diese Weise entstanden 30 neuartige, funktionell veränderte Moleküle, die sich für eine weitere Optimierung eignen. Die Ergebnisse beider Fallstudien befürworten die Anwendung von ML auf der Grundlage hochwertiger HTE-Datensätze für die Reaktivitätsvorhersage von LSF Reaktionen und weiteren Reaktionstypen.

Zusammenfassend hat diese Dissertation eine halbautomatisierte Plattform (Dolphin) und ein neues Reaktionsformat (SURF) entwickelt, welche die Entwicklung von ML-Modellen für das \textit{in silico} Screening von LSF-Reaktionen ermöglicht haben. Damit hat diese Forschung dazu beigetragen, die Effizienz der chemischen Synthese in der Arzneistoffforschung durch die strategische Anwendung von Laborautomatisierung und künstlicher Intelligenz zu steigern.

Laboratory Automation, Compound Synthesis, Medicinal Chemistry, Artificial Intelligence, Late-stage functionalization

Nippa, David Friedrich Erhard

18. Mrz. 2024

2024

https://doi.org/10.5282/ubm/data.469

	Microsoft Excel (compound_data_analytics) data_structure_compound_data_analytics.csv - Ergänzendes Material 501B
	Microsoft Excel (compound_data_chemicals) data_structure_compound_data_chemicals.csv - Ergänzendes Material 4kB
	Microsoft Excel (data_structure_requests) data_structure_requests.csv - Ergänzendes Material 196B
	Microsoft Excel (data_structure_substrate) data_structure_substrate.csv - Ergänzendes Material 98B
	Microsoft Excel (data_structure_experiments) data_structure_experiments.csv - Ergänzendes Material 179B
	Microsoft Excel (data_structure_process_controls) data_structure_process_controls.csv - Ergänzendes Material 189B
	Microsoft Excel (data_structure_plates) data_structure_plates.csv - Ergänzendes Material 5kB
	Microsoft Excel (data_structure_products) data_structure_products.xlsx - Ergänzendes Material 12kB
	Other (rpt_file) lcms_analysis_rpt_file_MSA-22-00984.rpt - Ergänzendes Material 17MB
	Microsoft Excel (structured_lcms_data_channels) lcms_analysis_structured_lcms_data_channels.csv - Ergänzendes Material 43kB
	Microsoft Excel (structured_lcms_data_masses) lcms_analysis_structured_lcms_data_masses.csv - Ergänzendes Material 172kB
	Microsoft Excel (structured_lcms_data_sample_id) lcms_analysis_structured_lcms_data_sample_id.csv - Ergänzendes Material 1kB
	Microsoft Excel (cleaned_lcms_data) lcms_analysis_cleaned_lcms_data.csv - Ergänzendes Material 432kB
	Microsoft Excel (output_data_surf) lcms_analysis_output_data_surf.tsv - Ergänzendes Material 6kB
	Microsoft Excel (output_data_visualization_1) lcms_analysis_output_data_visualization_1.tsv - Ergänzendes Material 6kB
	Microsoft Excel (output_data_visualization_2) lcms_analysis_output_data_visualization_2.tsv - Ergänzendes Material 9kB
	Microsoft Excel (output_data_visualization_3) lcms_analysis_output_data_visualization_3.tsv - Ergänzendes Material 61kB
	Microsoft Excel (output_data_visualization_4) lcms_analysis_output_data_visualization_4.tsv - Ergänzendes Material 10kB
	Microsoft Excel (output_data_visualization_5) lcms_analysis_output_data_visualization_5.tsv - Ergänzendes Material 221kB
	Microsoft Excel (potential_products_output) potential_products_output.csv - Ergänzendes Material 10kB
	Microsoft Excel (literature_analysis_database_download_scifinder) literature_analysis_database_download_scifinder.xlsx - Ergänzendes Material 82kB
	Microsoft Excel (literature_analysis_database_download_scopus) literature_analysis_database_download_scopus.xlsx - Ergänzendes Material 26kB
	Microsoft Excel (literature_analysis_database_download_webofscience) literature_analysis_database_download_webofscience.xlsx - Ergänzendes Material 25kB
	Microsoft Excel (literature_analysis_database_download_scopus_full) literature_analysis_database_download_scopus_full.csv - Ergänzendes Material 188kB
	Microsoft Excel (literature_analysis_database_download_webofscience_full) literature_analysis_database_download_webofscience_full.xlsx - Ergänzendes Material 76kB
	Microsoft Excel (literature_analysis_output_data_cleaned_literature_data) literature_analysis_output_data_cleaned_literature_data.csv - Ergänzendes Material 24kB
	Plain Text (literature_analysis_surf_file_minisci_surf) literature_analysis_surf_file_minisci_surf.txt - Ergänzendes Material 15kB
	Other (lcms_analysis_workflow_alteryx) lcms_analysis.yxmd - Ergänzendes Material 1MB
	Other (lcms_analysis_workflow_xml) lcms_analysis.xml - Ergänzendes Material 2MB
	Other (literature_analysis_workflow_xml) literature_analysis.xml - Ergänzendes Material 177kB
	Other (literature_analysis_workflow_alteryx) literature_analysis.yxmd - Ergänzendes Material 96kB
	Other (potential_products_workflow_xml) pot_products.xml - Ergänzendes Material 703kB
	Other (potential_products_workflow_alteryx) pot_products.yxmd - Ergänzendes Material 703kB
	Microsoft Word (documentation_si) documentation_si_improving_davidnippa_2024.docx - Ergänzendes Material 13kB

DOI: 10.5282/ubm/data.469

Dieser Datensatz steht unter der Creative Commons Lizenz
CC BY-NC-ND 4.0

Beschreibung

The synthesis of novel, complex drug molecules to establish structure-activity relationships (SAR) is often the limiting step in early drug discovery. To expedite SAR exploration and enhance the pharmacological profiles of lead structures within the design-make-test-analyze (DMTA) cycle, it is crucial to refine synthetic methodologies. Late-stage functionalization (LSF) offers an effective, step-saving approach for modifying advanced leads by directly substituting C–H bonds with other moieties, thereby facilitating chemical space exploration and modulating adsorption, distribution, metabolism and excretion (ADME) properties. However, the similarity of C–H bonds within structurally intricate drug and drug-like molecules necessitates a detailed understanding of their reactivity for targeted functionalization, which complicates the standardization of experimental protocols. This complexity often results in resource-intensive wet lab explorations, which may conflict with the stringent timelines and budgets of drug discovery projects. High-throughput experimentation (HTE) has emerged as a key technology to streamline synthesis by efficiently evaluating reaction conditions in a plate format using automation equipment. Tackling certain remaining bottlenecks of HTE, specifically in the field of software/hardware integration and data governance, the technology has the potential to efficiently assess LSF reaction methodologies with the lowest possible material consumption. The LSF reaction data sets from HTE campaigns combined with big data analytics and machine learning (ML) are expected to enable the development of predictive models for C–H bond transformations. This would allow the estimation of reaction outcomes before carrying out resource and time-intensive experimentation in the laboratory facilitating the synthesis of target molecules in an environmentally conscious and material-efficient manner. Despite the potential of making LSF a more efficient methodology to enable fast drug diversification and, consequently, speed up the development of novel medicines, a seamless connection between all three research fields, namely, LSF, HTE and reactivity prediction has not been made so far. This thesis presents the development of a digital, semi-automated HTE system designed to systematically evaluate LSF methodologies on drug-like molecules. Dolphin, the Data orchestrated laboratory platform harnessing innovative neural network, is an end-to-end platform tailored for LSF that incorporates automation, digitalization, and ML to enhance compound synthesis efficiency in early drug discovery. Advanced automated laboratory equipment, such as solid and liquid dosing robots, is employed to simultaneously initiate reactions and prepare controls, ensuring sample quality for subsequent analyses. A high level of software/hardware integration supports the workflow from literature analysis and reaction plate screening to scale-up planning and data management. To allow the extraction, curation, storage and analysis of reaction data from the literature, in parallel with the development of Dolphin, efforts have been directed towards the development of a simple, user-friendly reaction format (SURF). After evaluating current data-sharing practices and identifying bottlenecks, SURF was designed to be both human- and machine-readable, streamlining the use of reaction data in ML applications. Application of this format to curate data from selected publications enabled systematic HTE plate design and provided high-quality data sets for ML model development. Applying Dolphin and SURF in two case studies with different LSF reaction types enabled reactivity prediction. The first case study was centered around assessing the applicability of C–H borylation reactions for the late-stage diversification of complex molecules. Hundreds of HTE reactions were performed on systematically chosen commercial drugs under a wide array of conditions. The data generated from these experiments were captured in SURF and used to support the development of an ML algorithm capable of predicting binary reaction outcomes, yields, and regioselectivity for novel substrates. The influence of steric and electronic effects on model performance was quantified by featurization of the input molecular graphs with 2D, 3D and quantum mechanics (QM) augmented information. The reactivity of novel reactions with known and unknown substrates was classified with a balanced accuracy of 92% and 67%, respectively, while computational models predicted reaction yields for diverse reaction conditions with a mean absolute error (MAE) margin of 4–5%. The platform delivered numerous starting points for the structural diversification of commercial pharmaceuticals and advanced drug-like fragments. The second case study investigated a library-type screening approach for determining the substrate scope of late-stage Minisci-type C–H alkylations to explore new exit vectors. This approach aimed to facilitate the in silico prediction of suitable substrates that can undergo coupling with a diverse array of sp3-rich carboxylic acids. Again, Dolphin and SURF provided the experimental data sets to train ML models for the described task. The algorithms predicted reaction yields with an MAE of 11–12% and suggested starting points for scale-up reactions of 3180 advanced heterocyclic building blocks with various carboxylic acid building blocks. From those, a set of promising candidates was chosen, reactions were scaled up to the 50 to 100 mg range and products were isolated and characterized. This process led to the creation of 30 novel, functionally modified molecules that hold potential for further optimization. The results from both case studies positively advocate the application of ML based on high-quality HTE data for reactivity prediction in the LSF space and beyond. \medskip In summary, this thesis established a semi-automated platform (Dolphin) and a new reaction format (SURF), facilitating the development of ML models for LSF reaction screening, thereby contributing to enhancing the compound synthesis efficiency in drug discovery through the strategic application of laboratory automation and artificial intelligence.

Beschreibung

Die Synthese neuartiger, komplexer Arzneimoleküle zur Etablierung von Struktur-Aktivitäts-Beziehungen (structure-activity-relationships, SAR) ist oft der limitierende Schritt in der frühen Arzneimittelforschung. Um die Aufklärung von SAR zu beschleunigen und die pharmakologischen Profile von Leitstrukturen innerhalb des Design-Synthese-Test-Analyse (design-make-text-analyze, DMTA)-Zyklus zu verbessern, ist es von entscheidender Bedeutung, neue, synthetische Methoden zu explorieren. Die späte Funktionalisierung (late-stage functionalization, LSF) bietet einen effektiven, schrittsparenden Ansatz für die Modifizierung fortgeschrittener Leitstrukturen durch die direkte Substitution von C-H-Bindungen durch andere Reste oder funktionalle Gruppen Komponenten. Dadurch kann die Erforschung des chemischen Raums und die Modulation der Adsorption, Verteilung, Metabolismus und Ausscheidung (ADME) Eigenschaften erleichtert werden. Allerdings erfordert die Ähnlichkeit der C–H-Bindungen in komplexen arzneistoff- und wirkstoffähnlichen Molekülen für eine gezielte Funktionalisierung, ein detailliertes Verständnis ihrer Reaktivität, wodurch sich die standar-disierte Applikation von Reaktionsvorschriften schwierig gestaltet. Diese Komplexität führt häufig zu umfang-reichen Laborexperimenten, die mit den strengen Zeit- und Budgetplänen von Arzneimittel-entwicklungsprojekten in Konflikt geraten können. Hochdurchsatz-Experimente (high-throughput experimentation, HTE) haben sich als Schlüsseltechnologie etabliert, um die Synthese von Molekülen durch paralleles Screening von Reaktionsbedingungen im Plattenformat unter Verwendung von Laborautomatisierung effizienter zu gestalten. Indem bestehende Limitierungen im Gebiet der HTE, insbesondere die Bereiche Software-/Hardware-Integration und Datenverwaltung, addressiert werden, hat die Technologie das Potenzial, die Anwendbarkeit von LSF-Reaktionen mit minimalem Verbrauch von Startmaterialien zu analyiseren. Es wird erwartet, dass die aus diesen Experimenten gewonnenen qualitativ hochwertigen Reaktionsdatensätze, kombiniert mit Datenanalyse und maschinellem Lernen (ML) die Entwicklung von computergestützten Modellen zur Vorhersage von LSF Transformationen ermöglichen könnten. Dies würde die Abschätzung von Reaktionsergebnissen ermöglichen, bevor ressourcen- und zeitintensive Experimente im Labor durchgeführt werden, wodurch die Synthese von Zielmolekülen in der medizinischen Chemie umweltbewusster und effizienter gestaltet werden könnte. Trotz des Potenzials, LSF zu einer effizienteren Methode zu machen, die eine schnelle Derivati-sierung von arnzeimittel-ähnlichen Molekülen ermöglicht und damit die Entwicklung neuer Medikamente beschleunigt, wurde bisher keine nahtlose Verbindung zwischen den drei For-schungsbereichen, LSF, HTE und der computergestützten Vorhersage von Reaktionsprodukten, hergestellt. Aus diesem Grund hat die vorliegende Dissertation ein digitales, halbautomatisierten HTE-System mit dem Namen Dolphin (Data-orchestrated laboratory platform harnessing innovative neural networks, deut. daten-getriebene Laborplatform, die innovative neuronale Netzwerke nutzt) entwickelt. Dolphin ist darauf ausgelegt, die Anwendbarkeit von LSF-Methoden an wirkstoffähnlichen Molekülen systematisch zu analysieren. Dabei integriert die Plattform Automatisierung, Digitalisierung und ML, um die Effizienz der Synthese von Verbindung-en in der frühen Arzneistoffforschung zu verbessern. Moderne, automatisierte Laborgeräte, wie zum Beispiel Feststoff- und Flüssigkeitsdosierroboter, werden eingesetzt, um Reaktionen gleichzeitig anzusetzen und den Reaktionsfortschritt zu kontrollieren. Ein hohes Maß an Software-Hardware-Integration unterstützt den Prozess von der Literaturanalyse über die Planung und Ausführung von Screening und Scale-up Experimenten bis hin zum Datenmanagement. Um die Extraktion, Kuratierung, Speicherung und Analyse von Reaktionsdaten aus der Litera-tur zu ermöglichen, wurden parallel zur Entwicklung von Dolphin die Bemühungen auf die Entwicklung eines einfachen, benutzerfreundlichen Reaktionsformats (simple user-friendly reaction format, SURF) gerichtet. Nach einer Bewertung der derzeitigen Praktiken für die gemeinsame Nutzung von Daten und der Ermittlung von bestehenden Limitierungen wurde SURF so konzipiert, dass es sowohl von Menschen als auch von Maschinen verstanden werden kann und damit die Verwendung von Reaktionsdaten in ML-Modellen vereinfacht wird. Die Anwendung dieses Formats zur Kuratierung von Daten aus ausgewählten Veröffentlichungen ermöglichte das systematische Design von HTE-Platten und lieferte hochwertige Datensätze für die Entwicklung von ML-Algorithmen. Die Anwendung von Dolphin und SURF in zwei Fallstudien mit verschiedenen LSF-Reak-tionstypen wurde genutzt, um ML Modelle zur Vorhersage der chemischen Reaktivität zu entwickeln. Die erste Fallstudie konzentrierte sich auf die Bewertung der Anwendbarkeit von C–H-Borylierungsreaktionen für die LSF von komplexen Molekülen. Hunderte von HTE-Reaktionen wurden unter einer Vielzahl von Bedingungen an systematisch ausgewählten kommerziellen Arzneistoffen durchgeführt. Die aus diesen Experimenten gewonnenen Daten wurden in SURF erfasst und für die Entwicklung eines ML-Algorithmus verwendet, der in der Lage ist, binäre Reaktionsergebnisse, Ausbeuten und Regioselektivität für neue Substrate vorherzusagen. Der Einfluss sterischer und elektronischer Effekte auf die Genauigkeit der Modelle wurde durch die Kodeierung der Startmaterialien mit 2D-, 3D- und quanten-mechanischen (QM) Informationen quantifiziert. Die Reaktivität neuartiger Reaktionen mit bekannten und unbekannten Substraten wurde mit einer ausgewogenen Genauigkeit von 92\% bzw. 67\% klassifiziert, während die Algorithmen die Reaktionsausbeuten für verschiedene Reaktionsbedingungen mit einer mittleren absoluten Fehlermarge (mean absolute error, MAE) von 4-5\% vorhersagten. Die Plattform lieferte zahlreiche Startpunkte für die strukturelle Diversifizierung kommerzieller Pharmazeutika und fortgeschrittener arzneistoffähnlicher Fragmente. Die zweite Fallstudie untersuchte einen bibliotheksbasierten Screening-Ansatz zur Bestimmung des Substratspektrums von späten C-H-Alkylierungen des Minisci Reaktionstyps, um neue Exitvektoren zu erforschen. Diese Forschung zielte darauf ab, die in silico Vorhersage geeig-neter Substrate zu erleichtern, welche mit einer vielfältigen Palette von sp3-reichen Carbonsäuren gekoppelt werden können. Auch hier lieferten Dolphin und SURF die experimentellen Datensätze, um ML-Modelle für die beschriebene Aufgabe zu trainieren. Die Algorithmen sagten Reaktionsausbeuten mit einem MAE von 11-12\% voraus und schlugen Startpunkte für Reaktionen in grösserem Massstab ausgehend von einem Datensatz mit 3180 fortgeschrittenen heterozyklischen Bausteinen und verschiedenen Carbonsäurebausteinen vor. Aus den Vorhersagen wurden vielversprechende Kandidaten ausgewählt, die Reaktionen wurden auf einen Bereich von 50 bis 100~mg hochskaliert, und die Produkte isoliert und charakterisiert. Auf diese Weise entstanden 30 neuartige, funktionell veränderte Moleküle, die sich für eine weitere Optimierung eignen. Die Ergebnisse beider Fallstudien befürworten die Anwendung von ML auf der Grundlage hochwertiger HTE-Datensätze für die Reaktivitätsvorhersage von LSF Reaktionen und weiteren Reaktionstypen. Zusammenfassend hat diese Dissertation eine halbautomatisierte Plattform (Dolphin) und ein neues Reaktionsformat (SURF) entwickelt, welche die Entwicklung von ML-Modellen für das \textit{in silico} Screening von LSF-Reaktionen ermöglicht haben. Damit hat diese Forschung dazu beigetragen, die Effizienz der chemischen Synthese in der Arzneistoffforschung durch die strategische Anwendung von Laborautomatisierung und künstlicher Intelligenz zu steigern.

Stichwörter

Laboratory Automation, Compound Synthesis, Medicinal Chemistry, Artificial Intelligence, Late-stage functionalization

Dokumententyp:	Daten
Name der Kontaktperson:	Nippa, David Friedrich Erhard
E-Mail der Kontaktperson:	d.nippa at gmail.com
Fächer:	Chemie und Pharmazie
Dewey Dezimalklassifikation:	500 Naturwissenschaften und Mathematik 500 Naturwissenschaften und Mathematik > 540 Chemie
ID Code:	469
Eingestellt von:	David Nippa
Eingestellt am:	15. Apr. 2024 12:40
Letzte Änderungen:	15. Apr. 2024 12:41

Nur für Administratoren und Editoren: Dokument bearbeiten

Dieser Datensatz steht unter der Creative Commons LizenzCC BY-NC-ND 4.0

Be­schrei­bung

Be­schrei­bung

Stichwörter

Dieser Datensatz steht unter der Creative Commons Lizenz
CC BY-NC-ND 4.0

Beschreibung

Beschreibung