Künstliche Intelligenz "liest" und "versteht" Forschungsartikel

Forscher eines Start-ups trainieren ein neuronales Netz, um chemische Formeln aus Forschungsunterlagen zu erkennen

17.02.2022 - Russische Föderation

Forscher von Syntelly - einem aus Skoltech hervorgegangenen Start-up - der Staatlichen Universität Lomonossow in Moskau und der Sirius-Universität haben eine auf einem neuronalen Netz basierende Lösung für die automatische Erkennung chemischer Formeln auf eingescannten Forschungspapieren entwickelt. Die Studie wurde in Chemistry-Methods, einer wissenschaftlichen Zeitschrift der European Chemical Society, veröffentlicht.

Die Menschheit tritt in das Zeitalter der künstlichen Intelligenz ein. Auch die Chemie wird sich durch die modernen Methoden des Deep Learning verändern, die stets große Mengen an qualitativen Daten für das Training neuronaler Netze erfordern.

Die gute Nachricht ist, dass chemische Daten "gut altern". Selbst wenn eine bestimmte Verbindung ursprünglich vor 100 Jahren synthetisiert wurde, sind die Informationen über ihre Struktur, Eigenschaften und Synthesewege auch heute noch relevant. Selbst in unserer Zeit der universellen Digitalisierung kann es durchaus vorkommen, dass ein organischer Chemiker auf eine Originalzeitschrift oder eine Dissertation aus einer Bibliothek zurückgreift - die z. B. in deutscher Sprache bereits Anfang des 20. Jahrhunderts veröffentlicht wurde -, um Informationen über ein schlecht untersuchtes Molekül zu erhalten.

Neuer Algorithmus treibt den Einsatz von KI in den Materialwissenschaften voran

Geisterhaften Fernwirkungen auf der Spur: Neuer Deep Learning Algorithmus lernt komplexe Moleküldynamiken

News lesen

Die schlechte Nachricht ist, dass es keine anerkannte Standardmethode für die Darstellung chemischer Formeln gibt. Chemiker verwenden üblicherweise viele Tricks in Form von Kurzschreibweisen für bekannte chemische Gruppen. Zu den möglichen Abkürzungen für eine tert-Butylgruppe gehören zum Beispiel "tBu", "t-Bu" und "tert-Bu". Erschwerend kommt hinzu, dass Chemiker oft eine Vorlage mit verschiedenen "Platzhaltern" (R1, R2 usw.) verwenden, um auf viele ähnliche Verbindungen zu verweisen, wobei diese Platzhaltersymbole überall definiert sein können: in der Abbildung selbst, im Fließtext des Artikels oder in Ergänzungen. Ganz zu schweigen davon, dass der Zeichenstil in den verschiedenen Zeitschriften variiert und sich mit der Zeit weiterentwickelt, dass die persönlichen Gewohnheiten der Chemiker unterschiedlich sind und dass sich die Konventionen ändern. Das führt dazu, dass selbst ein erfahrener Chemiker manchmal ratlos ist, wenn er versucht, ein "Rätsel" zu lösen, das er in einem Artikel gefunden hat. Für einen Computeralgorithmus scheint die Aufgabe unlösbar zu sein.

Die Forscher hatten jedoch bereits Erfahrung mit der Lösung ähnlicher Probleme mit Hilfe von Transformer - einem neuronalen Netzwerk, das ursprünglich von Google für die maschinelle Übersetzung vorgeschlagen wurde. Anstatt Text zwischen Sprachen zu übersetzen, nutzte das Team dieses leistungsstarke Werkzeug, um das Bild eines Moleküls oder einer molekularen Vorlage in seine textuelle Darstellung umzuwandeln. Eine solche Darstellung wird Functional-Group-SMILES genannt.

Zur großen Überraschung der Forscher erwies sich das neuronale Netz als in der Lage, fast alles zu lernen, sofern der entsprechende Darstellungsstil in den Trainingsdaten enthalten war. Allerdings benötigt Transformer zum Trainieren Dutzende von Millionen von Beispielen, und so viele chemische Formeln aus Forschungsarbeiten von Hand zu sammeln, ist unmöglich. Daher wählte das Team einen anderen Ansatz und erstellte einen Datengenerator, der Beispiele für molekulare Vorlagen erzeugt, indem er zufällig ausgewählte Molekülfragmente und Darstellungsstile kombiniert.

"Unsere Studie ist ein gutes Beispiel für den laufenden Paradigmenwechsel bei der optischen Erkennung von chemischen Strukturen. Während sich frühere Forschungen auf die Erkennung von Molekülstrukturen an sich konzentrierten, können wir uns jetzt, da wir über die einzigartigen Fähigkeiten von Transformer und ähnlichen Netzwerken verfügen, stattdessen der Schaffung künstlicher Mustergeneratoren widmen, die die meisten der existierenden Darstellungsstile von Molekülvorlagen imitieren würden. Unser Algorithmus kombiniert Moleküle, funktionelle Gruppen, Schriftarten, Stile, sogar Druckfehler, er fügt Bits zusätzlicher Moleküle, abstrakte Fragmente usw. ein. Selbst für einen Chemiker ist es schwer zu erkennen, ob das Molekül direkt aus einem echten Papier oder aus dem Generator stammt", so der Hauptautor der Studie, Sergey Sosnin, der CEO von Syntelly, einem bei Skoltech gegründeten Startup-Unternehmen.

Die Autoren der Studie hoffen, dass ihre Methode ein wichtiger Schritt auf dem Weg zu einer künstlichen Intelligenz ist, die in der Lage wäre, Forschungspapiere in dem Maße zu "lesen" und zu "verstehen", wie es ein hochqualifizierter Chemiker tun würde.

Hinweis: Dieser Artikel wurde mit einem Computersystem ohne menschlichen Eingriff übersetzt. LUMITOS bietet diese automatischen Übersetzungen an, um eine größere Bandbreite an aktuellen Nachrichten zu präsentieren. Da dieser Artikel mit automatischer Übersetzung übersetzt wurde, ist es möglich, dass er Fehler im Vokabular, in der Syntax oder in der Grammatik enthält. Den ursprünglichen Artikel in Englisch finden Sie hier.

Originalveröffentlichung

Ivan Khokhlov et al.; "Image2SMILES: Transformer-Based Molecular Optical Recognition Engine"; Chemistry - Methods; 2022

https://www.chemie.de/news/1174826/kuenstliche-intelligenz-liest-und-versteht-forschungsartikel.html

Originalveröffentlichung

Ivan Khokhlov et al.; "Image2SMILES: Transformer-Based Molecular Optical Recognition Engine"; Chemistry - Methods; 2022

Themen

Neuronale Netze künstliche Intelligenz Deep Learning neuronale Netzwerke

Alle anzeigen

Organisationen

Skolkovo Institute of Science and Technology

Syntelly

Da tut sich was in der Chemie-Branche …

So sieht echter Pioniergeist aus: Jede Menge innovative Start-ups bringen frische Ideen, Herzblut und Unternehmergeist auf, um die Welt von morgen zum Positiven zu verändern. Tauchen Sie ein in die Welt dieser Jungunternehmen und nutzen Sie die Möglichkeit zur Kontaktaufnahme mit den Gründern.

Jetzt Start-ups entdecken

Zuletzt betrachtete Inhalte

Präziser Blick ins Innerste von Transistoren hilft Energie sparen - Neue Methode, um Defekte in Leistungstransistoren genauer, schneller und einfacher zu finden

Seite aufrufen

Mehr aus dem Ressort Wissenschaft Newsletter abonnieren

Holen Sie sich die Chemie-Branche in Ihren Posteingang

Künstliche Intelligenz "liest" und "versteht" Forschungsartikel

Forscher eines Start-ups trainieren ein neuronales Netz, um chemische Formeln aus Forschungsunterlagen zu erkennen

Neuer Algorithmus treibt den Einsatz von KI in den Materialwissenschaften voran

Originalveröffentlichung

Warum es künstliche Intelligenz eigentlich noch nicht gibt

Weitere News aus dem Ressort Wissenschaft

Das kleinste Reagenzglas der Welt

„Biofabrik“ soll Mikroplastik reduzieren

Sprühtrocknungstechnologie für Instantkaffee auf die Herstellung von Hochleistungsbatterien übertragen

Elegantes Verfahren zum Auslesen von Einzelspins über Photospannung

Neue Methode zum Nachweis von Nanoplastik in Körperflüssigkeiten

Neue, ungiftige Herstellungsmethode für „Wundermaterial“ MXene

Eine flüssige Batterie, die jede Form annehmen kann

CO₂-Entnahme und -Speicherung: Welche Verfahren sind sinnvoll und wünschenswert?

Durchbruch bei der Ausrichtung einzelner Makromoleküle mit Lasern für die Bildgebung erzielt

Mithilfe Künstlicher Intelligenz die Bewegungsenergie molekularer Quantensysteme vorhersagen

Rollende Partikel machen Suspensionen flüssiger

3D-gedruckter Open-Source-Roboter bietet eine zugängliche Lösung für die Materialsynthese

Mikrobiome und grüne Chemie für die Bodenregenerierung

Bedeutender Fortschritt in der chemischen Flüssigkeitsanalytik erzielt

Vom Abfall zum Schatz: Neues Verfahren zur effizienten Regeneration von gebrauchten Lithium-Kobalt-Oxid Batterien

Chatbot öffnet Computerchemie für Nicht-Experten

Welches Innovationspotenzial bietet der Einsatz von Graphen bei Lithium-Ionen-Batterien?

Nachhaltige flammschutzmittelhaltige Kunststoffe für geschlossene Kreislaufanwendungen

Wie Wasser seine Quantengeheimnisse verbirgt

Plastikmüll im Ozean: Was biologisch abbaubare Kunststoffe zur Lösung des Problems beitragen können

Holen Sie sich die Chemie-Branche in Ihren Posteingang

Meistgelesene News

Die Top 10 der deutschen Zukunftsbranchen

Wissenschaftlicher Durchbruch in der Chemie

Weltpremiere: Produktionsanlage „Mannheim 001“ gewinnt Schiffstreibstoff aus Abwasser und Strom

Die Batterien der fünften Generation

Künstliche Photosynthese: Chemiker ahmen Pflanzen nach

Schifffahrt der Zukunft: Biologisch abbaubare Antifouling-Beschichtungen für saubere Meere

Neue grüne Chemie extrahiert wertvolle Verbindungen aus Pflanzenabfällen

Wie man Kohlendioxid für immer loswird

Struktur von überkritischem Wasser entschlüsselt

Wie Wasser seine Quantengeheimnisse verbirgt

Wie können Naturwissenschaften von KI profitieren?

Selbstheilende Batterien: die Zukunft der dauerhaften und sicheren Energiespeicherung

Weitere News von unseren anderen Portalen

Wie altert das Immunsystem?

Etikettenschlacht: Paulaner gewinnt im Streit gegen Karlsberg-Brauerei

Nanotechnologie: DNA-Origami verbessert die Empfindlichkeit von Schnelltests

Gesünder leben, länger leben

Neuheit: Le Spritz - der lila Ready-to-Drink Aperitif

Stachelige Erkenntnis: So verformen sich rote Blutkörperchen

CureVac erhält positive Entscheidung zur Patentgültigkeit vom Europäischen Patentamt im Rechtsstreit mit BioNTech SE

Unilever Food Solutions präsentiert die Future Menus Trends 2025

Krebsrisiko präziser vorhersagen

Das Mikrobiom beeinflusst das Altern

Eine tägliche Dosis Joghurt könnte das Mittel der Wahl sein, um Bluthochdruck in den Griff zu bekommen

mo:re führt Laborplattform ein, die neue Standards in der tierversuchsfreien Medikamentenentwicklung setzt

Ergebnisse in Sekunden statt in Stunden: Bahnbrechender instrumentenfreier Test

Comeback einer Ikone: Coca-Cola Light bringt stylische Dose zurück

Seidenschwämme statt Tierversuche

Blutspenden rettet Leben – doch welche langfristigen Spuren hinterlässt diese Praxis in unserem Körper?

Cholesterinsteigernde Stoffe im Kaffee aus dem Automaten am Arbeitsplatz

Wie ein Entzündungsbotenstoff Alzheimer anfeuert

mRNA-Coronaimpfung trainiert das „Langzeitgedächtnis“ des Immunsystems

Ernährungstrends 2025: Wie Unternehmen von flexiblen Ernährungsweisen und Snackification profitieren können

Atemtest im Taschenformat für Magenbakterien

Ursprung des Lebens: Wie Mikroben den Grundstein für komplexe Zellen legten

Pluspunkte für ChatGPTs Fähigkeiten bei der Lebensmittelanalyse

Münchner Start-up für Laborautomatisierung sammelt 2,77 Millionen Euro ein

Gold gegen Krebs

Just Spices und Vanezia Blum bringen ihre zweite Co-Creation auf den Markt

Gedruckte Haut soll Tierversuche ersetzen

Neue Subtypen von Fettzellen im menschlichen Körper entdeckt

Was steckt hinter dem "Knall und Schwappen" beim Öffnen einer Bügelverschlussflasche mit Bier?

Was unser Gehirn macht, wenn wir scheinbar nichts tun

Da tut sich was in der Chemie-Branche …

Zuletzt betrachtete Inhalte

Präziser Blick ins Innerste von Transistoren hilft Energie sparen - Neue Methode, um Defekte in Leistungstransistoren genauer, schneller und einfacher zu finden