Frank Best, Essen
Boris Kovatchev ist ein anerkannter US-Mathematiker, der sich seit vielen Jahren mit der Auswertung von Daten bei der Diabetes-Therapie beschäftigt. Der Titel einer aktuellen Publikation von ihm in einer US-Fachzeitschrift macht zunächst neugierig: „Clinically-Similar Clusters of Daily CGM Profiles: Tracking the Progression of Glycemic Control Over Time“.1 (Klinisch-ähnliche Cluster täglicher CGM-Profile: Verfolgung des Fortschritts der glykämischen Kontrolle im Laufe der Zeit)
Es geht dann vollmundig weiter: “The adoption of CGM results in vast amounts of data, but their interpretation is still more art than exact science.” Hier wollen die Autoren Abhilfe schaffen, indem sie ein festes und begrenztes Set von klinisch-ähnlichen Clustern (CSC) präsentieren, bei dem die Time-in-Range (TiR)-Verhältnisse der täglichen CGM-Profile innerhalb eines Clusters homogen sind (Abstract, Seite 21). Inwiefern dadurch aus Kunst Wissenschaft wird, ist (und bleibt nicht nur zunächst) unklar.
Die Autoren bemängeln die Vielzahl an Messgrößen wie MAGE, LBGI/HBGI, MODD, CONGA oder GRI, die alle bezogen auf die Blutzuckerhöhe seien („amplitude-based“). Sie begrüßen den „International Consensus on Time in Range“ von 2019, kritisieren aber gleichzeitig, dass die zeitliche Dimension, die ja ohne Zweifel in den CGM-Daten steckt, nicht entsprechend berücksichtigt wird. Deswegen „ …this manuscript takes the next step of advancing the AGP/TIR concept, by establishing a fixed and finite set of clinically similar clusters (CSCs), which faithfully represent the multitude of all daily CGM profiles with relatively few (N=32) fixed CSCs, and allow tracking of daily glycemic changes over time in a table-lookup format.” (Introduction, S.51)
Ausgewertet werden dazu >200.000 tägliche CGM-Profile. Die CGM-Profile stammen aus 16 (!) Studien, die zwischen 2008 und 2022 veröffentlicht wurden. Die Teilnehmer hatten entweder einen DM Typ1, Typ2 oder keinen Diabetes. Die Studiendauer betrug zwischen 1 und 32 Wochen. Therapie-Modalitäten: keine, MDI, CSII, AID.
Aufgrund des langen Zeitraums, über den Studien ausgewählt wurden, ist die Art der Sensoren, ihre Empfindlichkeit und Liegedauer sehr unterschiedlich. Die Vollständigkeit der Daten liegt in den verschiedenen Studien zwischen 69 und 81% (das erfährt man aber nicht in dieser, sondern in einer früheren Veröffentlichung! Aber dazu später mehr.). Das Alter der Probanden liegt in den sechzehn Studien zwischen im Mittel 10 und 68 Jahren.
Bereits in der „Introduction“ wird erwähnt, dass im Ergebnis 32 Cluster gefunden werden, in die sich alle >200.000 CGM-Tagessätze einordnen lassen. Die Darstellung im Methodik-Teil ist dazu ziemlich verworren: im Abschnitt „Data preprocessing and separation“ wird auf ein 2021/22 von den Autoren veröffentlichtes Verfahren zum Clustering1–4 verwiesen; der ausführliche Methodenteil dieser Arbeit befindet sich im Anhang („Supplemental Material“); die zum Clustering benutzten Verfahren sind unterschiedlich: im Anhang dieser Arbeit beschrieben ist Hierarchical Clustering mit Dendrogramm, in den Arbeiten, auf die verwiesen wird, findet man ein an All-pairs-similarity-search erinnerndes Verfahren (APSS).
Beide Verfahren unterscheiden sich deutlich. Wie diese 32 Cluster (in den früheren Arbeiten ‚motifs‘ genannt) zustande gekommen sind, bleibt unklar.
Ferner wird die Aufteilung der 200.000 CGM-Profile beschrieben: aus 6 Studien wurden 23.916 Profile für das Trainingsset rekrutiert; aus den gleichen 6 Studien wurden 37.758 andere Profile für das Validation-Set benutzt; 143.036 Profile aus den 10 anderen Studien wurden als Testing-Set benutzt. Es wird nicht begründet, ob dieses Vorgehen (bei der doch sehr unterschiedlichen Zusammensetzung der Studien) validiert wurde oder nicht! Es wird nicht begründet, warum nicht andere (Cross-) Validation-Verfahren angewandt wurden.
Der hohe Anteil an unvollständigen Daten wurde oben bereits erwähnt. Darüber wird ausschließlich (!) in einer Arbeit der beiden Autoren von 20213 berichtet! Für die Überprüfung der Güte der Clusterbildung beim Hierarchischen Clustering wird die Euklidische Distanz benutzt: letztere ist sehr anfällig gegenüber fehlenden Werten. Das wird von den Autoren nicht diskutiert!
Wenn man sich die Verteilung der 200.000 Profile auf die 32 Cluster anschaut (in den Supplements2), dann stellt man fest, dass sich in vier Clustern 71,5% der Profile wiederfinden; in 19/32 Clustern gibt es jeweils weniger als 1% der Profile! Hätte man da nicht anders „prunen“ müssen?
Der methodische Teil hinterlässt also viele Fragezeichen. Die Beschreibung der benutzten Verfahren ist widersprüchlich. Es gibt keine Angaben zu Parametern bei den Prozessen. Im Anhang wird beschrieben, dass das scipy.cluster.hierarchy-Modul der entsprechenden Python-Bibliothek benutzt wurde. Als Referenz erscheint aber nicht die Dokumentation der Bibliothek, sondern ein belangloser Artikel aus Nature zu SciPy.
Ich bin kein Statistiker, aber die Anwendung der Linearen Regression zur Überprüfung der Güte des Clustering scheint mir doch eher ungewöhnlich.
Auf dem 8th International Workshop on Multimedia Data Mining (2007) hielt Eamonn Keogh einen bemerkenswerten Vortrag: „Why the lack of reproducibility is crippling research“.5 (Warum die mangelnde Reproduzierbarkeit die Forschung lähmt.)
„The reason for this is that in most cases, no one, including the original authors can reproduce the findings in the papers. As I shall argue, non-reproducible results are the same as no results at all. The irreproducibility of results may be explicit, the refusal to share data or to give parameter settings, or implicit, the effort to reproduce may be so great that the authors ensure that no one will ever try.“
(„Der Grund dafür ist, dass in den meisten Fällen niemand, auch nicht die Originalautoren, die Ergebnisse in den Arbeiten reproduzieren kann. Wie ich darlegen werde, sind nicht reproduzierbare Ergebnisse dasselbe wie überhaupt keine Ergebnisse. Die Nichtreproduzierbarkeit der Ergebnisse kann explizit sein, die Weigerung, Daten weiterzugeben oder Parametereinstellungen anzugeben, oder implizit, der Aufwand zur Reproduzierbarkeit kann so groß sein, dass die Autoren sicherstellen, dass niemand es jemals versuchen wird.“)
Dem gibt es nichts hinzuzufügen!
Unter der Annahme, dass alle ermittelten Ergebnisse korrekt sind, welchen Benefit versprechen sich die Autoren? Welche Vorteile hat der Patient, die Diabetes-Beraterin, der Diabetologe? Für die Autoren sind es vor allem vier Bereiche:
- Data structuring, dimensionality reduction, and database indexing – Das mag ein Ergebnis sein, dass den Data Scientist begeistert. Aber ich bin mir nicht sicher, ob das mit weniger Aufwand (‚sliding window‘, ‚moving average‘, MACD-ähnliche Verfahren) nicht auch zu erreichen wäre!
- Distinguishing between health states and treatment modalities – Um zu erkennen, dass es entsprechende Unterschiede zwischen Stoffwechselgesunden, Diabetes mellitus Typ-1 (MDI), Diabetes mellitus Typ-1 (CSII), Diabetes mellitus Typ-1 (AID) und Diabetes mellitus Typ-2 gibt, braucht niemand ein solches Clustering!
- CGM pattern recognition and forecast – Das Clustering an sich ist ja schon Mustererkennung. Die Möglichkeit zur Vorhersage, kann ich beim besten Willen nicht erkennen.
- Tracking disease progression over time – Auch das kann man mit AGP/TiR mit weniger Aufwand genauso gut erkennen.
Am Rande
Aus Jux habe ich ChatGPT gefragt, ob die im Artikel beschriebenen statistischen Prozeduren korrekt durchgeführt worden sind.
Antwort: „ … without more specific information about the statistical methods used and the context of the analysis, it is difficult to determine whether the statistics were performed correctly. It is important to note that the paper has been peer-reviewed and accepted for publication, which suggests that experts in the field have evaluated the study’s methods and findings.” (… ohne genauere Informationen über die verwendeten statistischen Methoden und den Kontext der Analyse ist es schwierig festzustellen, ob die Statistiken korrekt durchgeführt wurden. Es ist wichtig zu beachten, dass das Papier einem Peer-Review unterzogen und zur Veröffentlichung angenommen wurde, was darauf hindeutet, dass Experten auf diesem Gebiet die Methoden und Ergebnisse der Studie bewertet haben.“)
Na dann …
Frank Best, Essen
- Kovatchev, B. P. & Lobo, B. Clinically-Similar Clusters of Daily CGM Profiles: Tracking the Progression of Glycemic Control Over Time. Diabetes Technology Ther 0, (2023).
- Kovatchek, B. & Lobo, B. Clinically-Similar Clusters of Daily CGM Profiles: Tracking the Progression of Glycemic Control Over Time. Diabetes Technology Therapeutics.
- Lobo, B., Farhy, L., Shafiei, M. & Kovatchev, B. A Data-Driven Approach to Classifying Daily Continuous Glucose Monitoring (CGM) Time Series. Ieee T Bio-med Eng 69, 654–665 (2021).
- Lobo, B. J. & Kovatchev, B. P. External validation of a classifier of daily continuous glucose monitoring (CGM) profiles. Comput Biol Med 143, 105293 (2022).
- Keogh, E. Why the lack of reproducibility is crippling research in data mining and what you can do about it. Proc 8th Int Work Multimedia Data Min Assoc Acm Sigkdd 2007 2 (2007) doi:10.1145/1341920.1341922.
DiaTec weekly – Juni 16, 23
Artikel teilen & drucken
Dieser Artikel erscheint als Teil des wöchentlichen Letters zu hochaktuellen Entwicklungen im Bereich Diabetes Technologie. Nutzen Sie das untenstehende Formular um sich für den DiaTec weekly Newsletter anzumelden!
Mit freundlichen Grüßen
Der Beitrag von Frank Best zu einem wissenschaftlichen Artikel von Boris Kovatchev ist höchst ungewöhnlich. Der Leser fragt sich, warum der Autor nicht – wie in der Scientific Community üblich – einen Leserbrief mit den wichtigsten Kritikpunkten an die Zeitschrift schickt. Dann könnte der Autor, Boris Kovatchev, seinen Standpunkt zu den Kritiken entgegen.
Für mich persönlich, der den Originalartikel, wie wahrscheinlich viele Leser von Diatec weekly nicht wirklich lesen (keinen Zugang), geschweige denn verstehen kann, ist der Beitrag verwirrend, weil sehr viele Kritikpunkte angebracht werden, die meist hochgradiges Fachwissen erfordern. Andererseits sagt der Autor von sich selbst “ ich bin kein Statistiker, aber…“
Sinnvoller wäre es gewesen, in der Einleitung einmal zu erläutern, warum derzeit Clustering in der Medizin verbreitet ist. Dies hängt mit Big Data und Machine Learning zusammen und man erhofft sich aus BZ-Profilen Therapiemodalitäten oder sogar Empfehlungen ableiten zu können.-
Warum sich die Macher von DIATEC WEEKLY dem anschließen mit dem Hinweis „es ist nicht immer Gold was glänzt“ sei dahin gestellt, denn ihre Beiträge sind ansonsten fast immer verständlich und sie sind ebenso in der Scientific Community zuhause wie Boris Kovatchev.