• Wij

Validatie van een dataminingmodel tegen traditionele methoden voor het schatten van de tandheelkundige leeftijd onder Koreaanse adolescenten en jonge volwassenen

Bedankt voor uw bezoek aan Nature.com. De browserversie die u gebruikt, heeft beperkte CSS-ondersteuning. Voor de beste resultaten raden wij u aan een nieuwere versie van uw browser te gebruiken (of de compatibiliteitsmodus in Internet Explorer uit te schakelen). Om voortdurende ondersteuning te garanderen, tonen we de site in de tussentijd zonder stijl of JavaScript.
Tanden worden beschouwd als de meest nauwkeurige indicator van de leeftijd van het menselijk lichaam en worden vaak gebruikt bij forensische leeftijdsbeoordeling. Ons doel was om op datamining gebaseerde tandheelkundige leeftijdsschattingen te valideren door de nauwkeurigheid van de schattingen en de classificatieprestaties van de 18-jarige drempel te vergelijken met traditionele methoden en op datamining gebaseerde leeftijdsschattingen. Er werden in totaal 2657 panoramische röntgenfoto's verzameld van Koreaanse en Japanse burgers van 15 tot 23 jaar. Ze waren verdeeld in een trainingsset, elk met 900 Koreaanse röntgenfoto's, en een interne testset met 857 Japanse röntgenfoto's. We vergeleken de classificatienauwkeurigheid en efficiëntie van traditionele methoden met testsets van dataminingmodellen. De nauwkeurigheid van de traditionele methode op de interne testset is iets hoger dan die van het dataminingmodel, en het verschil is klein (gemiddelde absolute fout <0,21 jaar, wortelgemiddelde kwadratische fout <0,24 jaar). De classificatieprestaties voor de 18-jarige grens zijn ook vergelijkbaar tussen traditionele methoden en dataminingmodellen. Traditionele methoden kunnen dus worden vervangen door dataminingmodellen bij het uitvoeren van forensische leeftijdsbeoordeling met behulp van de rijpheid van tweede en derde kiezen bij Koreaanse adolescenten en jonge volwassenen.
Het schatten van de tandheelkundige leeftijd wordt veel gebruikt in de forensische geneeskunde en de kindertandheelkunde. Met name vanwege de hoge correlatie tussen chronologische leeftijd en tandheelkundige ontwikkeling is leeftijdsbeoordeling aan de hand van tandheelkundige ontwikkelingsstadia een belangrijk criterium voor het beoordelen van de leeftijd van kinderen en adolescenten1,2,3. Voor jonge mensen heeft het schatten van de tandleeftijd op basis van de tandrijpheid echter zijn beperkingen, omdat de tandgroei bijna voltooid is, met uitzondering van de derde kiezen. Het juridische doel van het bepalen van de leeftijd van jongeren en adolescenten is het verschaffen van nauwkeurige schattingen en wetenschappelijk bewijs van de vraag of zij de meerderjarigheid hebben bereikt. In de medisch-juridische praktijk van adolescenten en jongvolwassenen in Korea werd de leeftijd geschat met behulp van Lee's methode, en werd een wettelijke drempel van 18 jaar voorspeld op basis van de gegevens gerapporteerd door Oh et al. 5 .
Machine learning is een vorm van kunstmatige intelligentie (AI) die herhaaldelijk grote hoeveelheden gegevens leert en classificeert, problemen zelf oplost en de dataprogrammering aanstuurt. Machine learning kan nuttige verborgen patronen ontdekken in grote hoeveelheden gegevens6. Klassieke methoden, die arbeidsintensief en tijdrovend zijn, kunnen daarentegen beperkingen hebben bij het omgaan met grote hoeveelheden complexe gegevens die moeilijk handmatig te verwerken zijn7. Daarom zijn er de laatste tijd veel onderzoeken uitgevoerd met behulp van de nieuwste computertechnologieën om menselijke fouten te minimaliseren en multidimensionale gegevens efficiënt te verwerken8,9,10,11,12. Met name deep learning wordt op grote schaal gebruikt bij de analyse van medische beelden, en er is gerapporteerd dat verschillende methoden voor leeftijdsschatting door het automatisch analyseren van röntgenfoto's de nauwkeurigheid en efficiëntie van leeftijdsschatting verbeteren13,14,15,16,17,18,19,20 . Halabi et al.13 ontwikkelden bijvoorbeeld een machine learning-algoritme gebaseerd op convolutionele neurale netwerken (CNN) om de skeletleeftijd te schatten met behulp van röntgenfoto's van kinderhanden. Deze studie stelt een model voor dat machinaal leren toepast op medische beelden en laat zien dat deze methoden de diagnostische nauwkeurigheid kunnen verbeteren. Li et al. schatten de leeftijd op basis van röntgenfoto's van het bekken met behulp van een deep learning CNN en vergeleken deze met regressieresultaten met behulp van schatting van het ossificatiestadium. Ze ontdekten dat het deep learning CNN-model dezelfde prestaties op het gebied van leeftijdsschatting liet zien als het traditionele regressiemodel. Het onderzoek van Guo et al. [15] evalueerde de leeftijdstolerantieclassificatieprestaties van CNN-technologie op basis van tandheelkundige orthofoto's, en de resultaten van het CNN-model bewezen dat mensen beter presteerden dan de leeftijdsclassificatieprestaties.
De meeste onderzoeken naar leeftijdsschatting met behulp van machine learning maken gebruik van deep learning-methoden13,14,15,16,17,18,19,20. Leeftijdsschatting op basis van deep learning is naar verluidt nauwkeuriger dan traditionele methoden. Deze aanpak biedt echter weinig mogelijkheden om de wetenschappelijke basis voor leeftijdsschattingen te presenteren, zoals de leeftijdsindicatoren die in de schattingen worden gebruikt. Ook bestaat er een juridisch geschil over wie de inspecties uitvoert. Daarom is leeftijdsschatting op basis van diepgaand leren moeilijk te aanvaarden door administratieve en gerechtelijke autoriteiten. Datamining (DM) is een techniek die niet alleen verwachte maar ook onverwachte informatie kan ontdekken als een methode om bruikbare correlaties tussen grote hoeveelheden gegevens te ontdekken6,21,22. Machine learning wordt vaak gebruikt bij datamining, en zowel datamining als machine learning gebruiken dezelfde sleutelalgoritmen om patronen in data te ontdekken. De schatting van de leeftijd met behulp van de tandheelkundige ontwikkeling is gebaseerd op de beoordeling door de onderzoeker van de volwassenheid van de doeltanden, en deze beoordeling wordt uitgedrukt als een stadium voor elke doeltand. DM kan worden gebruikt om de correlatie tussen de tandheelkundige beoordelingsfase en de werkelijke leeftijd te analyseren en heeft het potentieel om traditionele statistische analyses te vervangen. Als we DM-technieken toepassen op leeftijdsschatting, kunnen we machine learning implementeren bij forensische leeftijdsschatting zonder dat we ons zorgen hoeven te maken over wettelijke aansprakelijkheid. Er zijn verschillende vergelijkende onderzoeken gepubliceerd over mogelijke alternatieven voor traditionele handmatige methoden die in de forensische praktijk worden gebruikt en op EBM gebaseerde methoden voor het bepalen van de tandheelkundige leeftijd. Shen et al.23 toonden aan dat het DM-model nauwkeuriger is dan de traditionele Camerer-formule. Galibourg et al24 pasten verschillende DM-methoden toe om de leeftijd te voorspellen volgens het Demirdjian-criterium25 en de resultaten toonden aan dat de DM-methode beter presteerde dan de Demirdjian- en Willems-methoden bij het schatten van de leeftijd van de Franse bevolking.
Om de tandheelkundige leeftijd van Koreaanse adolescenten en jongvolwassenen te schatten, wordt Lee's methode 4 veel gebruikt in de Koreaanse forensische praktijk. Deze methode maakt gebruik van traditionele statistische analyses (zoals meervoudige regressie) om de relatie tussen Koreaanse proefpersonen en de chronologische leeftijd te onderzoeken. In deze studie worden leeftijdsschattingsmethoden die zijn verkregen met behulp van traditionele statistische methoden gedefinieerd als ‘traditionele methoden’. Lee's methode is een traditionele methode en de nauwkeurigheid ervan is bevestigd door Oh et al. 5; De toepasbaarheid van leeftijdsschatting op basis van het DM-model in de Koreaanse forensische praktijk is echter nog steeds twijfelachtig. Ons doel was om het potentiële nut van leeftijdsschatting op basis van het DM-model wetenschappelijk te valideren. Het doel van deze studie was (1) het vergelijken van de nauwkeurigheid van twee DM-modellen bij het schatten van de tandheelkundige leeftijd en (2) het vergelijken van de classificatieprestaties van 7 DM-modellen op de leeftijd van 18 jaar met die verkregen met behulp van traditionele statistische methoden. en derde kiezen in beide kaken.
Gemiddelden en standaardafwijkingen van chronologische leeftijd per stadium en tandtype worden online weergegeven in aanvullende tabel S1 (trainingsset), aanvullende tabel S2 (interne testset) en aanvullende tabel S3 (externe testset). De kappa-waarden voor intra- en interobservatorbetrouwbaarheid verkregen uit de trainingsset waren respectievelijk 0,951 en 0,947. P-waarden en 95% betrouwbaarheidsintervallen voor kappa-waarden worden weergegeven in online aanvullende tabel S4. De kappa-waarde werd geïnterpreteerd als “bijna perfect”, in overeenstemming met de criteria van Landis en Koch26.
Bij het vergelijken van de gemiddelde absolute fout (MAE) presteert de traditionele methode iets beter dan het DM-model voor alle geslachten en in de externe mannelijke testset, met uitzondering van meerlaags perceptron (MLP). Het verschil tussen het traditionele model en het DM-model op de interne MAE-testset was 0,12–0,19 jaar voor mannen en 0,17–0,21 jaar voor vrouwen. Voor de externe testbatterij zijn de verschillen kleiner (0,001–0,05 jaar voor mannen en 0,05–0,09 jaar voor vrouwen). Bovendien is de root mean square error (RMSE) iets lager dan bij de traditionele methode, met kleinere verschillen (0,17–0,24, 0,2–0,24 voor de mannelijke interne testset en 0,03–0,07, 0,04–0,08 voor externe testset). ). MLP laat iets betere prestaties zien dan Single Layer Perceptron (SLP), behalve in het geval van de vrouwelijke externe testset. Voor MAE en RMSE scoort de externe testset voor alle geslachten en modellen hoger dan de interne testset. Alle MAE en RMSE worden weergegeven in Tabel 1 en Figuur 1.
MAE en RMSE van traditionele en datamining-regressiemodellen. Gemiddelde absolute fout MAE, wortelgemiddelde kwadratische fout RMSE, enkellaags perceptron SLP, meerlaags perceptron MLP, traditionele CM-methode.
De classificatieprestaties (met een cutoff van 18 jaar) van de traditionele en DM-modellen werden aangetoond in termen van gevoeligheid, specificiteit, positief voorspellende waarde (PPV), negatief voorspellende waarde (NPV) en gebied onder de receiver operating karakteristieke curve (AUROC). 27 (Tabel 2, Figuur 2 en Aanvullende Figuur 1 online). Wat betreft de gevoeligheid van de interne testbatterij presteerden traditionele methoden het beste bij mannen en slechter bij vrouwen. Het verschil in classificatieprestaties tussen traditionele methoden en SD bedraagt ​​echter 9,7% voor mannen (MLP) en slechts 2,4% voor vrouwen (XGBoost). Onder de DM-modellen vertoonde logistische regressie (LR) een betere gevoeligheid bij beide geslachten. Met betrekking tot de specificiteit van de interne testset werd waargenomen dat de vier SD-modellen goed presteerden bij mannen, terwijl het traditionele model beter presteerde bij vrouwen. De verschillen in classificatieprestaties voor mannen en vrouwen bedragen respectievelijk 13,3% (MLP) en 13,1% (MLP), wat aangeeft dat het verschil in classificatieprestaties tussen modellen de gevoeligheid overtreft. Van de DM-modellen presteerden de Support Vector Machine (SVM), Decision Tree (DT) en Random Forest (RF)-modellen het beste bij mannen, terwijl het LR-model het beste presteerde bij vrouwen. De AUROC van het traditionele model en alle SD-modellen was groter dan 0,925 (k-dichtstbijzijnde buur (KNN) bij mannen), wat uitstekende classificatieprestaties aantoont bij het onderscheiden van 18-jarige monsters28. Voor de externe testset was er een afname in de classificatieprestaties in termen van gevoeligheid, specificiteit en AUROC vergeleken met de interne testset. Bovendien varieerde het verschil in gevoeligheid en specificiteit tussen de classificatieprestaties van de beste en slechtste modellen van 10% tot 25% en was groter dan het verschil in de interne testset.
Gevoeligheid en specificiteit van datamining-classificatiemodellen vergeleken met traditionele methoden met een cutoff van 18 jaar. KNN k dichtstbijzijnde buur, SVM-ondersteuningsvectormachine, LR logistieke regressie, DT-beslissingsboom, RF willekeurig bos, XGB XGBoost, MLP meerlaagse perceptron, traditionele CM-methode.
De eerste stap in dit onderzoek was het vergelijken van de nauwkeurigheid van schattingen van de tandheelkundige leeftijd verkregen uit zeven DM-modellen met die verkregen met behulp van traditionele regressie. MAE en RMSE werden geëvalueerd in interne testsets voor beide geslachten, en het verschil tussen de traditionele methode en het DM-model varieerde van 44 tot 77 dagen voor MAE en van 62 tot 88 dagen voor RMSE. Hoewel de traditionele methode in dit onderzoek iets nauwkeuriger was, is het moeilijk te concluderen of zo’n klein verschil klinische of praktische betekenis heeft. Deze resultaten geven aan dat de nauwkeurigheid van de schatting van de tandheelkundige leeftijd met behulp van het DM-model vrijwel hetzelfde is als die van de traditionele methode. Een directe vergelijking met resultaten uit eerdere onderzoeken is moeilijk omdat geen enkele studie de nauwkeurigheid van DM-modellen heeft vergeleken met traditionele statistische methoden die dezelfde techniek gebruiken voor het registreren van tanden in dezelfde leeftijdscategorie als in deze studie. Galibourg et al24 vergeleken MAE en RMSE tussen twee traditionele methoden (Demirjian-methode25 en Willems-methode29) en 10 DM-modellen in een Franse bevolking van 2 tot 24 jaar. Ze rapporteerden dat alle DM-modellen nauwkeuriger waren dan traditionele methoden, met verschillen van respectievelijk 0,20 en 0,38 jaar in MAE en 0,25 en 0,47 jaar in RMSE vergeleken met de Willems- en Demirdjian-methoden. Bij de discrepantie tussen het SD-model en traditionele methoden die in het Halibourg-onderzoek wordt getoond, wordt rekening gehouden met talrijke rapporten30,31,32,33 dat de Demirdjian-methode de tandheelkundige leeftijd niet nauwkeurig schat in andere populaties dan de Frans-Canadese bevolking waarop het onderzoek was gebaseerd. in deze studie. Tai et al.34 gebruikten het MLP-algoritme om de tandleeftijd te voorspellen op basis van 1636 Chinese orthodontische foto's en vergeleken de nauwkeurigheid ervan met de resultaten van de Demirjian en Willems-methode. Ze meldden dat MLP een hogere nauwkeurigheid heeft dan traditionele methoden. Het verschil tussen de Demirdjian-methode en de traditionele methode is <0,32 jaar, en de Willems-methode is 0,28 jaar, wat vergelijkbaar is met de resultaten van het huidige onderzoek. De resultaten van deze eerdere onderzoeken24,34 komen ook overeen met de resultaten van het huidige onderzoek, en de nauwkeurigheid van de leeftijdsschatting van het DM-model en de traditionele methode zijn vergelijkbaar. Op basis van de gepresenteerde resultaten kunnen we echter slechts voorzichtig concluderen dat het gebruik van DM-modellen om de leeftijd te schatten de bestaande methoden kan vervangen vanwege het gebrek aan vergelijkende en eerdere referentiestudies. Vervolgstudies met grotere monsters zijn nodig om de in dit onderzoek verkregen resultaten te bevestigen.
Van de onderzoeken die de nauwkeurigheid van SD bij het schatten van de tandheelkundige leeftijd testten, vertoonden sommige een grotere nauwkeurigheid dan onze studie. Stepanovsky et al. 35 pasten 22 SD-modellen toe op panoramische röntgenfoto's van 976 Tsjechische inwoners in de leeftijd van 2,7 tot 20,5 jaar en testten de nauwkeurigheid van elk model. Ze beoordeelden de ontwikkeling van in totaal 16 permanente tanden linksboven en linksonder met behulp van de classificatiecriteria voorgesteld door Moorrees et al.36. De MAE varieert van 0,64 tot 0,94 jaar en de RMSE varieert van 0,85 tot 1,27 jaar, wat nauwkeuriger is dan de twee DM-modellen die in dit onderzoek zijn gebruikt. Shen et al.23 gebruikten de Cameriere-methode om de tandheelkundige leeftijd van zeven permanente tanden in de linker onderkaak te schatten bij inwoners van Oost-China van 5 tot 13 jaar en vergeleken deze met de geschatte leeftijden met behulp van lineaire regressie, SVM en RF. Ze toonden aan dat alle drie de DM-modellen een hogere nauwkeurigheid hebben vergeleken met de traditionele Cameriere-formule. De MAE en RMSE in het onderzoek van Shen waren lager dan die in het DM-model in dit onderzoek. De toegenomen nauwkeurigheid van de onderzoeken van Stepanovsky et al. 35 en Shen et al. Dit kan te wijten zijn aan de opname van jongere proefpersonen in hun onderzoeksmonsters. Omdat leeftijdsschattingen voor deelnemers met zich ontwikkelende tanden nauwkeuriger worden naarmate het aantal tanden toeneemt tijdens de tandheelkundige ontwikkeling, kan de nauwkeurigheid van de resulterende leeftijdsschattingsmethode in gevaar komen als de deelnemers aan het onderzoek jonger zijn. Bovendien is de fout van MLP bij het inschatten van de leeftijd iets kleiner dan die van SLP, wat betekent dat MLP nauwkeuriger is dan SLP. MLP wordt als iets beter beschouwd voor het inschatten van de leeftijd, mogelijk vanwege de verborgen lagen in MLP38. Er is echter een uitzondering voor de buitenste steekproef van vrouwen (SLP 1,45, MLP 1,49). De bevinding dat de MLP nauwkeuriger is dan de SLP bij het beoordelen van de leeftijd vereist aanvullend retrospectief onderzoek.
De classificatieprestaties van het DM-model en de traditionele methode bij een drempel van 18 jaar werden ook vergeleken. Alle geteste SD-modellen en traditionele methoden op de interne testset vertoonden praktisch aanvaardbare niveaus van discriminatie voor de 18-jarige steekproef. De sensitiviteit voor mannen en vrouwen was respectievelijk groter dan 87,7% en 94,9%, en de specificiteit was groter dan 89,3% en 84,7%. De AUROC van alle geteste modellen overschrijdt ook 0,925. Voor zover wij weten, heeft geen enkele studie de prestaties van het DM-model voor 18-jaarsclassificatie op basis van tandheelkundige volwassenheid getest. We kunnen de resultaten van dit onderzoek vergelijken met de classificatieprestaties van deep learning-modellen op panoramische röntgenfoto's. Guo et al.15 berekenden de classificatieprestaties van een op CNN gebaseerd deep learning-model en een handmatige methode gebaseerd op de methode van Demirjian voor een bepaalde leeftijdsdrempel. De gevoeligheid en specificiteit van de handmatige methode waren respectievelijk 87,7% en 95,5%, en de gevoeligheid en specificiteit van het CNN-model overschreden respectievelijk 89,2% en 86,6%. Ze concludeerden dat deep learning-modellen handmatige beoordelingen kunnen vervangen of zelfs beter kunnen presteren bij het classificeren van leeftijdsdrempels. De resultaten van dit onderzoek lieten vergelijkbare classificatieprestaties zien; Er wordt aangenomen dat classificatie met behulp van DM-modellen de traditionele statistische methoden voor leeftijdsschatting kan vervangen. Van de modellen was DM LR het beste model in termen van gevoeligheid voor het mannelijke monster en gevoeligheid en specificiteit voor het vrouwelijke monster. LR staat op de tweede plaats qua specificiteit voor mannen. Bovendien wordt LR beschouwd als een van de gebruiksvriendelijkere DM35-modellen en is het minder complex en moeilijk te verwerken. Op basis van deze resultaten werd LR beschouwd als het beste cutoff-classificatiemodel voor 18-jarigen in de Koreaanse bevolking.
Over het geheel genomen was de nauwkeurigheid van de leeftijdsschatting of de classificatieprestaties op de externe testset slecht of lager vergeleken met de resultaten op de interne testset. Sommige rapporten geven aan dat de nauwkeurigheid of efficiëntie van de classificatie afneemt wanneer leeftijdsschattingen op basis van de Koreaanse bevolking worden toegepast op de Japanse bevolking5,39, en een soortgelijk patroon werd in het huidige onderzoek gevonden. Deze verslechteringstrend werd ook waargenomen in het DM-model. Om de leeftijd nauwkeurig te schatten, zelfs wanneer DM in het analyseproces wordt gebruikt, moeten daarom methoden die zijn afgeleid van gegevens over de inheemse bevolking, zoals traditionele methoden, de voorkeur verdienen5,39,40,41,42. Omdat het onduidelijk is of deep learning-modellen soortgelijke trends kunnen laten zien, zijn studies nodig die de nauwkeurigheid en efficiëntie van classificatie vergelijken met behulp van traditionele methoden, DM-modellen en deep learning-modellen op dezelfde monsters om te bevestigen of kunstmatige intelligentie deze raciale verschillen op beperkte leeftijd kan overwinnen. beoordelingen.
We laten zien dat traditionele methoden kunnen worden vervangen door leeftijdsschatting op basis van het DM-model in de forensische leeftijdsschattingspraktijk in Korea. We ontdekten ook de mogelijkheid om machinaal leren te implementeren voor forensische leeftijdsbeoordeling. Er zijn echter duidelijke beperkingen, zoals het onvoldoende aantal deelnemers aan dit onderzoek om de resultaten definitief vast te stellen, en het gebrek aan eerdere onderzoeken om de resultaten van dit onderzoek te vergelijken en te bevestigen. In de toekomst moeten DM-onderzoeken worden uitgevoerd met grotere aantallen monsters en meer diverse populaties om de praktische toepasbaarheid ervan te verbeteren in vergelijking met traditionele methoden. Om de haalbaarheid van het gebruik van kunstmatige intelligentie om de leeftijd in meerdere populaties te schatten te valideren, zijn toekomstige studies nodig om de classificatienauwkeurigheid en efficiëntie van DM- en deep learning-modellen te vergelijken met traditionele methoden in dezelfde steekproeven.
Voor het onderzoek werden 2.657 orthografische foto's gebruikt, verzameld van Koreaanse en Japanse volwassenen van 15 tot 23 jaar. De Koreaanse röntgenfoto's waren verdeeld in 900 trainingssets (19,42 ± 2,65 jaar) en 900 interne testsets (19,52 ± 2,59 jaar). De trainingsset werd verzameld bij één instelling (Seoul St. Mary's Hospital) en de eigen testset werd verzameld bij twee instellingen (Seoul National University Dental Hospital en Yonsei University Dental Hospital). We hebben ook 857 röntgenfoto's verzameld uit andere populatiegebaseerde gegevens (Iwate Medical University, Japan) voor extern testen. Röntgenfoto's van Japanse proefpersonen (19,31 ± 2,60 jaar) werden geselecteerd als externe testset. Gegevens werden retrospectief verzameld om de stadia van de tandheelkundige ontwikkeling te analyseren op panoramische röntgenfoto's gemaakt tijdens de tandheelkundige behandeling. Alle verzamelde gegevens waren anoniem, behalve het geslacht, de geboortedatum en de datum van de röntgenfoto. Inclusie- en exclusiecriteria waren dezelfde als eerder gepubliceerde onderzoeken 4, 5. De werkelijke leeftijd van het monster werd berekend door de geboortedatum af te trekken van de datum waarop de röntgenfoto werd gemaakt. De steekproefgroep werd verdeeld in negen leeftijdsgroepen. De leeftijds- en geslachtsverdelingen worden weergegeven in Tabel 3. Dit onderzoek werd uitgevoerd in overeenstemming met de Verklaring van Helsinki en goedgekeurd door de Institutional Review Board (IRB) van het Seoul St. Mary's Hospital van de Katholieke Universiteit van Korea (KC22WISI0328). Vanwege de retrospectieve opzet van dit onderzoek kon niet van alle patiënten die voor therapeutische doeleinden radiografisch onderzoek ondergingen, geïnformeerde toestemming worden verkregen. Het St. Mary's Hospital (IRB) van de Seoul Korea University zag af van de vereiste van geïnformeerde toestemming.
De ontwikkelingsstadia van de tweede en derde bimaxillaire molaren werden beoordeeld volgens de Demircan-criteria25. Er werd slechts één tand geselecteerd als aan de linker- en rechterkant van elke kaak hetzelfde type tand werd aangetroffen. Als homologe tanden aan beide zijden zich in verschillende ontwikkelingsstadia bevonden, werd de tand met het lagere ontwikkelingsstadium geselecteerd om rekening te houden met de onzekerheid in de geschatte leeftijd. Honderd willekeurig geselecteerde röntgenfoto's uit de trainingsset werden beoordeeld door twee ervaren waarnemers om de interobservatorbetrouwbaarheid te testen na prekalibratie om de tandheelkundige volwassenheidsfase te bepalen. De intraobservatorbetrouwbaarheid werd tweemaal met tussenpozen van drie maanden beoordeeld door de primaire waarnemer.
Het geslacht en het ontwikkelingsstadium van de tweede en derde kiezen van elke kaak in de trainingsset werden geschat door een primaire waarnemer die was getraind met verschillende DM-modellen, en de werkelijke leeftijd werd als streefwaarde ingesteld. SLP- en MLP-modellen, die veel worden gebruikt in machine learning, werden getest aan de hand van regressie-algoritmen. Het DM-model combineert lineaire functies met behulp van de ontwikkelingsstadia van de vier tanden en combineert deze gegevens om de leeftijd te schatten. SLP is het eenvoudigste neurale netwerk en bevat geen verborgen lagen. SLP werkt op basis van drempeltransmissie tussen knooppunten. Het SLP-model bij regressie is wiskundig vergelijkbaar met meervoudige lineaire regressie. In tegenstelling tot het SLP-model heeft het MLP-model meerdere verborgen lagen met niet-lineaire activeringsfuncties. Onze experimenten gebruikten een verborgen laag met slechts twintig verborgen knooppunten met niet-lineaire activeringsfuncties. Gebruik gradiëntafdaling als optimalisatiemethode en MAE en RMSE als verliesfunctie om ons machine learning-model te trainen. Het best verkregen regressiemodel werd toegepast op de interne en externe testsets en de leeftijd van de tanden werd geschat.
Er is een classificatie-algoritme ontwikkeld dat de rijpheid van vier tanden op de trainingsset gebruikt om te voorspellen of een monster 18 jaar oud is of niet. Om het model te bouwen, hebben we zeven machine learning-algoritmen voor representatie afgeleid6,43: (1) LR, (2) KNN, (3) SVM, (4) DT, (5) RF, (6) XGBoost en (7) MLP . LR is een van de meest gebruikte classificatie-algoritmen44. Het is een begeleid leeralgoritme dat regressie gebruikt om de waarschijnlijkheid te voorspellen dat gegevens tot een bepaalde categorie van 0 tot 1 behoren en de gegevens classificeert als behorend tot een meer waarschijnlijke categorie op basis van deze waarschijnlijkheid; voornamelijk gebruikt voor binaire classificatie. KNN is een van de eenvoudigste machine learning-algoritmen45. Wanneer nieuwe invoergegevens worden gegeven, worden k gegevens gevonden die dicht bij de bestaande set liggen en worden deze vervolgens geclassificeerd in de klasse met de hoogste frequentie. We stellen 3 in voor het aantal beschouwde buren (k). SVM is een algoritme dat de afstand tussen twee klassen maximaliseert door een kernelfunctie te gebruiken om de lineaire ruimte uit te breiden naar een niet-lineaire ruimte genaamd velden46. Voor dit model gebruiken we bias = 1, power = 1 en gamma = 1 als hyperparameters voor de polynoomkernel. DT is op verschillende terreinen toegepast als algoritme om een ​​gehele dataset in meerdere subgroepen te verdelen door beslisregels in een boomstructuur weer te geven47. Het model is geconfigureerd met een minimumaantal records per knooppunt van 2 en gebruikt de Gini-index als kwaliteitsmaatstaf. RF is een ensemblemethode die meerdere DT's combineert om de prestaties te verbeteren met behulp van een bootstrap-aggregatiemethode die voor elk monster een zwakke classificator genereert door willekeurig meerdere keren monsters van dezelfde grootte uit de originele dataset te trekken48. We gebruikten 100 bomen, 10 boomdieptes, 1 minimale knooppuntgrootte en Gini-bijmengingsindex als knooppuntscheidingscriteria. De classificatie van nieuwe gegevens wordt bepaald door een meerderheid van stemmen. XGBoost is een algoritme dat boosttechnieken combineert met behulp van een methode die als trainingsgegevens de fout tussen de werkelijke en voorspelde waarden van het vorige model neemt en de fout vergroot met behulp van gradiënten49. Het is een veelgebruikt algoritme vanwege de goede prestaties en hulpbronnenefficiëntie, evenals de hoge betrouwbaarheid als overfitting-correctiefunctie. Het model is uitgerust met 400 steunwielen. MLP is een neuraal netwerk waarin één of meer perceptrons meerdere lagen vormen met één of meer verborgen lagen tussen de invoer- en uitvoerlagen38. Hiermee kunt u een niet-lineaire classificatie uitvoeren, waarbij wanneer u een invoerlaag toevoegt en een resultaatwaarde krijgt, de voorspelde resultaatwaarde wordt vergeleken met de werkelijke resultaatwaarde en de fout wordt doorgegeven. We hebben een verborgen laag gemaakt met twintig verborgen neuronen in elke laag. Elk model dat we ontwikkelden, werd toegepast op interne en externe sets om de classificatieprestaties te testen door de gevoeligheid, specificiteit, PPV, NPV en AUROC te berekenen. Gevoeligheid wordt gedefinieerd als de verhouding tussen een steekproef van naar schatting 18 jaar of ouder en een steekproef van naar schatting 18 jaar of ouder. Specificiteit is het percentage steekproeven onder de 18 jaar en de aantallen die naar schatting jonger zijn dan 18 jaar.
De tandheelkundige fasen die in de trainingsset werden beoordeeld, werden omgezet in numerieke fasen voor statistische analyse. Multivariate lineaire en logistische regressie werd uitgevoerd om voorspellende modellen voor elk geslacht te ontwikkelen en regressieformules af te leiden die kunnen worden gebruikt om de leeftijd te schatten. We hebben deze formules gebruikt om de tandleeftijd te schatten voor zowel interne als externe testsets. Tabel 4 toont de regressie- en classificatiemodellen die in dit onderzoek zijn gebruikt.
De intra- en interobservatorbetrouwbaarheid werd berekend met behulp van Cohen's kappa-statistiek. Om de nauwkeurigheid van DM en traditionele regressiemodellen te testen, hebben we MAE en RMSE berekend met behulp van de geschatte en werkelijke leeftijden van de interne en externe testsets. Deze fouten worden vaak gebruikt om de nauwkeurigheid van modelvoorspellingen te evalueren. Hoe kleiner de fout, hoe hoger de nauwkeurigheid van de voorspelling24. Vergelijk de MAE en RMSE van interne en externe testsets, berekend met behulp van DM en traditionele regressie. De classificatieprestaties van de 18-jarige grens in traditionele statistieken werden beoordeeld met behulp van een 2 × 2 contingentietabel. De berekende sensitiviteit, specificiteit, PPV, NPV en AUROC van de testset werden vergeleken met de gemeten waarden van het DM-classificatiemodel. Gegevens worden uitgedrukt als gemiddelde ± standaardafwijking of getal (%), afhankelijk van de gegevenskenmerken. Tweezijdige P-waarden <0,05 werden als statistisch significant beschouwd. Alle routinematige statistische analyses werden uitgevoerd met behulp van SAS versie 9.4 (SAS Institute, Cary, NC). Het DM-regressiemodel werd in Python geïmplementeerd met behulp van Keras50 2.2.4 backend en Tensorflow51 1.8.0 specifiek voor wiskundige bewerkingen. Het DM-classificatiemodel werd geïmplementeerd in de Waikato Knowledge Analysis Environment en het Konstanz Information Miner (KNIME) 4.6.152 analyseplatform.
De auteurs erkennen dat gegevens die de conclusies van het onderzoek ondersteunen, te vinden zijn in het artikel en aanvullend materiaal. De tijdens het onderzoek gegenereerde en/of geanalyseerde datasets zijn op redelijk verzoek verkrijgbaar bij de corresponderende auteur.
Ritz-Timme, S. et al. Leeftijdsbeoordeling: state-of-the-art om te voldoen aan de specifieke eisen van de forensische praktijk. internationaliteit. J. Juridische geneeskunde. 113, 129–136 (2000).
Schmeling, A., Reisinger, W., Geserik, G., en Olze, A. Huidige status van forensische leeftijdsbeoordeling van levende proefpersonen voor strafrechtelijke vervolging. Forensisch onderzoek. geneesmiddel. Pathologie. 1, 239–246 (2005).
Pan, J. et al. Een aangepaste methode voor het beoordelen van de tandheelkundige leeftijd van kinderen van 5 tot 16 jaar in Oost-China. klinisch. Mondelinge enquête. 25, 3463–3474 (2021).
Lee, SS etc. Chronologie van de ontwikkeling van tweede en derde kiezen bij Koreanen en de toepassing ervan voor forensische leeftijdsbeoordeling. internationaliteit. J. Juridische geneeskunde. 124, 659-665 (2010).
Oh, S., Kumagai, A., Kim, SY en Lee, SS Nauwkeurigheid van leeftijdsschatting en schatting van de 18-jaarsdrempel op basis van de rijpheid van tweede en derde kiezen bij Koreanen en Japanners. PLoS ONE 17, e0271247 (2022).
Kim, JY, et al. Preoperatieve, op machine learning gebaseerde data-analyse kan de uitkomst van slaapchirurgiebehandelingen voorspellen bij patiënten met OSA. de wetenschap. Rapport 11, 14911 (2021).
Han, M. et al. Nauwkeurige leeftijdsschatting door machinaal leren met of zonder menselijke tussenkomst? internationaliteit. J. Juridische geneeskunde. 136, 821-831 (2022).
Khan, S. en Shaheen, M. Van datamining tot datamining. J.Informatie. de wetenschap. https://doi.org/10.1177/01655515211030872 (2021).
Khan, S. en Shaheen, M. WisRule: het eerste cognitieve algoritme voor associatieregelmijnbouw. J.Informatie. de wetenschap. https://doi.org/10.1177/01655515221108695 (2022).
Shaheen M. en Abdullah U. Karm: Traditionele datamining gebaseerd op contextgebaseerde associatieregels. berekenen. Mat. doorgaan. 68, 3305–3322 (2021).
Muhammad M., Rehman Z., Shaheen M., Khan M. en Habib M. Op diepgaand leren gebaseerde semantische gelijkenisdetectie met behulp van tekstgegevens. informeren. technologieën. controle. https://doi.org/10.5755/j01.itc.49.4.27118 (2020).
Tabish, M., Tanoli, Z., en Shahin, M. Een systeem voor het herkennen van activiteit in sportvideo's. multimediaal. Tools-applicaties https://doi.org/10.1007/s11042-021-10519-6 (2021).
Halabi, SS et al. RSNA Machine Learning-uitdaging in het botleeftijd van kinderen. Radiologie 290, 498–503 (2019).
Li, Y. et al. Forensische leeftijdsschatting op basis van röntgenfoto's van het bekken met behulp van deep learning. EURO. straling. 29, 2322–2329 (2019).
Guo, YC, et al. Nauwkeurige leeftijdsclassificatie met behulp van handmatige methoden en diepe convolutionele neurale netwerken op basis van orthografische projectiebeelden. internationaliteit. J. Juridische geneeskunde. 135, 1589–1597 (2021).
Alabama Dalora et al. Schatting van de botleeftijd met behulp van verschillende machine learning-methoden: een systematisch literatuuronderzoek en meta-analyse. PLoS ONE 14, e0220242 (2019).
Du, H., Li, G., Cheng, K., en Yang, J. Populatiespecifieke leeftijdsschatting van Afro-Amerikanen en Chinezen op basis van pulpakamervolumes van eerste kiezen met behulp van kegelbundel-computertomografie. internationaliteit. J. Juridische geneeskunde. 136, 811-819 (2022).
Kim S., Lee YH, Noh YK, Park FK en Oh KS Bepalen van leeftijdsgroepen van levende mensen met behulp van op kunstmatige intelligentie gebaseerde afbeeldingen van de eerste kiezen. de wetenschap. Rapport 11, 1073 (2021).
Stern, D., Payer, C., Giuliani, N., en Urschler, M. Automatische leeftijdsschatting en meerderheidsleeftijdsclassificatie op basis van multivariate MRI-gegevens. IEEE J. Biomed. Gezondheidswaarschuwingen. 23, 1392–1403 (2019).
Cheng, Q., Ge, Z., Du, H. en Li, G. Leeftijdsschatting gebaseerd op 3D-pulpkamersegmentatie van de eerste kiezen uit kegelbundel-computertomografie door deep learning en niveausets te integreren. internationaliteit. J. Juridische geneeskunde. 135, 365–373 (2021).
Wu, WT, et al. Datamining in klinische big data: gemeenschappelijke databases, stappen en methodenmodellen. Wereld. geneesmiddel. bron. 8, 44 (2021).
Yang, J. et al. Inleiding tot medische databases en dataminingtechnologieën in het big data-tijdperk. J. Avid. Basisgeneeskunde. 13, 57–69 (2020).
Shen, S. et al. Camerer's methode voor het schatten van de tandleeftijd met behulp van machine learning. BMC Mondgezondheid 21, 641 (2021).
Galliburg A. et al. Vergelijking van verschillende machine learning-methoden voor het voorspellen van de tandheelkundige leeftijd met behulp van de Demirdjian-stadiëringsmethode. internationaliteit. J. Juridische geneeskunde. 135, 665–675 (2021).
Demirdjian, A., Goldstein, H. en Tanner, JM Een nieuw systeem voor het beoordelen van de tandheelkundige leeftijd. snuiven. biologie. 45, 211–227 (1973).
Landis, JR, en Koch, GG Maatregelen van waarnemersovereenkomst over categorische gegevens. Biometrie 33, 159–174 (1977).
Bhattacharjee S, Prakash D, Kim C, Kim HK en Choi HK. Texturele, morfologische en statistische analyse van tweedimensionale magnetische resonantiebeeldvorming met behulp van kunstmatige intelligentietechnieken voor differentiatie van primaire hersentumoren. Gezondheidsinformatie. bron. https://doi.org/10.4258/hir.2022.28.1.46 (2022).


Posttijd: 04-jan-2024