A Multi-Objective Statistical Framework for Evaluating LLM-Based Code Modernization: Transformation Pattern Analysis and Effect Size Validation

Bashair Althani

doi:10.3390/computers15030148

A Multi-Objective Statistical Framework for Evaluating LLM-Based Code Modernization: Transformation Pattern Analysis and Effect Size Validation

Bashair Althani^*

^*Corresponding author for this work

Management Information Systems Department

Research output: Contribution to journal › Article › peer-review

Abstract

Automated legacy code modernization using Large Language Models lacks rigorous evaluation frameworks and multi-objective quality assessment methodologies. Existing research suffers from three critical deficiencies: single-metric evaluation paradigms creating pathological optimization incentives, statistical validation limited to p-values without effect size analysis, and absence of systematic transformation pattern taxonomies explaining what works and why. We present a novel multi-objective statistical framework that jointly assesses Cyclomatic Complexity (CC) and Maintainability Index (MI) while providing comprehensive effect size analysis addressing software engineering research gaps. Applied to 47 legacy Java samples from Apache Ant (version 1.10.x, commit rel/1.10.14), our framework achieves 97.9% metric-level improvement with very large practical effects (Cohen’s (Formula presented.), 95% CI [1.36, 2.35], (Formula presented.) ) for maintainability—substantially exceeding prior work and conventional significance thresholds. We note that this success rate reflects quality metric improvement; functional equivalence was verified through syntactic validation and manual inspection of a 20% random sample, while comprehensive automated test-based verification remains a limitation addressed in future work. We contribute: (1) first multi-objective quality assessment framework for code modernization with weighted composite scoring and sensitivity analysis, (2) rigorous statistical methodology with effect size analysis beyond p-values, (3) systematic transformation pattern taxonomy identifying four successful patterns and three failure modes with predictive value (inter-rater agreement (Formula presented.) ), and (4) negative result showing iterative refinement provides no benefit ( (Formula presented.), (Formula presented.) ), saving community resources. Our transformation taxonomy enables practitioners to predict success likelihood from code characteristics, while our statistical framework provides replicable methodology for evaluating LLM-based software engineering tools. The very large effect size indicates metric-level improvements are materially meaningful for real-world software maintenance, not merely statistically detectable.

Original language	English
Article number	148
Journal	Computers
Volume	15
Issue number	3
DOIs	https://doi.org/10.3390/computers15030148
State	Published - Mar 2026

Keywords

automated software engineering
code quality metrics
effect size analysis
large language models
legacy modernization
multi-objective optimization
statistical validation
transformation patterns

Access to Document

10.3390/computers15030148

Cite this

@article{890a33ca84d246edaf5a4c6d378ccddf,

title = "A Multi-Objective Statistical Framework for Evaluating LLM-Based Code Modernization: Transformation Pattern Analysis and Effect Size Validation",

abstract = "Automated legacy code modernization using Large Language Models lacks rigorous evaluation frameworks and multi-objective quality assessment methodologies. Existing research suffers from three critical deficiencies: single-metric evaluation paradigms creating pathological optimization incentives, statistical validation limited to p-values without effect size analysis, and absence of systematic transformation pattern taxonomies explaining what works and why. We present a novel multi-objective statistical framework that jointly assesses Cyclomatic Complexity (CC) and Maintainability Index (MI) while providing comprehensive effect size analysis addressing software engineering research gaps. Applied to 47 legacy Java samples from Apache Ant (version 1.10.x, commit rel/1.10.14), our framework achieves 97.9\% metric-level improvement with very large practical effects (Cohen{\textquoteright}s (Formula presented.), 95\% CI [1.36, 2.35], (Formula presented.) ) for maintainability—substantially exceeding prior work and conventional significance thresholds. We note that this success rate reflects quality metric improvement; functional equivalence was verified through syntactic validation and manual inspection of a 20\% random sample, while comprehensive automated test-based verification remains a limitation addressed in future work. We contribute: (1) first multi-objective quality assessment framework for code modernization with weighted composite scoring and sensitivity analysis, (2) rigorous statistical methodology with effect size analysis beyond p-values, (3) systematic transformation pattern taxonomy identifying four successful patterns and three failure modes with predictive value (inter-rater agreement (Formula presented.) ), and (4) negative result showing iterative refinement provides no benefit ( (Formula presented.), (Formula presented.) ), saving community resources. Our transformation taxonomy enables practitioners to predict success likelihood from code characteristics, while our statistical framework provides replicable methodology for evaluating LLM-based software engineering tools. The very large effect size indicates metric-level improvements are materially meaningful for real-world software maintenance, not merely statistically detectable.",

keywords = "automated software engineering, code quality metrics, effect size analysis, large language models, legacy modernization, multi-objective optimization, statistical validation, transformation patterns",

author = "Bashair Althani",

note = "Publisher Copyright: {\textcopyright} 2026 by the author.",

year = "2026",

month = mar,

doi = "10.3390/computers15030148",

language = "English",

volume = "15",

journal = "Computers",

issn = "2073-431X",

number = "3",

}

TY - JOUR

T1 - A Multi-Objective Statistical Framework for Evaluating LLM-Based Code Modernization

T2 - Transformation Pattern Analysis and Effect Size Validation

AU - Althani, Bashair

PY - 2026/3

Y1 - 2026/3

N2 - Automated legacy code modernization using Large Language Models lacks rigorous evaluation frameworks and multi-objective quality assessment methodologies. Existing research suffers from three critical deficiencies: single-metric evaluation paradigms creating pathological optimization incentives, statistical validation limited to p-values without effect size analysis, and absence of systematic transformation pattern taxonomies explaining what works and why. We present a novel multi-objective statistical framework that jointly assesses Cyclomatic Complexity (CC) and Maintainability Index (MI) while providing comprehensive effect size analysis addressing software engineering research gaps. Applied to 47 legacy Java samples from Apache Ant (version 1.10.x, commit rel/1.10.14), our framework achieves 97.9% metric-level improvement with very large practical effects (Cohen’s (Formula presented.), 95% CI [1.36, 2.35], (Formula presented.) ) for maintainability—substantially exceeding prior work and conventional significance thresholds. We note that this success rate reflects quality metric improvement; functional equivalence was verified through syntactic validation and manual inspection of a 20% random sample, while comprehensive automated test-based verification remains a limitation addressed in future work. We contribute: (1) first multi-objective quality assessment framework for code modernization with weighted composite scoring and sensitivity analysis, (2) rigorous statistical methodology with effect size analysis beyond p-values, (3) systematic transformation pattern taxonomy identifying four successful patterns and three failure modes with predictive value (inter-rater agreement (Formula presented.) ), and (4) negative result showing iterative refinement provides no benefit ( (Formula presented.), (Formula presented.) ), saving community resources. Our transformation taxonomy enables practitioners to predict success likelihood from code characteristics, while our statistical framework provides replicable methodology for evaluating LLM-based software engineering tools. The very large effect size indicates metric-level improvements are materially meaningful for real-world software maintenance, not merely statistically detectable.

AB - Automated legacy code modernization using Large Language Models lacks rigorous evaluation frameworks and multi-objective quality assessment methodologies. Existing research suffers from three critical deficiencies: single-metric evaluation paradigms creating pathological optimization incentives, statistical validation limited to p-values without effect size analysis, and absence of systematic transformation pattern taxonomies explaining what works and why. We present a novel multi-objective statistical framework that jointly assesses Cyclomatic Complexity (CC) and Maintainability Index (MI) while providing comprehensive effect size analysis addressing software engineering research gaps. Applied to 47 legacy Java samples from Apache Ant (version 1.10.x, commit rel/1.10.14), our framework achieves 97.9% metric-level improvement with very large practical effects (Cohen’s (Formula presented.), 95% CI [1.36, 2.35], (Formula presented.) ) for maintainability—substantially exceeding prior work and conventional significance thresholds. We note that this success rate reflects quality metric improvement; functional equivalence was verified through syntactic validation and manual inspection of a 20% random sample, while comprehensive automated test-based verification remains a limitation addressed in future work. We contribute: (1) first multi-objective quality assessment framework for code modernization with weighted composite scoring and sensitivity analysis, (2) rigorous statistical methodology with effect size analysis beyond p-values, (3) systematic transformation pattern taxonomy identifying four successful patterns and three failure modes with predictive value (inter-rater agreement (Formula presented.) ), and (4) negative result showing iterative refinement provides no benefit ( (Formula presented.), (Formula presented.) ), saving community resources. Our transformation taxonomy enables practitioners to predict success likelihood from code characteristics, while our statistical framework provides replicable methodology for evaluating LLM-based software engineering tools. The very large effect size indicates metric-level improvements are materially meaningful for real-world software maintenance, not merely statistically detectable.

KW - automated software engineering

KW - code quality metrics

KW - effect size analysis

KW - large language models

KW - legacy modernization

KW - multi-objective optimization

KW - statistical validation

KW - transformation patterns

UR - https://www.scopus.com/pages/publications/105033865377

U2 - 10.3390/computers15030148

DO - 10.3390/computers15030148

M3 - Article

AN - SCOPUS:105033865377

SN - 2073-431X

VL - 15

JO - Computers

JF - Computers

IS - 3

M1 - 148

ER -

A Multi-Objective Statistical Framework for Evaluating LLM-Based Code Modernization: Transformation Pattern Analysis and Effect Size Validation

Abstract

Keywords

Access to Document

Other files and links

Fingerprint

Cite this