aggregate_metrics_v_deepeval.json•4.29 kB
{
"correctness": {
"scores": [
0.9464092505933545,
0.7926250500962051,
0.7033910741881162,
1.0,
0.5048006843649145,
0.4630395465548668,
0.7410262814807138,
0.571407217938944,
0.8054241122378961,
0.5433380148668066,
0.24711111927724816,
0.818645095185962,
0.7986234929827589,
0.1656457223846481,
0.845984692583688,
0.728624429383214,
0.5741718670384662,
0.6445964907090093,
0.4170350762865622,
0.5087565002509323,
0.8354172724812349,
0.6566514341249268,
0.43301839744181814,
0.7051478068471703,
0.23085498065462673,
0.8194439977850838,
0.4203099076605281,
0.0029312229903390137,
0.7913918815042317,
0.06819925093385562,
0.2880113815351997,
0.15450403468312154,
0.30301145041524974,
0.4969383716648271,
0.13943091127503612,
0.9852064555004547,
0.9464092505933545,
0.8075226513334186,
0.4357672260779014,
0.2788422565903645,
0.7841699330432068,
0.34905383361058784,
0.21134783735858081,
0.8024628197418346,
0.8348589751686883,
0.33895964246119786,
0.6937459446299051,
0.2198535945846709,
0.7830519118205175,
0.8069100385619267
],
"mean": 0.5688816078295633,
"ci_lower": 0.4938872287042949,
"ci_upper": 0.6416726397662782
},
"EM": {
"scores": [
1.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
1.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0,
0.0
],
"mean": 0.04,
"ci_lower": 0.0,
"ci_upper": 0.1
},
"f1": {
"scores": [
0.2857142857142857,
0.15384615384615385,
0.3076923076923077,
0.5,
0.11764705882352941,
0.07407407407407407,
0.16,
0.26666666666666666,
0.25,
0.32,
0.15384615384615385,
0.14285714285714288,
0.3636363636363636,
0.0,
0.2857142857142857,
0.3076923076923077,
0.1904761904761905,
0.16666666666666669,
0.0,
0.3076923076923077,
0.18181818181818182,
0.6666666666666666,
0.0,
0.2857142857142857,
0.21052631578947367,
0.3636363636363636,
0.07142857142857142,
0.13793103448275865,
0.3478260869565218,
0.0,
0.0,
0.0,
0.0,
0.16666666666666666,
0.0,
0.125,
1.0,
0.13333333333333333,
0.11764705882352941,
0.0,
0.2857142857142857,
0.0,
0.09999999999999999,
0.33333333333333337,
0.42857142857142855,
0.12121212121212122,
0.2857142857142857,
0.06060606060606061,
0.16666666666666669,
0.18181818181818182
],
"mean": 0.20252105788702301,
"ci_lower": 0.15505880531742042,
"ci_upper": 0.25501361807829104
}
}