summarized stats for quick benchmark

722849c1 · Carlos de Lannoy · fdfba74c · 722849c1
Commit 722849c1 authored 3 years ago by Carlos de Lannoy
--- a/validation/quick_benchmark.sf
+++ b/validation/quick_benchmark.sf
@@ -29,13 +29,22 @@ rule parse_inference_results:
        inference_out_dir='{{ inference_out_dir }}',
        index_fold_csv='{{ read_index_fn }}'
    output:
-        summary_file='{{ out_dir }}inference_summary.csv'
+        summary_file='{{ out_dir }}inference_summary.csv',
+        stats_file='{{ out_dir }}stats.txt'
    run:
        read_index_df = pd.read_csv(input.index_fold_csv, index_col=0)
        out_df = pd.DataFrame({'is_target': False}, index=read_index_df.query('fold == False').index)
        for fn in os.listdir(input.inference_out_dir + '/pos_reads/'):
            out_df.loc[os.path.basename(fn), 'is_target'] = True
        out_df.to_csv(output.summary_file)
+        tp = len(out_df.query('is_target and tp'))
+        p = len(out_df.query('tp'))
+        pred = len(out_df.query('is_target'))
+        precision = tp / pred
+        recall = tp / p
+        accuracy = tp / len(out_df)
+        with open(output.stats_file, 'w') as fh:
+            fh.write(f'precision: {precision}\nrecall: {recall}\naccuracy: {accuracy}')

 rule run_inference:
    input: