Functions
	parse_args ()

	update_parquet (args)

Variables
	args = parse_args()

Function Documentation

◆ parse_args()

pipeline.gen_perf_parquet_logs.parse_args ( )

Definition at line 57 of file gen_perf_parquet_logs.py.

def parse_args():
    parser = argparse.ArgumentParser(description="Parse perf stats for Monte Carlo benchmarking.")
    parser.add_argument("--out_path", required=True, help="Output .parquet file path")
    
    parser.add_argument("--wall_time_s", required=True, help="Wall time (seconds)")
    parser.add_argument("--wall_time_ns", required=True, help="Wall time (nanoseconds)")
 
    parser.add_argument("--timestamp", required=True, help="Timestamp for the benchmark run")
    parser.add_argument("--batchid", required=True, help="Unique ID for this batch of trials")
    parser.add_argument("--method", required=True, help="Benchmarking method (e.g., SIMD, Pool, etc.)")
 
    parser.add_argument("--trials", required=True, help="Number of trials run")
    parser.add_argument("--cycles", required=True, help="CPU cycles")
    parser.add_argument("--instr", required=True, help="Instructions executed")
    parser.add_argument("--ipc", required=True, help="Instructions per cycle")
 
    parser.add_argument("--cache_loads", required=True, help="Cache loads")
    parser.add_argument("--cache_miss", required=True, help="Cache misses")
 
    parser.add_argument("--l1_loads", required=True, help="L1 data cache loads")
    parser.add_argument("--l1_misses", required=True, help="L1 data cache misses")
 
    parser.add_argument("--l2_loads", required=True, help="L2 data cache loads")
    parser.add_argument("--l2_misses", required=True, help="L2 data cache misses")
 
    parser.add_argument("--l3_loads", required=True, help="L3 data cache loads")
    parser.add_argument("--l3_misses", required=True, help="L3 data cache misses")
 
    parser.add_argument("--tlb_loads", required=True, help="TLB loads")
    parser.add_argument("--tlb_misses", required=True, help="TLB misses")
 
    parser.add_argument("--branch_instr", required=True, help="Branch instructions")
    parser.add_argument("--branch_misses", required=True, help="Branch misses")
 
    parser.add_argument("--miss_per_trial", required=True, help="Cache+TLB misses per trial")
    parser.add_argument("--cycles_per_trial", required=True, help="Cycles per trial")
    
    return parser.parse_args()
 

◆ update_parquet()

pipeline.gen_perf_parquet_logs.update_parquet ( args )

Definition at line 96 of file gen_perf_parquet_logs.py.

def update_parquet(args):
    matches = sorted(glob(f"db/logs/batch_{args.batchid}_*"))
    if not matches:
        raise FileNotFoundError(f"No batch directory found for batch ID {args.batchid}")
    batch_dir = Path(matches[-1])
 
    parquet_path = batch_dir / f"perf_results_{args.method}_{args.timestamp}_{args.batchid}.parquet"
 
    # 1. Build the raw row (match SCHEMA field names exactly)
    row = {
        "Timestamp": args.timestamp,
        "BatchID": args.batchid,
        "Method": args.method,
        "Trials": args.trials,
        "Cycles": args.cycles,
        "Instructions": args.instr,
        "IPC": args.ipc,
        "Wall Time (s)": args.wall_time_s,
        "Wall Time (ns)": args.wall_time_ns,
        "Cache Loads": args.cache_loads,
        "Cache Misses": args.cache_miss,
        "Cache Miss %": safe_div_percent(args.cache_miss, args.cache_loads),
        "L1 Loads": args.l1_loads,
        "L1 Misses": args.l1_misses,
        "L1 Miss %": safe_div_percent(args.l1_misses, args.l1_loads),
        "L2 Loads": args.l2_loads,
        "L2 Misses": args.l2_misses,
        "L2 Miss %": safe_div_percent(args.l2_misses, args.l2_loads),
        "L3 Loads": args.l3_loads,
        "L3 Misses": args.l3_misses,
        "L3 Miss %": safe_div_percent(args.l3_misses, args.l3_loads),
        "TLB Loads": args.tlb_loads,
        "TLB Misses": args.tlb_misses,
        "TLB Miss %": safe_div_percent(args.tlb_misses, args.tlb_loads),
        "Branch Instructions": args.branch_instr,
        "Branch Misses": args.branch_misses,
        "Branch Miss %": safe_div_percent(args.branch_misses, args.branch_instr),
        "Misses/Trial": args.miss_per_trial,
        "Cycles/Trial": args.cycles_per_trial,
    }
 
    row = {k: (None if v == "NA" else v) for k, v in row.items()}
 
    # 2. Create DataFrame and cast using schema
    df = pl.DataFrame([row])
    
    # 3. Convert string timestamp to datetime
    df = df.with_columns([
    pl.col("Timestamp").str.strptime(pl.Datetime("ms"), "%Y-%m-%d %H:%M:%S", strict=False)
    ])
 
    df = safe_vector_cast(df, SCHEMA)
 
    df.write_parquet(parquet_path, compression="zstd")
 
    print(f"[INFO] Parquet saved: {parquet_path}")
 

Variable Documentation

◆ args

pipeline.gen_perf_parquet_logs.args = parse_args()

Definition at line 154 of file gen_perf_parquet_logs.py.

Functions

Variables

Function Documentation

◆ parse_args()

◆ update_parquet()

Variable Documentation

◆ args