Holmes

test

ca7299e about 1 year ago

7.95 kB

	from typing import Any, Dict, List, Tuple
	import os
	from time import strftime

	import numpy as np
	import pandas as pd
	import torch
	# import hydra
	# import rootutils
	# from lightning import LightningDataModule, LightningModule, Trainer
	# from lightning.pytorch.loggers import Logger
	from omegaconf import DictConfig

	# rootutils.setup_root(__file__, indicator=".project-root", pythonpath=True)

	# ------------------------------------------------------------------------------------ #
	# the setup_root above is equivalent to:
	# - adding project root dir to PYTHONPATH
	# (so you don't need to force user to install project as a package)
	# (necessary before importing any local modules e.g. `from src import utils`)
	# - setting up PROJECT_ROOT environment variable
	# (which is used as a base for paths in "configs/paths/default.yaml")
	# (this way all filepaths are the same no matter where you run the code)
	# - loading environment variables from ".env" in root dir
	#
	# you can remove it if you:
	# 1. either install project as a package or move entry files to project root dir
	# 2. set `root_dir` to "." in "configs/paths/default.yaml"
	#
	# more info: https://github.com/ashleve/rootutils
	# ------------------------------------------------------------------------------------ #

	from src.utils import (
	RankedLogger,
	extras,
	instantiate_loggers,
	log_hyperparameters,
	task_wrapper,
	checkpoint_utils,
	plot_utils,
	)
	from src.common.pdb_utils import extract_backbone_coords
	from src.metrics import metrics
	from src.common.geo_utils import _find_rigid_alignment

	log = RankedLogger(__name__, rank_zero_only=True)


	def evaluate_prediction(pred_dir: str, target_dir: str = None, crystal_dir: str = None, tag: str = None):
	"""Evaluate prediction results based on pdb files.
	"""
	if target_dir is None or not os.path.isdir(target_dir):
	log.warning(f"target_dir {target_dir} does not exist. Skip evaluation.")
	return {}

	assert os.path.isdir(pred_dir), f"pred_dir {pred_dir} is not a directory."

	targets = [
	d.replace(".pdb", "") for d in os.listdir(target_dir)
	]
	# pred_bases = os.listdir(pred_dir)
	output_dir = pred_dir
	tag = tag if tag is not None else "dev"
	timestamp = strftime("%m%d-%H-%M")

	fns = {
	'val_clash': metrics.validity,
	'val_bond': metrics.bonding_validity,
	'js_pwd': metrics.js_pwd,
	'js_rg': metrics.js_rg,
	# 'js_tica_pos': metrics.js_tica_pos,
	'w2_rmwd': metrics.w2_rmwd,
	# 'div_rmsd': metrics.div_rmsd,
	'div_rmsf': metrics.div_rmsf,
	'pro_w_contacks': metrics.pro_w_contacts,
	'pro_t_contacks': metrics.pro_t_contacts,
	# 'pro_c_contacks': metrics.pro_c_contacts,
	}
	eval_res = {k: {} for k in fns}


	print(f"total_md_num = {len(targets)}")
	count = 0
	for target in targets:
	count += 1
	print("")
	print(count, target)
	pred_file = os.path.join(pred_dir, f"{target}.pdb")
	# assert os.path.isfile(pred_file), f"pred_file {pred_file} does not exist."
	if not os.path.isfile(pred_file):
	continue

	target_file = os.path.join(target_dir, f"{target}.pdb")
	ca_coords = {
	'target': extract_backbone_coords(target_file),
	'pred': extract_backbone_coords(pred_file),
	}
	cry_target_file = os.path.join(crystal_dir, f"{target}.pdb")
	cry_ca_coords = extract_backbone_coords(cry_target_file)[0]


	for f_name, func in fns.items():
	print(f_name)


	if f_name == 'w2_rmwd':
	v_ref = torch.as_tensor(ca_coords['target'][0])
	for k, v in ca_coords.items():
	v = torch.as_tensor(v) # (250,356,3)
	for idx in range(v.shape[0]):
	R, t = _find_rigid_alignment(v[idx], v_ref)
	v[idx] = (torch.matmul(R, v[idx].transpose(-2, -1))).transpose(-2, -1) + t.unsqueeze(0)
	ca_coords[k] = v.numpy()


	if f_name.startswith('js_'):
	res = func(ca_coords, ref_key='target')
	elif f_name == 'pro_c_contacks':
	res = func(target_file, pred_file, cry_target_file)
	elif f_name.startswith('pro_'):
	res = func(ca_coords, cry_ca_coords)
	else:
	res = func(ca_coords)

	if f_name == 'js_tica' or f_name == 'js_tica_pos':
	pass
	# eval_res[f_name][target] = res[0]['pred']
	# save_to = os.path.join(output_dir, f"tica_{target}_{tag}_{timestamp}.png")
	# plot_utils.scatterplot_2d(res[1], save_to=save_to, ref_key='target')
	else:
	eval_res[f_name][target] = res['pred']

	csv_save_to = os.path.join(output_dir, f"metrics_{tag}_{timestamp}.csv")
	df = pd.DataFrame.from_dict(eval_res) # row = target, col = metric name
	df.to_csv(csv_save_to)
	print(f"metrics saved to {csv_save_to}")
	mean_metrics = np.around(df.mean(), decimals=4)

	return mean_metrics


	# @task_wrapper
	# def evaluate(cfg: DictConfig) -> Tuple[Dict[str, Any], Dict[str, Any]]:
	# """Sample on a test set and report evaluation metrics.

	# This method is wrapped in optional @task_wrapper decorator, that controls the behavior during
	# failure. Useful for multiruns, saving info about the crash, etc.

	# :param cfg: DictConfig configuration composed by Hydra.
	# :return: Tuple[dict, dict] with metrics and dict with all instantiated objects.
	# """
	# # assert cfg.ckpt_path
	# pred_dir = cfg.get("pred_dir")
	# if pred_dir and os.path.isdir(pred_dir):
	# log.info(f"Found pre-computed prediction directory {pred_dir}.")
	# metric_dict = evaluate_prediction(pred_dir, target_dir=cfg.target_dir)
	# return metric_dict, None

	# log.info(f"Instantiating datamodule <{cfg.data._target_}>")
	# datamodule: LightningDataModule = hydra.utils.instantiate(cfg.data)

	# log.info(f"Instantiating model <{cfg.model._target_}>")
	# model: LightningModule = hydra.utils.instantiate(cfg.model)

	# log.info("Instantiating loggers...")
	# logger: List[Logger] = instantiate_loggers(cfg.get("logger"))

	# log.info(f"Instantiating trainer <{cfg.trainer._target_}>")
	# trainer: Trainer = hydra.utils.instantiate(cfg.trainer, logger=logger)

	# object_dict = {
	# "cfg": cfg,
	# "datamodule": datamodule,
	# "model": model,
	# "logger": logger,
	# "trainer": trainer,
	# }

	# if logger:
	# log.info("Logging hyperparameters!")
	# log_hyperparameters(object_dict)

	# # Load checkpoint manually.
	# model, ckpt_path = checkpoint_utils.load_model_checkpoint(model, cfg.ckpt_path)

	# # log.info("Starting testing!")
	# # trainer.test(model=model, datamodule=datamodule, ckpt_path=cfg.ckpt_path)

	# # Get dataloader for prediction.
	# datamodule.setup(stage="predict")
	# dataloaders = datamodule.test_dataloader()

	# log.info("Starting predictions.")
	# pred_dir = trainer.predict(model=model, dataloaders=dataloaders, ckpt_path=ckpt_path)[-1]

	# # metric_dict = trainer.callback_metrics
	# log.info("Starting evaluations.")
	# metric_dict = evaluate_prediction(pred_dir, target_dir=cfg.target_dir)

	# return metric_dict, object_dict


	# @hydra.main(version_base="1.3", config_path="../configs", config_name="eval.yaml")
	# def main(cfg: DictConfig) -> None:
	# """Main entry point for evaluation.

	# :param cfg: DictConfig configuration composed by Hydra.
	# """
	# # apply extra utilities
	# # (e.g. ask for tags if none are provided in cfg, print cfg tree, etc.)
	# extras(cfg)

	# evaluate(cfg)


	# if __name__ == "__main__":
	# main()