change data

da2551fa · 朱学凯 · 9d55deb2 · da2551fa · da2551fa · da2551fa
--- a/data/ER_ic50
+++ b/data/ER_ic50
--- a/data/ER_smile
+++ b/data/ER_smile
--- a/data/ER_sps
+++ b/data/ER_sps
--- a/data/GPCR_ic50
+++ b/data/GPCR_ic50
--- a/data/GPCR_smile
+++ b/data/GPCR_smile
--- a/data/GPCR_sps
+++ b/data/GPCR_sps
--- a/data/channel_ic50
+++ b/data/channel_ic50
--- a/data/channel_smile
+++ b/data/channel_smile
--- a/data/channel_sps
+++ b/data/channel_sps
--- a/data/kinase_ic50
+++ b/data/kinase_ic50
--- a/data/kinase_smile
+++ b/data/kinase_smile
--- a/data/kinase_sps
+++ b/data/kinase_sps
--- a/data/test_ic50
+++ b/data/test_ic50
--- a/data/test_smile
+++ b/data/test_smile
--- a/data/test_sps
+++ b/data/test_sps
--- a/data/train_ic50
+++ b/data/train_ic50
--- a/data/train_smile
+++ b/data/train_smile
--- a/data/train_sps
+++ b/data/train_sps
--- a/dataset.py
+++ b/dataset.py
@@ -146,6 +146,58 @@ class Data_Encoder(data.Dataset):
        # return len(d), len(p)
+def get_task(task_name):
+    tokenizer_config = {"vocab_file": './config/vocab.txt',
+                        "vocab_pair": './config/drug_codes_chembl.txt',
+                        "begin_id": '[CLS]',
+                        "separate_id": "[SEP]",
+                        "max_len": 256
+                        }
+    if task_name.lower() == 'train':
+        df_train = {"sps": './data/train/train_sps',
+                    "smile": './data/train/train_smile',
+                    "affinity": './data/train/train_ic50',
+                    }
+        return df_train, tokenizer_config
+    elif task_name.lower() == 'test':
+        df_test = {"sps": './data/test/test_sps',
+                    "smile": './data/test/test_smile',
+                    "affinity": './data/test/test_ic50',
+                    }
+        return df_test, tokenizer_config
+    elif task_name.lower() == 'train_z_1':
+        df = {"sps": './data/train_sps',
+              "smile": './data/train_smile',
+              "affinity": './data/train_z_1_ic50',
+              }
+        return df, tokenizer_config
+    elif task_name.lower() == 'train_z_10':
+        df = {"sps": './data/train_sps',
+              "smile": './data/train_smile',
+              "affinity": './data/train_z_10_ic50',
+              }
+        return df, tokenizer_config
+    elif task_name.lower() == 'train_z_100':
+        df = {"sps": './data/train_sps',
+              "smile": './data/train_smile',
+              "affinity": './data/train_z_100_ic50',
+              }
+        return df, tokenizer_config
 if __name__ == "__main__":
    # local test
    # dataFolder = './IC50/SPS/train_smile'

--- a/run_interaction.py
+++ b/run_interaction.py
 from argparse import ArgumentParser
-from dataset import Data_Encoder
+from dataset import Data_Encoder, get_task
 import torch
 from torch.utils.data import DataLoader
 from configuration_bert import BertConfig
@@ -9,55 +9,6 @@ import os
 from tqdm import tqdm
 torch.set_default_tensor_type(torch.DoubleTensor)
-def get_task(task_name):
-    tokenizer_config = {"vocab_file": './config/vocab.txt',
-                        "vocab_pair": './config/drug_codes_chembl.txt',
-                        "begin_id": '[CLS]',
-                        "separate_id": "[SEP]",
-                        "max_len": 256
-                        }
-    if task_name.lower() == 'train':
-        df_train = {"sps": './data/train_sps',
-                    "smile": './data/train_smile',
-                    "affinity": './data/train_ic50',
-                    }
-        return df_train, tokenizer_config
-    elif task_name.lower() == 'test':
-        df_test = {"sps": './data/test_sps',
-                    "smile": './data/test_smile',
-                    "affinity": './data/test_ic50',
-                    }
-        return df_test, tokenizer_config
-    elif task_name.lower() == 'train_z_1':
-        df = {"sps": './data/train_sps',
-              "smile": './data/train_smile',
-              "affinity": './data/train_z_1_ic50',
-              }
-        return df, tokenizer_config
-    elif task_name.lower() == 'train_z_10':
-        df = {"sps": './data/train_sps',
-              "smile": './data/train_smile',
-              "affinity": './data/train_z_10_ic50',
-              }
-        return df, tokenizer_config
-    elif task_name.lower() == 'train_z_100':
-        df = {"sps": './data/train_sps',
-              "smile": './data/train_smile',
-              "affinity": './data/train_z_100_ic50',
-              }
-        return df, tokenizer_config
@@ -144,8 +95,8 @@ def test(args, model, dataset):
                for res in pred_affinity:
                    f.write(str(res) + '\n')
-    if args.do_eval:
+    # if args.do_eval:
-        os.system('python eval.py')
+    #     os.system('python eval.py')
 def main(args):

--- a/test.py
+++ b/test.py
@@ -5,7 +5,7 @@ import torch
 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
 model = BertForMaskedLM.from_pretrained('bert-base-uncased')
 inputs = tokenizer("The capital of France is [MASK].", return_tensors="pt")
-labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]
+labels = tokenizer("The capital of France is Paris.", return_tensors="pt") #["input_ids"]
 outputs = model(**inputs, labels=labels)
 loss = outputs.loss
 logits = outputs.logits