Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
B
BiTransDPI
概览
概览
详情
活动
周期分析
版本库
存储库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
CI / CD
CI / CD
流水线
日程表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
提交
问题看板
Open sidebar
杨志辉
BiTransDPI
Commits
92740d2f
提交
92740d2f
authored
3月 18, 2021
作者:
朱学凯
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
fix path
上级
3d456595
显示空白字符变更
内嵌
并排
正在显示
2 个修改的文件
包含
7 行增加
和
10 行删除
+7
-10
dataset.py
dataset.py
+7
-10
data_analyse_train.tsv
utils/data_analyse_train.tsv
+0
-0
没有找到文件。
dataset.py
浏览文件 @
92740d2f
...
@@ -96,9 +96,6 @@ def seq2emb_encoder(input_seq, max_len, vocab):
...
@@ -96,9 +96,6 @@ def seq2emb_encoder(input_seq, max_len, vocab):
ids
=
np
.
array
([
0
])
ids
=
np
.
array
([
0
])
l
=
len
(
ids
)
l
=
len
(
ids
)
with
open
(
'./utils/data_analyse_train.tsv'
,
'w'
)
as
f
:
tsv
=
csv
.
writer
(
f
)
tsv
.
writerow
([
ids
,
l
,
'
\n
'
])
if
l
<
max_len
:
if
l
<
max_len
:
ids
=
np
.
pad
(
ids
,
(
0
,
max_len
-
l
),
'constant'
,
constant_values
=
0
)
ids
=
np
.
pad
(
ids
,
(
0
,
max_len
-
l
),
'constant'
,
constant_values
=
0
)
...
@@ -158,17 +155,17 @@ if __name__ == "__main__":
...
@@ -158,17 +155,17 @@ if __name__ == "__main__":
# vocab = load_vocab(vocab_file)
# vocab = load_vocab(vocab_file)
# test train
# test train
df_train
=
{
"sps"
:
'./
IC50/SPS
/train_sps'
,
df_train
=
{
"sps"
:
'./
data
/train_sps'
,
"smile"
:
'./
IC50/SPS
/train_smile'
,
"smile"
:
'./
data
/train_smile'
,
"affinity"
:
'./
IC50/SPS
/train_ic50'
,
"affinity"
:
'./
data
/train_ic50'
,
"vocab_file"
:
'./
ESPF
/vocab.txt'
,
"vocab_file"
:
'./
config
/vocab.txt'
,
"begin_id"
:
'[CLS]'
,
"begin_id"
:
'[CLS]'
,
"separate_id"
:
"[SEP]"
,
"separate_id"
:
"[SEP]"
,
"max_len"
:
256
"max_len"
:
256
}
}
tokenizer_config
=
{
"vocab_file"
:
'./
ESPF
/vocab.txt'
,
tokenizer_config
=
{
"vocab_file"
:
'./
config
/vocab.txt'
,
"vocab_pair"
:
'./
ESPF
/drug_codes_chembl.txt'
"vocab_pair"
:
'./
config
/drug_codes_chembl.txt'
}
}
params
=
{
'batch_size'
:
5
,
params
=
{
'batch_size'
:
5
,
'shuffle'
:
False
,
'shuffle'
:
False
,
...
@@ -177,4 +174,4 @@ if __name__ == "__main__":
...
@@ -177,4 +174,4 @@ if __name__ == "__main__":
trainset
=
Data_Encoder
(
df_train
,
tokenizer_config
)
trainset
=
Data_Encoder
(
df_train
,
tokenizer_config
)
training_generator
=
data
.
DataLoader
(
trainset
)
training_generator
=
data
.
DataLoader
(
trainset
)
for
i
,
(
input
,
affinity
)
in
tqdm
(
enumerate
(
training_generator
)):
for
i
,
(
input
,
affinity
)
in
tqdm
(
enumerate
(
training_generator
)):
print
(
'
----------------
'
)
print
(
''
)
utils/data_analyse_train.tsv
浏览文件 @
92740d2f
This source diff could not be displayed because it is too large. You can
view the blob
instead.
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论