金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111256084.1 (22)申请日 2021.10.27 (71)申请人 北京市商汤科技 开发有限公司 地址 100080 北京市海淀区北四环西路58 号11层1101-1117室 (72)发明人 黄钰铭 尹榛菲 邵婧  (74)专利代理 机构 北京林达刘知识产权代理事 务所(普通 合伙) 11277 代理人 刘新宇 (51)Int.Cl. G06F 16/58(2019.01) G06F 16/532(2019.01) G06N 20/00(2019.01) (54)发明名称 训练数据搜索方法及 装置、 电子设备和存储 介质 (57)摘要 本公开涉及一种训练数据搜索方法及 装置、 电子设备和存储介质, 通过确定包括至少一个关 键词和至少一个搜索页面标识的搜索信息, 并根 据搜索信息生成至少一个搜索任务。 通过至少一 个搜索节点执行搜索任务, 得到多个搜索结果。 并将每个搜索结果加入前端页面。 其中, 搜索结 果中包括至少一个训练图像的存储地址和文本 描述, 每个搜索节点执行本次获取的搜索任务 时, 通过搜索页面标识表征的搜索页面搜索对应 的关键词。 本公开能够直接根据搜索信息快速搜 索得到模型训练所需的大量训练样 本, 为模型训 练提供了数据支持。 同时, 还将搜索信息分割为 多个搜索任务, 并通过多个节点分别处理, 提高 了搜索过程的效率。 权利要求书2页 说明书13页 附图7页 CN 113987247 A 2022.01.28 CN 113987247 A 1.一种训练数据搜索方法, 其特 征在于, 所述方法包括: 确定包括至少一个关键词和至少一个搜索页面标识的搜索信息; 根据所述搜索信息生成至少一个搜索任务; 通过至少一个搜索节点执行至少一个所述搜索任务, 得到每个所述搜索任务的搜索结 果, 所述搜索结果中包括至少一个训练图像的存储地址和文本描述; 其中, 每个所述搜索节 点执行本次获取的所述搜索任务时, 通过所述搜索页面标识表征的搜索页面搜索所述搜索 任务对应的关键词; 将每个所述搜索结果加入前端页面。 2.根据权利要求1所述的方法, 其特征在于, 所述确定包括至少一个关键词和至少一个 搜索页面标识的搜索信息包括: 显示和/或发送信息生成页面, 所述信息生成页面中包括文本输入控件和页面选择控 件; 响应于所述文本 输入控件被触发, 确定用户输入的至少一个关键词; 响应于所述页面选择控件被触发, 确定用户选 中的每个所述关键词对应的搜索页面标 识; 根据至少一个所述关键词和至少一个所述搜索页面标识确定所述搜索信息 。 3.根据权利要求1或2所述的方法, 其特征在于, 所述根据所述搜索信息生成至少一个 搜索任务包括: 确定每个所述关键词对应的搜索页面标识; 根据每个所述关键词和所述关键词对应的搜索页面标识生成一个搜索任务, 并将每个 所述搜索任务、 所述搜索任务对应的关键词和所述关键词对应的搜索页面标识存储至 Redis数据库中。 4.根据权利要求3所述的方法, 其特征在于, 所述通过至少一个搜索节点执行至少一个 所述搜索任务, 得到每 个所述搜索任务的搜索结果包括: 在每个搜索过程中, 通过一个所述搜索节点访问所述Redis数据库; 响应于所述Redis数据库中存在未处理的搜索任务, 取出所述搜索任务、 所述搜索任务 对应的关键词和所述关键词对应的搜索页面标识; 基于所述搜索页面标识表征的搜索页面搜索所述关键词, 得到所述搜索任务对应的搜 索结果。 5.根据权利要求4所述的方法, 其特征在于, 所述通过至少一个搜索节点执行至少一个 所述搜索任务, 得到每 个所述搜索任务的搜索结果还 包括: 在所述搜索节点完成本次搜索任务后, 再次访问所述Redis数据库获取其他待处理的 搜索任务进行搜索。 6.根据权利要求4或5所述的方法, 其特征在于, 所述基于所述搜索页面标识表征的搜 索页面搜索所述关键词, 得到所述搜索任务对应的搜索结果包括: 基于所述搜索页面标识表征的页面搜索所述关键词, 得到至少一个候选训练图像和每 个所述候选训练图像的候选文本描述; 根据预设的筛 选条件筛 选每个所述候选训练图像得到 至少一个训练图像; 对每个所述训练图像对应的候选文本描述进行文本处 理, 得到文本描述;权 利 要 求 书 1/2 页 2 CN 113987247 A 2根据每个所述训练图像的存 储地址和文本描述确定所述搜索任务对应的搜索结果。 7.根据权利要求1 ‑6中任意一项所述的方法, 其特征在于, 所述搜索信息 中还包括所述 搜索节点的数量。 8.根据权利要求1 ‑7中任意一项所述的方法, 其特征在于, 在通过至少一个搜索节点执 行至少一个所述搜索任务, 得到每 个所述搜索任务的搜索结果之后, 所述方法还 包括: 将每个所述搜索结果插 入MySQL数据库中。 9.根据权利要求1 ‑8中任意一项所述的方法, 其特征在于, 在将每个所述搜索结果加入 前端页面后, 所述方法还 包括: 响应于接收到对应于至少一个所述搜索结果的下载请求, 根据 所述搜索结果中包括的 存储地址将每个所述训练图像下载至本地, 同时, 将每个所述训练图像所述搜索结果中对 应的文本描述下 载至本地。 10.一种训练数据搜索装置, 其特 征在于, 所述装置包括: 搜索信息确定模块, 用于确定包括至少一个关键词和至少一个搜索页面标识的搜索信 息; 任务生成模块, 用于根据所述搜索信息生成至少一个搜索任务; 任务执行模块, 用于通过至少一个搜索节点执行至少一个所述搜索任务, 得到每个所 述搜索任务的搜索结果, 所述搜索结果中包括至少一个训练图像的存储地址和文本描述; 其中, 每个所述搜索节点执行本次获取 的所述搜索任务时, 通过所述搜索页面标识表征 的 搜索页面搜索所述搜索任务对应的关键词; 搜索结果处 理模块, 用于将每 个所述搜索结果加入前端页面。 11.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处理器被配置为调用所述存储器存储的指令, 以执行权利要求1至9中任意 一项所述的方法。 12.一种计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 所述计算机 程序指令被处 理器执行时实现权利要求1至9中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 113987247 A 3

.PDF文档 专利 训练数据搜索方法及装置、电子设备和存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练数据搜索方法及装置、电子设备和存储介质 第 1 页 专利 训练数据搜索方法及装置、电子设备和存储介质 第 2 页 专利 训练数据搜索方法及装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。