自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rosefun96的博客

深度学习、算法交流q群596506387。

原创 梯度消失、爆炸原因

梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下 1.深层网络角度 如果上一层梯度大于1,那么层数增多的时候,最终的求出的梯度更新将以指数形式增加,即发生梯度爆炸,如果上一层梯度小于1,那么随着层数增多,求出的...

2020-09-30 22:00:36 256 0

原创 LeetCode410. 分割数组的最大值(python,二分法)

1. 题目 给定一个非负整数数组和一个整数 m,你需要将这个数组分成 m 个非空的连续子数组。设计一个算法使得这 m 个子数组各自和的最大值最小。 注意: 数组长度 n 满足以下条件: 1 ≤ n ≤ 1000 1 ≤ m ≤ min(50, n) 示例: 输入: nums = [7,2,5,1...

2020-09-30 15:04:20 36 0

原创 Hadoop,Spark面试题汇总

Hadoop 有哪些组件? (1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。 (2)YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager (...

2020-09-24 12:20:29 66 0

原创 LeetCode面试题 17.01. 不用加号的加法

1. 题目 设计一个函数把两个数字相加。不得使用 + 或者其他算术运算符。 示例: 输入: a = 1, b = 1 输出: 2 提示: a, b 均可能是负数或 0 结果不会溢出 32 位整数 来源:力扣(LeetCode) 链接:https://leetcode-cn.com/probl...

2020-09-24 11:35:25 52 0

原创 Faiss向量召回引擎如何做到快速查找最近邻

Faiss是Facebook开源的向量召回引擎,用于寻找与某个向量最相似的N个向量。 1. 简介 向量量化(Vector Quantization) 所谓向量量化,就是将原来无限的空间 映射到一个有限的向量集合 当然这里的映射函数也不是随便指定的,需要满足误差最小的原则,一种方法是将优化...

2020-09-22 22:47:48 317 0

原创 python状态码

56、列出常见的状态码和意义 200 OK 请求正常处理完毕 204 No Content 请求成功处理,没有实体的主体返回 206 Partial Content GET范围请求已成功处理 301 Moved Permanently 永久重定向,资源已永久分配新URI 302 Found 临时重...

2020-09-21 23:40:18 39 0

原创 python list底层实现

列表实现可以是数组和链表。这里数值是指动态数组。 因此: 利用 list.insert(i,item) 方法在任意位置插入一个元素——复杂度O(N) 利用 list.pop(i) 或 list.remove(value) 删除一个元素——复杂度O(N) index() O(1) append O(...

2020-09-21 08:32:42 45 0

原创 python 大数两数相减

问题描述 两个长度超出常规整形变量上限的大数相减,避免使用各语言内置库。 输入 两个代表整数的字符串 a 和 b,长度超过百位。 输出 : 返回表示结果整数的字符串。 #!/usr/bin/env python # encoding=utf-8 def big_num_minus(str1, st...

2020-09-20 23:37:02 172 0

原创 LeetCode3.无重复字符的最长子串

1. 题目 给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 输入: "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。 示例 2: 输入: "bbbbb"...

2020-09-20 22:36:02 36 0

原创 LeetCode283. 移动零

1. 题目 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 示例: 输入: [0,1,0,3,12] 输出: [1,3,12,0,0] 说明: 必须在原数组上操作,不能拷贝额外的数组。 尽量减少操作次数。 来源:力扣(LeetCode) 链接...

2020-09-20 16:43:14 37 0

原创 python二进制和十进制,十六进制的转换

#!/usr/bin/env python # encoding=utf-8 def binary2decimal(x): string = str(x)[2:][::-1] res = 0 for i,num in enumerate(string): ...

2020-09-20 15:58:11 36 0

原创 字符串字符全组合(python)

1. 相邻字符的组合 输入一个字符串,输出该字符串中相邻字符的所有组合。 举个例子,如果输入abc,它的组合有a、b、c、ab、bc、abc。(注意:输出的组合需要去重) 输入描述: 一个字符串 输出描述: 一行,每个组合以空格分隔,相同长度的组合需要以字典序排序,且去重。 示例1 输入 bac ...

2020-09-20 12:32:20 116 0

原创 LeetCode120. 三角形最小路径和(python)

1. 问题 给定一个三角形,找出自顶向下的最小路径和。每一步只能移动到下一行中相邻的结点上。 相邻的结点 在这里指的是 下标 与 上一层结点下标 相同或者等于 上一层结点下标 + 1 的两个结点。 例如,给定三角形: [ [2], [3,4], [6,5,7], [4,...

2020-09-20 11:05:17 56 0

原创 LeetCode剑指 Offer 47. 礼物的最大价值

1. 题目 在一个 m*n 的棋盘的每一格都放有一个礼物,每个礼物都有一定的价值(价值大于 0)。你可以从棋盘的左上角开始拿格子里的礼物,并每次向右或者向下移动一格、直到到达棋盘的右下角。给定一个棋盘及其上面的礼物的价值,请计算你最多能拿到多少价值的礼物? 示例 1: 输入: [ [1,3,...

2020-09-19 22:14:06 26 0

原创 python random 模块

import random def test(): lt = [i for i in range(10)] print(random.choice(lt)) print(random.sample(lt, 5)) random.shuffle(lt) pri...

2020-09-19 16:31:17 29 0

原创 Python实现图的经典Dijkstra、Floyd算法

1. 简介 对于最短路径算法的Dijkstra、Floyd算法: Dijkstra算法是求从某个源点到其余各个顶点的最短路径(单源最短路径),时间复杂度为 O(n2)O(n^2)O(n2) ,主要思想为每次在未确定的顶点中选取最短的路径,并把最短路径的顶点设为确定值,然后再由源点经该点出发来它相邻...

2020-09-18 11:10:24 251 0

原创 python self的含义

1. 简介 self 是定义类的一个实例。 比如类是 Human, self 等价于 Human(). 具体的原理是,python会自动对类调用 __init__方法,其中,需要把对象实例标识符传入这个方法中。因此,即使,我不用 self, 我也可以用其他的实例标识符代替。但默认是self。 c...

2020-09-18 09:56:28 54 0

原创 LeetCode32. 最长有效括号

1. 题目 给定一个只包含 ‘(’ 和 ‘)’ 的字符串,找出最长的包含有效括号的子串的长度。 示例 1: 输入: "(()" 输出: 2 解释: 最长有效括号子串为 "()" 示例 2: 输入: ")()())" 输出: 4 解释...

2020-09-17 11:08:08 45 0

原创 LeetCode470. 由1-7的随机整数函数构造1-10随机整数函数

https://blog.csdn.net/ljsspace/article/details/6820753

2020-09-16 09:46:31 38 0

原创 一个数最少能由几个完全平方数的和组成(动态规划)

用 dp[n] 代表n用完全平方数的和组成的最少个数。 import math def is_sqrt(n): sqrt=math.sqrt(n) return sqrt-int(sqrt)==0 def get_res(n): dp=[1]+[0]*n if(...

2020-09-15 22:27:24 112 0

原创 P2661 信息传递(并查集,python)

1. 题目 原题 2. 题解 并查集找最小环。 使用 path_count 来计算节点和父亲节点的距离。 #!/usr/bin/env python # encoding=utf-8 def init_parents(N): parents = {} path_count = {...

2020-09-12 15:44:10 57 0

原创 python assert和exception的区别

As for disabling them, when running python in optimized mode, where __debug__ is False, assert statements will be ignored. Just pass the -O flag: pyt...

2020-09-11 12:37:59 55 0

原创 反欺诈调研(1)

1. 简介 常见的场景: 活动,比如拉新用户,一些黑产薅羊毛。 某APP推出了双边现金奖励的拉新策略“邀请新用户注册,每人2元”,满10元可提现。策略上线1天后,某用户1天内邀请用户数达到5000人。从经验角度分析,该用户可能存在欺诈行为。现需要制订反欺诈策略,识别出更多的欺诈用户,以减少损失。 ...

2020-09-11 10:19:26 73 0

原创 GeoHash算法获取附近店铺和距离

1. 简介 GeoHash算法将二维经纬度坐标直接转换成字符串,每一个字符串代表一个矩形区域,也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,字符串的长度越大,矩形的区域就越小,经度也就越高。字符串相似的表示距离相近,这样可以利用字符串的前缀匹配来查询附近的POI信...

2020-09-11 10:04:54 279 0

原创 深度模型参数及超参数调整的经验汇总

(1)初始化 对网络的权重参数进行初始化,比如: Xavier 的uniform, normal; 一般的均匀分布,标准正态分布都可以尝试。 神经网络参数初始化及Pytorch接口 (2)Batch Normalization 加快网络收敛,如果有BN了,全连接可以考虑不加Dropout。 (3)...

2020-09-09 18:25:52 285 0

原创 CTR模型:AFM

1. 简介 FM模型将所有二阶交叉特征都认为同等重要, 一些二阶交叉特征是没有价值的,可能会引入噪声并且降低模型性能。 AFM(Attentional FM)在2017年被提出,通过Attention机制来自动学习每个二阶交叉特征的重要性。 和Wide&Deep, DeepCross等模型...

2020-09-08 23:44:58 271 0

原创 CTR模型:NFM

1. 简介 FM模型可以捕捉二阶特征,但只能线性组合,无法学习非线性关系。 DNN虽然可以学习非线性特征交互,但深度网络难于训练。 NFM(Neural Factorization Machines for Sparse Predictive Analytics∗)模型在2017年被提出。 该模型...

2020-09-08 23:13:22 258 0

原创 CTR模型:推荐系统DeepFM模型

1.简介 DeepFM模型: FM模型:使用向量内积作为成对的特征交互;虽然FM可以对特征高阶交互进行建模,但是复杂度高,一般就二阶特征交互。 此外,FM模型的wide 网络仍然需要专业的特征构建。 DeepFM:集成了FM模型和DNN模型,同时提取低阶和高阶的特征。 2.DeepF...

2020-09-08 21:22:30 182 0

原创 CTR模型:Deep&Cross Network

1. 简介 DCN模型(Deep & Cross Network for Ad Click Predictions)是2017年提出的。 出发点: (1)人工探索所有的交叉特征是不现实的; (2)难于推广未曾出现过的交叉特征。 DNN能够自动探索交叉特征并推广到未出现过的交叉特征,但是DN...

2020-09-08 18:32:13 274 0

转载 推荐系统基础(5):推荐系统技术演进趋势

1. 简介 最近两年,由于深度学习等一些新技术的引入,推荐系统表现出了一些比较明显的技术发展趋势。 召回,主要根据用户部分特征,从海量的物品库里,快速找回一小部分用户潜在感兴趣的物品,然后交给排序环节,排序环节可以融入较多特征,使用复杂模型,来精准地做个性化推荐。召回强调快,排序强调准。 四个...

2020-09-08 12:39:20 347 0

原创 推荐系统基础(1):模型训练及使用流程的标准化

参考: 推荐系统中模型训练及使用流程的标准化;

2020-09-08 09:50:39 263 0

原创 CTR模型:DeepCrossing

1. 简介 DeepCrossing是2016年提出的模型。 对于web-scale, 特征数量大,如何自动组合特征生成高阶特征是一个问题。 2. 模型 2.1 数据 在搜索广告任务中,有大量的原始特征,每个原始特征都用一个向量表示,原始特征包括: (1)用户 query:用户搜索文本; (2)广...

2020-09-08 00:38:02 226 0

原创 CTR模型:PNN

1.简介 PNN模型(Product-based Neural Networks for User Response Prediction)是2016年提出的。 场景是预测用户反应,比如是点击,转化,在推荐系统,网络搜索,在线广告等,都有应用。 但这些场景会存在很多的类别特征,包含多个fields...

2020-09-08 00:16:09 302 0

原创 CTR模型:FNN模型

1. 简介 FNN 模型是2016年提出的,基于传统机器学习模型,如LR,FM等,的CTR预测方案被称为基于浅层模型的方案。 优点是模型简单,预测性能较好,可解释性强。缺点是,很难自动提取高阶组合特征携带的信息。 于是, 基于因子分解即的神经网络(Factorization Machine sup...

2020-09-07 21:46:42 321 0

原创 CTR预估模型DSSM

1. 简介 CTR预估模型主要用于搜索,推荐,计算广告等领域,传统CTR模型包括逻辑回归LR模型,因子分解机FM模型,梯度提升树GBDT模型等。 优点是可解释性强,训练和部署方便,便于在线学习。 在搜索广告的场景中,query 和document使用不同的单词,同一个单词不同形态来表达同一个概念,...

2020-09-07 21:06:37 281 0

原创 python正则表达式(re match,search,sub等模块)

1.简介 正则表达式是检查一个字符串是否与某种模式匹配。 re 模块含有 match, search等功能 正则表达式的语法: 2. re.match re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,返回None. re.match(pattern, str...

2020-09-07 16:28:20 66 0

原创 随机梯度下降法 SGD

1. 梯度下降 batch_size = 1: SGD batch_size = n: mini-batch batch_size = 全部训练集大小:batch SGD 对比: (1)batch SGD: 噪声小, 幅度大一些; (2)mini-batch SGD: 效率高, 收敛快; 我们实际...

2020-09-07 09:52:59 304 0

原创 NLP: GPT模型和GPT2.0模型

1. 简介 NLP模型的发展历程: 从Word2Vec->ELMo->GPT->BERT->MT-DNN->GPT2,NLP技术越来越倾向于用更少的有监督数据+更多的无监督数据去训练模型。 2. GPT 模型 思想:先通过无标签的文本去训练生成语言模型,再根据具体的N...

2020-09-07 09:35:07 348 0

原创 LeetCode300. 最长上升子序列(python)

1. 题目 给定一个无序的整数数组,找到其中最长上升子序列的长度。 示例: 输入: [10,9,2,5,3,7,101,18] 输出: 4 解释: 最长的上升子序列是 [2,3,7,101],它的长度是 4。 说明: 可能会有多种最长上升子序列的组合,你只需要输出对应的长度即可。 你算法的时间...

2020-09-07 08:41:15 57 0

原创 NLP:XLNet模型

1. 简介 XLNet是一种类似BERT的模型,XLNet是一种通用的自回归预训练方法,由CMU和Google Brain团队在2019年6月发布,在18个任务取得了当前最佳效果,包括机器回答,自然语言推断,情感分析,文档排序。 出发点: BERT是基于去噪自编码器的预训练模型,可以很好对双向语境...

2020-09-06 17:15:57 291 0

提示
确定要删除当前文章?
取消 删除