-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathsearch.xml
81 lines (81 loc) · 17.5 KB
/
search.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
<?xml version="1.0" encoding="utf-8"?>
<search>
<entry>
<title><![CDATA[告别]]></title>
<url>%2F2018%2F05%2F24%2F%E5%AD%A6%E4%BC%9A%E5%91%8A%E5%88%AB%2F</url>
<content type="text"><![CDATA[所有的故事都会有一个结局 “时钟的指针总在原地打转,时间的河水却是流逝向前。” 一晃神,人生又少了两年。 最近的天气变得很像第一次来雪城的样子,白天的阳光很炙热,傍晚的风吹得刚刚好,在onondaga lake边看了落日,想到以后再也不会看到,这样的玫瑰色的晚霞,到底是有点感伤。 很早就打算回国了,迟迟舍不得定机票,好像机票还没有定一切就好像还没结束。昨天还在跟智哥说,我觉得来雪城的这两年要我说有什么重大的改变或者提升,我真的没法说出来,日子过得好坏参半,唯一觉得不错的是,遇到了这么好的朋友们。美国的生活很好,但是没有特别留恋,留恋的是你们,或许是可以放肆的岁月的尾巴。 第一次开始认真对待这次离别的时候,还是在DQF说他月底就去加州了。听到这句话的时候第一个反应就是,感觉跟很多曾经很好的朋友一样,慢慢地就会变成微信联系人里面沉默的某一个。慢慢长大,朋友更多变成一站一站,一个阶段一群朋友,过了就像是大浪淘沙,不知道还能留下什么。 去年冬天还在想抽时候来学校拍一下,冬天的样子,因为太懒一直没有来,总觉得时间还有很多,晚一天也没关系,但是日子真的是越过越少,再也拍不到雪城的冬天了。在初中的时候,就已经知道了,有些事情经不起等,经不起拖。道理懂了,一生也未必可以过好。 面临过很多选择,不喜欢做选择,也不喜欢被做选择,权衡之下,也只有做选择更让人好过些。前几天还在说,很想休息两个月,好好地搞清楚自己到底想要什么。从来不是那种轻易地被别人影响的那种人,也不是那种因为别人的看法而改变自己的那种人,you only live once, 为自己活。但是很可惜,找不到自己存在的意义,不知道想要什么,就更不知道要怎么样去实现。很多时候被问到你以后想做什么,你真的喜欢这个么,常常没办法给一个确定的答案。应该吧,我觉得是,给别人的回答,也是给自己的安慰。 那天在看希区柯克的电影的时候,在想一个问题,哪天自己在这世界上消失了,有谁会记得。然后就想到了牛顿,爱因斯坦,因为留下的东西,总觉得他们离我们很近很近,栩栩如生。想要给这个世界带来一点点不一样的东西,觉得做产品比程序员更好的地方就是,时间的迭代,产品不会消失,但是代码却会被覆盖,一次又一次,你存在的痕迹消失殆尽。 “时针永远在从容不迫的转圈,很多故事也在不容越矩的倒数里走向结局。” 来日方长。山长水阔。 越来越静。越来越近。 其实所有的告别都不用学习,就像人生的第一声哭啼一样,是那么的顺其自然,到了时间,就会了。 Once you hear the airplane blow, I am gone.]]></content>
<categories>
<category>生活</category>
</categories>
<tags>
<tag>流水混账</tag>
</tags>
</entry>
<entry>
<title><![CDATA[NLP-学习(二)]]></title>
<url>%2F2018%2F02%2F26%2FNLP-%E5%AD%A6%E4%B9%A0%EF%BC%88%E4%BA%8C%EF%BC%89%2F</url>
<content type="text"><![CDATA[NLP-文本语料和词汇资源Gutenberg语料库 加载方法:>>>import nltk>>>nltk.corpus.gutenberg,fileids()或者>>>from nltk.corpus import gutenberg>>>gutenberg.fileids()即可显示出Gutenberg内所有的文本如果想要对语料库内的所有文本进行操作则需要进行循环遍历,在每次的遍历操作中进行文本的处理。>>> for fileid in gutenberg.fileids(): 文本处理利用word()函数进行文本调用简化操作,即为一个文本取一个别名;eg.>>>emma = gutenberg.words('austen-emma.txt')利用sents()函数对句子进行获取,把文本划分为句子,句子为词链表;eg.>>> emma_sentences = gutenberg.sents('austen-emma.txt')利用raw()函数获取未经处理过的文本。eg.>>> emmatext=gutenberg.raw('austen-emma.txt') 载入语料库前面的处理都是对现成存在语料库的处理,当我们想要自己处理相关的数据集的时候,需要加载一些语料库进来。在 NLTK 中的 PlaintextCorpusReader 帮助下载入它们。检查你的文件在文件系统中的位 置;在下面的例子中,我们假定你的文件在/usr/share/dict 目录下。不管是什么位置,将变量 corpus_root的值设置为这个目录。 PlaintextCorpusReader 初始化函数的第二个参 数可以是一个如[‘a.txt’, ‘test/b.txt’]这样的 fileids 链表,或者一个匹配所有fileids 的模式, 如:’[abc]/..txt’>>> from nltk.corpus import PlaintextCorpusReader>>> corpus_root = '/usr/share/dict'`>>> wordlists = PlaintextCorpusReader(corpus_root, ‘.‘)` 停用语料库停用词语料库,由高频词汇组成,如:the,to,我们有时在进一步的处理时需要将它们从文档中过滤。停用词通常几乎没有什么重要的信息,而它们的出现会使区分文本变困难。>>> stopwords = nltk.corpus.stopwords.words('english')>>>content = [w for w in text if w.lower() not in stopwords] WordNetWordNet 是面向语义的英语词典,类似与传统辞典,但具有更丰富的结构。NLTK 中包括英语 WordNet,共有 155,287 个词和 117,659 个同义词集合。WordNet 概念层次片段:每个节点对应一个同义词集;边表示上位词/下位词关系,即 上级概念与从属概念的关系。上位词和下位词被称为词汇关系,因为它们是同义集之间的关系。这个关系定位上下为 “是一个”层次。WordNet 网络另一个重要的漫游方式是从物品到它们的部件(部分)或到 它们被包含其中的东西(整体)。]]></content>
<categories>
<category>学习</category>
</categories>
<tags>
<tag>NLP</tag>
</tags>
</entry>
<entry>
<title><![CDATA[LeetCode 106 Construct Binary Tree from Inorder and Postorder Traversal]]></title>
<url>%2F2018%2F02%2F22%2FLeetCode-106-Construct-Binary-Tree-from-Inorder-and-Postorder-Traversal%2F</url>
<content type="text"><![CDATA[题目:Given inorder and postorder traversal of a tree, construct the binary tree.Note:You may assume that duplicates do not exist in the tree.示例:1postorder = [9,15,7,20,3] 可以得到:1234 / \9 20 / \ 15 7 分析:inorder中序遍历,所得的结果有一个特点:根节点的左边是左子树,根节点的右边是右子树。postorder后续遍历,所得的结果特点为,最后一个是根节点。因此可以结合二者确定二叉树。当处理完根节点后,postorder中的最后一个元素是它的右子节点,因此对于子节点的处理应该是先右后左的顺序。C++ solution1234567891011121314151617181920212223242526272829303132/** * Definition for a binary tree node. * struct TreeNode { * int val; * TreeNode *left; * TreeNode *right; * TreeNode(int x) : val(x), left(NULL), right(NULL) {} * }; */class Solution{public: TreeNode* buildTree(vector<int>& inorder, vector<int>& postorder) { return buildTree(postorder, inorder, 0, inorder.size() - 1); }private: TreeNode* buildTree(vector<int> &postorder, const vector<int> &inorder, int first, int last) { if (postorder.empty() || first > last) { return nullptr; } int val = postorder.back(); postorder.pop_back(); auto node = new TreeNode(val); auto it = find(inorder.begin() + first, inorder.begin() + last + 1, val); node->right = buildTree(postorder, inorder, it - inorder.begin() + 1, last); node->left = buildTree(postorder, inorder, first, it - inorder.begin() - 1); return node; }};]]></content>
<categories>
<category>学习</category>
</categories>
<tags>
<tag>LeetCode</tag>
</tags>
</entry>
<entry>
<title><![CDATA[NLP 学习(一)]]></title>
<url>%2F2018%2F02%2F19%2FNLP-%E5%AD%A6%E4%B9%A0%EF%BC%88%E4%B8%80%EF%BC%89%2F</url>
<content type="text"><![CDATA[NLP 学习(一)课程要求 Python 3.x 需自行下载安装,mac自带python 2.x,安装可参考博客Mac下python 3.x安装 NLTK附上NLTK工具包模块 Python与NLTK入门在终端输入python即可调用python,终端显示”>>>”. 在启动python后,输入>>> import nltk即可加载nltk工具包了。输入>>> nltk.download() 可浏览所有可用的软件包。例如:from nltk.book import加载nltk的book模块,共9个文本,text1-text9。>>> text1可直接查找到对应名称的文本。 文本相关操作 concordance( )使用方法:文本名.concordance(“单词”)用于查找文本中的单词,结果显示所有匹配到的地方,会显示上下文 similar( )使用方法:文本名.similar(“单词”)用于查找文本中与输入单词上下文相同的其他单词,例如:‘the men is’ 和‘the women is’中的‘men’和‘women’即为similar的关系。 common_contexts( )使用方法:文本名.common_contexts([“单词1”,”单词2”])研究两个或两个以上的单词的共同上下文,使用similar的例子来说,会得到结果‘the__is’,即‘men’和‘women’共同的上下文。 dispersion_plot()使用方法:文本名.dispersion_plot([“单词1”, “单词2”, ···, “单词N”])可以得到一张离散图,判断词在文本中的位置,即从文本开头算起在它前面有多少词。 generate( )使用方法:文本名.generate( )依据所选文本产生随机文本(并不知道有什么用处,可能just for fun???看看后面学习有没有用到。)。在 generate 产生输出时,标点符号被从前面的词分裂出去。这并不是正确的英文格式,但可以知道文字和标点符号是彼此独立的。 len( )使用方法:len(textname)[注:便于书写,‘文本名’一致用‘textname’,‘单词’用‘word’表示]可以得到对应文本的长度,是单词数和标点符号数之和。 set( )使用方法:set(textname)获取文本的词汇表。 sorted(set( ))使用方法:sorted(set(textname))获取排序词汇表。 count( )使用方法:textname.count(“word”)用于统计一个词出现的次数。 def使用方法:def function_name(parameter,parameter): ···function structure后面的缩进代码段用一个空格结束。 文本就是词链表>>> sent1 = ['word1','word2','word3','word4']输入一个自定义的词链表。>>> sent1 可以获取sent1的内容。>>> sent1+sent2 链接两个链表>>> sent1.append("word") 追加链表>>> textname[number] 查找对应位置的单词>>> textname.index('word')索引单词第一次出现的位置>>> textname[start_number:end_number]抽取语言片段(注意范围,start_number=0,end_number=len-1) 语言也可以进行计算>>> fdist = FreqDist(textname)>>> fdist ->获取总词数>>> vocabulary = fdist.keys()>>> vocabulary[:50]->获取链表前50[注:NameError:name ‘FreqDist’ is not defined,需要在一开始输入 nltk.book import *]>>> words=[w for w in set(textname) if len(w) > n] ->筛选长度大于n的单词[注:如果想要增加筛选条件可以用 if 条件1 and 条件2]>>> bigrams(textname)双连词函数>>> textname.collocation()基于单个词的频率预期得到的更频繁出现的双连词附上nltk频率类函数: 例子 描述 fdist = FreqDist(samples) 创建包含给定样本的频率分布 fdist.inc(sample) 增加样本 fdist[‘monstrous’] 计数给定样本出现的次数 fdist.freq(‘monstrous’) 给定样本的频率 fdist.N() 样本总数 fdist.keys() 以频率递减顺序排序的样本链表 for sample in fdist: 以频率递减的顺序遍历样本 fdist.max() 数值最大的样本 fdist.tabulate() 绘制频率分布表 fdist.plot() 绘制频率分布图 fdist.plot(cumulative=True) 绘制累积频率分布图 fdist1 < fdist2 测试样本在 fdist1 中出现的频率是否小于 fdist2 决策与控制词的比较运算符 函数 含义 s.startswith(t) 测试 s 是否以 t 开头 s.endswith(t) 测试 s 是否以 t 结尾 t in s 测试 s 是否包含 t s.islower() 测试 s 中所有字符是否都是小写字母 s.isupper() 测试 s 中所有字符是否都是大写字母 s.isalpha() 测试 s 中所有字符是否都是字母 s.isalnum() 测试 s 中所有字符是否都是字母或数字 s.isdigit() 测试 s 中所有字符是否都是数字 s.istitle() 测试 s 是否首字母大写(s 中所有的词都首字母大写) >>> [w.upper() for w in textname]>>> [w.lower() for w in textname]大小写转换word.lower() for word in text1 if word.isalpha()转换为小写,过滤掉所有非字母元素,从词汇表中消除数字和标点符号。 参考资料:PYTHON 自然语言处理中文翻译]]></content>
<categories>
<category>学习</category>
</categories>
<tags>
<tag>NLP</tag>
</tags>
</entry>
<entry>
<title><![CDATA[常用网址]]></title>
<url>%2F2018%2F02%2F14%2F%E5%B8%B8%E7%94%A8%E7%BD%91%E5%9D%80%2F</url>
<content type="text"><![CDATA[NLP相关NLP 正则表达式NLP 斯坦福教案英语规则NLP斯坦福课程官网NLP斯坦福groupNLP前沿论文更新我爱自然语言处理coreNLP 练习相关leetcodelintcodehackrank 十分钟热度前端学习]]></content>
<categories>
<category>实用</category>
</categories>
<tags>
<tag>MEMO</tag>
</tags>
</entry>
<entry>
<title><![CDATA[不是博客的发展史]]></title>
<url>%2F2018%2F02%2F10%2F%E4%B8%8D%E6%98%AF%E5%8D%9A%E5%AE%A2%E5%8F%91%E5%B1%95%E5%8F%B2%2F</url>
<content type="text"><![CDATA[到底折腾了哪些东西弄这个不咋地的窝,还是折腾了好几天,谁让我啥都不懂,还喜欢纠结纠结再纠结。官方教程看了又看,原创作者iisnan(Vi) 的github也经常去,还是在网上找了N多教程,一点一点的东拼西凑,目前也就还凑合啦。这个清单算是大体上记录了折腾过的东西。 点击爱心 头像更换https://www.jianshu.com/p/5d5931289c09 动态背景图 链接 文章底部标签 文章结束语(目前关闭在主题配置文件内和\themes\next\layout_macro\post.swig内修改可增加) 左侧社交(实现 ) 网站底部访问量 本地搜索未解决 评论功能未解决 博客总字数 文章字数统计 顶部加载条 文章缩略显示 自定义鼠标样式(不需要修改) 推荐阅读 站点地图(暂不需要) 作者关于 标签页,年份 分类页,年份 点击头像回首页(不知道怎么修改mmp)(https://mogeko.github.io/2017/08/27/Hexo-%E7%BE%8E%E5%8C%96/) 解决了 博文置顶(修改top 值)(感觉是个坑 崩了)(http://blog.csdn.net/qwerty200696/article/details/79010629)终于解决了(颜色也修改好了) 博文加密 背景音乐(待调试)(已经增加网易云音乐歌单,加载了aplayer插件,还不会用)(mmmmp, safari没有问题,但是Chrome有问题)(单曲没问题) 网站搜索添加(google完成代码,搜索有结果) 优化,博文压缩https://segmentfault.com/a/1190000008082288(我改不出来,一改就报错。。。) 文章点赞(不会造轮子,好像是要用couldlean??) 云音乐上面加分割线,循环播放??(搞不定) 文章百分比进度 版权信息(chrome 显示问题) 打赏(打赏按钮修改,颜色改了怎么没变化)(图片修改) 社交账号关注(侧边栏修改) high一下功能(有现成轮子用) 分享功能 (代码有添加,没有显示,主题配置文件进行修改) 文章阅读量,评论数(如何在首页显示,要用cloudlean插件,以后再说吧)(阅读量实现了) 去掉阅读时长(主题配置文件) 配色修改(暂时不修改了,太特么麻烦了)(颜色有待调整)(配色文件修改有问题)(改了,改了,在custom.styl, 里自己写)http://zhouhuix.cn/2016/11/24/%E4%BF%AE%E6%94%B9Hexo%E7%9A%84Next%E4%B8%BB%E9%A2%98/给自己灌点鸡汤,哈哈哈。]]></content>
<categories>
<category>杂七杂八</category>
</categories>
<tags>
<tag>人生在于折腾</tag>
<tag>博客</tag>
</tags>
</entry>
<entry>
<title><![CDATA[新窝]]></title>
<url>%2F2018%2F02%2F08%2F%E6%96%B0%E7%AA%9D%2F</url>
<content type="text"><![CDATA[终于安家了 作为一个拖延癌晚期患者,和三分钟热度异想天开少女,终于搭建好了自己的博客。也开始学习怎么用Markdown来记录学习与生活。 真真是,万事开头难,从去年开始安装hexo, 却一直遇到各种杂七杂八的问题,最终放弃转向博客园。但是虽然是个无比懒的人,但是依旧不喜欢循规蹈矩,还是通过一番不怎么样的努力安家了。 ☆´∀`☆ 我是有时候不喜欢用标点符号的Amber,请多指教。]]></content>
<categories>
<category>生活</category>
</categories>
<tags>
<tag>流水混账</tag>
</tags>
</entry>
</search>