假期还是得做点事情的   Leave a comment

总觉得思路不清晰,恩,修身养性。

看到校内上有这么一个状态:

弟子问老师:"您能谈谈人类的奇怪之处吗?"老师答道:“他们急于成长,然后又哀叹失去的童年;他们以健康换取金钱,不久后又想用金钱恢复健康。他们对未来焦虑不已,却又无视现在的幸福。因此,他们既不活在当下,也不活在未来。他们活着仿佛从来不会死亡;临死前,又仿佛他们从未活过。”

挺好。

Posted 十月 5, 2011 by masonzms in Research

什么是不爽   Leave a comment

不爽就是很多事情你都非常顺利,可是你最重要的事情却忘了。今天真是shit,只顾着打羽毛球比赛忘了给老爸打电话。看来又只能下星期了打了,以后定闹表作提醒,不知道以后会那个多少担心。
前天比赛也是学院好好的出线形势灾在我无法冷静的脾气中了,最后导致我好长时间才睡着。
现在我是怎么了,脾气越来越坏,肠胃也越来越不舒服,听见什么出去外面腐败烧烤,心里立马就有一种恶心的感觉。羽毛球单打一场下来,也是恶心的感觉,似乎身体越来越差了。
还有些事情也是始终找不着感觉,实在无法理解,不行就放弃吧,可能这样更好,我怎么感觉自己有一种无形的压力呢?

Posted 九月 25, 2011 by masonzms in life

谨慎   Leave a comment

年轻的时候可以犯很多的错误,也可以不用管各种可能的后果。年龄大了,人自然而然就变得畏首畏尾,各种考虑各种均衡,做出一些比较保守的决定,而且一旦做了决定,基本上就是没有再重新来过的机会了。唉,曾经也是稀里糊涂的做了很多事情,包括感情在内。和我关系最好的朋友也是如此。当初好多事情的发生其实都那么偶然,决定也是那么偶然,也没有想的太多,所以最后也才那么坎坷。倒不如一直在校园里面呆着,不过估计那样也不会知道自己想要什么。

Posted 九月 11, 2011 by masonzms in Research

又是一年中秋节   Leave a comment

每逢节日的时候,都有一种很强烈的想回家的愿望。虽然知道在家什么都没有,依然大部分时间只有自己一个人,可是就是有那么一种家的感觉。

Posted 九月 11, 2011 by masonzms in Research

扯淡的人生   Leave a comment

昨天晚上,以前实验室的部分人找了家茶馆一起聊天。我们实验室这一届一共七个人,两个人成功博士毕业,两个人博士退学,一个工作后读博的,两个人工作,一个华为(当初很不理解)一个微软。大家顺利不顺利,是否还有理想,各人的性格适合什么样的工作,经过了一番讨论之后都一致认为人生就是折腾,人生就是扯淡。不管怎么折腾,不管怎么折腾,一辈子就在这十年基本定位。好好把握。

Posted 八月 30, 2011 by masonzms in Research

中文的词性与句法   Leave a comment

在这次CNCCL大会上,对中文的词性和句法方面貌似有很大的争论。有时候我对中文的词性也不是很理解,比如为什么一个词在词典里面只有动词,在实际情况中它就能成动词了,这种名词动词化属于什么层面的,他和一般意义上的动词应该可定是有差别的吧,类似这种的情况会有很多例子。然后再一个,例如在联合模型中,词性和句法为什么不能同时提高,这也应该是有问题的。 可能应该有另一套标准。关于这个标准是什么呢。中文最重要的应该是语义。还有中文分词,也应该是从语义层面上出发的。因为人能够很快的判别一个句子的语义,所以分词也就自然而然了。

Posted 八月 30, 2011 by masonzms in Research

假期给自己定的任务又要拖后腿了   Leave a comment

七月底,给自己制定了一个计划。要写出一个有效的分词和词性标注的联合模型。转眼间到了八月中旬,还一事无成。
首先一开始实现了一个,结果发现解码速度奇慢无比,采用的算法是计算所姜文斌论文中提到的。虽然表面上市O(nKT)的算法,但是最后的一层提取特征时,要考虑的子特征,前面的词词性特征,实际上又是至少O(n)的时间复杂度。我开始以为是java的原因,或者没有用trie数,于是用C++借助于李正华师兄的gparser框架,又重新实现了一遍。
其次就只能开始考虑先分词后利用词性Rerank的方式了,这个自己死在一个非常细微的错误上面了,就是NBest结果中我用了最后一个结果做去计算准确率,导致我改代码测试纠结了很长时间,在这个过程中我甚至把分词专门拿出来做了一遍,最后在查到这个问题,都很受不了了。
不过采用先分词后词性Rerank的方式,后来发现分词的效果还没有普通方式的效果好,悲剧。
最后再一个问题就是,实用CTB6.0词性标注语料,为什么词性标注准确率也这么低?才92%,看来我只好先把joint模型先放一放。下一步先把词性标注的单独的做好。找到问题,然后做进一步打算。 

Posted 八月 12, 2011 by masonzms in Research

脚踏实地做具体的事情   Leave a comment

头一年的失败,还是可以在自己身上找到很多原因的。这一年里,没有做一件具体的事情,没有在一个具体的任务中去结局问题。总是寄希望于去找到某种巧妙的方法去解决问题,这是不现实的。任何巧妙的方法都是建立在对问题本身的理解上面。在这一年里,自己初步打算去做中文自然语言处理中分词词性标注以及句法的领域自适应性问题,这应该是个很好的问题。领域自适应性必然包含着半指导和无指导的应用,这样就必须要有大量的未标注数据,可惜中文的未标注数据只能是大量的未分词的生文本,多了一步分词的步骤,导致中文自然语言处理的领域自适应非常有挑战性而且非常必要。在接下来的时间里,准备就开始根据自己的想法做一些实验,在下次见到车老师或者刘老师的时候好好的谈一下自己的想法。
博士阶段还是应该去脚踏实地的解决一个问题 ,而少去想着投机取巧,博士阶段的研究仅仅只是开始,研究的开始阶段还是得理解问题,解决问题,以后才站在更高的层面上去看问题。

Posted 七月 27, 2011 by masonzms in Research

当初的梦想   Leave a comment

一开始考虑一件事情的时候想法总是美好的。在当初考虑读博时就想着一定要在我自己方向的顶级会议上留下自己的足迹,那时也没想着这是一件难事,也想着以后也就能凭此这么一直单纯的做科研,过着简简单单的生活。那时的自己觉得什么都可以放弃,但是一定要做自己喜欢的事情,做一件看似有意义的事情。
可是现实确实很残酷的,一转眼就是一年半了,接下来得日子却可能只能为自己的博士毕业而挣扎了,我也不知道到底信心是如何下降到如此的低谷,甚至到了现在我都不知道该去做一个什么样的课题。今天我在北京最好的朋友告诉我他要放弃自己的博士了,今年他已经是第三年了,按照道理上来说即使他文章发的太差,软件所也会想方设法让他在第四年博士毕业的,为什么会到如此的地步呢。现在真是很担心自己的博士阶段会一事无成,不过也许这就是命运吧,就跟我的过去一样,注定下来就是受磨难的,而且以后也许也是一样。人生总是不公平的,要以这种心态去面对自己的命运。
没有一个人想混过去,尤其是付出了那么大的代价,但很多时候只是不得已。 我只希望这四年我至亲的人还能自己照顾好自己。我的一些决定还是太自私了。

Posted 七月 25, 2011 by masonzms in life

latex中输入算法(转载)   Leave a comment

排版可能需要的包: 

\usepackage{algorithm}               //format of the algorithm 

\usepackage{algorithmic}             //format of the algorithm 

\usepackage{multirow}                //multirow for format of table 

\usepackage{amsmath} 

\usepackage{xcolor} 

\DeclareMathOperator*{\argmin}{argmin}         //argminargmax公式的排版 

\renewcommand{\algorithmicrequire}{\textbf{Input:}}   //Use Input in the format of Algorithm 

\renewcommand{\algorithmicensure}{\textbf{Output:}}  //UseOutput in the format of Algorithm 

排版图片可能需要的包: 

\usepackage{graphics} 

\usepackage{graphicx} 

\usepackage{epsfig} 

算法的排版举例: 

\begin{algorithm}[htb]         %算法的开始 

\caption{ Framework of ensemble learning for our system.}             %算法的标题 

\label{alg:Framwork}                  %给算法一个标签,这样方便在文中对算法的引用 

\begin{algorithmic}[1]                %不知[1]是干嘛的? 

\REQUIRE ~~\\                          %算法的输入参数:Input 

    The set of positive samples for current batch, $P_n$;\\ 

    The set of unlabelled samples for current batch, $U_n$;\\ 

    Ensemble of classifiers on former batches, $E_{n-1}$; 

\ENSURE ~~\\                           %算法的输出:Output 

    Ensemble of classifiers on the current batch,  $E_n$; 

\STATE Extracting the set of reliable negative and/or positive samples $T_n$ from $U_n$  with help of $P_n$; \label{code:fram:extract}      %算法的一个陈述,对应算法的一个步骤或公式之类的; \label{ code:fram:extract }对此行的标记,方便在文中引用算法的某个步骤 

\STATE Training ensemble of classifiers $E$ on $T_n \cup P_n$, with help of data in former batches; \label{code:fram:trainbase} 

\STATE $E_n=E_{n-1}\cup E$; \label{code:fram:add} 

\STATE Classifying samples in $U_n-T_n$ by $E_n$; \label{code:fram:classify} 

\STATE Deleting some weak classifiers in $E_n$ so as to keep the capacity of $E_n$; \label{code:fram:select} 

\RETURN $E_n$;                %算法的返回值 

\end{algorithmic} 

\end{algorithm}

Posted 七月 15, 2011 by masonzms in Research

Follow

Get every new post delivered to your Inbox.