每年的7月14是法国的国庆日,按照惯例,会在香榭丽舍大街上举行阅兵式。国庆那天早上,急冲冲出门,但是在环绕凯旋门的各种小巷中迷路了,只是远远看到了飞过头顶的喷着红白蓝三色尾气的战斗机,和接踵而至的各种列着队的大小飞机。还没到凯旋门,便开始下大雨。除了香榭丽舍大街不让人上去,其他的十一条街都可以走,而且每条街都停了坦克啊装甲车啊神马的,而且这些也木有被禁止靠近。于是,因为下雨而停着没有前进的这些坦克边站满了拍照的游客……负责开车的大兵们也相当热情,一会帮游客拍照,一会和游客合影留念,还有不少游客干脆爬到了坦克顶上或者坐进了坦克里面只探出一个脑袋拍照留念……身上背着一个大单反而且没有同伴,看到那些在坦克里拍照的真是羡慕嫉妒恨~~然后绕到香街,木有任何安检就来到街边,此时有一些装甲车开过,还有消防车,还有拖着大艇的汽车,大卡车神马的,缓缓驶过。其实我一直在等小轿车的说,因为那里面应该有酷似憨豆的萨科奇先生。但是总统大人一直没见踪影;时不时有一些载着军队高级将领或者政府领导人的大车驶过,激动的法国民众会吹口哨或者欢呼,但显然我是一个也不认识的。然后雨就下大了,人们开始散去,传说中的骑兵部队也不出场了,萨科奇也不出场了,国庆日的阅兵就这样草草结束了。所以说,法国人很不靠谱是吧~弄个国庆都弄不好,看看咱们中共的~整条长安街封的死死的鸟都不让飞窗户也不让开,哪里还有可能让那些个不相关的人去围观嘞~还有法国这些随性的大兵们,你们怎吗能够让游客爬到坦克这种重型武器里面去嘞~~这让我等只在博物馆和电视里看到过坦克的人情何以堪啊~~更不会让下雨这种事情在国庆日发生嘛,如果有下雨的风险,各种高射炮肯定早就提前搞起了~看看你们法国的国庆,下个雨就散了不弄了,太不严肃啦~
夏天巴黎比北京晚六个小时,于是北京上午九点的飞机,巴黎下午两点多就到了。
天气预报一直说巴黎在下雨,但是坐上法航从戴高乐机场到凯旋门的大巴,看到外面的天气时晴时雨的,远处飘着一朵雨云,云和地面被黑压压的斜线连起来。车还没到凯旋门,远远地望见前方广场上一片金碧辉煌的,虽然是侧面,也一眼看出那就是凯旋门了。记得09年建模竞赛的时候还用凯旋门的图片举过例子,对于凯旋门广场的防堵车的环岛设计和它的十二条放射向的大路很是熟悉,但这眼看上去,还是很是震撼。住的地方离凯旋门不远,大概走路一刻钟的样子吧,拖着行李入住,在凯旋门边溜达了一会,兑换完旅行支票,上了会网便睡下了……
“我来到这里为了看到世间美好、了却心中遗憾;然而当看到这美好,我却开始愈发留恋和不舍,害怕终于有一天我将无法再感受到这美好。”
从7月12直飞巴黎,到7月29号从阿姆斯特丹返回北京,首先在巴黎游荡,接下来去了普罗旺斯看薰衣草,进而到瑞士因特拉肯和日内瓦,然后取道北上到达斯特拉斯堡,再到卢森堡,经过比利时,最后是荷兰阿姆斯特丹;这就快要过去一个月了,再不写一些流水帐,有些细节便要不记得了。决定从今天开始,对着照片,一天一天地流水帐记过去。流水帐的前奏,写点行前准备神马的,作为经验留存~
旅游团神马的,最讨厌了……一个人去,只要办好个人旅游签证,订好机票,预订好旅馆,买好火车票,会说英语,其实没有太多麻烦的。
五月其实还是挺惊心动魄的。
撇开月初的时候完成的最后的实验,撇开月中的时候的搬家,撇开月末的时候花两个半白天写完了毕业论文……剩下的五月交代给了准备签证。
很繁冗的签证,掏家底的材料,我觉得如果签证官拿着我的签证材料,要把我的信用卡盗用了或者冒充我的身份干点别的什么事情,都是可以做到了。然后感受到中国护照的不好用,拿着中国护照基本上没什么出行自由可言,无怪很多明星都要拿其他国家的护照。对于我等屁民而言,幸好中国还大,不用出国就有九百六十万平方公里的土地可以游玩,不至于太寂寞。如果像朝鲜一般小,就……
刚开始的时候,本来想想,估计暑假还是没有的。或者是像其他师兄师姐一样放个两周。但是,有一天,老师突然跟我说:暑假可以好好休息一样,这是大学的最后一个完整的长暑假了;甚至可以整个暑假都不用过来。
然后好多问题就有了答案。比如说暑假我本来想带高考完的表妹到北京玩一圈;再比如说,暑假想旅游,凤凰,或者是其他国家;再比如说,北京的夏天太热,空调太贵,在家可以舒舒服服吹空调;再比如说,仙剑五暑假就要出来了,我想认认真真打RPG……
再然后冒出一个问题,无解。暑假实在是太长了,这么多时间,该干些什么呢……上大学之前的暑假,我都在预习下个学期要上的课。大一的暑假,我在家待了三天,其他时间都在背红宝书。大二的暑假,在妈妈的陪伴下在北京准备AW以及奔波于医院之间治病。大三的暑假,欧,已经在北大实习了。对于大学的长长的没有工作没有目标没有压力的暑假,我还是第一次经历,这让我感到惆怅焦虑迷茫无助郁郁寡欢……>.< Read the rest of this entry »
Solving the ‘exceeded MAX_ITEMS’ problem in Stanford Parser
Posted by: Amelie
四月 27th, 2010 >> Research
Stanford parser is one of those parsers that can parse Chinese.
With the factored parser preloaded, when the input Chinese text is inapropriate (too long, for example), however, the parser might abort with error message:
“FactoredParser: exceeded MAX_ITEMS work limit [200000 items]; aborting.”
which could also happen when dealing with English. To solve this problem, one might refer to Parser-User Maillist, where it provide a external solution:
java -mx1000m -cp "stanford-parser.jar;" edu.stanford.nlp.parser.lexparser.LexicalizedParser ¨CMAX_ITEMS 300000 chineseFactored.ser.gz ChineseInputFile > ChineseParsedOutput
However, if you are using the parser by its API, you might try the following code
LexicalizedParser lp = new LexicalizedParser(parserPath); Test.MAX_ITEMS = 5000000;
The Class `Test’ contains “options to the parser which affect performance only at testing (parsing) time” (check Stanford Parser’s Javadoc for detail). The second line of code set the public static variable `MAX_ITEMS’ to a larger value. And therefore the parser would not abort frequently.
Use Mteval to Process Chinese Machine Translation Result
Posted by: Amelie
四月 25th, 2010 >> Research
“mteval” is a Perl script for Automatic Machine Translation Evaluation. It computes BLEU score and/or NIST score between machine translation result and one or more reference translations.
To compute BLEU/NIST score for a certain test set using this script, one could do as the following simple example under a linux operating system with Perl installed.
chmod +x mteval-*.pl ./mteval-*.pl -s src.xml -t tst.xml -r ref.xml -b -d 2 --metricsMATR
mteval-*.pl is the mteval script file with possible various version number. In executing the srcipt, one could use -d to specify the detail level of the output: score for whole system, score for each document or score for each segment. If `–metricsMATR’ option is specified, output score will be written into three files in system level, document level and segmet level respectively. A more detailed instruction can be obtained by executing the script with -h option.
The script naturally processes English. To process Chinese machine translation result, the Chinese characters should be separated by white spaces. The problem is, should the units between two white spaces be single characters or meaningful tokens after Chinese Word Segmentation? Paper by NCCU of Taiwan put white spaces between each Chinese character. The essense of BLEU score, however, is to compute the number of matches between n-gram of machine-translated text and n-gram of reference text. NIST score, in addition to BLEU score’s precision metric, also calculates how informative a particular n-gram is. Therefore, in my opinion, the “n-gram”–unit separated by white spaces–should be a meaningful word rather than a single character. If you hold different opinions on this issue, please leave a comment after this article, thank you.
其实这个特别的一天不是今天,是4月21号。
首先还是关于极品飞车。必须承认的是,我为了这牛气冲天的一刻已经锻炼了太久太用功,以至于用来踩油门的中指都脱了一层皮。脱皮的原因,一方面因为我玩的时间太长,另一方面是极品飞车使得我的电脑持续发热散热不良方向键滚烫烫的脱皮。嗯有点夸张了,现在言归正传到这牛气冲天的一刻:还是追击赛,我达到了传说中的5级威胁度,而且逃脱了!其他数目记不住,总赏金达到了150万刀。另外说个,我的爱车是辆红色的兰博基尼,操控已经到顶,加速几乎到顶,极速比加速稍逊色一点,但也是仅差一点。以后我就说,昨儿晚上我开的是辆兰博基尼哦~~诶呀呀,我真是得瑟~
然后就是让我挠了一天头的ACL会议结果终于出来鸟,而且还是个好的结果,ohyeah~~我还是只有一小部分苦力在里面……看了一下reviewer的建议,嗯,每个reviewer都有针对我的实验的部分提出的问题(这些问题我都很有回答的冲动)。一方面让我觉得,我的实验还是没有白做的,评审们都看得很清楚。另外一方面,实验还是做得不够好哇=。= 总的来说,很高兴。
最后,玉树地震,为灾区的同胞祈福。藏区是一个有信仰的地方,我总相信着在有信仰的地方,人们的生老病死是和某种冥冥的强大的力量相关联。不管这生离死别对于藏民们意味着什么,希望他们的灵魂能够最终平静和幸福。
最后的最后。我要忏悔!4月21是国悼日啊,我怎么能晚上回去还玩极品飞车呢??知道ACL中了之后,我怎么能这么高兴呢??我应该流泪,应该悲沉,我应该痛哭流涕地度过这一天,我怎么能……我竟然……我,我……啊,我真是太没觉悟了。所以我挑在国悼日后两天才写这篇文章。国悼日后两天,终于可以庆祝一些东西了吧?
