个人资料
正文

文科生终于可以被“消灭”了

(2015-05-02 09:52:01) 下一个

你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“美妙绝伦”的宋词,圆周率也可以哦!

 

简化宋词就是“东风何处在人间”

 

署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是个理科生。

 

-------------------------

 

随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是

 

Word Freq

1 1485

2 东风 1382

3 何处 1230 
4 人间 1202 
5 风流 857 
6 归去 812 
7 春风 802 
8 西风 779 
9 归来 771 
10 江南 765 
11 相思 753 
12 梅花 732 
13 千里 676 
14 回首 656 
15 明月 651 
16 多少 648 
17 如今 642 
18 阑干 630 
19 年年 613 
20 万里 590 
21 一笑 582 
22 黄昏 550 
23 当年 542 
24 天涯 537 
25 相逢 528 
26 芳草 527 
27 尊前 516 
28 一枝 512 
29 风雨 505 
30 流水 472 
31 依旧 472 
32 风吹 471 
33 风月 461 
34 多情 457 
35 故人 451 
36 当时 450 
37 无人 445 
38 斜阳 438 
39 不知 430 
40 不见 429 
41 深处 422 
42 时节 403 
43 平生 398 
44 凄凉 398 
45 春色 394 
46 匆匆 383 
47 功名 383 
48 一点 378 
49 无限 377 
50 今日 369 
51 天上 368 
52 杨柳 362 
53 西湖 356 
54 桃花 354 
55 扁舟 353 
56 消息 351 
57 憔悴 344 
58 何事 339 
59 芙蓉 338 
60 神仙 334 
61 一片 334 
62 桃李 333 
63 人生 332 
64 十分 331 
65 心事 329 
66 黄花 328 
67 一声 325 
68 佳人 324 
69 长安 321 
70 东君 319 
71 断肠 316 
72 而今 315 
73 鸳鸯 314 
74 为谁 313 
75 十年 310 
76 去年 309 
77 少年 308 
78 海棠 307 
79 寂寞 306 
80 无情 306 
81 不是 305 
82 时候 304 
83 肠断 303 
84 富贵 303 
85 蓬莱 303 
86 昨夜 303 
87 行人 302 
88 今夜 301 
89 谁知 300 
90 不似 299 
91 江上 298 
92 悠悠 296 
93 几度 295 
94 青山 295 
95 何时 294 
96 天气 293 
97 惟有 293 
98 一曲 291 
99 月明 291 
100 往事 290

 

至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”

 

这个结果一出来,一位网友就一语道破了“玄机”,“原来,最流行的宋词就是‘东风何处在人间’啊!”

 

生日、手机号 随意组合都很美(大家电话号码试试?)

还有更绝的呢!署名为“达芬奇的鸡蛋”的果壳网友不知怎么地,就想到了拿大家都会背一点的圆周率进行创作,两个数字一断,对照高频词表,一首“华丽丽”的词就出来了!还附上了说明,特别像模像样。

 

玩法示例:

 

-------------------------

达芬奇的鸡蛋 @ 果壳

 

清平乐·圆周率

 

回首明月(一看就是抒情诗)

14 15

 

悠悠心事空(果然,貌似失恋了)

92 65

 

西湖何事寂寞中(触景生情)

35 89 79

 

风吹斜阳匆匆(回忆那天下午的艳遇)

32 38 46

 

芳草平生斜阳(平生见过最美的太阳和芳草,都是因为那里有你的身影)

26 43 38

 

风吹寂寞今日(到现在就剩我自己)

32 79 50

 

一枝富贵年年(好花美丽年年开,好景宜人不常在)

28 84 19

 

断肠长安不知(我的思念远方的你可知道?)

71 69 39


如梦令·根号二 

深处时节千里(过了许多年,男猪脚来到了很遥远的地方)

41 42 13

 

消息当年鸳鸯(这。。找老相好去了?)

56 23 73

 

归来今日(妹子,我胡汉三回来啦)

09 50

 

一点无情多少(你还知道来看我啊!)

48 80 16

 

今夜,今夜(要出问题了。。。)

88 88

 

而今时节归来(仿佛重回当年,男猪脚依然那么坚挺) 
72 42 09 


网友评论部分

 

-------------------

 

看完这首诗,网友们一边膜拜,一边自己的创作灵感也被打开了。

 

“丘寒”留言道:“试着用某个号码创作了一首:天上相思,芳草年年,昨夜江南,回首一笑多情。”

 

“零Ronnie”很有创作激情:“我的生日:年年江上,江南春风;我的手机号:明月芳草去年,江南阑干归去……还真挺上口的!我也能做诗人了哈哈!”

 

理科生欢呼:消灭文科生的日子来了

 

可是这么一来,文科生又不淡定了,一群文科生跳起来反击。 

“雯名霞迩”大叫:“统统拖出去,斩了!这让学中文的人情何以堪啊!”

 

“Rockfish”代表理科生还击:“理科宅男们消灭文科生的日子到来了!拿起你的计算器,消灭文艺青年吧!”

 

“可可”童鞋呼唤:“就让科技小清新来得更猛烈些吧!”

 

还有一群网友七嘴八舌讨论着。 

“沌世界”淡定地说:“不知宋词的粉丝看了是不是有一种偶像破灭的感觉。”

 

“家杰仕”童鞋也总结道:“文艺男女已经阻止不了技术宅作诗了!” 
网友“Rakin”点评:“理科生文艺得真凶猛!”

 

“焰心Spring”呼吁:“想文艺一回的同学请转!”

 

“ChanIm”表示:“当时学写诗的时候超鄙视这些,现在淡定了,因为没那么多愁善感了。”

 

“思念的秋天”感慨:“穿越必备!”

 

“NetCharm”说:“背熟了,随便组合一下,写出来的也不会太烂。”

 

“huahualipo”童鞋还提出了意见:“高人,能不能把平仄也加上……如果平仄太困难,至少考虑一下词尾押韵如何?韵脚也就十来个,每个都分配一个数值,然后每隔一行,末尾的词就只从一个值下选。这样会大大增加仿真度啊!”

 

再次神经短路,突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。

 

当然里面会有很多无意义的字的组合,不过这类“词语”本身的出现就是一个偶然,所以可以预期的是它们整体的频数会很低,是入不了“大雅之堂”的。话不多说,直接上代码和结果。

[ 打印 ]
阅读 ()评论 (3)
评论
Norstar 回复 悄悄话 太好玩了。谢谢!
lilyzyl 回复 悄悄话 和刘慈欣的 诗云 有异曲同工之妙
苦人不哭 回复 悄悄话 interesting, but the young generation are more into 网语了
登录后才可评论.