個人資料
正文

文科生終於可以被“消滅”了

(2015-05-02 09:52:01) 下一個

你羨慕那些出口就會吟詩的文人嗎?現在可以不用再羨慕他們了!因為一位網友“yixuan”閑來無事,把《全宋詞》拿出來“搗鼓”,算出了其中的99個高頻詞匯。熟記這些高頻詞,你就可以隨性所欲進行創作了!你還可以用“無序”的數字來創造一首“美妙絕倫”的宋詞,圓周率也可以哦!

 

簡化宋詞就是“東風何處在人間”

 

署名為“yixuan”的網友在個人博客裏寫道:“突然想看看宋詞裏麵什麽樣的意象是最常見的,比如可以做個頻率分析什麽的。當然文本挖掘需要分詞,我沒法在其中花太多時間,於是想出了一個土辦法。宋詞的句子都很短,如果窮舉可能的字的組合的話並不是太多,況且最常見的詞語一般是兩三個字,這樣可能的組合就更少了。”比如“猶解嫁東風”這句話,可能的二字組合是“猶解”“解嫁”“嫁東”“東風”,三字組合是“猶解嫁”“解嫁東”“嫁東風”,詞的字數越多,可能的組合就越少。如果把每句話可能的字的組合都列舉出來,就可以整體統計頻率了。”大家一致分析這位網友一定是個理科生。

 

-------------------------

 

隨後, “yixuan”貼出了他算出來的高頻詞,排在前麵的分別是

 

Word Freq

1 1485

2 東風 1382

3 何處 1230 
4 人間 1202 
5 風流 857 
6 歸去 812 
7 春風 802 
8 西風 779 
9 歸來 771 
10 江南 765 
11 相思 753 
12 梅花 732 
13 千裏 676 
14 回首 656 
15 明月 651 
16 多少 648 
17 如今 642 
18 闌幹 630 
19 年年 613 
20 萬裏 590 
21 一笑 582 
22 黃昏 550 
23 當年 542 
24 天涯 537 
25 相逢 528 
26 芳草 527 
27 尊前 516 
28 一枝 512 
29 風雨 505 
30 流水 472 
31 依舊 472 
32 風吹 471 
33 風月 461 
34 多情 457 
35 故人 451 
36 當時 450 
37 無人 445 
38 斜陽 438 
39 不知 430 
40 不見 429 
41 深處 422 
42 時節 403 
43 平生 398 
44 淒涼 398 
45 春色 394 
46 匆匆 383 
47 功名 383 
48 一點 378 
49 無限 377 
50 今日 369 
51 天上 368 
52 楊柳 362 
53 西湖 356 
54 桃花 354 
55 扁舟 353 
56 消息 351 
57 憔悴 344 
58 何事 339 
59 芙蓉 338 
60 神仙 334 
61 一片 334 
62 桃李 333 
63 人生 332 
64 十分 331 
65 心事 329 
66 黃花 328 
67 一聲 325 
68 佳人 324 
69 長安 321 
70 東君 319 
71 斷腸 316 
72 而今 315 
73 鴛鴦 314 
74 為誰 313 
75 十年 310 
76 去年 309 
77 少年 308 
78 海棠 307 
79 寂寞 306 
80 無情 306 
81 不是 305 
82 時候 304 
83 腸斷 303 
84 富貴 303 
85 蓬萊 303 
86 昨夜 303 
87 行人 302 
88 今夜 301 
89 誰知 300 
90 不似 299 
91 江上 298 
92 悠悠 296 
93 幾度 295 
94 青山 295 
95 何時 294 
96 天氣 293 
97 惟有 293 
98 一曲 291 
99 月明 291 
100 往事 290

 

至於為什麽第一名是數字,他解釋:“排在第一的是無效字符,這跟數據源有關。”

 

這個結果一出來,一位網友就一語道破了“玄機”,“原來,最流行的宋詞就是‘東風何處在人間’啊!”

 

生日、手機號 隨意組合都很美(大家電話號碼試試?)

還有更絕的呢!署名為“達芬奇的雞蛋”的果殼網友不知怎麽地,就想到了拿大家都會背一點的圓周率進行創作,兩個數字一斷,對照高頻詞表,一首“華麗麗”的詞就出來了!還附上了說明,特別像模像樣。

 

玩法示例:

 

-------------------------

達芬奇的雞蛋 @ 果殼

 

清平樂·圓周率

 

回首明月(一看就是抒情詩)

14 15

 

悠悠心事空(果然,貌似失戀了)

92 65

 

西湖何事寂寞中(觸景生情)

35 89 79

 

風吹斜陽匆匆(回憶那天下午的豔遇)

32 38 46

 

芳草平生斜陽(平生見過最美的太陽和芳草,都是因為那裏有你的身影)

26 43 38

 

風吹寂寞今日(到現在就剩我自己)

32 79 50

 

一枝富貴年年(好花美麗年年開,好景宜人不常在)

28 84 19

 

斷腸長安不知(我的思念遠方的你可知道?)

71 69 39


如夢令·根號二 

深處時節千裏(過了許多年,男豬腳來到了很遙遠的地方)

41 42 13

 

消息當年鴛鴦(這。。找老相好去了?)

56 23 73

 

歸來今日(妹子,我胡漢三回來啦)

09 50

 

一點無情多少(你還知道來看我啊!)

48 80 16

 

今夜,今夜(要出問題了。。。)

88 88

 

而今時節歸來(仿佛重回當年,男豬腳依然那麽堅挺) 
72 42 09 


網友評論部分

 

-------------------

 

看完這首詩,網友們一邊膜拜,一邊自己的創作靈感也被打開了。

 

“丘寒”留言道:“試著用某個號碼創作了一首:天上相思,芳草年年,昨夜江南,回首一笑多情。”

 

“零Ronnie”很有創作激情:“我的生日:年年江上,江南春風;我的手機號:明月芳草去年,江南闌幹歸去……還真挺上口的!我也能做詩人了哈哈!”

 

理科生歡呼:消滅文科生的日子來了

 

可是這麽一來,文科生又不淡定了,一群文科生跳起來反擊。 

“雯名霞邇”大叫:“統統拖出去,斬了!這讓學中文的人情何以堪啊!”

 

“Rockfish”代表理科生還擊:“理科宅男們消滅文科生的日子到來了!拿起你的計算器,消滅文藝青年吧!”

 

“可可”童鞋呼喚:“就讓科技小清新來得更猛烈些吧!”

 

還有一群網友七嘴八舌討論著。 

“沌世界”淡定地說:“不知宋詞的粉絲看了是不是有一種偶像破滅的感覺。”

 

“家傑仕”童鞋也總結道:“文藝男女已經阻止不了技術宅作詩了!” 
網友“Rakin”點評:“理科生文藝得真凶猛!”

 

“焰心Spring”呼籲:“想文藝一回的同學請轉!”

 

“ChanIm”表示:“當時學寫詩的時候超鄙視這些,現在淡定了,因為沒那麽多愁善感了。”

 

“思念的秋天”感慨:“穿越必備!”

 

“NetCharm”說:“背熟了,隨便組合一下,寫出來的也不會太爛。”

 

“huahualipo”童鞋還提出了意見:“高人,能不能把平仄也加上……如果平仄太困難,至少考慮一下詞尾押韻如何?韻腳也就十來個,每個都分配一個數值,然後每隔一行,末尾的詞就隻從一個值下選。這樣會大大增加仿真度啊!”

 

再次神經短路,突然想看看宋詞裏麵什麽樣的意象是最常見的,比如可以做個頻率分析什麽的。當然文本挖掘需要分詞,我沒法在其中花太多時間,於是想出了一個土辦法。宋詞的句子都很短,如果窮舉可能的字的組合的話並不是太多,況且最常見的詞語一般是兩三個字,這樣可能的組合就更少了。比如“猶解嫁東風”這句話,可能的二字組合是“猶解”“解嫁”“嫁東”“東風”,三字組合是“猶解嫁”“解嫁東”“嫁東風”,詞的字數越多,可能的組合就越少。如果把每句話可能的字的組合都列舉出來,就可以整體統計頻率了。

 

當然裏麵會有很多無意義的字的組合,不過這類“詞語”本身的出現就是一個偶然,所以可以預期的是它們整體的頻數會很低,是入不了“大雅之堂”的。話不多說,直接上代碼和結果。

[ 打印 ]
閱讀 ()評論 (3)
評論
Norstar 回複 悄悄話 太好玩了。謝謝!
lilyzyl 回複 悄悄話 和劉慈欣的 詩雲 有異曲同工之妙
苦人不哭 回複 悄悄話 interesting, but the young generation are more into 網語了
登錄後才可評論.