全唐诗|程序员眼中的《全唐诗》,竟然是这样的( 二 )


全唐诗|程序员眼中的《全唐诗》,竟然是这样的
本文图片

经过程序猿小哥哥的神秘运算 ,
以下是TOP200的共现双字词:
全唐诗|程序员眼中的《全唐诗》,竟然是这样的
本文图片

从上面的双词探测结果中 , 可以发现如下6类成词规律:
(1)复合式(A+B等于C):由两个字组成 , 这两个字分别代表意义 , 组成双音节的词 , 这类词出现的频次最多 。 比如 , 弟兄、砧杵、纪纲、捐躯、巡狩、犬吠 。
(2)重叠式(AA等于A): 琅琅、肃肃、忻忻、灼灼 。
(3)叠音(AA不等于A):琅琅(单独拆开不能组其他词)、的的(拆开后的单字的词义不同)等 。
(4)双声(声母相同): 踌躇(声母都是c , 分开各自无法组词)、参差(声母都是c)、缅邈(声母都是m) 。
(5)叠韵(韵母相同):噫嘻(韵母是i)、缭绕(韵母是ao)、妖娆(韵母是ao)等 。
(6)双音节拟声词:歔欷、咿哑等 。
《全唐诗》中最重要的字眼是什么?
全唐诗|程序员眼中的《全唐诗》,竟然是这样的
本文图片

选取高频字的TOP148抽取共现关系 , 可以看到 , 上述的语义网络可以分为3个簇群 , 即橙系、紫系和绿系 , TOP148高频字中 , 字体清晰可见字的近40个 。 圆圈的大小表示该字在语义网络中的影响力大小 , 在诗句中 , 这些字常以“字眼”的形式呈现 , 也就是诗文中精要的字 。
橙系:北、流、马、草、闲、孤、逢、云等;
紫系:游、树、雨、回、笑、言、幽、清、白、野、行等
绿系:知、金、柳、难、愁、旧、仙、望、客 。
其中 , 根据字的构成来看 , 绿系簇群中的字大多跟送别(好友)有关 。
唐诗中出现最多的感情:悲
全唐诗|程序员眼中的《全唐诗》,竟然是这样的
本文图片

分析全唐诗中所表达出来的内在境界 , 也就是内在情感 , 为了丰富分析维度 , 采用7种细颗粒的情绪分类 , 即悲、惧、乐、怒、思、喜、忧 。 根据上面获取到的字向量 , 经过人工遴选后 , 得到可以用于训练的“情绪字典” , 根据诗歌中常见的主题类别 , 七种情绪类别分为:
悲:愁、恸、痛、寡、哀、伤、嗟…
惧:谗、谤、患、罪、诈、惧、诬…
乐:悦、欣、乐、怡、洽、畅、愉…
怒:怒、雷、吼、霆、霹、猛、轰…
思:思、忆、怀、恨、吟、逢、期…
喜:喜、健、倩、贺、好、良、善…
忧:恤、忧、痾、虑、艰、遑、厄…
对《全唐诗》近5万首诗的情绪分析结果 , 展示如下:
全唐诗|程序员眼中的《全唐诗》,竟然是这样的
本文图片

出乎很多人的意料 , 代表大唐气象的唐诗应该以积极昂扬的情绪为主 , 可最后却是“悲”“思”“忧”这样的情绪占据主流 , 而 “喜”“乐”这样的情绪却占据末流!
“天地悠悠”是悲情的
“落木萧萧”是悲凉的
“黄沙百战”是悲壮的
“彩云易散”是悲伤的
悲 , 是唐诗的筋骨
《全唐诗》VS《全宋词》VS《全元曲》
全唐诗|程序员眼中的《全唐诗》,竟然是这样的
本文图片

从上面呈现的TOP10高频字和象限区块(左上角“唐诗”、右上角“宋词”和正下方“元曲”)来看 , 唐诗、宋词、元曲中出现的独有高频字依次是: