盘点一个英文文本中统计关键词的方法

Python进阶者
• 阅读 197

大家好,我是皮皮。

一、前言

前几天在Python最强王者交流群【Wendy Zheng】问了一个英文文本中统计关键词的问题,这里拿出来给大家分享下。

盘点一个英文文本中统计关键词的方法

二、实现过程

针对这个问题,本文给出一个思路方法,也许有帮助,首先我们需要将Excel中的文本进行导入到一个文本文件中去,代码如下:

# coding: utf-8
import pandas as pd
df = pd.read_excel('./文本.xlsx')
# print(df.head())
# df['专业关键词']
for text in df['工作要求']:
    # print(text)
    if text is not None:
        with open('工作要求.txt', mode='a', encoding='utf-8') as file:
            file.write(str(text))

print('写入完成')

接下来就可以针对这个文本文件进行相关的词频统计了,如果你有自己自定义的关键词,也可以就着关键词去统计,没有的话,就自己在关键词范围内,任意取多少个关键词都可以,相关的代码如下所示:

from collections import Counter
import pandas as pd
df = pd.read_excel('./文本.xlsx')
# print(df.head())

words = []

with open('工作要求.txt', 'r', encoding='utf-8') as f:
    line = f.readlines()
    for word in line[0].split(' '):
        words.append(word)

print(len(words))

counter = Counter(words)
# print(counter)

# df['专业关键词']
for text in df['专业关键词']:
    for k, v in counter.items():
        if k == text:
            print(k, v)

这个代码对于英文文本还是适用的,不过有个小问题,如下。

盘点一个英文文本中统计关键词的方法

最后这里也给出中文分词的代码和可视化代码,两者结合在一起的,感兴趣的小伙伴们可以试试看。

from collections import Counter # 统计词频
from pyecharts.charts import Bar
from pyecharts import options as opts
from snownlp import SnowNLP
import jieba   # 分词
with open('text_分词后_outputs.txt', 'r',encoding='utf-8') as f:
    read = f.read()
with open('stop_word.txt', 'r', encoding='utf-8') as f:
    stop_word = f.read()
word = jieba.cut(read)
words = []
for i in list(word):
    if i not in stop_word:
        words.append(i)

columns = []
data = []
for k, v in dict(Counter(words).most_common(10)).items():

    columns.append(k)
    data.append(v)
bar = (
        Bar()
        .add_xaxis(columns)
        .add_yaxis("词频", data)
        .set_global_opts(title_opts=opts.TitleOpts(title="词频top10"))
    )
bar.render("词频.html")

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个英文文本中统计关键词方法处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【Wendy Zheng】提问,感谢【Python进阶者】给出的思路和代码解析,感谢【Python狗】等人参与学习交流。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
1年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Python中的and和or,结果让人出乎意料之外
大家好,我是皮皮。一、前言前几天在Python最强王者交流群有个叫【Chloe】的粉丝问了一个Python基础的问题,关于and和or,这里拿出来给大家分享下,一起学习下。二、解决过程这里【杰】给出了解答,其实Python中,除括号外,and优先级较高,那么这里的话【瑜亮老师】也给出了解答,确实没有括号,表达式从左往右运算,and比or优先级高,先算an
Python进阶者 Python进阶者
10个月前
盘点一道Pandas中分组聚合groupby()函数用法的基础题
大家好,我是皮皮。一、前言前几天在Python最强王者交流群有个叫【Chloé】的粉丝问了一个关于Pandas中groupby函数的问题,这里拿出来给大家分享下,一起学习。这个粉丝在法国留学,所以提问是英文的,当然了英文看上去也不难,有点二级英文基础,也看得懂,实在不行,在线翻译一下也问题不大了。二、解决过程这里给出【dcpeng】大佬和【月神】的解答。
Python进阶者 Python进阶者
3个月前
open中的readline()如何逐行读取啊?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【༺ཉི།།与歌同行ཉྀ༻】问了一个Python文件读取的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_image
Python进阶者 Python进阶者
1个月前
如果想要删除四列中都有相同项的数据,有什么方便的方法吗?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【WendyZheng】问了一个重复值删除的问题,这里拿出来给大家分享下。二、实现过程针对这个问题,【郑煜哲·Xiaopang】给了一个思路,使用dropduplicates(subset)去重。
Python进阶者 Python进阶者
6个月前
盘点一道字典转换基础题目
大家好,我是皮皮。一、前言前几天在Python最强王者交流群有个叫【麦当】的粉丝问了一个Python基础问题,这里拿出来给大家分享下,一起学习下。二、解决过程这个问题挺基础的,看上去确实也不难。这里【瑜亮老师】直接给了一个代码d'a':1,'b':2reslist(tuple(d.items()))print(res)后来【月神】发现,其实
Python进阶者 Python进阶者
9个月前
编写一个闭包函数,要实现的功能是计数功能
大家好,我是皮皮。一、前言前几天在Python最强王者交流群有个叫【杰】的粉丝问了一个Python装饰器的问题,这里拿出来给大家分享下,一起学习下。二、解决过程这里【东哥】给出了解答,其实这个题目就是在考你装饰器的内容。代码如下:count0defwrapper(func):definner(args,kwargs):g
Python进阶者 Python进阶者
9个月前
Python面向对象中的类变量,实例变量怎么来理解?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群有个叫【Chloe】的粉丝问了一个类变量和实例变量的问题,这里拿出来给大家分享下,一起学习下。二、解决过程在PythonTutorial中对于类变量和实例变量是这样描述的:Generallyspeaking,instancevariablesarefordatauniquet
Python进阶者 Python进阶者
10个月前
盘点Python正则表达式中的贪婪模式和非贪婪模式
大家好,我是我是皮皮。一、前言前几天在Python最强王者交流群有个叫【杰】的粉丝问了一个关于Python正则表达式的问题,其中涉及到Python正则表达式中的贪婪模式和非贪婪模式,讨论十分火热,这里拿出来给大家分享下,一起学习。二、解决过程这里分享【小王】大佬的解答,一起来看看吧,下面是他给的一个示例代码。importretxt"Thisis
Python进阶者 Python进阶者
2个月前
盘点一个使用Python实现Excel数理统计的实战问题
大家好,我是皮皮。一、前言前几天在小小明大佬的Python交流群中遇到一个粉丝问了一个使用Python实现Excel数理统计的实战问题,觉得还挺有用的,这里拿出来跟大家一起分享下。!(https://uploadimages.ji