野生菌の部落格

代码的世界需要野生菌来发酵


  • 首页

  • 目录

  • 分类

  • 关于我

  • 搜索

情报库AI引擎 (四)分词处理

时间: 2022-08-01 分类: python   字数: 271 字 阅读: 1分钟 阅读次数:

通过pre-trained基于HanLP的中文分词模型,对我们原始数据集进一步分词处理,由于情报库中网站大部分为中文和英文,选用合适的联合模型处理,进一步优化数据集。

使用分词模型,提取了其中的中文词语,进一步根据词性,去除了其中的介词、连词、助词、虚词等.

针对中文:

import jieba
import pandas as pd
import jieba.posseg as pseg
import string


def is_chinese(string):
    """
    检查整个字符串是否包含中文
    :param string: 需要检查的字符串
    :return: bool
    """
    for ch in string:
        if u'\u4e00' <= ch <= u'\u9fff':
            return True
    return False

data = pd.read_csv('feature_ori_9_5.csv', delimiter='|', encoding='utf_8_sig', error_bad_lines=False)
for index in data.index:
    seg_list = pseg.cut(str(data['features_ori'][index]))
    # print(",".join(seg_list))
    add_list = []
    for m, flag in seg_list:
        if not is_chinese(m):
            continue
        elif flag == 'r' or flag == 'p' or flag == 'c' or flag == 'u' or flag == 'xc':
            continue
        else:
            add_list.append(m)
    if len(add_list) > 0:
        print(add_list)
        a = {'word': [str(add_list)]}
        df = pd.DataFrame(a)
        df.to_csv('fenci_featuresori_full_mode.csv', mode='a', index=False, header=False, encoding='utf_8_sig')
print("++++++++++++++++++fenci finished+++++++++++++++")

同理提取title中的词语。

#python#
情报库AI引擎 (三)数据清洗
  • 文章目录
  • 站点概览
野生菌

野生菌

Stay Wild & Stay Curious

32 日志
9 分类
21 标签
GitHub 知乎 Instagram Email
友情链接
  • Foxcii
  • Sulv's Blog
  • Dvel's Blog
  • TomtomYoung
  • Net Pipe's Blog
  • Ethan.Tzy
标签云
  • Basic 5
  • Golang 5
  • Python 5
  • Linux 3
  • Redis 3
  • Grpc 2
  • K8s 2
  • Blog 1
  • Cybersecurity 1
  • Gc 1
© 2010 - 2022 野生菌の部落格
Powered by - Hugo v0.100.1 / Theme by - NexT
/
0%