基于bert实现文本多分类任务

Scarlett ·

更新时间:2024-11-15

· 549 次阅读

代码已上传至github https://github.com/danan0755/Bert_Classifier

数据来源cnews，可以通过百度云下载

链接：https://pan.baidu.com/s/1LzTidW_LrdYMokN---Nyag
提取码：zejw

数据格式如下：

bert中文预训练模型下载地址：

链接：https://pan.baidu.com/s/14JcQXIBSaWyY7bRWdJW7yg
提取码：mvtl

复制run_classifier.py，命名为run_cnews_cls.py。添加自定义的Processor


class MyProcessor(DataProcessor):
    def read_txt(self, data_dir, flag):
        with open(data_dir, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        random.seed(0)
        random.shuffle(lines)
        # 取少量数据做训练
        if flag == "train":
            lines = lines[0:5000]
        elif flag == "dev":
            lines = lines[0:500]
        elif flag == "test":
            lines = lines[0:100]
        return lines
    def get_train_examples(self, data_dir):
        """See base class."""
        return self._create_examples(
            self.read_txt(os.path.join(data_dir, "cnews.train.txt"), "train"), "train")
    def get_dev_examples(self, data_dir):
        """See base class."""
        return self._create_examples(
            self.read_txt(os.path.join(data_dir, "cnews.val.txt"), "dev"), "dev")
    def get_test_examples(self, data_dir):
        """See base class."""
        return self._create_examples(
            self.read_txt(os.path.join(data_dir, "cnews.test.txt"), "test"), "test")
    def get_labels(self):
        """See base class."""
        return ["体育", "娱乐", "家居", "房产", "教育", "时尚", "时政", "游戏", "科技", "财经"]
    def _create_examples(self, lines, set_type):
        """Creates examples for the training and dev sets."""
        examples = []
        for (i, line) in enumerate(lines):
            if i == 0:
                continue
            guid = "%s-%s" % (set_type, i)
            split_line = line.strip().split("\t")
            text_a = tokenization.convert_to_unicode(split_line[1])
            text_b = None
            if set_type == "test":
                label = "体育"
            else:
                label = tokenization.convert_to_unicode(split_line[0])
            examples.append(
                InputExample(guid=guid, text_a=text_a, text_b=text_b, label=label))
        return examples

main方法里添加自定义的Processor

def main(_):
    tf.logging.set_verbosity(tf.logging.INFO)
    processors = {
        "cola": ColaProcessor,
        "mnli": MnliProcessor,
        "mrpc": MrpcProcessor,
        "xnli": XnliProcessor,
        "cnews": MyProcessor
    }
训练运行命令
python run_cnews_cls.py --task_name=cnews --do_train=true --do_eval=true --do_predict=false --data_dir=cnews --vocab_file=pretrained_model/chinese_L-12_H-768_A-12/vocab.txt --bert_config_file=pretrained_model/chinese_L-12_H-768_A-12/bert_config.json --init_checkpoint=pretrained_model/chinese_L-12_H-768_A-12/bert_model.ckpt --max_seq_length=128 --output_dir=model
运行测试命令
python run_cnews_cls.py --task_name=cnews --do_train=false --do_eval=false --do_predict=true --data_dir=cnews --vocab_file=pretrained_model/chinese_L-12_H-768_A-12/vocab.txt --bert_config_file=pretrained_model/chinese_L-12_H-768_A-12/bert_config.json --init_checkpoint=pretrained_model/chinese_L-12_H-768_A-12/bert_model.ckpt --max_seq_length=128 --output_dir=result
结果

INFO:tensorflow:  eval_accuracy = 0.93386775

INFO:tensorflow:  eval_loss = 0.33081177

INFO:tensorflow:  global_step = 468

INFO:tensorflow:  loss = 0.3427003


作者：永胜永胜
                    
 
                

                            多分类任务
                            多分类
                            分类


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
    
    
        
            Asp.Net使用服务器控件Image/ImageButton显示本地图片的方法
        
        
            Mathilda
            2020-07-07
        
    
    
        845
    


    
        
    
    
        
            linux shell之控制台打印各种颜色字体和背景的实现方法
        
        
            Daphne
            2020-09-21
        
    
    
        717
    


    
        
            shell脚本实现监控某个进程意外停止后拉起进程
        
        
            Victoria
            2021-05-01
        
    
    
        508
    


    
        
    
    
        
            解析ROC曲线绘制(python+sklearn+多分类)
        
        
            Oria
            2022-11-25
        
    
    
        1885
    


    
        
    
    
        
            Pytorch自定义CNN网络实现猫狗分类详解过程
        
        
            Dulcea
            2022-12-09
        
    
    
        1115
    


    
        
            Tensorflow2.4从头训练Word Embedding实现文本分类
        
        
            Serafina
            2023-01-06
        
    
    
        1212
    


    
        
    
    
        
            微信小程序实现分类菜单激活状态随列表滚动而自动切换效果详解
        
        
            Rhea
            2023-01-19
        
    
    
        1621
    


    
        
            Python函数参数分类使用与新特性详细分析讲解
        
        
            Rose
            2023-01-23
        
    
    
        1055
    


    
        
    
    
        
            SVM算法的理解及其Python实现多分类和二分类问题
        
        
            Rose
            2023-02-02
        
    
    
        1748
    


    
        
            Python利用CNN实现对时序数据进行分类
        
        
            Kara
            2023-02-26
        
    
    
        1371
    


    
        
    
    
        
            一文详解CNN解决Flowers图像分类任务
        
        
            Gitana
            2023-03-11
        
    
    
        147
    


    
        
            基于Python编写一个简单的垃圾邮件分类器
        
        
            Kande
            2023-04-14
        
    
    
        781
    


    
        
    
    
        
            Python基于Tkinter实现的垃圾分类答题软件代码
        
        
            Tricia
            2023-04-14
        
    
    
        1018
    


    
        
    
    
        
            基于Pytorch实现分类器的示例详解
        
        
            Viveka
            2023-04-18
        
    
    
        1798
    


    
        
            Shell命令解释器分类示例详解
        
        
            Tricia
            2023-05-12
        
    
    
        1732
    


    
        
            一问弄懂Shell变量四大分类
        
        
            Iria
            2023-05-12
        
    
    
        849
    


    
        
            python脚本之如何按照清晰度对图片进行分类
        
        
            Laila
            2023-05-12
        
    
    
        1632
    


    
        
            使用Python、TensorFlow和Keras来进行垃圾分类的操作方法
        
        
            Laila
            2023-05-12
        
    
    
        349
    


    
        
            微信小程序实现商品分类页过程结束
        
        
            Antonia
            2023-05-16
        
    
    
        487
    


    
        
            自然语言处理NLPTextRNN实现情感分类
        
        
            Rhea
            2023-07-01
        
    
    
        777


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座