首页编程正文内容

利用ollama本地模型翻译英文词条制作英汉词典

编程

更新时间：2026-04-03 15:21:38 81

admin 管理员组

文章数量: 1184232

之前出于对英汉词典的需求，利用python代码实现了将mdict词典文件解析并保存为csv格式的文件，详见gitcode项目：GitCode - 全球开发者的开源社区,开源代码托管平台GitCode是面向全球开发者的开源社区,包括原创博客,开源代码托管,代码协作,项目管理等。与开发者社区互动,提升您的研发效率和质量。https://gitcode/ffffiii/mdict2csv/tree/main

后来需求增加：thesaurus词典包含24万词条，但只包含英文释义与同义词项，缺乏中文释义。于是，通过与其他词典的对接，成功地补充了数万条中文释义，剩20万词条须要补充中文释义。可是，该如何实现呢？

免费在线渠道似乎都无法很好地应对如此庞大的请求，于是我转向ollama部署的本地AI模型。为了追求效率，选择了gemma3:4b这样的小模型。

下面记录一下重要步骤与关键逻辑：

1）thes词典除了同义词与反义词，其实也可以当作一本英英词典（见下图），所以这次的目标就是将这些英文释义归纳转化为中文释义

2）提示词询问AI模型

import ollama

response = ollama.chat(
            model=model_name,
            messages=[
                {"role": "system",
                 "content": "你是一个专业的翻译助手，能充分理解英文原文，准确地归纳出中文释义，且将重复冗余的释义项高度凝练，返回结果中不包含英文，仅提供中文释义"},
                {"role": "user",
                 "content": f"请为以下英文归纳出对应的中文释义，要求返回的结果简明扼要，20字以内，不得出现英文原文加冒号再接中文释义的情况，不得出现‘以下是对应中文释义：’这样的引导语，不得出现*符号，不得出现韩文以及中文以外的任何语言，直接提供最终中文释义即可：\n{text}"}
            ],
            stream=False
        )

3) 核心逻辑就是遍历源词典数据，依次对每一行的特定列进行翻译（按上面的提示词询问AI并获取中文释义）

4）运行情况：

5）以下是详细代码：

# -*- coding: utf-8 -*-
import pandas as pd
import ollama
import time
import re
from tqdm import tqdm  # 进度条显示
import datetime

def remove_think_tags(text):
    """移除文本中的<think>和</think>标签及其内容"""
    # 使用正则表达式匹配并删除标签及其内容
    # <think>.*?</think> 匹配非贪婪模式的标签内容
    cleaned_text = re.sub(r'<think>.*?</think>', '', text, flags=re.DOTALL)
    return cleaned_text.strip()

def translate_text(text, model_name='llama2'):
    """使用Ollama库的chat方法翻译文本"""
    try:
        # 构建聊天消息
        response = ollama.chat(
            model=model_name,
            messages=[
                {"role": "system",
                 "content": "你是一个专业的翻译助手，能充分理解英文原文，准确地归纳出中文释义，且将重复冗余的释义项高度凝练，返回结果中不包含英文，仅提供中文释义"},
                {"role": "user",
                 "content": f"请为以下英文归纳出对应的中文释义，要求返回的结果简明扼要，20字以内，不得出现英文原文加冒号再接中文释义的情况，不得出现‘以下是对应中文释义：’这样的引导语，不得出现*符号，不得出现韩文以及中文以外的任何语言，直接提供最终中文释义即可：\n{text}"}
            ],
            stream=False
        )

        # 提取翻译结果
        translated_text = response['message']['content'].strip()

        # 移除可能的前缀
        if translated_text.startswith('中文：'):
            translated_text = translated_text[3:].strip()
        elif translated_text.startswith('翻译：'):
            translated_text = translated_text[3:].strip()
        # 移除思考标签
        translated_text = '~'+remove_think_tags(translated_text)

        return translated_text

    except Exception as e:
        print(f"翻译出错: {e}")
        return text

def translate_csv(input_file, output_file, model_name='llama2', item_column='item', definition_column='definition',max_rows=None):
    """读取CSV文件并使用Ollama模型翻译指定列，只翻译definition列为空的行"""
    # 读取CSV文件
    try:
        df = pd.read_csv(input_file,encoding='ansi')
    except:
        df = pd.read_csv(input_file,encoding='utf-8')

    # 检查指定列是否存在
    for col in [item_column, definition_column]:
        if col not in df.columns:
            print(f"错误: CSV文件中没有'{col}'列")
            return

    # 计算需要翻译的行数
    rows_to_translate = df[df[definition_column].isna() | (df[definition_column] == '') | (df[definition_column] == 'nan')].shape[0]
    print(f'max_rows:{max_rows}; rows_to_translate:{rows_to_translate}')

    # 应用最大行数限制
    if max_rows is not None and max_rows > 0:
        rows_to_translate = min(rows_to_translate, max_rows)
        print(f"设置了最大翻译行数限制: {max_rows}")

    print(f"总共有 {len(df)} 行数据，其中 {rows_to_translate} 行需要翻译")

    # 翻译每一行（只翻译definition列为空的行）
    translated_count = 0
    total_rows = df[df[definition_column].isna() | (df[definition_column] == '') | (df[definition_column] == 'nan')].shape[0]
    start_time = time.time()

    with tqdm(total=total_rows, desc="翻译进度") as pbar:
        for i, row in df.iterrows():
            item_text = str(row[item_column])
            meaning_text = str(row['meaning'])
            meaning_text = meaning_text.replace('|','; ')
            definition_text = str(row[definition_column])
            #print(f'item_text:{item_text}; meaning_text:{meaning_text}; definition_text:{definition_text}')

            # 只翻译definition列为空的行
            if pd.isna(definition_text) or definition_text.strip() == '' or definition_text.strip() == 'nan':
                if item_text.strip():  # 只翻译非空文本
                    translated_count += 1
                    start_translate_time = time.time()

                    translated_text = translate_text(meaning_text, model_name)
                    translated_text=translated_text.replace('\n', ' ')
                    print(f"\n已翻译第{translated_count}/{rows_to_translate} 行: {item_text}，翻译结果: {translated_text}")
                    df.at[i, definition_column] = translated_text

                    # 阶段性保存
                    if translated_count % 100 == 0:
                        print(f"阶段性保存：已保存到 {output_file}")
                        df.to_csv(output_file, index=False, encoding='utf-8-sig')

                    # 检查是否达到最大行数限制
                    if max_rows is not None and translated_count >= max_rows:
                        print(f"已达到最大翻译行数限制 ({max_rows})，停止翻译")
                        break

                    end_translate_time = time.time()
                    elapsed_time = end_translate_time - start_translate_time
                    pbar.set_postfix_str(f"耗时: {elapsed_time:.2f}s")
                    pbar.update(1)

    # 保存翻译后的CSV文件
    df.to_csv(output_file, index=False, encoding='utf-8-sig')
    print(f"翻译完成，已保存到 {output_file}")
    print(f"总共翻译了 {translated_count} 行数据")

    # 计算总耗时
    end_time = time.time()
    total_elapsed_time = end_time - start_time
    print(f"总共耗时: {total_elapsed_time:.2f} 秒")

if __name__ == "__main__":
    # 配置参数
    INPUT_FILE = 'data/dictionary1.csv'  # 输入CSV文件路径
    OUTPUT_FILE = 'data/dictionary1.csv'  # 输出CSV文件路径
    MODEL_NAME = 'gemma3:4b'#'qwen3:0.6b'  # Ollama模型名称
    ITEM_COLUMN = 'word'  # 英文内容列名
    DEFINITION_COLUMN = 'definition'  # 定义列名（翻译结果将放入此列）

    # 执行翻译
    translate_csv(INPUT_FILE, OUTPUT_FILE, MODEL_NAME, ITEM_COLUMN, DEFINITION_COLUMN,  max_rows=3000)

* 将INPUT_FILE和OUTPUT_FILE设为同一个文件路径，这样能保持对原文件进行增补。

本文标签：词条英文模型英汉词典 ollama

版权声明：本文标题：利用ollama本地模型翻译英文词条制作英汉词典内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1754783687a3038045.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

利用ollama本地模型翻译英文词条制作英汉词典

更多相关文章

大模型的全面回顾，看透大模型 | A Comprehensive Overview of Large Language Models

大模型“安全护城河”全景解读：从攻防博弈到未来展望

51c大模型~合集179

大模型LLM的Temperature

Apple Intelligence：苹果大模型部署方案

Dify设置访问ollama报错；An error occurred during credentials validation；解决方案。

复旦大学联合团队发布GeometryZero：让小尺寸AI模型也能像数学天才一样解决几何难题

ChatGPT及AI大模型学习笔记分享

无需繁琐配置！PyTorch-CUDA-v2.9镜像一键开启GPU模型训练

浏览器对象模型

从无到有：GLM-4.7-Flash 教程，助你快速掌握文本生成技巧

键盘控必备宝典：电脑操作中的小助手

参数量级激增：解密175B与1.8T参数下的GPT3.5与GPT4

从预热到沸腾：GPT模型在Zero-Shot Learning中的神奇演变

进阶指南：掌握GPT、GPT-2和GPT-3在Flash中的应用

GPT1与Flash中心的无缝融合，打造更流畅的应用生态

SWF、Flash中心之战：Hunyuan-MT-7B的秘密武器是什么？

一步到位，一元体验7B模型，无忧Adbe Flash Player使用教程

点燃AI新思维：深度学习实战中的火焰烟雾检测

火眼金睛：YOLOv11实战解析烟雾与火焰的智能检测

发表评论

推荐文章

从500错误到闪动画天堂：解决Flash难题指南

Win10系统广告无处不在？这里教你一招让今日热点、资讯窗口消失！

一键搞定：Windows自动关机命令快速指南

vcruntime140.dll找不到的正确处理方法，vcruntime140.dll是什么文件

电脑没有声音怎么办？5种方法恢复声音_电脑突然没声音了 如何恢复正常

热门文章

移动硬盘提示数据错误？学会这些，数据恢复不在话下！

Windows 11的开发秘密：编程语言揭秘

Mermaid教学视频：轻松掌握图表制作，成为设计高手

零代码压力，C#实现超快速关机

安装好pycharm后，双击pycharm，出现“无法找到入口”，怎么办？_pycharm无法找到入口

使用编程设置默认主页的IE浏览器_助力程序员编程提效,已经设置为浏览器默认打开页

2021年1月13日以后，如何用Flash Player打开swf文件_flash.swf文件

对autorun.inf病毒免疫的原理_autorun.inf免疫

电脑里突然少了WPCAP.dll、Packet.dll、pthreadVC.dll？快速解决，让系统焕然一新！

Java编程必备：ByteOutStream流帮你玩转文件压缩！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

电脑没有声音怎么办？5种方法恢复声音_电脑突然没声音了如何恢复正常